无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

用國(guó)產(chǎn)GPU訓(xùn)練AI給自己寫內(nèi)核,摩爾線程刷榜硬核基準(zhǔn)

0
分享至



編輯|澤南

國(guó)產(chǎn)算力生態(tài)的難題,從此有了 AI 解。

最近,在比「AI 生成 GPU 內(nèi)核」的硬核基準(zhǔn) KernelBench 上,摩爾線程的模型拿下了第一。



在 MooreEval 執(zhí)行式驗(yàn)證協(xié)議的加持下,摩爾線程的 MusaCoder-27B-RL 取得了領(lǐng)先業(yè)界的表現(xiàn),超越了 Claude Opus、GLM-5.1、Kimi K2.6 等一眾國(guó)內(nèi)外先進(jìn)大模型。

這次拿下成績(jī)的,是上周才正式發(fā)布并開源的 MusaCoder,這是一款面向 GPU 底層算子生成的專用大模型,能自動(dòng)把 PyTorch 代碼轉(zhuǎn)換為 CUDA 與 MUSA 內(nèi)核,為 AI 訓(xùn)練等任務(wù)提供加速,旨在降低開發(fā)者手寫底層 GPU 算子的門檻。



  • 論文:《MusaCoder: Native GPU Kernel Generation with Full-Stack Training on Moore Threads GPU》
  • 論文地址:http://arxiv.org/abs/2606.04847
  • 模型權(quán)重:https://huggingface.co/MooreThreads/MusaCoder-27B

值得關(guān)注的是,MusaCoder 是業(yè)內(nèi)首個(gè)基于國(guó)產(chǎn) GPU 算力底座完成全鏈路訓(xùn)練與驗(yàn)證的開源代碼大模型,其完整后訓(xùn)練流程均在基于 MTT S5000 的夸娥智算集群上完成。從 AI 模型到 GPU 硬件,全部國(guó)產(chǎn)化。

這是國(guó)產(chǎn) AI 算力領(lǐng)域的一次突破。

生成 GPU 內(nèi)核的競(jìng)賽

比的是真實(shí)性能提升

用 AI 來(lái)生成 GPU 內(nèi)核(Kernel),是當(dāng)前大語(yǔ)言模型(LLM)最硬核的挑戰(zhàn)之一。

KernelBench 由斯坦福大學(xué)和普林斯頓大學(xué)于 2025 年推出,它被設(shè)計(jì)為一個(gè)「真實(shí)世界的工程環(huán)境」,專門用來(lái)衡量大模型編寫高效 GPU 內(nèi)核代碼的能力。

簡(jiǎn)單來(lái)說,其核心任務(wù)是:

給定一個(gè) PyTorch 模型架構(gòu),讓大模型生成一個(gè)定制的、內(nèi)嵌 C/C++ 的 CUDA 內(nèi)核,以替換原有的 PyTorch 算子,目標(biāo)是實(shí)現(xiàn)程序加速。

與其他代碼生成任務(wù)不同的是,該基準(zhǔn)不僅關(guān)注內(nèi)核能否正確運(yùn)行,更看重其相對(duì)于基線能否帶來(lái)實(shí)際的性能提升

另一方面,讓 AI 自動(dòng)化編寫高效、底層的 GPU/CUDA 代碼又是當(dāng)前突破算力瓶頸的關(guān)鍵。讓 AI 掌握這項(xiàng)能力不僅能推動(dòng)生成代碼的研究,更會(huì)在實(shí)際應(yīng)用中為降低算力成本、提高能效提供直接可用的工具。

為了全面評(píng)估模型能力,KernelBench 包含了超過 250 個(gè) PyTorch 機(jī)器學(xué)習(xí)任務(wù),并按復(fù)雜度和粒度分為 4 個(gè)遞進(jìn)難度級(jí)別,從 Level 1 的核心基礎(chǔ)算子如卷積、矩陣乘法、歸一化等,到 Level 4,Hugging Face 上的生產(chǎn)級(jí)模型優(yōu)化任務(wù)。

在這之上還有級(jí)化的評(píng)估流程,基于一個(gè)三階段的嚴(yán)格驗(yàn)證流水線,以確保結(jié)果的可靠性。另外,KernelBench 還要求其加速比超過用戶可設(shè)定的閾值:AI 生成的代碼光「正確」還不夠,必須真正有提供加速效果的價(jià)值。

因此,KernelBench 被視為一個(gè)非常嚴(yán)苛的基準(zhǔn)。剛剛推出時(shí),DeepSeek R1 在所有任務(wù)上的通過率也只有 30%,注意這只是「能用」的比例,還不是 AI 生成的代碼能帶來(lái)性能提升的比例。MusaCoder 現(xiàn)在已經(jīng)做到了通過率 88.6%,超越的個(gè)個(gè)都是以寫代碼能力著稱的大模型。

在論文中,研究人員報(bào)告了 MusaCoder 在 Level 1 到 Level 3 能力的各項(xiàng)指標(biāo):



可見大多數(shù)知名通用大模型在 GPU 內(nèi)核生成任務(wù)上的能力并不盡如人意,而 MusaCoder 不僅可以做到生成的代碼能用,部分代碼已可以做到「好用」:性能比基準(zhǔn)線高至少 1.1 倍。

那么,摩爾線程是如何用一款「小模型」做到的?

MusaCoder 的秘訣

讓 AI 自我改進(jìn)

在 KernelBench 上,MusaCoder 超越的模型參數(shù)量都在大幾千億到萬(wàn)億級(jí)別,自己卻只有 270 億。能實(shí)現(xiàn)「以小博大」,其背后的方法創(chuàng)新是核心。

與通用的代碼生成任務(wù)不同,GPU 核心的生成對(duì)并行計(jì)算、線程組織、內(nèi)存訪問、索引映射和硬件執(zhí)行等特性要求很高,生成的代碼不僅要語(yǔ)法對(duì),還要能通過編譯,不投機(jī)取巧,在真實(shí)執(zhí)行中獲得性能收益。

為此,KernelBench 構(gòu)建了一套專門針對(duì) GPU 原生內(nèi)核生成任務(wù)的「全棧訓(xùn)練」方案,其中最關(guān)鍵的一環(huán)是MooreEval 執(zhí)行式驗(yàn)證協(xié)議



MooreEval 的架構(gòu):這是一個(gè)基于執(zhí)行的可擴(kuò)展評(píng)估環(huán)境,用于對(duì)生成的原生 GPU 內(nèi)核函數(shù)進(jìn)行編譯、驗(yàn)證、性能分析及獎(jiǎng)勵(lì)。

簡(jiǎn)單來(lái)說,MooreEval 是研究人員為 GPU 內(nèi)核生成任務(wù)設(shè)計(jì)的一套自動(dòng)化、分布式、結(jié)構(gòu)化的「考試評(píng)判系統(tǒng)」。它不像傳統(tǒng)方法只檢查代碼文本相似度或進(jìn)行簡(jiǎn)單的靜態(tài)分析,而是通過真實(shí)地編譯、運(yùn)行和評(píng)測(cè)模型生成的代碼,提供結(jié)構(gòu)化的反饋和獎(jiǎng)勵(lì)信號(hào),用于指導(dǎo)大模型的訓(xùn)練和評(píng)估。

對(duì)于模型生成的每個(gè)候選內(nèi)核代碼,MooreEval 都會(huì)執(zhí)行一個(gè)分階段的驗(yàn)證管道,包括接口和編譯檢查、正確性驗(yàn)證、反作弊檢測(cè)、以及性能測(cè)試。只有當(dāng)上一階段通過后,候選的方法才會(huì)進(jìn)入下一階段。

經(jīng)過流程審核的代碼會(huì)根據(jù)一個(gè)層次化的獎(jiǎng)勵(lì)函數(shù)計(jì)算分?jǐn)?shù),除了用于判斷最終實(shí)力的分?jǐn)?shù),還會(huì)輸出豐富的結(jié)構(gòu)化信息,它們會(huì)自動(dòng)轉(zhuǎn)化為可供模型理解的自然語(yǔ)言診斷,用于模型的進(jìn)一步訓(xùn)練。

為了能在強(qiáng)化學(xué)習(xí)訓(xùn)練中高效處理大批量代碼編譯和執(zhí)行,MooreEval 被設(shè)計(jì)成一個(gè)分布式異步流水線系統(tǒng),它將編譯與執(zhí)行進(jìn)行了解耦,CPU 密集型的編譯工作和 GPU 密集型的執(zhí)行工作被分配給不同類型的執(zhí)行器(Worker),彼此獨(dú)立伸縮,避免了 GPU 在等待編譯時(shí)的空閑。

在 GPU 內(nèi)核生成這件事上,MooreEval 就像是一個(gè)自動(dòng)打分的考官,它通過真實(shí)地編譯、運(yùn)行、反作弊檢測(cè)和性能測(cè)試,實(shí)現(xiàn)了高效率和大規(guī)模的驗(yàn)證,并為模型提供了精準(zhǔn)的學(xué)習(xí)信號(hào),是驅(qū)動(dòng) MusaCoder 實(shí)現(xiàn)高性能的關(guān)鍵引擎。

讓 AI 能 Know How

全棧后訓(xùn)練體系

MooreEval 只是 MusaCoder 模型特性的一小部分。

MusaCoder 的訓(xùn)練流程,包含利用多種原始數(shù)據(jù)源構(gòu)建面向 Kernel 的語(yǔ)料庫(kù)、數(shù)據(jù)增強(qiáng)、SFT 與 RFT、兩階段強(qiáng)化學(xué)習(xí)流程的優(yōu)化,以及 PrimeEcho、MirrorPop 和 Buffered Dynamic Retry 三種穩(wěn)定技術(shù)。



為了讓 AI 模型能夠真正學(xué)會(huì)寫 GPU 內(nèi)核,MusaCoder 構(gòu)建了一套面向 GPU 原生算子生成的全棧后訓(xùn)練體系。

在數(shù)據(jù)構(gòu)建階段,MusaCoder 通過一個(gè)三階段漸進(jìn)式的數(shù)據(jù)合成管道,系統(tǒng)地培養(yǎng)了模型理解 GPU 編程所需的「思維模式」:

  • 第一階段是通過 GitHub 真實(shí)代碼、NNSmith 自動(dòng)生成圖等多種來(lái)源,構(gòu)建一個(gè)龐大的 PyTorch-CUDA/MUSA 任務(wù)集,并注入 GPU 編程基礎(chǔ)知識(shí);
  • 第二階段是結(jié)構(gòu)化推理和顯式的 Shape 信息注入,其增強(qiáng)了模型對(duì)張量形狀、內(nèi)存布局和索引關(guān)系的理解,讓模型不僅知道要做什么,還要理解「怎么做」;
  • 第三階段是多輪的交互與環(huán)境反饋解析,通過接收編譯錯(cuò)誤、運(yùn)行時(shí)報(bào)錯(cuò)、性能瓶頸等反饋,讓模型據(jù)此進(jìn)行針對(duì)性的修復(fù)和優(yōu)化,為后續(xù)的強(qiáng)化學(xué)習(xí)模擬多輪修復(fù)場(chǎng)景,緩解獎(jiǎng)勵(lì)稀疏的問題。



SFT 數(shù)據(jù)構(gòu)建流水線的三階段演進(jìn)。

為提升強(qiáng)化學(xué)習(xí)的穩(wěn)定性,MusaCoder 又引入了 PrimeEcho、Buffered Dynamic Retry,以及 MirrorPop 三個(gè)機(jī)制。

為了防止模型獎(jiǎng)勵(lì)作弊,為了「及格」而過度依賴多輪反饋,研究團(tuán)隊(duì)設(shè)計(jì)了基于首輪交互錨定的多輪獎(jiǎng)勵(lì)機(jī)制 PrimeEcho。這是一個(gè)全新的軌跡級(jí)獎(jiǎng)勵(lì)公式,將首輪生成質(zhì)量和整個(gè)過程中的最好表現(xiàn)按權(quán)重結(jié)合,確保了模型優(yōu)化的主要目標(biāo)始終是提升首輪生成質(zhì)量,多輪修復(fù)只是輔助。

緩沖動(dòng)態(tài)重試(Buffered Dynamic Retry,BDR)用于從完全失敗的困難樣本中恢復(fù)信號(hào),目標(biāo)是解決 GPU 內(nèi)核生成這種高難度任務(wù)中正樣本稀少的挑戰(zhàn)。一旦某輪任務(wù)徹底失敗,BDR 會(huì)將任務(wù)描述、失敗的代碼和報(bào)錯(cuò)信息打包成一個(gè)新任務(wù),放入一個(gè)「動(dòng)態(tài)緩存池」。模型會(huì)以較低概率從中學(xué)習(xí)如何修復(fù)自己的錯(cuò)誤,從而挽救原本無(wú)學(xué)習(xí)價(jià)值的失敗樣本。

MirrorPop則用于解決強(qiáng)化學(xué)習(xí)過程中模型訓(xùn)練不穩(wěn)定的問題。它通過一個(gè)更精準(zhǔn)的過濾器,能夠精準(zhǔn)剔除高風(fēng)險(xiǎn)樣本。

根據(jù)實(shí)驗(yàn)數(shù)據(jù),這三項(xiàng)機(jī)制在提升模型最終性能上都獲得了明顯的性能提升效果。

國(guó)產(chǎn) AI 算力技術(shù)棧

全流程跑通

當(dāng)然,MusaCoder 的意義也不止于模型本身。

AI 模型的構(gòu)建,是一個(gè)硬件與軟件棧的復(fù)雜磨合過程,對(duì)編譯棧的兼容性、運(yùn)行時(shí)穩(wěn)定性、調(diào)度系統(tǒng)的低延遲、評(píng)測(cè)基礎(chǔ)設(shè)施的魯棒性都提出了嚴(yán)苛的要求。

從監(jiān)督微調(diào)到強(qiáng)化學(xué)習(xí),MusaCoder 的整個(gè)訓(xùn)練流程全部運(yùn)行在摩爾線程自己的「夸娥」智算集群上。能完整跑通這一套全流程,證明了國(guó)產(chǎn) GPU 集群已經(jīng)具備支撐此類復(fù)雜、動(dòng)態(tài)、交互式訓(xùn)練任務(wù)的能力。

這在一定程度上打破了我們對(duì)于國(guó)產(chǎn) AI 算力「只能跑推理」的刻板印象。能夠穩(wěn)定承載代碼大模型的后訓(xùn)練全周期算力需求,意味著在 AI 基礎(chǔ)設(shè)施的關(guān)鍵環(huán)節(jié)上,國(guó)產(chǎn)硬件已經(jīng)從可用走到了好用的階段。MusaCoder 的成功實(shí)踐或許會(huì)成為可復(fù)用的工程范式,為未來(lái)更多復(fù)雜的 AI 研發(fā)提供參考價(jià)值和遷移路徑。

在大模型時(shí)代,「自主可控」不僅關(guān)乎芯片制造,更包括上層的軟件棧、訓(xùn)練平臺(tái)、評(píng)測(cè)體系和開源模型生態(tài)。MusaCoder 證明了在這些層面,國(guó)產(chǎn)力量已經(jīng)能夠形成閉環(huán)。

而對(duì)于廣大開發(fā)者來(lái)說,一個(gè)能直接從 PyTorch 自動(dòng)生成高性能 MUSA 內(nèi)核的基礎(chǔ)模型,更是開啟了 AI 驅(qū)動(dòng)開發(fā)的新路。

或許過不了多久,應(yīng)用國(guó)產(chǎn)算力的底層加速能力,會(huì)變得像用 AI 寫代碼一樣簡(jiǎn)單。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
日本再度挑釁,強(qiáng)登釣魚島盤查中國(guó)船,中方的回應(yīng),全世界都懂了

日本再度挑釁,強(qiáng)登釣魚島盤查中國(guó)船,中方的回應(yīng),全世界都懂了

探索新高度
2026-06-14 12:26:55
廣東一女子手臂上長(zhǎng)鵪鶉蛋大小腫包,醫(yī)生切開皮膚取出兩條10厘米長(zhǎng)活蟲,提醒:做飯時(shí)這個(gè)習(xí)慣要不得

廣東一女子手臂上長(zhǎng)鵪鶉蛋大小腫包,醫(yī)生切開皮膚取出兩條10厘米長(zhǎng)活蟲,提醒:做飯時(shí)這個(gè)習(xí)慣要不得

環(huán)球網(wǎng)資訊
2026-06-14 07:41:06
知名大學(xué)研究生院副院長(zhǎng)病逝,享年55歲

知名大學(xué)研究生院副院長(zhǎng)病逝,享年55歲

雙一流高校
2026-06-15 00:34:52
“摸奶子”再惹爭(zhēng)議,OPPO的流量反噬開始了

“摸奶子”再惹爭(zhēng)議,OPPO的流量反噬開始了

品牌頭版
2026-05-13 10:18:15
核工部退休高工老太太一段采訪火了:來(lái)生我絕不把孩子培養(yǎng)優(yōu)秀!

核工部退休高工老太太一段采訪火了:來(lái)生我絕不把孩子培養(yǎng)優(yōu)秀!

犀利強(qiáng)哥
2026-06-11 06:59:33
1962年,當(dāng)36歲夢(mèng)露當(dāng)眾褪衣亮相那一刻,生命就已經(jīng)進(jìn)入了倒計(jì)時(shí)

1962年,當(dāng)36歲夢(mèng)露當(dāng)眾褪衣亮相那一刻,生命就已經(jīng)進(jìn)入了倒計(jì)時(shí)

毒舌小紅帽
2026-06-10 18:33:58
馬斯克變身包租公:向全世界展示了,數(shù)據(jù)中心到底有多么暴利

馬斯克變身包租公:向全世界展示了,數(shù)據(jù)中心到底有多么暴利

民間胡扯老哥
2026-06-09 05:44:14
金融男的三件套,變了

金融男的三件套,變了

叫我娛樂菌
2026-03-30 19:35:53
魔都天氣現(xiàn)場(chǎng):“隔壁”已入梅上海網(wǎng)友瑟瑟發(fā)抖,官方回應(yīng):還沒入梅!本周四起降水增多,周五前后有雷雨

魔都天氣現(xiàn)場(chǎng):“隔壁”已入梅上海網(wǎng)友瑟瑟發(fā)抖,官方回應(yīng):還沒入梅!本周四起降水增多,周五前后有雷雨

新聞晨報(bào)隨申Hi
2026-06-15 18:16:28
無(wú)解的陽(yáng)謀!菲律賓傻眼了,美國(guó)做夢(mèng)都沒想到中國(guó)在黃巖島這招

無(wú)解的陽(yáng)謀!菲律賓傻眼了,美國(guó)做夢(mèng)都沒想到中國(guó)在黃巖島這招

銘記歷史呀
2026-06-15 19:26:52
遇見小面被曝“維權(quán)成癮”!網(wǎng)友憤怒,評(píng)論區(qū)驚現(xiàn)神評(píng)論

遇見小面被曝“維權(quán)成癮”!網(wǎng)友憤怒,評(píng)論區(qū)驚現(xiàn)神評(píng)論

魔都姐姐雜談
2026-06-14 16:43:19
MacBook需要多久重啟一次?用戶們說:別學(xué)Windows每周重啟,但這3個(gè)時(shí)刻必須做

MacBook需要多久重啟一次?用戶們說:別學(xué)Windows每周重啟,但這3個(gè)時(shí)刻必須做

野生運(yùn)營(yíng)
2026-06-15 03:10:00
主持人:B費(fèi)應(yīng)該罷賽、逼宮,要求主教練棄用C羅!

主持人:B費(fèi)應(yīng)該罷賽、逼宮,要求主教練棄用C羅!

歷史第一人梅西
2026-06-14 21:42:10
泰國(guó)長(zhǎng)公主離世,死因曝光:撐了1286天,終是敗給了“基因彩票”

泰國(guó)長(zhǎng)公主離世,死因曝光:撐了1286天,終是敗給了“基因彩票”

妙知
2026-06-15 11:27:05
姆巴佩:22年世界杯決賽后沒哭不是忍住了,而是當(dāng)時(shí)被打懵了

姆巴佩:22年世界杯決賽后沒哭不是忍住了,而是當(dāng)時(shí)被打懵了

懂球帝
2026-06-15 02:28:11
廣東,將有特大暴雨

廣東,將有特大暴雨

第一財(cái)經(jīng)資訊
2026-06-15 16:39:23
攤牌了!榜眼不滿馬刺!總決賽史上第2強(qiáng)新秀

攤牌了!榜眼不滿馬刺!總決賽史上第2強(qiáng)新秀

籃球?qū)崙?zhàn)寶典
2026-06-15 18:48:09
全球首發(fā),胰島素注射一周一次!中國(guó)2型糖友將率先受益

全球首發(fā),胰島素注射一周一次!中國(guó)2型糖友將率先受益

南方都市報(bào)
2026-06-15 17:02:54
英法德意四國(guó)稱將解除對(duì)伊朗制裁

英法德意四國(guó)稱將解除對(duì)伊朗制裁

財(cái)聯(lián)社
2026-06-15 07:56:04
郝金玉已任中國(guó)華能董事、黨組副書記

郝金玉已任中國(guó)華能董事、黨組副書記

澎湃新聞
2026-06-15 17:34:26
2026-06-15 22:20:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13267文章數(shù) 142670關(guān)注度
往期回顧 全部

科技要聞

白宮一個(gè)電話,最強(qiáng)Claude上線三天就沒了

頭條要聞

女生當(dāng)模特被折騰3個(gè)半小時(shí) 遭老板嫌棄顏值取消合作

頭條要聞

女生當(dāng)模特被折騰3個(gè)半小時(shí) 遭老板嫌棄顏值取消合作

體育要聞

世界杯開賽4天,亞足聯(lián)依然保持不敗!

娛樂要聞

黃大煒猝逝過程太離奇,母親追查真相

財(cái)經(jīng)要聞

活鼠、活蛆、農(nóng)殘超標(biāo) 山姆回應(yīng)被約談

汽車要聞

網(wǎng)易X智己 夏日尊享內(nèi)購(gòu)會(huì),熱力收官

態(tài)度原創(chuàng)

房產(chǎn)
教育
數(shù)碼
公開課
軍事航空

房產(chǎn)要聞

最低13100元/㎡!三亞新一輪安居房房源,開始登記!

教育要聞

院士導(dǎo)師坐鎮(zhèn)!海淀這所特色科技高中,藏著科學(xué)院頂配資源

數(shù)碼要聞

關(guān)海濤首曝全球首個(gè)張雪機(jī)車聯(lián)名手表,基于榮耀手表6 Plus定制

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美伊協(xié)議已完成 開放霍爾木茲海峽

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版