網易首頁 > 網易號 > 正文申請入駐

全球首個完全AI編寫的訓練框架來了，速度反超英偉達：面壁要用 AI 把國產算力軟件重寫一遍

2026-05-27 15:54:41　來源: AI前線

北京舉報

分享至

作者 | 褚杏娟

英偉達最難被替代的，從來不是一張 GPU，而是 CUDA 背后十幾年積累出來的軟件生態。

現在，面壁智能想用 AI 來壓縮這十幾年。

近日，面壁智能發布了全球首個全部由 AI 編寫、零人介入、面向大模型訓練基礎設施的生產級訓練框架 ForgeTrain。據面壁方面介紹，ForgeTrain 已經在華為昇騰系列上完成 MiniCPM5-1B 的訓練驗證，整體速度提升 10%。通過此框架， MiniCPM5-1B 的預訓練耗時為 3-5 天，MiniCPM4-0.5B 在英偉達 GPU 上預訓練用了兩天。

面壁通過此框架想要驗證：當大模型 coding 能力足夠強、成本趨近于零時，我們不一定要繼續做一個大而全的通用框架，而可以圍繞每個模型、每類芯片和每個訓練任務，現場“鍛造”一套更合適的實現。

AI 寫代碼，人來加 Harness

在英偉達的 VibeTensor（作者包括陳天奇、賈揚清等）證明了 AI Agent 能寫出復雜系統軟件后，ForgeTrain 則圍繞具體模型、芯片和訓練任務現場生成生產級訓練框架，目標更偏工程落地。

面壁團隊介紹了 ForgeTrain 的三階段構建方法論：

1. 從現有訓練框架采集關鍵數據形成評測標準和 Harness；

2. 從評測 Harness 構建二進制一致的訓練框架版本（目前已經完成多機多卡版本，比英偉達 Megatron 訓練速度快 10%）；

3. 解除二進制一致的限制，迭代優化到超越 Megatron 的性能。

按照其說法，ForgeTrain 通過搭建一套專用 Harness，讓 AI 在閉環環境中不斷滿足評測指標，并最終寫出了一套訓練框架。這個過程一旦啟動，人類不再參與代碼編寫和中間修改，而是僅在最后進行驗收。ForgeTrain 目前主要覆蓋框架和算子層面，算法調參尚未開始從零交給 AI。

在實際效果上，ForgeTrain 已經能訓練出與 Megatron 結果一致的模型。面壁稱，在 MiniCPM 模型上，ForgeTrain 訓練結果在人評和機評上與原有訓練框架保持一致，同時在核心速度和成本指標上優于英偉達 Megatron，提升 10%。

面壁智能 AI Infra 負責人李宇軒向 InfoQ 表示，在面壁團隊的實踐中，大部分工程約束是由模型自主處理的。少部分模型當前還做不到的部分，則會被融入 Harness 中，作為生成訓練框架時的先驗約束或評測規則。比如，在內存約束方面，AI 自己寫出的框架在人的合適引導下，顯存使用甚至低于 Megatron。未來，團隊會逐漸提高 Harness 層面中的 AI 參與比例。

面壁團隊在構建 Harness 時，會盡量加入更具第一性的工程方法論，讓盡可能多的失敗在代碼生成階段就被測出，并由 AI 自行修復，依次減少訓練失敗率。據介紹，從目前結果看，ForgeTrain 相對穩定，可以連續運行數天并完成模型訓練。

“我們已經拿 ForgeTrain 訓出來模型了，而且訓出來的模型和我們用 Megatron 訓出來的模型效果是一致的?！崩钣钴幈硎荆@直接就證明了 ForgeTrain 的生產級可靠性。

他進一步解釋稱，所謂生產級，并不是說 ForgeTrain 已經可以立刻覆蓋全球所有模型訓練場景，而是至少在 MiniCPM 上，它已經完成了從框架生成到實際訓練再到效果驗證的閉環。訓練出的模型在人評和機評上與原有模型一致，因此它在該場景中已經達到了生產級水平。

據悉，ForgeTrain 在內部 8B 模型的驗證也已經完成，接下來團隊會繼續推進 MoE 等更復雜模型，向更大、更復雜模型擴展，并可能在一兩個月內取得進展。

當寫代碼沒有成本

軟件就應“現場鍛造”

過去幾年，大模型進步主要依賴三件事：更多數據、更大算力和更高資本投入。但現在，高質量互聯網數據正在被快速消耗，GPU、數據中心、電力等基礎設施越來越緊張，繼續靠“堆資源”推動模型進化，成本越來越高，邊際收益也在下降。

在這種背景下，行業必須尋找新的效率來源，面壁則將目標對準了“AI 研發 AI ”。

AI 研發 AI 的價值就在于給定資源下的研發效率提升。人類工程師寫代碼、跑實驗、調框架、做數據管線，往往需要數天、數周甚至數月；而 AI 在部分任務上可以把效率提升 10 倍到 100 倍。如果 AI 能參與代碼生成、訓練框架開發、算子優化、數據生成、評測反饋、實驗迭代甚至模型架構探索，整個 AI 研發鏈條就會被大幅加速。

“AI 研發 AI 研究”并非處于概念階段，海外頭部模型公司已經逐漸實踐。

早在 2024 年 10 月，Anthropic 創始人 Dario Amodei 就將“自動化 AI 研究”視為 AGI 時間表中最強的加速器之一，當前 Claude 系列模型也實現了自我遞歸迭代；今年 3 月，Andrej Karpathy 提出并開源“自動研究員”項目，嘗試讓 AI 自主研究如何優化模型訓練。與 ForgeTrain 更偏訓練框架和基礎設施層不同，Karpathy 的項目主要聚焦算法層面。

如何讓 AI 真正接管 AI 研發？李宇軒認為，關鍵在于一個共識：可評測的問題最終會被 AI 解決，即只要一個問題能夠被高效評測，并且能夠為模型準備足夠專家數據，再通過強化學習將能力回流到模型，AI 就會逐漸把這個問題做得越來越好。

這一方法已經在博弈、數學、代碼等領域得到驗證，但 AI 研發本身并沒有天然存在的評測環境，AI 訓練框架、算法創新、數據管線等任務往往更復雜、更昂貴，也更難被包裝成一個穩定的評測系統。

這正是 Harness 的意義。Harness 本質上是把一個目標包裝成一整套系統：包括環境、上下文、工具、任務流程和評分標準。將 AI 放入這個系統后，它可以根據反饋不斷完成任務、修正錯誤并提升能力。

傳統任務之所以更容易被 AI 學會，是因為 Harness 天然存在。比如代碼任務有編譯器、單元測試和運行結果；數學任務有形式化驗證或標準答案；游戲任務有勝負機制。相比之下，“AI 制造 AI”沒有現成 Harness，而且運行成本很高，因此發展更慢。

面壁現在就是為“AI 制造 AI”建立“考場”。當 AI 研發任務能夠被包裝成可評測環境，AI 就可以在其中訓練、試錯和提升。ForgeTrain 正是在訓練基礎設施層面搭建這樣一個 Harness 的嘗試。

并且，基于這一思路，面壁提出了 Forge Engineering，即“鍛造工程”。此次發布的 ForgeTrain，正是 Forge Engineering 在大模型訓練基礎設施上的具體實踐。

李宇軒表示，過去軟件工程追求大型通用框架，是因為人類寫代碼、維護代碼的成本很高。一個訓練框架往往需要支持大量模型結構，包括普通稠密模型、MoE 模型、不同參數規模、不同并行策略等。為了降低開發和維護成本，行業不得不把復雜功能整合進一套大而全的通用系統中。

但在 AI 寫代碼能力快速提升后，代碼生產成本正在接近于零。如果寫代碼已經不再是主要負擔，那么就沒有必要把本不該強行通用的東西捏合在一起，而可以為每一種具體需求重新生成一份最適合它的代碼。

這就是 Forge Engineering 的核心：并非讓 AI 繼續寫越來越龐大的通用框架，而是讓 AI 像工匠一樣，為不同模型、不同芯片、不同訓練任務“現場鍛造”一套高度定制化的軟件系統。

ForgeTrain 能在核心效率指標上相比 Megatron 10% 的提升，李宇軒認為，這背后的關鍵原因，并不是它寫出了一個更龐大的通用框架，而是它可以針對某一種模型類型做深度定制優化。

Megatron 需要覆蓋更廣模型和場景，因此必須在通用性和性能之間做權衡；ForgeTrain 則可以為特定模型從零生成一套更貼合需求的框架，從而獲得更細粒度優化空間。

“到年底能把國產算力軟件全做一遍”

ForgeTrain 的另一個重要意義，在于它為國產算力軟件生態的趕超提供了一種新思路。

李宇軒表示，英偉達生態之所以好用，并不是某一個框架單點優秀，而是它長期積累了大量開發者和工程實踐。各種坑已經被開發者反復踩過，各種工具鏈和細節也在長期迭代中被打磨成熟。相比之下，國產算力生態起步較晚，同時英偉達還在投入，若仍依靠人類開發者一點點打磨生態，追趕難度很高。

業界也曾嘗試通過 TVM 等開源編譯框架實現“一次編寫，自動適配所有硬件”，但不同算法與不同芯片架構的組合優化方案近乎無窮，傳統規則搜索方式難以覆蓋；而為兼容所有硬件而構建的通用抽象層，不僅犧牲性能，還帶來巨大的維護工作量，最終解決問題的工具反而成了問題本身。

“AI 可能改變這一局面?！崩钣钴幷J為，人類開發者再多，也不如 AI 不知疲倦地打磨各個細節。真正讓國產軟件生態接近英偉達的方法，可能是讓 AI 成為大量開發者本身，持續優化訓練框架、推理框架、算子、數據管線、工具鏈和各類工程細節。

“ForgeTrain 是這一方向的第一步。面壁已經能夠在華為昇騰生態上生成新的訓練框架。未來，當用戶需要訓練一種新模型時，只要把模型需求告訴系統，系統就有可能直接生成對應框架。”李宇軒說道，用戶需要什么，生態就能給出什么，這才是一個好生態的理想狀態。

從客觀上說，這件事大家都可以做。但李宇軒表示，就像所有公司都可以做 coding 模型，但真正做到最好并形成優勢的公司仍然有限。

今年，面壁的目標，就是把模型訓練環節中不好用的軟件用 AI 重寫，并且重寫 AI 的軟件可以很快再幫其他家模型重寫一個框架。面壁表示，到年底能把頭部國產算力軟件全做一遍。

未來，面壁希望用同一套技術路線覆蓋訓練框架、推理框架、強化學習框架、數據管線和算法范式，并適配國產算力、英偉達以及其他端側芯片。

Harness 仍處蠻荒期

Forge 的前提是成本

值得注意的是，隨著 AI 接管更多研發環節，人類在研發流程中的位置也在變化。

”原來是大家都在講 Human in the Loop，但是今年大家至少已經開始轉型成 Human on the Loop。前者是說在整個環節里面， AI 已經在跑一些環節，但一些環節會有人看著；后者是說 AI 已經自主運轉了，人只盯著這個系統里面有沒有什么問題，有問題了再調整?！崩钣钴幷f道，面壁目前就在往 Human on the Loop 方向轉型。

而這種變化也會影響研發組織。李宇軒認為，從表面看，組織結構可能還沒有發生劇烈變化，但研發范式和人與人之間的協作關系事實上已經在改變。隨著 AI 在更多研發任務中成為主體，形式上的組織變化可能會在合適的時機自然發生。

近期，有消息稱 DeepSeek 等公司正在組建 Harness 相關團隊。

對于 Harness 團隊，李宇軒認為，不同公司可以選擇集中式團隊，也可以由多個團隊分散建設，關鍵要因地制宜。但無論組織形態如何，核心理念應當一致：讓 AI 盡可能獲得更多信息，嘗試讓它接手更多事情，并在這個過程中識別 AI 仍然做不好的部分，再進行針對性解決和快速迭代。

盡管 Harness 成為行業熱詞，但李宇軒也強調，當前行業對 Harness 的理解還沒有完全形成共識。

有些人認為 Harness 只是“新瓶裝舊酒”，因為軟件工程中早已有框架、工具鏈、執行環境、評測系統等概念。但這個詞之所以在當下變得重要，是因為模型能力進入了新的階段，模型外部的環境設計和工具組織開始成為能力突破的關鍵。

目前，OpenClaw、Claude Code、Hermes Agent 等都可能被稱為 Harness，但它們目標并不相同。有些 Harness 是在模型外部套一層殼，讓模型在各種任務上都表現得還不錯；有些 Harness 是為了讓最強模型變得更強；還有一些 Harness 的目標，是讓較弱模型對齊 Claude Code 或 Anthropic 模型的能力。

ForgeTrain 的 Harness 則是另一類。它不是通用 Harness，而是為“AI 制造 AI”中的訓練框架生成任務設計的專用 Harness，目標是讓模型在一個垂直領域里能力大幅增強，而不是讓模型在所有任務上都泛化表現。

Forge 工程則是在 Harness 工程之上的一種軟件生產范式。它的核心前提是：AI 寫代碼的成本會快速下降。當代碼生成變得足夠便宜、足夠快，軟件工程就不必繼續把所有需求都壓進一個大而全的通用系統，而可以為每個具體任務生成高度定制的軟件系統。

以訓練框架為例，傳統框架可能要同時支持千問、Llama、DeepSeek、MiniCPM、MoE 等大量模型。但在 Forge Engineering 中，如果千問和 Llama 足夠相似，可以共用一套框架；如果千問和 DeepSeek 差異很大，就可以從零寫兩套框架，讓各自都得到更好優化。

李宇軒用手機作比喻：今天的 iPhone 是非常優秀的通用產品，因為背后有一家大型公司長期優化。但如果未來生產效率足夠高，最理想的產品可能不是一臺通用手機，而是“喬布斯坐在你旁邊，用一天時間為你打造一臺完全滿足你需求的手機”。Forge Engineering 希望在軟件層面實現類似效果。

李宇軒認為，當前 Harness 行業整體仍處于蠻荒狀態。不同團隊的目標、方法、評測標準和技術路徑都可能不同。但它們的共同點在于：都試圖在模型之上建立一套“韁繩”，為模型提供穩定環境、工具、上下文和行動指引，讓模型能夠完成更復雜的任務。

聲明：本文為 AI 前線整理，不代表平臺觀點，未經許可禁止轉載。

會議推薦

企業級 Agent 落地，繞不開 4 個真實的工程問題。如何在 Agent 安全性和可用性之間找到平衡點？Agent 需要什么樣的記憶系統才能真正理解上下文？如何通過算法壓榨實現智力增量與成本控制的極致平衡？多 Agent 協作，如何做到可觀測、可治理、可控制？6 月 26-27 日，AICon 全球人工智能開發與應用大會·上海站國內頭部公司的 Agent 實踐，一次說透。

今日薦文

你也「在看」嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.