編輯|Panda
前些天,Anthropic 發布了一篇題為「When AI Builds Itself」(當 AI 構建自身)的文章,迅速引發廣泛討論。文章揭示了一組令人側目的內部數據:截至 2026 年 5 月,Anthropic 代碼庫中超過 80%的代碼已由 Claude 撰寫,工程師每日合并的代碼量是 2024 年的 8 倍;在一項內部測試中,Claude 將一段訓練代碼的運行速度從基準提升了約 52 倍,而一名有經驗的人類研究員通常需要 4 到 8 小時才能達到 4 倍加速。
Anthropic 將這條軌跡指向一個更深的目的地:「遞歸自我改進」——AI 系統自主設計、構建和訓練自身后繼版本,人類不再驅動每一步。值得關注的是,該公司還呼吁行業協調,在遞歸自我改進時刻到來時擁有暫緩乃至臨時叫停前沿 AI 開發的選項。并且 Anthropic 已經在這么做了:限制最新的 Claude Fable 5 被用于研發前沿 AI。
而現在,Recursive Superintelligence 宣布向自動化 AI 研究走出了第一步
這家由田淵棟聯合創立的新公司剛剛結束隱身狀態僅一個月,如今就發布了第一項公開技術成果。他們打造了一個開放式的自動化知識發現系統,并在三個基準測試上取得了 SOTA 結果。簡單來說,他們成功做到了讓 AI 替你跑實驗。
![]()
https://x.com/tydsh/status/2065062838255649082
第一步成果:讓 AI 替你跑實驗
Recursive 這第一項公開技術成果名為「First Steps Toward Automated AI Research」(邁向自動化 AI 研究的第一步)
![]()
- 推文:https://x.com/Recursive_SI/status/2064980090702962699
- 倉庫地址:https://github.com/recursive-org/first-steps-toward-automated-ai-research
- 博客地址:https://www.recursive.com/articles/first-steps-toward-automated-ai-research
如果用一句話概括,這項工作的核心是:構建了一套能自主推進 AI 研究循環的系統,并在三個基準測試上刷新了最好成績。
在正式拆解成果之前,有必要先理解這套系統的設計邏輯。
傳統的 AI 研究流程是一個高度依賴人的「提想法—寫代碼—跑實驗—分析結果—再提想法」的閉環。它的效率瓶頸不在算力,而在人。全世界能設計前沿訓練流程的研究員屈指可數,而每一輪實驗迭代都需要他們高度介入。
Recursive 的系統試圖把這個閉環自動化。
它的工作方式是:針對一個明確的優化目標,系統自動提出實驗想法、實現代碼、運行驗證、從中學習,然后決定下一步怎么搜索。多條研究線路可以并行推進,有效的發現可以被跨任務復用,獎勵作弊(reward hacking)的檢測機制也被內嵌進整個循環,防止系統「走捷徑」把測評指標刷上去卻沒有真正改進任何東西。
這并非一個針對單一問題微調的專用工具,乃是一套跨領域的通用研究自動化框架。 Recursive 用三個差異顯著的測試場景來證明這一點。
三個戰場,三個新紀錄
![]()
場景一:固定計算預算下的小模型訓練(NanoChat Autoresearch)
這項基準測試的規則來自 Andrej Karpathy(GPT-2 作者、前 OpenAI 聯創)發起的 autoresearch 項目:在一塊 GPU 上,給定五分鐘的固定訓練預算,盡可能把一個小型語言模型訓到最低的驗證損失(以 BPB 衡量,越低越好)。
這個場景天然適合自動化研究:實驗周期短、指標方差低、作弊行為相對容易檢測。正因如此,一個名為「autoresearch@home」的社區項目已經在這個基準上運行了很長時間——數十名人類研究員加上數百個 AI 智能體協作,持續把指標往下壓。
Recursive 的系統以相同的初始代碼出發,最終把驗證 BPB 從社區最佳的 0.9372 推進到了 0.9109,改善了 0.0263 個 BPB。換算成另一種說法:同樣的訓練質量,Recursive 的方案只需要對手 1.3 倍少的訓練時間就能達到。
![]()
![]()
![]()
系統發現的改進并非一招制勝。它組合了架構調整、輔助損失、注意力機制改動、優化器行為、權重衰減調度、編譯器設置等多處變化。其中最關鍵的一個發現,是一種更豐富的短上下文記憶機制:在注意力的 value 路徑中,通過哈希表同時嵌入 bigram(相鄰詞對)和 trigram(三元組)信息,并用可學習的門控加權混合。不同的 Transformer 層使用不同的哈希函數,從而降低跨層重復碰撞的概率。
這個技巧在概念上與 DeepSeek Engram 等工作有所關聯,但系統將其以一種尚未見于公開文獻的特定變體形式部署到了固定預算場景中。
場景二:訓練速度極限競速(NanoGPT Speedrun)
如果說前一個場景是在一個活躍社區的成果上「再進一步」,這個場景則難得多。
NanoGPT Speedrun 是另一個由 Karpathy 發起、社區持續優化兩年以上的基準:在 8 塊 H100 GPU 上,把一個 GPT 模型訓練到驗證損失 3.28 所需的最短時間。自 2024 年中以來,社區已通過 83 次有記錄的貢獻把時間從約 45 分鐘壓縮到了 79.7 秒。每一個新方案都需要在極度優化的代碼基礎上再擠出時間,難度可想而知。
Recursive 的系統從現有最優解出發,再次把訓練時間壓縮到了 77.5 秒,節省了 2.2 秒。這與近期人類貢獻者能做到的改進幅度相當甚至更好。
![]()
系統這次找到的核心技巧包括:
- FP8 精度的注意力計算。社區方案只在模型的最后一層(語言模型頭)使用 FP8(8 位浮點)計算,而系統將 FP8 延伸進了注意力層的矩陣運算,前向傳播用 FP8 以獲得兩倍的 Tensor Core 吞吐量,反向傳播保留 BF16 以維持穩定性。
- 優化器中的退火探索噪聲。系統在 NorMuon 優化器的更新步驟中注入了零均值高斯噪聲,噪聲幅度隨訓練進度線性退火至零。這有點像給優化器一個「先大膽探索、再穩健收斂」的行為模式,幫助最終解落在一個更平坦的損失盆地中。
- 更精簡的融合 MLP 內核。 系統重寫了一個 Triton GPU 內核,讓前向傳播只存儲 ReLU 平方后的激活值,反向傳播時在內核內部重算未平方的中間結果,省去了一次完整的激活張量在高帶寬顯存中的讀寫往返——這是硬件層面的直接提速。
三個改進,分屬精度策略、優化器設計、GPU 內核編程三個不同的專業領域。系統在兩年社區優化的結果上又找到了空間,本身就說明了問題。
場景三:GPU 內核優化(SOL-ExecBench)
前兩個場景都在模型訓練層面上工作,第三個場景則深入到更底層:GPU 計算內核的優化
SOL-ExecBench 是英偉達推出的基準測試,包含 235 個內核編寫任務,覆蓋矩陣乘法、歸約、歸一化層、注意力組件、量化例程、融合塊等多類真實工作負載。評分標準是 SOL 分數:0.5 對應基準 PyTorch 實現,1.0 對應硬件理論極限。此前的最佳公開成績是 0.699。
![]()
![]()
Recursive 的系統在 235 個內核上整體運行,允許跨任務復用發現的優化模式(例如內存搬運策略、分塊方式、規約技巧),最終得分提升到了 0.754,將距離硬件極限的差距縮小了 18%。
這個場景意義特殊,因為內核工程是極高度專業化的領域——能寫出高效 Triton/CUDA 內核的工程師在全球也是鳳毛麟角。而 Recursive 團隊在博客中坦承,他們自己也不是內核領域的專家,「這些想法來自系統本身,而不是來自我們的專業背景。」
Recursive:用 AI 研究遞歸改進 AI
發布這項成果的公司 Recursive Superintelligence 成立于 2025 年底至 2026 年初,上個月剛剛結束隱身狀態,創始成員除了前 Meta FAIR 研究科學家總監田淵棟之外,還包括:
![]()
- Richard Socher,Recursive CEO,前 Salesforce 首席科學家
- Alexey Dosovitskiy,前 Google DeepMind 研究科學家和 Vision Transformer 第一作者,谷歌學術引用量超過 16 萬
- Tim Rockt?schel,前 DeepMind Principal 科學家和 UCL 人工智能教授
- Peter Norvig,谷歌前研究總監,與 Stuart Russell 合著了 AI 領域著名教科書《人工智能:一種現代方法》
- Caiming Xiong,前 Salesforce AI 副總裁
- Tim Shi,前 OpenAI 研究員,企業 AI 公司 Cresta 聯合創始人兼 CTO
- Josh Tobin,Recursive CTO,前 OpenAI 與 Uber ATG 研究負責人
- Jeff Clune,前 Google DeepMind 研究副總裁,加拿大不列顛哥倫比亞大學計算機科學教授
并且該創業公司一亮相,甚至還沒有一個公開產品,就已手握 6.5 億美元融資,估值高達 46.5 億美元,由 GV(谷歌風投)和 Greycroft 領投,英偉達和 AMD Ventures 跟投。
公司的核心主張與名字直接對應:構建能夠遞歸地提升自身研究能力的 AI 系統,讓 AI 參與并加速 AI 本身的研發過程,最終形成持續自我增強的閉環。
更多詳情,參閱報道《離開 Meta 后,田淵棟剛剛官宣創業了》。
當然,在賽道層面,Recursive 并不孤單。Yann LeCun 的 AMI Labs 在今年 3 月完成 10 億美元融資,David Silver 的 Ineffable Intelligence 在 4 月拿下 11 億美元種子輪,都指向相似的方向:讓 AI 系統自主生成知識,減少人類在研究流程中的介入。但在公開成果的節奏上,Recursive 的這份「第一步」應該是目前同類公司中最具體、最可復現的技術展示之一。
遞歸范式的黎明
Recursive 發布的這份成果,放在更宏觀的行業背景下,代表著一種新型 AI 研發范式的初步落地:讓 AI 系統本身承擔研究的主體角色
這種「遞歸式 AI」的核心邏輯并不復雜:AI 提升 AI 研究能力,改進后的 AI 又能更有效地提升自身,周而復始。它不依賴某個單一突破,而是依賴一個持續生成突破的系統。
這種思路對 AI 研究本身的經濟學具有重要意義。前沿模型的訓練流程仍然高度依賴少數具備特定技能的研究員,而能勝任這項工作的人全球不超過幾千個。如果自動化研究系統能接管其中哪怕一部分工作,AI 進步的速度與成本曲線都會發生變化。
這一判斷也與行業最近發出的其他聲音形成了呼應。比如本文開頭提到的 Anthropic 的《When AI Builds Itself》,語氣并不輕松——它呼吁行業協調,在遞歸自我改進時刻到來時擁有暫緩乃至臨時叫停前沿 AI 開發的選項,以留出時間讓社會結構和對齊研究跟上節奏。更多詳情請參閱《AI 自進化過快,Anthropic 呼吁全球中止研發》。
![]()
https://www.anthropic.com/institute/recursive-self-improvement
兩件事同時發生,耐人尋味。一邊是 Anthropic 在記錄和警示這條軌跡的走向,另一邊是 Recursive 這樣的團隊,正在一步一步地讓這條軌跡變成現實。
當然,Recursive 自己也承認,這仍是「」:當前系統在指標明確、反饋快速、作弊可檢測的場景下效果最好,距離自主推進開放性科學問題還有相當距離。獎勵作弊的防控將是規模化路上持續面對的核心挑戰。
但一個閉環已經開始運轉。接下來的問題,只是它會轉得多快。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.