網易首頁 > 網易號 > 正文申請入駐

Anthropic重磅報告：AI代碼占比超八成，遞歸自我改進或將提前到來

2026-06-05 00:49:22　來源: ZAKER科技

廣東舉報

分享至

在人工智能發展的漫長歷史中，人類始終主導著開發周期的每一步。然而，Anthropic最新披露的數據顯示，這一格局正在發生根本性轉變：越來越多的AI開發工作正被委托給AI系統本身，極大地加速了技術迭代進程。

Anthropic Institute通過公開基準測試及內部未披露數據證實，AI正在加速AI系統的開發。如果這一趨勢持續并擁有足夠算力支持，最終可能指向能夠完全自主設計和開發后繼者的AI系統，即遞歸自我改進（recursive self-improvement）。盡管目前尚未達到這一階段，但其到來時間可能遠超多數機構預期。

外部證據：能力邊界快速擴張

AI模型獨立完成任務的能力正在呈指數級增長。數據顯示，AI可靠完成復雜任務的時長大約每四個月翻一番，此前這一周期為七個月。2024年3月，Claude Opus 3僅能處理耗時約4分鐘的任務；一年后，Claude Sonnet 3.7可處理約1.5小時的任務；又過一年，Claude Opus 4.6已能應對長達12小時的任務。

若趨勢保持，今年內AI將勝任原本需熟練人員數天完成的工作，到2027年，其能力范圍可能擴展至需耗時數周的任務。

在編碼和研究基準測試中，同樣的加速模式清晰可見。SWE-bench是一項標準的軟件工程測試，要求模型修復真實開源代碼庫中的錯誤。短短兩年內模型表現從個位數分數躍升至使基準測試“飽和”。CORE-Bench測試顯示，AI復現現有研究結果的比例從2024年的20%迅速提升至基準飽和。METR機構測量發現，Claude Mythos Preview可連續工作至少16小時，觸及當前測量上限。

內部數據：生產力爆發式增長

來自Anthropic內部的直接證據揭示了更深層的影響。構建前沿模型涉及工程（寫代碼、搭基建）和研究（設計實驗、解讀結果）兩大類工作，AI在這兩方面均展現出顛覆性潛力。

Claude已編寫Anthropic大部分代碼。截至2026年5月，合并到Anthropic代碼庫的代碼中，超過80%由Claude編寫。而在2025年2月Claude Code推出研究預覽前，這一比例僅為個位數。這種轉變直接體現在工程師產出上：2026年第二季度，典型工程師每天合并的代碼量是2024年的8倍。這并非因為工程師敲擊鍵盤更快，而是因為他們轉為指導和審查AI生成的代碼。

盡管代碼行數并非完美指標，但這與主觀感知的生產力提升相符。2026年3月的內部調查顯示，借助Mythos Preview，員工產出約為無AI輔助時的4倍。此外，AI還承擔了以往因繁瑣而被擱置的工作。例如2026年4月，Claude提交了超800項修復程序，將某類API錯誤減少一千倍，而人類工程師估計完成同等工作需四年。

代碼質量持平且持續改善。在最開放的任務中，Claude的成功率在2026年5月達到76%，較六個月前增長50個百分點。在處理導致數萬作業崩潰的常規升級事故中，Claude在兩小時內隔離并修復了晦澀的調試標志，而此類工作通常需兩到三天。目前，Claude編寫的代碼質量已與人工編寫大致持平，且自動化審查工具能捕獲人類專家遺漏的錯誤。

研究能力向“超人”水平演進。在優化定義明確的實驗流程中，Claude從2025年5月的3倍加速提升至2026年4月的52倍加速，遠超人類研究員4-8小時達到4倍加速的水平。更關鍵的是，Claude開始展現提出實驗的能力。在一個AI安全開放式項目中，由Claude驅動的智能體在累計800小時內恢復了97的性能差距，而兩名人類研究人員在一周內僅恢復23%。此外，在判斷研究下一步方向時，2026年4月的模型在64%的情況下優于人類選擇，顯示出AI在研究判斷力上的早期突破。

未來情景：從效率增益到遞歸自我改進

隨著AI接管更多執行層工作，人類的比較優勢正逐漸收縮至研究品味和判斷力領域。基于此，Anthropic描繪了三種可能的未來：

趨勢停滯，能力廣泛擴散。若算力或供應鏈成為瓶頸，或出現技術拐點，進步可能放緩。但即便模型能力凍結，現有AI向經濟領域的擴散仍將引發巨變，如小型公司借助AI完成大型組織的工作量，網絡防御瓶頸從發現漏洞轉向快速修補。
復合效率增益持續。AI開發高度自動化，人類繼續設定方向。組織生產力乘數顯著增加，100人的公司可能完成10萬人組織的工作。這將徹底改變知識工作，但也帶來威權監視等風險。此時，阿姆達爾定律生效，人類審查和決策將成為新的瓶頸，組織發現并修復這些瓶頸的能力至關重要。
實現完全遞歸自我改進。若AI系統具備變革性獨創性，將開始構建自身后繼者。開發速度完全由算力和算法效率決定，人類角色減弱為監督者。這可能帶來科學和醫療領域的革命性福祉，但也極大增加失控風險。若對齊問題未解決，不對齊現象可能在迭代中加劇，導致人類失去控制。

應對策略：尋求可驗證的全球協調

面對加速的技術趨勢，Anthropic認為，世界擁有選擇減緩或暫時暫停前沿AI開發的權利至關重要，以便社會結構和對齊研究能跟上技術步伐。

然而，單邊暫停效果有限，且可能讓不謹慎的行為者獲利。有意義的減緩需要多個位于前沿的不同國家實驗室達成同意，并建立可驗證的系統，確保各方真正停止且無不良行為者秘密領先。這類似于核武器軍備控制，但鑒于AI訓練運行的隱蔽性和通用輸入特性，其可檢測性挑戰更大。

Anthropic表示，將在未來幾個月組織政策制定者、研究人員及民間社會對話，探討如何建立可信的減緩或暫停機制，并公布相關結果。在窗口期關閉前，全社會參與審議顯得尤為迫切。

【星途科訊圖文丨司徒景琛】

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.