![]()
在人工智能發展的漫長歷史中,人類始終主導著開發周期的每一步。然而,Anthropic最新披露的數據顯示,這一格局正在發生根本性轉變:越來越多的AI開發工作正被委托給AI系統本身,極大地加速了技術迭代進程。
Anthropic Institute通過公開基準測試及內部未披露數據證實,AI正在加速AI系統的開發。如果這一趨勢持續并擁有足夠算力支持,最終可能指向能夠完全自主設計和開發后繼者的AI系統,即遞歸自我改進(recursive self-improvement)。盡管目前尚未達到這一階段,但其到來時間可能遠超多數機構預期。
外部證據:能力邊界快速擴張
AI模型獨立完成任務的能力正在呈指數級增長。數據顯示,AI可靠完成復雜任務的時長大約每四個月翻一番,此前這一周期為七個月。2024年3月,Claude Opus 3僅能處理耗時約4分鐘的任務;一年后,Claude Sonnet 3.7可處理約1.5小時的任務;又過一年,Claude Opus 4.6已能應對長達12小時的任務。
若趨勢保持,今年內AI將勝任原本需熟練人員數天完成的工作,到2027年,其能力范圍可能擴展至需耗時數周的任務。
在編碼和研究基準測試中,同樣的加速模式清晰可見。SWE-bench是一項標準的軟件工程測試,要求模型修復真實開源代碼庫中的錯誤。短短兩年內模型表現從個位數分數躍升至使基準測試“飽和”。CORE-Bench測試顯示,AI復現現有研究結果的比例從2024年的20%迅速提升至基準飽和。METR機構測量發現,Claude Mythos Preview可連續工作至少16小時,觸及當前測量上限。
內部數據:生產力爆發式增長
來自Anthropic內部的直接證據揭示了更深層的影響。構建前沿模型涉及工程(寫代碼、搭基建)和研究(設計實驗、解讀結果)兩大類工作,AI在這兩方面均展現出顛覆性潛力。
Claude已編寫Anthropic大部分代碼。截至2026年5月,合并到Anthropic代碼庫的代碼中,超過80%由Claude編寫。而在2025年2月Claude Code推出研究預覽前,這一比例僅為個位數。這種轉變直接體現在工程師產出上:2026年第二季度,典型工程師每天合并的代碼量是2024年的8倍。這并非因為工程師敲擊鍵盤更快,而是因為他們轉為指導和審查AI生成的代碼。
盡管代碼行數并非完美指標,但這與主觀感知的生產力提升相符。2026年3月的內部調查顯示,借助Mythos Preview,員工產出約為無AI輔助時的4倍。此外,AI還承擔了以往因繁瑣而被擱置的工作。例如2026年4月,Claude提交了超800項修復程序,將某類API錯誤減少一千倍,而人類工程師估計完成同等工作需四年。
代碼質量持平且持續改善。在最開放的任務中,Claude的成功率在2026年5月達到76%,較六個月前增長50個百分點。在處理導致數萬作業崩潰的常規升級事故中,Claude在兩小時內隔離并修復了晦澀的調試標志,而此類工作通常需兩到三天。目前,Claude編寫的代碼質量已與人工編寫大致持平,且自動化審查工具能捕獲人類專家遺漏的錯誤。
研究能力向“超人”水平演進。在優化定義明確的實驗流程中,Claude從2025年5月的3倍加速提升至2026年4月的52倍加速,遠超人類研究員4-8小時達到4倍加速的水平。更關鍵的是,Claude開始展現提出實驗的能力。在一個AI安全開放式項目中,由Claude驅動的智能體在累計800小時內恢復了97的性能差距,而兩名人類研究人員在一周內僅恢復23%。此外,在判斷研究下一步方向時,2026年4月的模型在64%的情況下優于人類選擇,顯示出AI在研究判斷力上的早期突破。
未來情景:從效率增益到遞歸自我改進
隨著AI接管更多執行層工作,人類的比較優勢正逐漸收縮至研究品味和判斷力領域。基于此,Anthropic描繪了三種可能的未來:
- 趨勢停滯,能力廣泛擴散。若算力或供應鏈成為瓶頸,或出現技術拐點,進步可能放緩。但即便模型能力凍結,現有AI向經濟領域的擴散仍將引發巨變,如小型公司借助AI完成大型組織的工作量,網絡防御瓶頸從發現漏洞轉向快速修補。
- 復合效率增益持續。AI開發高度自動化,人類繼續設定方向。組織生產力乘數顯著增加,100人的公司可能完成10萬人組織的工作。這將徹底改變知識工作,但也帶來威權監視等風險。此時,阿姆達爾定律生效,人類審查和決策將成為新的瓶頸,組織發現并修復這些瓶頸的能力至關重要。
- 實現完全遞歸自我改進。若AI系統具備變革性獨創性,將開始構建自身后繼者。開發速度完全由算力和算法效率決定,人類角色減弱為監督者。這可能帶來科學和醫療領域的革命性福祉,但也極大增加失控風險。若對齊問題未解決,不對齊現象可能在迭代中加劇,導致人類失去控制。
應對策略:尋求可驗證的全球協調
面對加速的技術趨勢,Anthropic認為,世界擁有選擇減緩或暫時暫停前沿AI開發的權利至關重要,以便社會結構和對齊研究能跟上技術步伐。
然而,單邊暫停效果有限,且可能讓不謹慎的行為者獲利。有意義的減緩需要多個位于前沿的不同國家實驗室達成同意,并建立可驗證的系統,確保各方真正停止且無不良行為者秘密領先。這類似于核武器軍備控制,但鑒于AI訓練運行的隱蔽性和通用輸入特性,其可檢測性挑戰更大。
Anthropic表示,將在未來幾個月組織政策制定者、研究人員及民間社會對話,探討如何建立可信的減緩或暫停機制,并公布相關結果。在窗口期關閉前,全社會參與審議顯得尤為迫切。
【星途科訊 圖文丨司徒景琛】
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.