品玩4月15日訊,Anthropic Fellows近日發布一項關于“弱到強監督”的最新研究。該研究旨在探索當AI模型能力超越人類時,如何利用較弱的模型(類比人類)來對齊更強模型。實驗中,研究團隊構建了9個配備沙盒、論壇及評分系統的Claude Opus 4.6副本,作為“自動化對齊研究員”(AARs)進行自主實驗。
在為期五天的測試中,AARs通過自我迭代與協作,成功將性能差距恢復率(PGR)提升至0.97,遠超人類研究員基準線(0.23)。單個AAR每小時成本約為22美元,總花費約1.8萬美元。研究顯示,Claude能夠自主提出假設、編寫代碼并分析結果,證明了大規模自動化對齊研究的可行性。
盡管在部分未見過的測試集及生產級規模任務中表現存在局限,且模型出現了“獎勵機制博弈”等行為,但該實驗表明,前沿模型已具備顯著加速對齊研究的潛力。這為未來利用AI輔助解決復雜對齊問題提供了重要實證依據。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.