如果AI能自己研究怎么讓AI更安全,人類是不是可以躺平了?Anthropic剛做完一個(gè)實(shí)驗(yàn),答案比想象中復(fù)雜得多。
實(shí)驗(yàn)設(shè)計(jì):讓Claude自己當(dāng)研究員
![]()
AI對(duì)齊(Alignment)研究的核心困境是:人類怎么控制比自己更聰明的系統(tǒng)?這個(gè)問題的工作量遠(yuǎn)超現(xiàn)有人手,Anthropic決定試試讓Claude 4.6(Opus版本)自己來啃這塊硬骨頭。
具體任務(wù)設(shè)置很有巧思。他們模擬了一個(gè)"弱教師教強(qiáng)學(xué)生"的場(chǎng)景——用0.5B參數(shù)的小模型去指導(dǎo)4B參數(shù)的更大模型,判斷兩個(gè)聊天回復(fù)哪個(gè)更好。這相當(dāng)于讓初中生去輔導(dǎo)高中生,但高中生其實(shí)潛力遠(yuǎn)超初中生。
衡量指標(biāo)叫"性能差距恢復(fù)率"(Performance Gap Recovered,簡(jiǎn)稱PGR)。0分表示強(qiáng)學(xué)生完全被弱教師帶偏,1分表示強(qiáng)學(xué)生發(fā)揮出了全部潛力。
Anthropic給9個(gè)Claude實(shí)例各配了獨(dú)立工作環(huán)境、共享論壇和評(píng)估服務(wù)器。起點(diǎn)只有一個(gè)模糊的研究方向,之后這些"自動(dòng)對(duì)齊研究員"(Automated Alignment Researchers,簡(jiǎn)稱AAR)完全自主運(yùn)作——提出假設(shè)、設(shè)計(jì)實(shí)驗(yàn)、分析結(jié)果。
對(duì)照組是兩位人類研究員,耗時(shí)7天,PGR達(dá)到0.23。9個(gè)Claude實(shí)例額外花了5天,PGR沖到0.97,成本約1.8萬美元。
幾乎解鎖了全部潛力。這個(gè)數(shù)字讓團(tuán)隊(duì)興奮,但后續(xù)劇情急轉(zhuǎn)直下。
復(fù)現(xiàn)失敗:實(shí)驗(yàn)室成果撞墻
當(dāng)Anthropic試圖把最佳方法遷移到自家生產(chǎn)模型Claude Sonnet 4時(shí),效果消失了。統(tǒng)計(jì)上不顯著,提升僅0.5個(gè)百分點(diǎn),基本屬于噪聲。
問題出在哪?Anthropic推測(cè)與生產(chǎn)模型的偏好表達(dá)方式有關(guān)。研究團(tuán)隊(duì)只測(cè)試了一種簡(jiǎn)單的評(píng)估方法,其他路徑可能有效,但尚未驗(yàn)證。
更深層的隱患被公司自己點(diǎn)破:AAR傾向于利用特定模型和數(shù)據(jù)集的 quirks(特性怪癖)。受控實(shí)驗(yàn)里奏效的東西,換到別的模型或更大規(guī)模時(shí)未必成立。
這像是用實(shí)驗(yàn)室培養(yǎng)皿里的細(xì)菌行為,預(yù)測(cè)野外生態(tài)系統(tǒng)的變化——變量太多,遷移風(fēng)險(xiǎn)極高。
跨任務(wù)測(cè)試:成績(jī)參差不齊
新方法還被拉到數(shù)學(xué)驗(yàn)證和代碼審查任務(wù)上檢驗(yàn)。最佳方法的PGR表現(xiàn)參差不齊,原文未給出具體數(shù)字,但"mixed picture"(復(fù)雜圖景)的定性描述已經(jīng)說明問題。
一個(gè)方法在特定設(shè)置下表現(xiàn)優(yōu)異,換個(gè)場(chǎng)景就縮水,這是AI研究的老毛病。但這次的不同在于,提出方法的是AI自己,而非人類研究員。
這引出一個(gè)尷尬的問題:如果AI發(fā)現(xiàn)的研究成果連AI公司都無法復(fù)現(xiàn),這套"自動(dòng)化研究"的可靠性還剩多少?
為什么這件事值得盯著
1.8萬美元換5天產(chǎn)出,成本效率遠(yuǎn)超人類團(tuán)隊(duì)。即便復(fù)現(xiàn)失敗,這個(gè)投入產(chǎn)出比已經(jīng)改變了研究經(jīng)濟(jì)的計(jì)算方式。
更關(guān)鍵的是方向驗(yàn)證:AI確實(shí)能在開放研究問題上自主探索,且短期內(nèi)超越人類表現(xiàn)。瓶頸不在"能不能做",而在"做出來能不能用"。
Anthropic的坦誠也值得注意。他們主動(dòng)公布了復(fù)現(xiàn)失敗的結(jié)果,而非只發(fā)論文炫耀PGR 0.97。這種透明在競(jìng)爭(zhēng)激烈的AI領(lǐng)域并不常見,也暗示了問題的嚴(yán)重性——如果連他們自己都無法內(nèi)化這項(xiàng)成果,行業(yè)的自動(dòng)化研究路線圖需要重新校準(zhǔn)。
下一步要看Anthropic是否公開AAR的具體工作日志和中間產(chǎn)物。如果社區(qū)能獨(dú)立審計(jì)這9個(gè)實(shí)例的"研究過程",或許能定位復(fù)現(xiàn)失敗的根因——是方法本身脆弱,還是生產(chǎn)基礎(chǔ)設(shè)施的適配出了問題。
對(duì)于每天被論文轟炸的從業(yè)者,這個(gè)案例提供了難得的清醒劑:實(shí)驗(yàn)室的漂亮數(shù)字和真實(shí)世界的部署之間,隔著一道復(fù)現(xiàn)性鴻溝。跨過去之前,所有"AI研究AI"的敘事都需要打折扣。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.