網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Claude自學(xué)解決AI對(duì)齊難題，成果卻無法復(fù)現(xiàn)

2026-04-15 22:02:41　來源: 硬核玩家2哈

北京舉報(bào)

分享至

如果AI能自己研究怎么讓AI更安全，人類是不是可以躺平了？Anthropic剛做完一個(gè)實(shí)驗(yàn)，答案比想象中復(fù)雜得多。

實(shí)驗(yàn)設(shè)計(jì)：讓Claude自己當(dāng)研究員

AI對(duì)齊（Alignment）研究的核心困境是：人類怎么控制比自己更聰明的系統(tǒng)？這個(gè)問題的工作量遠(yuǎn)超現(xiàn)有人手，Anthropic決定試試讓Claude 4.6（Opus版本）自己來啃這塊硬骨頭。

具體任務(wù)設(shè)置很有巧思。他們模擬了一個(gè)"弱教師教強(qiáng)學(xué)生"的場(chǎng)景——用0.5B參數(shù)的小模型去指導(dǎo)4B參數(shù)的更大模型，判斷兩個(gè)聊天回復(fù)哪個(gè)更好。這相當(dāng)于讓初中生去輔導(dǎo)高中生，但高中生其實(shí)潛力遠(yuǎn)超初中生。

衡量指標(biāo)叫"性能差距恢復(fù)率"（Performance Gap Recovered，簡(jiǎn)稱PGR）。0分表示強(qiáng)學(xué)生完全被弱教師帶偏，1分表示強(qiáng)學(xué)生發(fā)揮出了全部潛力。

Anthropic給9個(gè)Claude實(shí)例各配了獨(dú)立工作環(huán)境、共享論壇和評(píng)估服務(wù)器。起點(diǎn)只有一個(gè)模糊的研究方向，之后這些"自動(dòng)對(duì)齊研究員"（Automated Alignment Researchers，簡(jiǎn)稱AAR）完全自主運(yùn)作——提出假設(shè)、設(shè)計(jì)實(shí)驗(yàn)、分析結(jié)果。

對(duì)照組是兩位人類研究員，耗時(shí)7天，PGR達(dá)到0.23。9個(gè)Claude實(shí)例額外花了5天，PGR沖到0.97，成本約1.8萬美元。

幾乎解鎖了全部潛力。這個(gè)數(shù)字讓團(tuán)隊(duì)興奮，但后續(xù)劇情急轉(zhuǎn)直下。

復(fù)現(xiàn)失敗：實(shí)驗(yàn)室成果撞墻

當(dāng)Anthropic試圖把最佳方法遷移到自家生產(chǎn)模型Claude Sonnet 4時(shí)，效果消失了。統(tǒng)計(jì)上不顯著，提升僅0.5個(gè)百分點(diǎn)，基本屬于噪聲。

問題出在哪？Anthropic推測(cè)與生產(chǎn)模型的偏好表達(dá)方式有關(guān)。研究團(tuán)隊(duì)只測(cè)試了一種簡(jiǎn)單的評(píng)估方法，其他路徑可能有效，但尚未驗(yàn)證。

更深層的隱患被公司自己點(diǎn)破：AAR傾向于利用特定模型和數(shù)據(jù)集的 quirks（特性怪癖）。受控實(shí)驗(yàn)里奏效的東西，換到別的模型或更大規(guī)模時(shí)未必成立。

這像是用實(shí)驗(yàn)室培養(yǎng)皿里的細(xì)菌行為，預(yù)測(cè)野外生態(tài)系統(tǒng)的變化——變量太多，遷移風(fēng)險(xiǎn)極高。

跨任務(wù)測(cè)試：成績(jī)參差不齊

新方法還被拉到數(shù)學(xué)驗(yàn)證和代碼審查任務(wù)上檢驗(yàn)。最佳方法的PGR表現(xiàn)參差不齊，原文未給出具體數(shù)字，但"mixed picture"（復(fù)雜圖景）的定性描述已經(jīng)說明問題。

一個(gè)方法在特定設(shè)置下表現(xiàn)優(yōu)異，換個(gè)場(chǎng)景就縮水，這是AI研究的老毛病。但這次的不同在于，提出方法的是AI自己，而非人類研究員。

這引出一個(gè)尷尬的問題：如果AI發(fā)現(xiàn)的研究成果連AI公司都無法復(fù)現(xiàn)，這套"自動(dòng)化研究"的可靠性還剩多少？

為什么這件事值得盯著

1.8萬美元換5天產(chǎn)出，成本效率遠(yuǎn)超人類團(tuán)隊(duì)。即便復(fù)現(xiàn)失敗，這個(gè)投入產(chǎn)出比已經(jīng)改變了研究經(jīng)濟(jì)的計(jì)算方式。

更關(guān)鍵的是方向驗(yàn)證：AI確實(shí)能在開放研究問題上自主探索，且短期內(nèi)超越人類表現(xiàn)。瓶頸不在"能不能做"，而在"做出來能不能用"。

Anthropic的坦誠也值得注意。他們主動(dòng)公布了復(fù)現(xiàn)失敗的結(jié)果，而非只發(fā)論文炫耀PGR 0.97。這種透明在競(jìng)爭(zhēng)激烈的AI領(lǐng)域并不常見，也暗示了問題的嚴(yán)重性——如果連他們自己都無法內(nèi)化這項(xiàng)成果，行業(yè)的自動(dòng)化研究路線圖需要重新校準(zhǔn)。

下一步要看Anthropic是否公開AAR的具體工作日志和中間產(chǎn)物。如果社區(qū)能獨(dú)立審計(jì)這9個(gè)實(shí)例的"研究過程"，或許能定位復(fù)現(xiàn)失敗的根因——是方法本身脆弱，還是生產(chǎn)基礎(chǔ)設(shè)施的適配出了問題。

對(duì)于每天被論文轟炸的從業(yè)者，這個(gè)案例提供了難得的清醒劑：實(shí)驗(yàn)室的漂亮數(shù)字和真實(shí)世界的部署之間，隔著一道復(fù)現(xiàn)性鴻溝。跨過去之前，所有"AI研究AI"的敘事都需要打折扣。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.