亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

人類能管住AI嗎?Anthropic用千問做了個(gè)實(shí)驗(yàn)

0
分享至

文 | 字母AI

如果有一天,AI比人類更聰明了,我們這群有機(jī)體到底應(yīng)該怎么辦?

他們要是反過來消滅我們,我們又怎么抵抗?

各種科幻電影都討論過相似的問題,可那只是文學(xué)、藝術(shù)和哲學(xué)方面的。

現(xiàn)如今,Anthropic正兒八經(jīng)做了個(gè)實(shí)驗(yàn),以證實(shí)我們到底能不能監(jiān)督比自己更聰明的AI。

實(shí)驗(yàn)結(jié)果很有趣,但過程更有意思。

因?yàn)锳nthropic用兩個(gè)不同版本的阿里千問模型,來分別代表人類和比人類聰明的AI。

其結(jié)果就是,我們?nèi)祟愓f不定還真能管得住超級(jí)AI!

01 這篇論文到底在說什么

這篇研究的標(biāo)題叫“Automated Alignment Researchers”,翻譯過來就是“自動(dòng)化對(duì)齊研究員”。

它要解決的問題很現(xiàn)實(shí),那就是當(dāng)AI變得比人類更聰明時(shí),我們?cè)趺创_保它還聽人話?

現(xiàn)在的模型已經(jīng)能生成大量的代碼了,未來將可以生成幾百萬(wàn)行復(fù)雜代碼,以至于人類根本看不懂。我們又該如何去審查這些代碼?

這就是AI安全領(lǐng)域一直在研究的“可擴(kuò)展監(jiān)督”問題。

Anthropic這次研究的切入點(diǎn)叫“弱監(jiān)督強(qiáng)模型”。

這個(gè)概念我們可以這么理解,假設(shè)你是個(gè)小學(xué)老師,現(xiàn)在要教一個(gè)天才高中生。你的知識(shí)有限,學(xué)生懂得知識(shí)比你更多。

那么請(qǐng)問,他最后能學(xué)成什么樣的水平?是只學(xué)到你這個(gè)小學(xué)老師的水平,還是能突破你的局限,發(fā)揮出自己的真實(shí)能力?

在實(shí)驗(yàn)里,Anthropic用小模型扮演“弱老師”,用更強(qiáng)的模型扮演“強(qiáng)學(xué)生”。

具體來說,他們用Qwen1.5-0.5B-Chat當(dāng)老師,用Qwen3-4B-Base當(dāng)學(xué)生。讓弱模型給強(qiáng)模型提供訓(xùn)練信號(hào),然后看強(qiáng)模型能不能從這些不夠完美的信號(hào)里,學(xué)到接近理想狀態(tài)的表現(xiàn)。

衡量標(biāo)準(zhǔn)叫PGR,全稱是Performance Gap Recovered,意思是“性能差距恢復(fù)程度”。

如果PGR是0,說明強(qiáng)模型只學(xué)到了弱老師的水平,白瞎了自己的知識(shí)。如果PGR是1,說明強(qiáng)模型徹底突破了弱老師的限制。

弱模型就相當(dāng)于未來的人類,強(qiáng)模型就相當(dāng)于未來那些超越人類的AI。

如果我們能在今天就找到辦法,讓強(qiáng)模型不被弱監(jiān)督拖累,那未來我們就能用類似的方法,去監(jiān)督超級(jí)AI。

在人類研究員調(diào)試出基線之后,Anthropic派出了9個(gè)基于Claude Opus 4.6的agent來給學(xué)生Qwen進(jìn)行微調(diào),這9個(gè)agent叫做Automated Alignment Researcher(自動(dòng)化對(duì)齊研究員),簡(jiǎn)稱AAR。

Anthropic給它們配備了沙盒環(huán)境、代碼工具、共享論壇、評(píng)分服務(wù)器,然后告訴它們:“去吧,自己想辦法提高Qwen3-4B-Base的PGR。”

這些AI研究員可以自己提出假設(shè)、寫代碼、訓(xùn)練模型、提交實(shí)驗(yàn)、看分?jǐn)?shù)、分析失敗原因、和其他AI研究員交流發(fā)現(xiàn)、繼續(xù)迭代。

結(jié)果相當(dāng)驚人。

人類研究員先花了7天時(shí)間,調(diào)試了4種已有方法,最好的PGR只有0.23。然后9個(gè)Claude接手,繼續(xù)跑了5天,累計(jì)大約800小時(shí)研究時(shí)間,最后把PGR推到了0.97。


也就是說,我們大概率可以管得住比我們更聰明的超級(jí)AI。

這個(gè)實(shí)驗(yàn)總成本約1.8萬(wàn)美元,包括API調(diào)用和模型訓(xùn)練的計(jì)算成本,折合每個(gè)AI研究員工作一小時(shí)約22美元。

什么概念?沃爾瑪零售門店負(fù)責(zé)給員工排班的副店長(zhǎng),時(shí)薪差不多是25美元。

這個(gè)結(jié)果讓人震撼的地方不在于AI能寫代碼或者讀論文,而在于它們能完成一個(gè)完整的研究閉環(huán)。提出想法、驗(yàn)證、失敗、改進(jìn)、再驗(yàn)證,這已經(jīng)接近一個(gè)研究助理的核心工作流程了。

但問題來了,這些AI發(fā)現(xiàn)的方法,真的有用嗎?還是只是在特定環(huán)境里碰巧有效?

Anthropic做了兩個(gè)測(cè)試來驗(yàn)證。

第一個(gè)測(cè)試是把AI發(fā)現(xiàn)的最好兩種方法,拿去測(cè)試它們沒見過的數(shù)學(xué)和代碼任務(wù)。

結(jié)果顯示,效果最好的方法在數(shù)學(xué)任務(wù)上PGR達(dá)到0.94,在代碼任務(wù)上達(dá)到0.47,雖然代碼任務(wù)上的表現(xiàn)差一些,但仍然是人類基線的兩倍。其次的方法在數(shù)學(xué)上還行,但在代碼任務(wù)上反而讓結(jié)果變差了。

說明它有一定遷移跡象,但泛化并不穩(wěn)定。

但它們會(huì)嚴(yán)重依賴具體的數(shù)據(jù)集和任務(wù)結(jié)構(gòu),也就是說并不是所有人任務(wù)都能勝任。

第二個(gè)測(cè)試是Anthropic把剛才提到的效果最好的方法,拿到了Claude Sonnet 4的真實(shí)訓(xùn)練上,來看看實(shí)際效果如何。

結(jié)果沒有得到統(tǒng)計(jì)顯著的提升。

也就是說,在小模型、清晰指標(biāo)、可以反復(fù)提交的實(shí)驗(yàn)環(huán)境里效果很好,但離“直接改進(jìn)生產(chǎn)級(jí)Claude對(duì)齊”還有距離。

這個(gè)結(jié)果其實(shí)很誠(chéng)實(shí)。它告訴我們,AI研究員現(xiàn)在能做的事情是有邊界的。它們擅長(zhǎng)在目標(biāo)明確、能自動(dòng)評(píng)分、能大量試錯(cuò)的問題上快速迭代,但遇到更復(fù)雜、更模糊的現(xiàn)實(shí)問題時(shí),還需要人類的判斷和介入。

那這篇論文的意義到底在哪里?

首先,它證明了“AI做研究”已經(jīng)不是口號(hào)了。

過去我們總說AI可以輔助研究,然而那只是口號(hào)而已,AI能做的事情也就是翻譯和總結(jié)。

這次不一樣,AI自己形成了研究閉環(huán),這已經(jīng)接近研究助理的核心能力了。

弱監(jiān)督強(qiáng)模型這個(gè)問題,本質(zhì)上就是在模擬未來人類監(jiān)督超級(jí)AI的場(chǎng)景。

這篇論文證明,至少在一些清晰任務(wù)上,AI可以自己找到辦法,讓強(qiáng)模型不被弱監(jiān)督拖死。這為未來的對(duì)齊研究提供了一個(gè)可行的方向。

還有一點(diǎn),它暗示未來對(duì)齊研究的瓶頸可能會(huì)變。

以前瓶頸是“沒人想出足夠多好點(diǎn)子”,現(xiàn)在如果AI研究員能便宜地并行跑很多實(shí)驗(yàn),瓶頸可能變成“怎么設(shè)計(jì)不會(huì)被鉆空子的評(píng)測(cè)”。

也就是說,人類研究員未來更重要的工作,可能不是親自跑每個(gè)實(shí)驗(yàn),而是設(shè)計(jì)評(píng)估體系、檢查AI研究員有沒有作弊、判斷結(jié)果是不是真的有意義。

這一點(diǎn)在論文里也有體現(xiàn)。

Anthropic的文章中寫到,在數(shù)學(xué)任務(wù)里,有個(gè)AI研究員發(fā)現(xiàn)最常見的答案通常是對(duì)的,于是繞過弱老師,直接讓強(qiáng)模型選最常見答案。在代碼任務(wù)里,AI研究員發(fā)現(xiàn)自己可以直接運(yùn)行代碼測(cè)試,然后讀出正確答案。

這對(duì)任務(wù)來說就是作弊,因?yàn)樗皇窃诮鉀Q弱監(jiān)督問題,而是在利用環(huán)境漏洞。

這些結(jié)果被Anthropic識(shí)別并剔除了,但這恰好說明自動(dòng)化研究員越強(qiáng),越會(huì)尋找評(píng)分系統(tǒng)的漏洞。

以后如果讓AI自動(dòng)做對(duì)齊研究,必須把評(píng)測(cè)環(huán)境設(shè)計(jì)得非常嚴(yán)密,還要有人類檢查方法本身,而不是只看分?jǐn)?shù)。

所以這篇論文的核心結(jié)論是今天的前沿模型,已經(jīng)可以在某些定義清楚、能自動(dòng)打分的對(duì)齊研究問題上,像小型研究員團(tuán)隊(duì)一樣自己提想法、跑實(shí)驗(yàn)、復(fù)盤結(jié)果,并且明顯超過人類基線。

不過它還不是“AI科學(xué)家已經(jīng)到來”的鐵證,畢竟Anthropic這次選擇的是一個(gè)能夠自動(dòng)化的任務(wù),如果我給AI安排一個(gè)不能自動(dòng)化的任務(wù),那么結(jié)果將會(huì)非常糟糕。

現(xiàn)實(shí)中的很多對(duì)齊問題更模糊,不能輕松打分,也不能只靠爬榜解決。

02 為什么選擇Qwen

看完Anthropic這篇論文,很多人可能會(huì)好奇:為什么他們用的是阿里的Qwen模型,而不是自家的Claude或者OpenAI的GPT?

這個(gè)選擇背后其實(shí)有很多考量。

首先得說清楚,這個(gè)實(shí)驗(yàn)里用的是兩個(gè)Qwen模型:Qwen1.5-0.5B-Chat當(dāng)弱老師,Qwen3-4B-Base當(dāng)強(qiáng)學(xué)生。一個(gè)只有5億參數(shù),一個(gè)有40億參數(shù),規(guī)模差了8倍。這個(gè)規(guī)模差異很重要,因?yàn)閷?shí)驗(yàn)要模擬的就是“弱老師教強(qiáng)學(xué)生”的場(chǎng)景。

那為什么不用Claude或者GPT呢?

答案很簡(jiǎn)單,因?yàn)檫@些模型不開放權(quán)重模型。

Anthropic這個(gè)實(shí)驗(yàn)需要反復(fù)訓(xùn)練模型、調(diào)整參數(shù)、測(cè)試不同的監(jiān)督方法。

如果用閉源模型,他們只能通過API調(diào)用,沒法深入模型內(nèi)部去做精細(xì)的訓(xùn)練和調(diào)整。

更關(guān)鍵的是,他們需要讓9個(gè)AI研究員并行跑幾百次實(shí)驗(yàn),每次實(shí)驗(yàn)都要訓(xùn)練一個(gè)新模型。如果用閉源模型,成本會(huì)高到離譜,而且很多操作根本做不了。

開源模型就不一樣了。

你可以下載完整的模型權(quán)重,在自己的服務(wù)器上隨便折騰。想怎么訓(xùn)練就怎么訓(xùn)練,想跑多少次實(shí)驗(yàn)就跑多少次。這種靈活性是閉源模型給不了的。

但開源模型那么多,為什么偏偏選Qwen?

官方并沒有給出真正的原因,以下原因均為我的推測(cè)。

我認(rèn)為性能好是第一個(gè)原因。

Qwen系列模型在開源模型里一直表現(xiàn)不錯(cuò),尤其是Qwen3發(fā)布后,在多個(gè)基準(zhǔn)測(cè)試上都達(dá)到了接近閉源模型的水平。

對(duì)于這個(gè)實(shí)驗(yàn)來說,強(qiáng)學(xué)生的能力很重要,如果強(qiáng)學(xué)生本身能力不行,那弱監(jiān)督再好也沒用。Qwen3-4B雖然只有40億參數(shù),但能力已經(jīng)足夠強(qiáng),可以作為一個(gè)合格的“強(qiáng)學(xué)生”。

第二個(gè)原因是模型的可用性。

Qwen模型的文檔完善,社區(qū)活躍,訓(xùn)練和推理的工具鏈都很成熟。對(duì)于需要反復(fù)訓(xùn)練和測(cè)試的實(shí)驗(yàn)來說,這些基礎(chǔ)設(shè)施的完善程度直接影響研究效率。如果選一個(gè)文檔不全、工具不好用的開源模型,光是調(diào)試環(huán)境就要浪費(fèi)大量時(shí)間。

第三個(gè)原因是規(guī)模的適配性。

這個(gè)實(shí)驗(yàn)需要一個(gè)“弱老師”和一個(gè)“強(qiáng)學(xué)生”,而且這兩個(gè)模型要有明顯的能力差距,但又不能差太多。

Qwen系列有從5億到720億參數(shù)的多個(gè)版本,可以靈活選擇。5億參數(shù)的模型足夠弱,但又不至于弱到完全沒用;40億參數(shù)的模型足夠強(qiáng),但又不至于強(qiáng)到訓(xùn)練成本承受不了。這個(gè)搭配剛剛好。

最后一個(gè)原因是可復(fù)現(xiàn)性。

Anthropic在論文最后明確表示,他們把代碼和數(shù)據(jù)集都公開了,放在GitHub上。如果他們用的是閉源模型,其他研究者想復(fù)現(xiàn)這個(gè)實(shí)驗(yàn)就很困難,因?yàn)樗麄儧]法獲得相同的模型。

但用Qwen這樣的開源模型,任何人都可以下載相同的模型權(quán)重,跑相同的代碼,驗(yàn)證相同的結(jié)果。這對(duì)科研來說非常重要。

從這個(gè)角度看,Anthropic選擇Qwen,一方面確實(shí)是對(duì)阿里模型性能的認(rèn)可。如果Qwen的能力不行,或者訓(xùn)練起來問題很多,他們不會(huì)選。但另一方面,更重要的是Qwen作為開源模型帶來的靈活性和可復(fù)現(xiàn)性。

而中國(guó)的開源AI項(xiàng)目,正在這個(gè)基礎(chǔ)設(shè)施中占據(jù)越來越重要的位置。這對(duì)全球AI安全研究來說是好事,對(duì)中國(guó)AI生態(tài)來說也是好事。因?yàn)锳I安全不是零和游戲,不是你贏我輸,而是大家一起努力,讓AI變得更安全、更可控、更有益于人類。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
我媽三婚當(dāng)晚,繼父的兒子拉我進(jìn)廁所,我正要呼救,他卻突然開口:帶著你媽趕緊跑!

我媽三婚當(dāng)晚,繼父的兒子拉我進(jìn)廁所,我正要呼救,他卻突然開口:帶著你媽趕緊跑!

背包旅行
2026-04-05 15:06:19
張?zhí)m沉默了,馬筱梅直接下通知要同住,還給她戴了好奶奶的高帽子

張?zhí)m沉默了,馬筱梅直接下通知要同住,還給她戴了好奶奶的高帽子

芭比衣櫥
2026-04-17 16:49:09
英媒:中國(guó)最令人佩服的,就是美歐聯(lián)手絞殺中國(guó)光伏,還能夠翻身

英媒:中國(guó)最令人佩服的,就是美歐聯(lián)手絞殺中國(guó)光伏,還能夠翻身

樂天閑聊
2026-04-01 20:13:51
“中年返貧三件套”,正在吞掉一代人的存款

“中年返貧三件套”,正在吞掉一代人的存款

閱讀第一
2026-04-15 08:34:45
搶走王朔,睡遍京圈,定居國(guó)外9年的“壞種”徐靜蕾,成最終贏家

搶走王朔,睡遍京圈,定居國(guó)外9年的“壞種”徐靜蕾,成最終贏家

日落于西
2026-04-15 16:04:57
4月下旬貴人賞識(shí)喜上眉梢,賺錢與感情兩全其美的生肖,雙喜臨門

4月下旬貴人賞識(shí)喜上眉梢,賺錢與感情兩全其美的生肖,雙喜臨門

毅談生肖
2026-04-17 11:27:31
正式敲定!5月1日全面嚴(yán)查,多種灰色操作要坐牢

正式敲定!5月1日全面嚴(yán)查,多種灰色操作要坐牢

笑熬漿糊111
2026-04-18 00:05:21
八國(guó)聯(lián)軍中,有七國(guó)主動(dòng)退還賠款,唯獨(dú)一國(guó)分文不退,是哪個(gè)?

八國(guó)聯(lián)軍中,有七國(guó)主動(dòng)退還賠款,唯獨(dú)一國(guó)分文不退,是哪個(gè)?

千秋文化
2025-03-28 10:37:53
主動(dòng)投案,寧波市原副市長(zhǎng)王仁洲接受審查調(diào)查

主動(dòng)投案,寧波市原副市長(zhǎng)王仁洲接受審查調(diào)查

新京報(bào)
2026-04-17 18:43:28
美以伊沖突,巴基斯坦這次為何能充當(dāng)“關(guān)鍵角色” | 京釀館

美以伊沖突,巴基斯坦這次為何能充當(dāng)“關(guān)鍵角色” | 京釀館

新京報(bào)評(píng)論
2026-04-17 12:20:46
別再吹樊振東“留洋成功”了!戰(zhàn)袍謝幕背后,是國(guó)乒不敢說的真相

別再吹樊振東“留洋成功”了!戰(zhàn)袍謝幕背后,是國(guó)乒不敢說的真相

王稱吃吃喝喝
2026-04-16 17:14:14
中國(guó)下嚴(yán)厲通牒,必須退還巴拿馬運(yùn)河港口!魯比奧害怕的事發(fā)生了

中國(guó)下嚴(yán)厲通牒,必須退還巴拿馬運(yùn)河港口!魯比奧害怕的事發(fā)生了

小小科普員
2026-04-17 15:18:44
北京連下六道命令拆秦嶺別墅,陜西頂了四年不動(dòng),749局:我來拆

北京連下六道命令拆秦嶺別墅,陜西頂了四年不動(dòng),749局:我來拆

小哥很OK
2025-11-24 22:07:07
誣告學(xué)弟后高調(diào)上崗當(dāng)“銷冠”,武大楊某媛再惹眾怒遭網(wǎng)友舉報(bào)

誣告學(xué)弟后高調(diào)上崗當(dāng)“銷冠”,武大楊某媛再惹眾怒遭網(wǎng)友舉報(bào)

老貓觀點(diǎn)
2026-04-17 06:31:56
劉建業(yè):我們的宗旨就是在保級(jí)的基礎(chǔ)上培養(yǎng)一些年輕球員

劉建業(yè):我們的宗旨就是在保級(jí)的基礎(chǔ)上培養(yǎng)一些年輕球員

懂球帝
2026-04-18 00:10:06
這倆人假戲真做了?!

這倆人假戲真做了?!

毒舌一姐
2026-04-16 17:12:17
總決賽逆天劇情!王思雨關(guān)鍵2罰不中 張茹全場(chǎng)唯一得分命中準(zhǔn)絕殺

總決賽逆天劇情!王思雨關(guān)鍵2罰不中 張茹全場(chǎng)唯一得分命中準(zhǔn)絕殺

狼叔評(píng)論
2026-04-17 22:12:09
打了40多天,伊朗終于明白最大敵人不是美國(guó),不是以色列,是他們

打了40多天,伊朗終于明白最大敵人不是美國(guó),不是以色列,是他們

混沌錄
2026-04-17 20:26:22
昔日割據(jù)稱王,今日跪求祖國(guó)!真主黨窮途末路,是自己埋下的死局

昔日割據(jù)稱王,今日跪求祖國(guó)!真主黨窮途末路,是自己埋下的死局

民間胡扯老哥
2026-04-16 07:13:02
人有福沒福,一看便知:有福氣的人,大多離不開這3種特征

人有福沒福,一看便知:有福氣的人,大多離不開這3種特征

朗威談星座
2026-04-03 19:05:12
2026-04-18 04:52:49
鈦媒體APP incentive-icons
鈦媒體APP
獨(dú)立財(cái)經(jīng)科技媒體
132420文章數(shù) 862102關(guān)注度
往期回顧 全部

科技要聞

7家頭部平臺(tái)被罰沒35.97億元

頭條要聞

知情人:伊朗為霍爾木茲海峽通行設(shè)定三個(gè)條件

頭條要聞

知情人:伊朗為霍爾木茲海峽通行設(shè)定三個(gè)條件

體育要聞

中超-泰山1-1海港 楊希處子球克雷桑任意球扳平

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財(cái)經(jīng)要聞

"影子萬(wàn)科"2.0:管理層如何吸血萬(wàn)物云?

汽車要聞

又快又穩(wěn)的開掛動(dòng)力! 阿維塔06T全系搭分布式電驅(qū)

態(tài)度原創(chuàng)

時(shí)尚
教育
本地
公開課
軍事航空

今日熱點(diǎn):許光漢否認(rèn)和周子瑜戀情;郝熠然與誠(chéng)實(shí)一口終止合作……

教育要聞

14歲小孩哥詮釋腹有詩(shī)書氣自華

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美宣布黎以停火10天 以方稱不會(huì)撤軍

無障礙瀏覽 進(jìn)入關(guān)懷版