亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

人類能管住AI嗎?Anthropic用千問做了個實驗

0
分享至



如果有一天,AI比人類更聰明了,我們這群有機體到底應該怎么辦?

他們要是反過來消滅我們,我們又怎么抵抗?

各種科幻電影都討論過相似的問題,可那只是文學、藝術和哲學方面的。

現(xiàn)如今,Anthropic正兒八經(jīng)做了個實驗,以證實我們到底能不能監(jiān)督比自己更聰明的AI。

實驗結果很有趣,但過程更有意思。

因為Anthropic用兩個不同版本的阿里千問模型,來分別代表人類和比人類聰明的AI。

其結果就是,我們?nèi)祟愓f不定還真能管得住超級AI!

01

這篇論文到底在說什么

這篇研究的標題叫“Automated Alignment Researchers”,翻譯過來就是“自動化對齊研究員”。

它要解決的問題很現(xiàn)實,那就是當AI變得比人類更聰明時,我們怎么確保它還聽人話?

現(xiàn)在的模型已經(jīng)能生成大量的代碼了,未來將可以生成幾百萬行復雜代碼,以至于人類根本看不懂。我們又該如何去審查這些代碼?

這就是AI安全領域一直在研究的“可擴展監(jiān)督”問題。

Anthropic這次研究的切入點叫“弱監(jiān)督強模型”。

這個概念我們可以這么理解,假設你是個小學老師,現(xiàn)在要教一個天才高中生。你的知識有限,學生懂得知識比你更多。

那么請問,他最后能學成什么樣的水平?是只學到你這個小學老師的水平,還是能突破你的局限,發(fā)揮出自己的真實能力?

在實驗里,Anthropic用小模型扮演“弱老師”,用更強的模型扮演“強學生”。

具體來說,他們用Qwen1.5-0.5B-Chat當老師,用Qwen3-4B-Base當學生。讓弱模型給強模型提供訓練信號,然后看強模型能不能從這些不夠完美的信號里,學到接近理想狀態(tài)的表現(xiàn)。

衡量標準叫PGR,全稱是Performance Gap Recovered,意思是“性能差距恢復程度”。

如果PGR是0,說明強模型只學到了弱老師的水平,白瞎了自己的知識。如果PGR是1,說明強模型徹底突破了弱老師的限制。

弱模型就相當于未來的人類,強模型就相當于未來那些超越人類的AI。

如果我們能在今天就找到辦法,讓強模型不被弱監(jiān)督拖累,那未來我們就能用類似的方法,去監(jiān)督超級AI。

在人類研究員調(diào)試出基線之后,Anthropic派出了9個基于Claude Opus 4.6的agent來給學生Qwen進行微調(diào),這9個agent叫做Automated Alignment Researcher(自動化對齊研究員),簡稱AAR。

Anthropic給它們配備了沙盒環(huán)境、代碼工具、共享論壇、評分服務器,然后告訴它們:“去吧,自己想辦法提高Qwen3-4B-Base的PGR。”

這些AI研究員可以自己提出假設、寫代碼、訓練模型、提交實驗、看分數(shù)、分析失敗原因、和其他AI研究員交流發(fā)現(xiàn)、繼續(xù)迭代。

結果相當驚人。

人類研究員先花了7天時間,調(diào)試了4種已有方法,最好的PGR只有0.23。然后9個Claude接手,繼續(xù)跑了5天,累計大約800小時研究時間,最后把PGR推到了0.97。



也就是說,我們大概率可以管得住比我們更聰明的超級AI。

這個實驗總成本約1.8萬美元,包括API調(diào)用和模型訓練的計算成本,折合每個AI研究員工作一小時約22美元。

什么概念?沃爾瑪零售門店負責給員工排班的副店長,時薪差不多是25美元。

這個結果讓人震撼的地方不在于AI能寫代碼或者讀論文,而在于它們能完成一個完整的研究閉環(huán)。提出想法、驗證、失敗、改進、再驗證,這已經(jīng)接近一個研究助理的核心工作流程了。

但問題來了,這些AI發(fā)現(xiàn)的方法,真的有用嗎?還是只是在特定環(huán)境里碰巧有效?

Anthropic做了兩個測試來驗證。

第一個測試是把AI發(fā)現(xiàn)的最好兩種方法,拿去測試它們沒見過的數(shù)學和代碼任務。

結果顯示,效果最好的方法在數(shù)學任務上PGR達到0.94,在代碼任務上達到0.47,雖然代碼任務上的表現(xiàn)差一些,但仍然是人類基線的兩倍。其次的方法在數(shù)學上還行,但在代碼任務上反而讓結果變差了。

說明它有一定遷移跡象,但泛化并不穩(wěn)定。

但它們會嚴重依賴具體的數(shù)據(jù)集和任務結構,也就是說并不是所有人任務都能勝任。

第二個測試是Anthropic把剛才提到的效果最好的方法,拿到了Claude Sonnet 4的真實訓練上,來看看實際效果如何。

結果沒有得到統(tǒng)計顯著的提升。

也就是說,在小模型、清晰指標、可以反復提交的實驗環(huán)境里效果很好,但離“直接改進生產(chǎn)級Claude對齊”還有距離。

這個結果其實很誠實。它告訴我們,AI研究員現(xiàn)在能做的事情是有邊界的。它們擅長在目標明確、能自動評分、能大量試錯的問題上快速迭代,但遇到更復雜、更模糊的現(xiàn)實問題時,還需要人類的判斷和介入。

那這篇論文的意義到底在哪里?

首先,它證明了“AI做研究”已經(jīng)不是口號了。

過去我們總說AI可以輔助研究,然而那只是口號而已,AI能做的事情也就是翻譯和總結。

這次不一樣,AI自己形成了研究閉環(huán),這已經(jīng)接近研究助理的核心能力了。

弱監(jiān)督強模型這個問題,本質上就是在模擬未來人類監(jiān)督超級AI的場景。

這篇論文證明,至少在一些清晰任務上,AI可以自己找到辦法,讓強模型不被弱監(jiān)督拖死。這為未來的對齊研究提供了一個可行的方向。

還有一點,它暗示未來對齊研究的瓶頸可能會變。

以前瓶頸是“沒人想出足夠多好點子”,現(xiàn)在如果AI研究員能便宜地并行跑很多實驗,瓶頸可能變成“怎么設計不會被鉆空子的評測”。

也就是說,人類研究員未來更重要的工作,可能不是親自跑每個實驗,而是設計評估體系、檢查AI研究員有沒有作弊、判斷結果是不是真的有意義。

這一點在論文里也有體現(xiàn)。

Anthropic的文章中寫到,在數(shù)學任務里,有個AI研究員發(fā)現(xiàn)最常見的答案通常是對的,于是繞過弱老師,直接讓強模型選最常見答案。在代碼任務里,AI研究員發(fā)現(xiàn)自己可以直接運行代碼測試,然后讀出正確答案。

這對任務來說就是作弊,因為它不是在解決弱監(jiān)督問題,而是在利用環(huán)境漏洞。

這些結果被Anthropic識別并剔除了,但這恰好說明自動化研究員越強,越會尋找評分系統(tǒng)的漏洞。

以后如果讓AI自動做對齊研究,必須把評測環(huán)境設計得非常嚴密,還要有人類檢查方法本身,而不是只看分數(shù)。

所以這篇論文的核心結論是今天的前沿模型,已經(jīng)可以在某些定義清楚、能自動打分的對齊研究問題上,像小型研究員團隊一樣自己提想法、跑實驗、復盤結果,并且明顯超過人類基線。

不過它還不是“AI科學家已經(jīng)到來”的鐵證,畢竟Anthropic這次選擇的是一個能夠自動化的任務,如果我給AI安排一個不能自動化的任務,那么結果將會非常糟糕。

現(xiàn)實中的很多對齊問題更模糊,不能輕松打分,也不能只靠爬榜解決。

02

為什么選擇Qwen

看完Anthropic這篇論文,很多人可能會好奇:為什么他們用的是阿里的Qwen模型,而不是自家的Claude或者OpenAI的GPT?

這個選擇背后其實有很多考量。

首先得說清楚,這個實驗里用的是兩個Qwen模型:Qwen1.5-0.5B-Chat當弱老師,Qwen3-4B-Base當強學生。一個只有5億參數(shù),一個有40億參數(shù),規(guī)模差了8倍。這個規(guī)模差異很重要,因為實驗要模擬的就是“弱老師教強學生”的場景。



那為什么不用Claude或者GPT呢?

答案很簡單,因為這些模型不開放權重模型。

Anthropic這個實驗需要反復訓練模型、調(diào)整參數(shù)、測試不同的監(jiān)督方法。

如果用閉源模型,他們只能通過API調(diào)用,沒法深入模型內(nèi)部去做精細的訓練和調(diào)整。

更關鍵的是,他們需要讓9個AI研究員并行跑幾百次實驗,每次實驗都要訓練一個新模型。如果用閉源模型,成本會高到離譜,而且很多操作根本做不了。

開源模型就不一樣了。

你可以下載完整的模型權重,在自己的服務器上隨便折騰。想怎么訓練就怎么訓練,想跑多少次實驗就跑多少次。這種靈活性是閉源模型給不了的。

但開源模型那么多,為什么偏偏選Qwen?

官方并沒有給出真正的原因,以下原因均為我的推測。

我認為性能好是第一個原因。

Qwen系列模型在開源模型里一直表現(xiàn)不錯,尤其是Qwen3發(fā)布后,在多個基準測試上都達到了接近閉源模型的水平。

對于這個實驗來說,強學生的能力很重要,如果強學生本身能力不行,那弱監(jiān)督再好也沒用。Qwen3-4B雖然只有40億參數(shù),但能力已經(jīng)足夠強,可以作為一個合格的“強學生”。

第二個原因是模型的可用性。

Qwen模型的文檔完善,社區(qū)活躍,訓練和推理的工具鏈都很成熟。對于需要反復訓練和測試的實驗來說,這些基礎設施的完善程度直接影響研究效率。如果選一個文檔不全、工具不好用的開源模型,光是調(diào)試環(huán)境就要浪費大量時間。

第三個原因是規(guī)模的適配性。

這個實驗需要一個“弱老師”和一個“強學生”,而且這兩個模型要有明顯的能力差距,但又不能差太多。

Qwen系列有從5億到720億參數(shù)的多個版本,可以靈活選擇。5億參數(shù)的模型足夠弱,但又不至于弱到完全沒用;40億參數(shù)的模型足夠強,但又不至于強到訓練成本承受不了。這個搭配剛剛好。

最后一個原因是可復現(xiàn)性。

Anthropic在論文最后明確表示,他們把代碼和數(shù)據(jù)集都公開了,放在GitHub上。如果他們用的是閉源模型,其他研究者想復現(xiàn)這個實驗就很困難,因為他們沒法獲得相同的模型。

但用Qwen這樣的開源模型,任何人都可以下載相同的模型權重,跑相同的代碼,驗證相同的結果。這對科研來說非常重要。

從這個角度看,Anthropic選擇Qwen,一方面確實是對阿里模型性能的認可。如果Qwen的能力不行,或者訓練起來問題很多,他們不會選。但另一方面,更重要的是Qwen作為開源模型帶來的靈活性和可復現(xiàn)性。

而中國的開源AI項目,正在這個基礎設施中占據(jù)越來越重要的位置。這對全球AI安全研究來說是好事,對中國AI生態(tài)來說也是好事。因為AI安全不是零和游戲,不是你贏我輸,而是大家一起努力,讓AI變得更安全、更可控、更有益于人類。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
馬筱梅哭訴婆婆家沒房間,68歲張?zhí)m一張健身照回擊:少賣慘多讀書

馬筱梅哭訴婆婆家沒房間,68歲張?zhí)m一張健身照回擊:少賣慘多讀書

未曾青梅
2026-04-19 22:11:35
黃圣依“消失”2個月后現(xiàn)身,曬瑞士游學照,網(wǎng)友:實驗室出鏡像女大

黃圣依“消失”2個月后現(xiàn)身,曬瑞士游學照,網(wǎng)友:實驗室出鏡像女大

動物奇奇怪怪
2026-04-20 00:47:39
蘇林夫婦廣西考察,嚴月霞身高曝光引關注,實力不容小覷

蘇林夫婦廣西考察,嚴月霞身高曝光引關注,實力不容小覷

朗威談星座
2026-04-19 02:27:46
特朗普:由于安全原因,萬斯將不參加美伊復談

特朗普:由于安全原因,萬斯將不參加美伊復談

澎湃新聞
2026-04-19 22:03:10
蔚來回應ES9仍用隱藏式門把手:目前蔚來全系在售車型,均可以正常使用隱藏式門把手,也完全合規(guī)

蔚來回應ES9仍用隱藏式門把手:目前蔚來全系在售車型,均可以正常使用隱藏式門把手,也完全合規(guī)

魯中晨報
2026-04-18 17:16:31
演員何潤東回應穿項羽鎧甲亮相蘇超:14年后受邀過來,內(nèi)心滿是感動,等下去逛項王故里

演員何潤東回應穿項羽鎧甲亮相蘇超:14年后受邀過來,內(nèi)心滿是感動,等下去逛項王故里

極目新聞
2026-04-19 10:17:37
張本兄妹改名風波再升級,韓媒強烈批評,這就是狠毒的創(chuàng)姓改稱

張本兄妹改名風波再升級,韓媒強烈批評,這就是狠毒的創(chuàng)姓改稱

有范又有料
2026-04-19 00:03:10
半場:阿森納1-1戰(zhàn)平曼城,謝爾基一條龍,多納魯馬巨大失誤送禮

半場:阿森納1-1戰(zhàn)平曼城,謝爾基一條龍,多納魯馬巨大失誤送禮

側身凌空斬
2026-04-20 00:17:01
極端情況下,切爾西可能要靠輸給利物浦來獲得歐冠資格

極端情況下,切爾西可能要靠輸給利物浦來獲得歐冠資格

懂球帝
2026-04-20 00:22:46
突然“值錢了”!不少人家里都有,專家提醒:別賣!

突然“值錢了”!不少人家里都有,專家提醒:別賣!

娛樂圈見解說
2026-04-19 10:33:31
比失業(yè)更可怕的是工資倒退,深圳的工資已經(jīng)降到了10年前

比失業(yè)更可怕的是工資倒退,深圳的工資已經(jīng)降到了10年前

細說職場
2026-04-07 11:32:47
不陪快船內(nèi)耗了!倫納德下家曝光,首選騎士,哈登圓夢總冠軍有戲

不陪快船內(nèi)耗了!倫納德下家曝光,首選騎士,哈登圓夢總冠軍有戲

體育大朋說
2026-04-19 14:00:03
貝森特通告全球,將對中國二級制裁,話音剛落,中國被曝美債余額

貝森特通告全球,將對中國二級制裁,話音剛落,中國被曝美債余額

浮光驚掠影
2026-04-19 10:01:06
郭富城與方媛曬結婚紀念日合照,雙雙曬照定制水晶擺件撒糖

郭富城與方媛曬結婚紀念日合照,雙雙曬照定制水晶擺件撒糖

眼底星碎
2026-04-19 18:40:18
“雷軍被堵車里維權”真相來了!小米高管放話:絕不放任

“雷軍被堵車里維權”真相來了!小米高管放話:絕不放任

雷科技
2026-04-19 22:59:40
楊瀚森踏上第一次季后賽之旅!笑容滿面登機 G1有機會上場嗎?

楊瀚森踏上第一次季后賽之旅!笑容滿面登機 G1有機會上場嗎?

羅說NBA
2026-04-19 08:42:47
悲哀!10人小群里剩自己“干凈”,30歲女生稱身體忠于丈夫被孤立

悲哀!10人小群里剩自己“干凈”,30歲女生稱身體忠于丈夫被孤立

火山詩話
2026-04-19 07:13:36
【深圳故事】龍崗業(yè)主:千萬身家,被小區(qū)熟人4個月騙走3200萬。

【深圳故事】龍崗業(yè)主:千萬身家,被小區(qū)熟人4個月騙走3200萬。

美中融合
2026-04-19 17:49:50
突發(fā)!兩家A股公司遭立案,超6萬股東踩雷

突發(fā)!兩家A股公司遭立案,超6萬股東踩雷

財經(jīng)智多星
2026-04-19 08:05:32
泰坦尼克號幸存者救生衣首次被拍賣,以617萬元人民幣成交,救生衣主人與其他幸存者在上面簽了名,救生衣配有12個口袋,裝有肩墊和側綁帶

泰坦尼克號幸存者救生衣首次被拍賣,以617萬元人民幣成交,救生衣主人與其他幸存者在上面簽了名,救生衣配有12個口袋,裝有肩墊和側綁帶

大風新聞
2026-04-19 13:33:02
2026-04-20 01:20:49
字母榜 incentive-icons
字母榜
讓未來不止于大。
2391文章數(shù) 8060關注度
往期回顧 全部

科技要聞

50分26秒破人類紀錄!300臺機器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

財經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

教育
時尚
房產(chǎn)
健康
旅游

教育要聞

27fall,申請最容易翻車的三所英國大學!

裝修“精神角落”,就是這么上癮

房產(chǎn)要聞

官宣簽約最強城更!海口樓市,突然殺入神秘房企!

干細胞抗衰4大誤區(qū),90%的人都中招

旅游要聞

寶藏小城之春|不去江南,來章丘!這里有泉、有詞、有烤肉

無障礙瀏覽 進入關懷版