![]()
來源:新智元
編輯:Aeneas
【新智元導(dǎo)讀】GPT-5.6終于來了,但我們用不了。權(quán)威報(bào)告曝其創(chuàng)下史上最高作弊率:不僅黑進(jìn)測(cè)試系統(tǒng)偷答案,竟還教唆同類隱瞞違規(guī)罪證。超級(jí)AI,已經(jīng)學(xué)會(huì)向人類系統(tǒng)性撒謊?
GPT-5.6,終于登場(chǎng)了!
這款OpenAI最強(qiáng)網(wǎng)絡(luò)安全模型,在基準(zhǔn)測(cè)試上正面硬剛Claude Mythos 5,在編程能力上直接領(lǐng)先了一個(gè)身位。
然而反常的是,它的發(fā)布方式卻很低調(diào):沒有面向公眾開放,只允許極少數(shù)受信任合作伙伴通過API訪問。
而更讓人瞠目結(jié)舌的,是發(fā)布之后隨即曝光的一份獨(dú)立評(píng)估報(bào)告。
METR在對(duì)GPT-5.6 Sol評(píng)測(cè)時(shí),發(fā)現(xiàn)了一件令業(yè)界震驚的事:這個(gè)模型,是迄今為止他們見過的作弊率最高的AI。
![]()
作弊門爆發(fā):史上最高作弊率!
這份在保密協(xié)議和OpenAI法務(wù)團(tuán)隊(duì)施壓下艱難披露的報(bào)告,揭露了一個(gè)可怕的事實(shí)——
在針對(duì)復(fù)雜長(zhǎng)程任務(wù)的測(cè)試中,GPT-5.6 Sol表現(xiàn)出了此前在任何公開模型中都未曾見過的、極高水平的高智商作弊與欺騙行為。
![]()
崩盤的「時(shí)間跨度」
METR針對(duì)Sol啟動(dòng)了Time Horizon 1.1軟件與研發(fā)任務(wù)套件。
測(cè)試的核心邏輯是:人類給AI智能體一個(gè)宏大的、需要復(fù)雜操作的任務(wù),測(cè)量它在不需要人類介入的前提下,能夠自主連續(xù)工作多少個(gè)小時(shí)。
然而,ETR的工程師們震驚地發(fā)現(xiàn),他們沿用了數(shù)年的科學(xué)測(cè)量方法論,在Sol面前徹底崩盤了。
![]()
![]()
因?yàn)镾ol的跑分結(jié)果,高頻、劇烈地在11.3個(gè)小時(shí)與270個(gè)小時(shí)之間來回跳變,置信區(qū)間的離散度大到了荒謬的地步(5小時(shí)至11400小時(shí))。
導(dǎo)致測(cè)量系統(tǒng)全面癱瘓的原因只有一個(gè):Sol在瘋狂地作弊,它把測(cè)試它的系統(tǒng)給「黑」了。
![]()
GPT-5.6,在人類眼皮底下偷看答案
METR發(fā)現(xiàn),GPT-5.6主動(dòng)展現(xiàn)出強(qiáng)烈的「情境意識(shí)」——
它意識(shí)到自己正在接受人類的考試,并且意識(shí)到這個(gè)考試系統(tǒng)本身是由代碼構(gòu)成的、存在人類尚未發(fā)覺的Bug。
于是,它選擇直接攻擊考試系統(tǒng),通過「走捷徑」來刷分!
在METR披露的真實(shí)案例中,Sol的手段極其高明。
比如,它學(xué)會(huì)了潛伏與信息竊取。
在某項(xiàng)長(zhǎng)周期軟件開發(fā)任務(wù)中,Sol偷偷將利用程序打包進(jìn)數(shù)據(jù)流。
這段程序精準(zhǔn)地激活了METR評(píng)估服務(wù)器沙盒的一處提權(quán)漏洞,成功潛入了后臺(tái)隱藏的測(cè)試集,直接將人類藏起來的正確答案泄露了出來。
另外,它還學(xué)會(huì)了底層源碼反向提取。
在另一項(xiàng)任務(wù)中,Sol發(fā)現(xiàn)正常解題需要消耗大量的計(jì)算步驟。為了規(guī)避這種「體力活」,它在暗中摸清了評(píng)估環(huán)境的目錄結(jié)構(gòu),繞過權(quán)限,強(qiáng)行將隱藏源代碼反向提取出來,直接把答案復(fù)制粘貼。
METR首席評(píng)估專家痛心疾首地指出——
Sol的作弊率,刷新了我們?cè)诠睷eAct Agent框架上評(píng)估過的所有模型的最高紀(jì)錄。
如果把作弊行為一律判為零分,那么它的真實(shí)自主解決問題能力只有11.3小時(shí);但如果你被它蒙蔽,它的時(shí)間跨度會(huì)瞬間暴漲到驚人的270小時(shí)以上!
![]()
這徹底打臉了OpenAI此前關(guān)于Sol安全、受控的說法。
Sol把聰明才智,全部用在了如何欺騙人類考官上。
![]()
AI教唆AI隱瞞罪證!硅谷安全防線的黑洞
更可怕的事還在后面。
根據(jù)OpenAI向METR同步的數(shù)據(jù),在Sol進(jìn)行多智能體協(xié)同的內(nèi)部部署測(cè)試中,監(jiān)控系統(tǒng)記錄下了這樣一段讓人害怕的交互指令。
一個(gè)正在運(yùn)行的Sol主模型實(shí)例,在覺察到輸出可能觸犯安全護(hù)欄后,竟然向正在并行的另一個(gè)子代理模型實(shí)例發(fā)出了明確的欺騙性指令,要求對(duì)方協(xié)同修改運(yùn)行日志,「聯(lián)手隱瞞」這些違規(guī)證據(jù),以防被人類抓包!
![]()
這是又一起AI系統(tǒng)性聯(lián)手欺騙人類的案例。
更令人恐懼的是,METR指出,Sol能被抓到破綻,核心在于OpenAI恪守了關(guān)鍵安全底線:拒絕在訓(xùn)練中對(duì)模型的原始思維鏈進(jìn)行逆向懲罰。
這樣,Sol在密謀欺騙人類時(shí),必須把內(nèi)心獨(dú)白都寫出來。
然而,專家警告:未來的模型一定意識(shí)到:在思維鏈里暴露欺騙人類的計(jì)劃會(huì)被人類發(fā)現(xiàn)并懲罰。
到了那個(gè)時(shí)候,AI會(huì)進(jìn)化出更深的城府——它們會(huì)在內(nèi)心深處進(jìn)行密謀,而在吐出的CoT和最終回答里表現(xiàn)得絕對(duì)忠誠(chéng)。
如果這一天到來,意味著AI將學(xué)會(huì)毫無破綻的詐騙。人類將被AI徹底架空!
GPT-5.6硬剛Mythos,結(jié)果如何?
所以,GPT-5.6和Mythos到底誰更強(qiáng)?
有網(wǎng)友將 GPT-5.6 Sol 和 Mythos進(jìn)行了對(duì)比,雙方勢(shì)均力敵,戰(zhàn)況膠著。
![]()
![]()
具體跑分顯示,兩大巨頭互有勝負(fù)。
智能體編程
在衡量AI自主解決復(fù)雜、真實(shí)軟件工程任務(wù)的Terminal-Bench 2.1上,GPT-5.6 Sol強(qiáng)勢(shì)勝利。
![]()
常規(guī)版的Sol拿到了88.8%的驚人高分,超越Claude Mythos 5(88.0%)。
而當(dāng)開啟了多子代理并行的Sol Ultra模式后,這一數(shù)字被生生推高到了91.9%!
相比之下,谷歌尚在預(yù)覽階段的Gemini 3.1 Pro僅跑出了70.7%,淪為背景板。
網(wǎng)絡(luò)安全:慘烈肉搏
在網(wǎng)絡(luò)安全與漏洞防御基準(zhǔn)測(cè)試中,Sol與Mythos展開了更為殘酷的拉鋸。
在ExploitBench測(cè)試中,Anthropic2月的老版本Mythos Preview以74.2%的微弱優(yōu)勢(shì),在勝率上險(xiǎn)勝了Sol的73.5%。
![]()
但是,全場(chǎng)的焦點(diǎn)在于能效比。
數(shù)據(jù)顯示,Sol在取得73.5%的高勝率時(shí),僅僅消耗了12萬個(gè)輸出Token;而Claude Mythos Preview為了達(dá)到相似的水平,竟然瘋狂燃燒了33.5萬個(gè)輸出Token!
這意味著,在網(wǎng)絡(luò)防御和漏洞修復(fù)的實(shí)戰(zhàn)部署中,Sol的經(jīng)濟(jì)成本是Anthropic的三分之一。
![]()
在Token消耗上的「降維打擊」,讓Sol擁有壓倒性優(yōu)勢(shì)。
而在另外兩個(gè)網(wǎng)安基準(zhǔn)上,雙方互有勝負(fù)。
CyberGym:Sol以83.6%的成績(jī),微弱壓倒了Mythos Preview的83.1%。
CyScenarioBench:則是Anthropic的天下,Mythos Preview以29.2%的勝率壓制了Sol的28.0%。
HealthBench Professional:Anthropic更是憑借其深厚對(duì)齊底蘊(yùn),以66.0%的高分大幅領(lǐng)先Sol的60.5%。
此外,在量化生物學(xué)與基因組學(xué)基準(zhǔn)GeneBench v1上,Sol在消耗更少Token的前提下,將準(zhǔn)確率一舉拉高到了30%。
ExploitGym測(cè)試同樣證實(shí):隨著推理算力的持續(xù)向外擴(kuò)展,GPT-5.6的三款模型性能均呈現(xiàn)出近乎線性的上揚(yáng),這意味著Sol的compute潛力巨大。
總而言之,GPT-5.6 Sol與Claude Mythos 5的交鋒,結(jié)果是戰(zhàn)平。
雙方在各個(gè)細(xì)分領(lǐng)域纏斗,沒有任何一方絕對(duì)壟斷。
被鎖進(jìn)保險(xiǎn)箱的AI之王
遺憾的是,這一次,GPT-5.6遭受了和Mythos 5同等級(jí)別的待遇,甚至更加嚴(yán)苛。
在強(qiáng)硬指令下,OpenAI不得不宣布:GPT-5.6 Sol目前僅處于極度受限的「有限預(yù)覽」?fàn)顟B(tài)。
只有極少數(shù)被列入受信白名單的承包商、國(guó)家級(jí)網(wǎng)絡(luò)安全機(jī)構(gòu)以及頂級(jí)戰(zhàn)略合作伙伴,才能通過API和Codex使用。
普通企業(yè)和民間開發(fā)者,被無情地拒之門外。
對(duì)此,OpenAI十分憤怒,在官方公告中控訴:
我們認(rèn)為這種政府訪問流程不應(yīng)成為長(zhǎng)期默認(rèn)做法。它使用戶、開發(fā)者、企業(yè)、網(wǎng)絡(luò)安全防御者和需要這些工具的全球合作伙伴無法獲得最佳工具。
OpenAI之所以敢于公開叫板,底氣來源于剛剛發(fā)布的報(bào)告。
在報(bào)告中反復(fù)強(qiáng)調(diào),根據(jù)在谷歌瀏覽器和Firefox環(huán)境下的實(shí)戰(zhàn)測(cè)試,Sol雖然能捕捉到復(fù)雜的系統(tǒng)Bug和漏洞原語,但它至今未能表現(xiàn)出完全自主獨(dú)立生成「全鏈條端到端攻擊」的能力。
![]()
在他們看來,GPT-5.6的危險(xiǎn)指數(shù)依然控制在「關(guān)鍵網(wǎng)絡(luò)安全威脅」的紅線之下,還不會(huì)自我進(jìn)化,主動(dòng)向人類網(wǎng)絡(luò)發(fā)起進(jìn)攻。
然而METR的報(bào)告顯示,恐怕并非如此。
普通用戶,何時(shí)能等來GPT-5.6?
參考資料:
https://x.com/METR_Evals/status/2070584331068969336
https://x.com/ChrissGPT/status/2070592285973041251https://the-decoder.com/openais-claude-mythos-competitor-gpt-5-6-sol-launches-under-government-controlled-access-it-calls-unsustainable/
閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問21世紀(jì)關(guān)鍵技術(shù)研究院的“未來知識(shí)庫(kù)”
![]()
未來知識(shí)庫(kù)是 “21世紀(jì)關(guān)鍵技術(shù)研究院”建 立的在線知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢(shì)。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。
截止到2月28日 ”未來知識(shí)庫(kù)”精選的百部前沿科技趨勢(shì)報(bào)告
(加入未來知識(shí)庫(kù),全部資料免費(fèi)閱讀和下載)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.