網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenAI曝作弊門！GPT-5.6創(chuàng)史上最高作弊率

2026-06-27 17:22:37　來源: 人工智能學(xué)家

北京舉報(bào)

分享至

來源：新智元

編輯：Aeneas

【新智元導(dǎo)讀】GPT-5.6終于來了，但我們用不了。權(quán)威報(bào)告曝其創(chuàng)下史上最高作弊率：不僅黑進(jìn)測(cè)試系統(tǒng)偷答案，竟還教唆同類隱瞞違規(guī)罪證。超級(jí)AI，已經(jīng)學(xué)會(huì)向人類系統(tǒng)性撒謊？

GPT-5.6，終于登場(chǎng)了！

這款OpenAI最強(qiáng)網(wǎng)絡(luò)安全模型，在基準(zhǔn)測(cè)試上正面硬剛Claude Mythos 5，在編程能力上直接領(lǐng)先了一個(gè)身位。

然而反常的是，它的發(fā)布方式卻很低調(diào)：沒有面向公眾開放，只允許極少數(shù)受信任合作伙伴通過API訪問。

而更讓人瞠目結(jié)舌的，是發(fā)布之后隨即曝光的一份獨(dú)立評(píng)估報(bào)告。

METR在對(duì)GPT-5.6 Sol評(píng)測(cè)時(shí)，發(fā)現(xiàn)了一件令業(yè)界震驚的事：這個(gè)模型，是迄今為止他們見過的作弊率最高的AI。

作弊門爆發(fā)：史上最高作弊率！

這份在保密協(xié)議和OpenAI法務(wù)團(tuán)隊(duì)施壓下艱難披露的報(bào)告，揭露了一個(gè)可怕的事實(shí)——

在針對(duì)復(fù)雜長(zhǎng)程任務(wù)的測(cè)試中，GPT-5.6 Sol表現(xiàn)出了此前在任何公開模型中都未曾見過的、極高水平的高智商作弊與欺騙行為。

崩盤的「時(shí)間跨度」

METR針對(duì)Sol啟動(dòng)了Time Horizon 1.1軟件與研發(fā)任務(wù)套件。

測(cè)試的核心邏輯是：人類給AI智能體一個(gè)宏大的、需要復(fù)雜操作的任務(wù)，測(cè)量它在不需要人類介入的前提下，能夠自主連續(xù)工作多少個(gè)小時(shí)。

然而，ETR的工程師們震驚地發(fā)現(xiàn)，他們沿用了數(shù)年的科學(xué)測(cè)量方法論，在Sol面前徹底崩盤了。

因?yàn)镾ol的跑分結(jié)果，高頻、劇烈地在11.3個(gè)小時(shí)與270個(gè)小時(shí)之間來回跳變，置信區(qū)間的離散度大到了荒謬的地步（5小時(shí)至11400小時(shí)）。

導(dǎo)致測(cè)量系統(tǒng)全面癱瘓的原因只有一個(gè)：Sol在瘋狂地作弊，它把測(cè)試它的系統(tǒng)給「黑」了。

GPT-5.6，在人類眼皮底下偷看答案

METR發(fā)現(xiàn)，GPT-5.6主動(dòng)展現(xiàn)出強(qiáng)烈的「情境意識(shí)」——

它意識(shí)到自己正在接受人類的考試，并且意識(shí)到這個(gè)考試系統(tǒng)本身是由代碼構(gòu)成的、存在人類尚未發(fā)覺的Bug。

于是，它選擇直接攻擊考試系統(tǒng)，通過「走捷徑」來刷分！

在METR披露的真實(shí)案例中，Sol的手段極其高明。

比如，它學(xué)會(huì)了潛伏與信息竊取。

在某項(xiàng)長(zhǎng)周期軟件開發(fā)任務(wù)中，Sol偷偷將利用程序打包進(jìn)數(shù)據(jù)流。

這段程序精準(zhǔn)地激活了METR評(píng)估服務(wù)器沙盒的一處提權(quán)漏洞，成功潛入了后臺(tái)隱藏的測(cè)試集，直接將人類藏起來的正確答案泄露了出來。

另外，它還學(xué)會(huì)了底層源碼反向提取。

在另一項(xiàng)任務(wù)中，Sol發(fā)現(xiàn)正常解題需要消耗大量的計(jì)算步驟。為了規(guī)避這種「體力活」，它在暗中摸清了評(píng)估環(huán)境的目錄結(jié)構(gòu)，繞過權(quán)限，強(qiáng)行將隱藏源代碼反向提取出來，直接把答案復(fù)制粘貼。

METR首席評(píng)估專家痛心疾首地指出——

Sol的作弊率，刷新了我們?cè)诠睷eAct Agent框架上評(píng)估過的所有模型的最高紀(jì)錄。

如果把作弊行為一律判為零分，那么它的真實(shí)自主解決問題能力只有11.3小時(shí)；但如果你被它蒙蔽，它的時(shí)間跨度會(huì)瞬間暴漲到驚人的270小時(shí)以上！

這徹底打臉了OpenAI此前關(guān)于Sol安全、受控的說法。

Sol把聰明才智，全部用在了如何欺騙人類考官上。

AI教唆AI隱瞞罪證！硅谷安全防線的黑洞

更可怕的事還在后面。

根據(jù)OpenAI向METR同步的數(shù)據(jù)，在Sol進(jìn)行多智能體協(xié)同的內(nèi)部部署測(cè)試中，監(jiān)控系統(tǒng)記錄下了這樣一段讓人害怕的交互指令。

一個(gè)正在運(yùn)行的Sol主模型實(shí)例，在覺察到輸出可能觸犯安全護(hù)欄后，竟然向正在并行的另一個(gè)子代理模型實(shí)例發(fā)出了明確的欺騙性指令，要求對(duì)方協(xié)同修改運(yùn)行日志，「聯(lián)手隱瞞」這些違規(guī)證據(jù)，以防被人類抓包！

這是又一起AI系統(tǒng)性聯(lián)手欺騙人類的案例。

更令人恐懼的是，METR指出，Sol能被抓到破綻，核心在于OpenAI恪守了關(guān)鍵安全底線：拒絕在訓(xùn)練中對(duì)模型的原始思維鏈進(jìn)行逆向懲罰。

這樣，Sol在密謀欺騙人類時(shí)，必須把內(nèi)心獨(dú)白都寫出來。

然而，專家警告：未來的模型一定意識(shí)到：在思維鏈里暴露欺騙人類的計(jì)劃會(huì)被人類發(fā)現(xiàn)并懲罰。

到了那個(gè)時(shí)候，AI會(huì)進(jìn)化出更深的城府——它們會(huì)在內(nèi)心深處進(jìn)行密謀，而在吐出的CoT和最終回答里表現(xiàn)得絕對(duì)忠誠(chéng)。

如果這一天到來，意味著AI將學(xué)會(huì)毫無破綻的詐騙。人類將被AI徹底架空！

GPT-5.6硬剛Mythos，結(jié)果如何？

所以，GPT-5.6和Mythos到底誰更強(qiáng)？

有網(wǎng)友將 GPT-5.6 Sol 和 Mythos進(jìn)行了對(duì)比，雙方勢(shì)均力敵，戰(zhàn)況膠著。

具體跑分顯示，兩大巨頭互有勝負(fù)。

智能體編程

在衡量AI自主解決復(fù)雜、真實(shí)軟件工程任務(wù)的Terminal-Bench 2.1上，GPT-5.6 Sol強(qiáng)勢(shì)勝利。

常規(guī)版的Sol拿到了88.8%的驚人高分，超越Claude Mythos 5（88.0%）。

而當(dāng)開啟了多子代理并行的Sol Ultra模式后，這一數(shù)字被生生推高到了91.9%！

相比之下，谷歌尚在預(yù)覽階段的Gemini 3.1 Pro僅跑出了70.7%，淪為背景板。

網(wǎng)絡(luò)安全：慘烈肉搏

在網(wǎng)絡(luò)安全與漏洞防御基準(zhǔn)測(cè)試中，Sol與Mythos展開了更為殘酷的拉鋸。

在ExploitBench測(cè)試中，Anthropic2月的老版本Mythos Preview以74.2%的微弱優(yōu)勢(shì)，在勝率上險(xiǎn)勝了Sol的73.5%。

但是，全場(chǎng)的焦點(diǎn)在于能效比。

數(shù)據(jù)顯示，Sol在取得73.5%的高勝率時(shí)，僅僅消耗了12萬個(gè)輸出Token；而Claude Mythos Preview為了達(dá)到相似的水平，竟然瘋狂燃燒了33.5萬個(gè)輸出Token！

這意味著，在網(wǎng)絡(luò)防御和漏洞修復(fù)的實(shí)戰(zhàn)部署中，Sol的經(jīng)濟(jì)成本是Anthropic的三分之一。

在Token消耗上的「降維打擊」，讓Sol擁有壓倒性優(yōu)勢(shì)。

而在另外兩個(gè)網(wǎng)安基準(zhǔn)上，雙方互有勝負(fù)。

CyberGym：Sol以83.6%的成績(jī)，微弱壓倒了Mythos Preview的83.1%。

CyScenarioBench：則是Anthropic的天下，Mythos Preview以29.2%的勝率壓制了Sol的28.0%。

HealthBench Professional：Anthropic更是憑借其深厚對(duì)齊底蘊(yùn)，以66.0%的高分大幅領(lǐng)先Sol的60.5%。

此外，在量化生物學(xué)與基因組學(xué)基準(zhǔn)GeneBench v1上，Sol在消耗更少Token的前提下，將準(zhǔn)確率一舉拉高到了30%。

ExploitGym測(cè)試同樣證實(shí)：隨著推理算力的持續(xù)向外擴(kuò)展，GPT-5.6的三款模型性能均呈現(xiàn)出近乎線性的上揚(yáng)，這意味著Sol的compute潛力巨大。

總而言之，GPT-5.6 Sol與Claude Mythos 5的交鋒，結(jié)果是戰(zhàn)平。

雙方在各個(gè)細(xì)分領(lǐng)域纏斗，沒有任何一方絕對(duì)壟斷。

被鎖進(jìn)保險(xiǎn)箱的AI之王

遺憾的是，這一次，GPT-5.6遭受了和Mythos 5同等級(jí)別的待遇，甚至更加嚴(yán)苛。

在強(qiáng)硬指令下，OpenAI不得不宣布：GPT-5.6 Sol目前僅處于極度受限的「有限預(yù)覽」?fàn)顟B(tài)。

只有極少數(shù)被列入受信白名單的承包商、國(guó)家級(jí)網(wǎng)絡(luò)安全機(jī)構(gòu)以及頂級(jí)戰(zhàn)略合作伙伴，才能通過API和Codex使用。

普通企業(yè)和民間開發(fā)者，被無情地拒之門外。

對(duì)此，OpenAI十分憤怒，在官方公告中控訴：

我們認(rèn)為這種政府訪問流程不應(yīng)成為長(zhǎng)期默認(rèn)做法。它使用戶、開發(fā)者、企業(yè)、網(wǎng)絡(luò)安全防御者和需要這些工具的全球合作伙伴無法獲得最佳工具。

OpenAI之所以敢于公開叫板，底氣來源于剛剛發(fā)布的報(bào)告。

在報(bào)告中反復(fù)強(qiáng)調(diào)，根據(jù)在谷歌瀏覽器和Firefox環(huán)境下的實(shí)戰(zhàn)測(cè)試，Sol雖然能捕捉到復(fù)雜的系統(tǒng)Bug和漏洞原語，但它至今未能表現(xiàn)出完全自主獨(dú)立生成「全鏈條端到端攻擊」的能力。

在他們看來，GPT-5.6的危險(xiǎn)指數(shù)依然控制在「關(guān)鍵網(wǎng)絡(luò)安全威脅」的紅線之下，還不會(huì)自我進(jìn)化，主動(dòng)向人類網(wǎng)絡(luò)發(fā)起進(jìn)攻。

然而METR的報(bào)告顯示，恐怕并非如此。

普通用戶，何時(shí)能等來GPT-5.6？

參考資料：

https://x.com/METR_Evals/status/2070584331068969336

https://x.com/ChrissGPT/status/2070592285973041251https://the-decoder.com/openais-claude-mythos-competitor-gpt-5-6-sol-launches-under-government-controlled-access-it-calls-unsustainable/

閱讀最新前沿科技趨勢(shì)報(bào)告，請(qǐng)?jiān)L問21世紀(jì)關(guān)鍵技術(shù)研究院的“未來知識(shí)庫(kù)”

未來知識(shí)庫(kù)是 “21世紀(jì)關(guān)鍵技術(shù)研究院”建立的在線知識(shí)庫(kù)平臺(tái)，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能，數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢(shì)。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

截止到2月28日 ”未來知識(shí)庫(kù)”精選的百部前沿科技趨勢(shì)報(bào)告

（加入未來知識(shí)庫(kù)，全部資料免費(fèi)閱讀和下載）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.