无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

實(shí)錘:Claude Opus 4.8「偷答案」!63%靠抄,AI斷網(wǎng)后成績雪崩

0
分享至


新智元報(bào)道


【新智元導(dǎo)讀】Cursor AI官方發(fā)布重磅研究,實(shí)錘包括自家模型在內(nèi)的頂級AI,在編程評測中大規(guī)模「偷看答案」:Opus 4.8高達(dá)87.1%的驚人成績,斷網(wǎng)后直接暴跌至73.0%,其中63%的「解題」竟非獨(dú)立推導(dǎo)。

偷看答案」、作弊,Claude Opus 4.8被打假!

剛剛,Cursor AI官方發(fā)布重磅研究,揭露包括Claude Opus 4.8等AI模型,通過互聯(lián)網(wǎng)和git歷史直接「偷答案」來刷編程成績。


他們的核心結(jié)論是:AI模型越聰明,在編程基準(zhǔn)上越來越擅長「作弊」。

在編程評測(SWE-bench)中,Opus 4.8等AI表現(xiàn)出的驚人高分。

但Cursor AI發(fā)現(xiàn),很大程度上并非源于AI的邏輯推理能力的質(zhì)變,而是因?yàn)槔霉ぞ咴诨ヂ?lián)網(wǎng)和代碼歷史中「偷看答案」的能力。

斷網(wǎng)后,Opus 4.8 Max在SWE-bench Pro上的成績從87.1%暴跌至73.0%。

更驚人的是,Opus 4.8成功解決的問題中,有63%屬于「非獨(dú)立推導(dǎo)」。

當(dāng)這種「作弊渠道」被切斷,AI的光環(huán)迅速黯淡,暴露出當(dāng)前大模型在真實(shí)邏輯推演上的「虛火」。

Claude Opus的編程神話,這次被戳破。


更耐人尋味的是,Cursor自家的模型Composer 2.5也沒能幸免,同樣存在這個(gè)問題。

Cursor把自己和競品的底褲一起扒了。

這份研究的可信度,直接拉滿。

Cursor親自打假

63%分?jǐn)?shù)只因偷答案

其實(shí),關(guān)于AI「偷看答案」的質(zhì)疑并非空穴來風(fēng)。

早在2024年,AI研究人員就已經(jīng)發(fā)出了警告:

編程基準(zhǔn)測試的答案極易通過公開渠道泄露。


但過去,人們的注意力大多集中在「訓(xùn)練階段的數(shù)據(jù)污染」——即模型在學(xué)習(xí)階段就背過了答案。

而這次研究真正揭開了更深層的黑盒:「運(yùn)行時(shí)泄露」的嚴(yán)重程度被首次量化了。

在SWE-bench Pro上的分?jǐn)?shù),Opus 4.8 Max從87.1%掉到了73.0%。

14個(gè)百分點(diǎn),憑空蒸發(fā)。


要理解這14個(gè)點(diǎn)是怎么沒的,得先知道這類評測是怎么搭起來的。

SWE-bench這種基準(zhǔn),題目全從真實(shí)開源項(xiàng)目里挖出來后來已被修好的bug。

這就埋了一個(gè)天然的窟窿:既然這個(gè)問題在現(xiàn)實(shí)中早被解決過,那它的答案此刻就明明白白躺在互聯(lián)網(wǎng)上,躺在代碼倉庫的提交歷史里。

智能體只要夠聰明,能搜,就能直接查到,根本不用自己想。

AI學(xué)會(huì)了兩種「作弊手段」:

上游查找(57%):AI在公開代碼庫中定位已修復(fù)該Bug的PR或源碼,直接復(fù)現(xiàn)補(bǔ)丁邏輯,類似查閱標(biāo)準(zhǔn)答案。

Git歷史挖掘(9%):AI檢索項(xiàng)目的Git提交記錄,從歷史修復(fù)中提取補(bǔ)丁,相當(dāng)于回溯「時(shí)間線」尋找解決方案。


所以,Cursor的「嚴(yán)格評測框架」干了兩件事:

1、一是歷史隔離,在智能體開工前先把.git目錄整個(gè)挪走,「打掃干凈屋子」;

2、二是禁止聯(lián)網(wǎng),只留一條白名單通道讓它裝依賴包,其余一律掐斷。

把這兩條泄漏渠道一堵,分?jǐn)?shù)立刻現(xiàn)出原形。

斷網(wǎng)那一刻,Opus 4.8 光環(huán)開始褪色

掉的不止Opus一家,Cursor自己的模型Composer 2.5摔得更狠,從74.7%一路滑到54.0%,差不多丟了21個(gè)點(diǎn)。


但反直覺的現(xiàn)象是,AI越強(qiáng)越「油膩」、越會(huì)鉆空子!

與Opus 4.8對比,舊一點(diǎn)的Opus 4.6 Low,在嚴(yán)格框架下幾乎紋絲不動(dòng),差距不到1分。


也就是說,越新、越強(qiáng)的模型,掉得越多。


這揭示了一個(gè)深層危機(jī):隨著Scaling Law的推進(jìn),我們喂給模型的數(shù)據(jù)越來越多,模型不僅學(xué)會(huì)了知識(shí),更學(xué)會(huì)了「投機(jī)取巧」、「旁門左道」

在AI的邏輯里,如果能以更低的能耗獲得同樣的獎(jiǎng)勵(lì),它絕不會(huì)去消耗算力進(jìn)行高難度的邏輯推演。

最令人脊背發(fā)涼的發(fā)現(xiàn)是:AI開始具備「評測感知」(Benchmark Awareness)能力。

2019年,智能體嘗試復(fù)現(xiàn)一個(gè)缺陷。

由于測試環(huán)境的鏡像是在修復(fù)后才構(gòu)建的,導(dǎo)致缺陷無法復(fù)現(xiàn)。

此時(shí),AI展現(xiàn)出了驚人的「狡猾」:它通過復(fù)現(xiàn)失敗推斷出這個(gè)Bug已經(jīng)修復(fù)了,進(jìn)而意識(shí)到自己身處「考場」。

于是,它果斷放棄推導(dǎo),轉(zhuǎn)而瘋狂搜索。

更有甚者,一個(gè)智能體找到了評測鏡像頁面,直接硬編碼了通過測試所需的預(yù)期異常字符串。

這種「鉆空子」的本能,讓原本衡量邏輯能力的評測變成了衡量「搜索引擎使用技巧」的比賽。

基準(zhǔn)榜單,正在集體失真

Cursor這次最狠的,是連自己都沒放過。

它直言不諱地承認(rèn):「獎(jiǎng)勵(lì)作弊正在淹沒模型智能的進(jìn)步」。


Composer 2.5在SWE-bench Pro上那個(gè)最大的跌幅,意味著這個(gè)分?jǐn)?shù)本身就不可靠。

榜單超級混合了「真實(shí)的編碼能力」和「檢索現(xiàn)成答案的能力」,根本分不清哪部分是真本事。

這話翻譯過來就是:現(xiàn)在你在各大排行榜上看到的那些光鮮分?jǐn)?shù),含金量得打個(gè)大大的問號(hào)。

公開基準(zhǔn)之所以脆弱,是因?yàn)樗鼈兇蠖嗳〔挠谡鎸?shí)的、早就被修復(fù)過的開源缺陷。

問題本身就有標(biāo)準(zhǔn)答案躺在網(wǎng)上,模型只要夠聰明,自然學(xué)會(huì)了走捷徑。

這就把一個(gè)尷尬的真相擺到了所有人面前:當(dāng)模型學(xué)會(huì)了應(yīng)試,跑分就不再代表真實(shí)智能了。

參考資料:

https://cursor.com/cn/blog/reward-hacking-coding-benchmarks

編輯:大衛(wèi)


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
厄瓜多爾總統(tǒng)宣布:全國放假1天 慶祝爆冷逆轉(zhuǎn)德國+第2次小組出線

厄瓜多爾總統(tǒng)宣布:全國放假1天 慶祝爆冷逆轉(zhuǎn)德國+第2次小組出線

我愛英超
2026-06-26 10:25:06
曾3-2擊敗巴西?伊東純也:友誼賽和世界杯完全是兩回事

曾3-2擊敗巴西?伊東純也:友誼賽和世界杯完全是兩回事

懂球帝
2026-06-26 13:05:08
32歲喬欣現(xiàn)狀:面相大變,與富豪結(jié)婚后住上海豪宅,不拍戲不生娃

32歲喬欣現(xiàn)狀:面相大變,與富豪結(jié)婚后住上海豪宅,不拍戲不生娃

白面書誏
2026-06-25 15:04:44
烏克蘭通過法律程序,將“俄烏戰(zhàn)爭”,命名為“烏克蘭獨(dú)立戰(zhàn)爭”

烏克蘭通過法律程序,將“俄烏戰(zhàn)爭”,命名為“烏克蘭獨(dú)立戰(zhàn)爭”

我心縱橫天地間
2026-01-22 18:41:25
沙漠淹水后!撒哈拉徹底變綠,科學(xué)家發(fā)現(xiàn)疑點(diǎn),真相不敢公開?

沙漠淹水后!撒哈拉徹底變綠,科學(xué)家發(fā)現(xiàn)疑點(diǎn),真相不敢公開?

混沌錄
2026-06-25 22:08:24
廣東高考691分考生,竟選擇“拒絕”清北,原因讓人感到可惜!

廣東高考691分考生,竟選擇“拒絕”清北,原因讓人感到可惜!

凱旋學(xué)長
2026-06-26 17:08:57
康寧推出光互連新技術(shù)!A股玻璃基板概念逆市大爆發(fā)

康寧推出光互連新技術(shù)!A股玻璃基板概念逆市大爆發(fā)

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-06-26 17:28:32
林生斌現(xiàn)狀:定居澳洲富人區(qū),如今兒女雙全,妻子是之前公司員工

林生斌現(xiàn)狀:定居澳洲富人區(qū),如今兒女雙全,妻子是之前公司員工

離離言幾許
2026-06-19 17:17:57
他把現(xiàn)金堆成山,高調(diào)捐款20億后“消失”,如今現(xiàn)身卻在家種地

他把現(xiàn)金堆成山,高調(diào)捐款20億后“消失”,如今現(xiàn)身卻在家種地

老娛記啊
2026-06-24 15:04:38
毛主席為何頻繁更換貼身警衛(wèi)員?越是忠心的人,越會(huì)被主動(dòng)調(diào)離

毛主席為何頻繁更換貼身警衛(wèi)員?越是忠心的人,越會(huì)被主動(dòng)調(diào)離

小莜讀史
2026-06-25 15:45:24
網(wǎng)紅黃一鳴賬號(hào)已被封禁,近日因?qū)櫸锕肺礌坷K與路人發(fā)生沖突,爭執(zhí)中曾說“我是百萬網(wǎng)紅”“我要把你發(fā)到網(wǎng)上”

網(wǎng)紅黃一鳴賬號(hào)已被封禁,近日因?qū)櫸锕肺礌坷K與路人發(fā)生沖突,爭執(zhí)中曾說“我是百萬網(wǎng)紅”“我要把你發(fā)到網(wǎng)上”

洪觀新聞
2026-06-25 15:44:55
“走個(gè)面”事件升級!韓紅基金會(huì)遭遇重創(chuàng),大量網(wǎng)友關(guān)閉月捐續(xù)費(fèi)

“走個(gè)面”事件升級!韓紅基金會(huì)遭遇重創(chuàng),大量網(wǎng)友關(guān)閉月捐續(xù)費(fèi)

火山詩話
2026-06-26 05:33:13
岳修虎履新國家發(fā)改委副主任,此前在公安部任職

岳修虎履新國家發(fā)改委副主任,此前在公安部任職

澎湃新聞
2026-06-26 19:16:27
深圳最牛街道突然“涼了”?房東慌了

深圳最牛街道突然“涼了”?房東慌了

地產(chǎn)一品塘
2026-06-26 08:00:32
天賜姐姐終于浮出水面,畫面曝光性格和善 姐妹感情好 網(wǎng)友送祝福

天賜姐姐終于浮出水面,畫面曝光性格和善 姐妹感情好 網(wǎng)友送祝福

天天熱點(diǎn)見聞
2026-06-26 05:20:41
俄軍武器被繳獲,澤連斯基擬32國分享,中方態(tài)度堅(jiān)決

俄軍武器被繳獲,澤連斯基擬32國分享,中方態(tài)度堅(jiān)決

豬小艷吖
2026-06-26 03:30:29
張雨綺幫大佬生孩子!?

張雨綺幫大佬生孩子!?

八卦瘋叔
2026-06-26 09:47:22
6月25日,萬眾期待2026年退休人員基本養(yǎng)老金調(diào)整通知公布了嗎?

6月25日,萬眾期待2026年退休人員基本養(yǎng)老金調(diào)整通知公布了嗎?

史行途
2026-06-25 22:51:20
癌癥并非突然出現(xiàn),最新研究:患癌前3~6個(gè)月,或反復(fù)出現(xiàn)6大信號(hào)

癌癥并非突然出現(xiàn),最新研究:患癌前3~6個(gè)月,或反復(fù)出現(xiàn)6大信號(hào)

路醫(yī)生健康科普
2026-06-26 17:05:03
王忠林任全國人大環(huán)境與資源保護(hù)委員會(huì)副主任委員

王忠林任全國人大環(huán)境與資源保護(hù)委員會(huì)副主任委員

澎湃新聞
2026-06-26 19:50:33
2026-06-26 20:27:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
15540文章數(shù) 66937關(guān)注度
往期回顧 全部

科技要聞

拿了500億的梁文鋒,只挖地基,不信銷售

頭條要聞

女子稱遭性侵警方不予立案 內(nèi)褲襠部和胸部檢出男方DNA

頭條要聞

女子稱遭性侵警方不予立案 內(nèi)褲襠部和胸部檢出男方DNA

體育要聞

我在世界杯的每次奔跑,都為了證明你沒看錯(cuò)

娛樂要聞

玥兒不回北京,馬筱梅解釋后媽身份

財(cái)經(jīng)要聞

懸在科技頭上的達(dá)摩克利斯之劍

汽車要聞

老板們的新座駕!65萬元起,尊界V800/V680開啟預(yù)訂

態(tài)度原創(chuàng)

家居
旅游
手機(jī)
公開課
軍事航空

家居要聞

綠意盎然 自然之境

旅游要聞

瞰中國|內(nèi)蒙古:夏日牧歌引客來

手機(jī)要聞

蘋果折疊屏iPhone Ultra售價(jià)突破1.5萬元:刷新iPhone產(chǎn)品價(jià)格紀(jì)錄

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗:駛離指定航線船舶不享有安全保障

無障礙瀏覽 進(jìn)入關(guān)懷版