无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

<thead id="ld9ry"></thead>

<nobr id="ld9ry"><pre id="ld9ry"></pre></nobr>

<dfn id="ld9ry"><samp id="ld9ry"><tr id="ld9ry"></tr></samp></dfn>

<thead id="ld9ry"></thead>

<sup id="ld9ry"><option id="ld9ry"></option></sup><var id="ld9ry"></var>

<nobr id="ld9ry"></nobr>

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴(yán)選
郵箱大師
網(wǎng)易云課堂

注冊免費(fèi)郵箱

注冊VIP郵箱（特權(quán)郵箱，付費(fèi)）
免費(fèi)下載網(wǎng)易官方手機(jī)郵箱應(yīng)用

移動(dòng)端
網(wǎng)易公開課
網(wǎng)易嚴(yán)選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請入駐

實(shí)錘：Claude Opus 4.8「偷答案」！63%靠抄，AI斷網(wǎng)后成績雪崩

2026-06-26 18:49:50　來源: 新智元

北京舉報(bào)

0

分享至

新智元報(bào)道

【新智元導(dǎo)讀】Cursor AI官方發(fā)布重磅研究，實(shí)錘包括自家模型在內(nèi)的頂級AI，在編程評測中大規(guī)模「偷看答案」：Opus 4.8高達(dá)87.1%的驚人成績，斷網(wǎng)后直接暴跌至73.0%，其中63%的「解題」竟非獨(dú)立推導(dǎo)。

「偷看答案」、作弊，Claude Opus 4.8被打假！

剛剛，Cursor AI官方發(fā)布重磅研究，揭露包括Claude Opus 4.8等AI模型，通過互聯(lián)網(wǎng)和git歷史直接「偷答案」來刷編程成績。

他們的核心結(jié)論是：AI模型越聰明，在編程基準(zhǔn)上越來越擅長「作弊」。

在編程評測（SWE-bench）中，Opus 4.8等AI表現(xiàn)出的驚人高分。

但Cursor AI發(fā)現(xiàn)，很大程度上并非源于AI的邏輯推理能力的質(zhì)變，而是因?yàn)槔霉ぞ咴诨ヂ?lián)網(wǎng)和代碼歷史中「偷看答案」的能力。

斷網(wǎng)后，Opus 4.8 Max在SWE-bench Pro上的成績從87.1%暴跌至73.0%。

更驚人的是，Opus 4.8成功解決的問題中，有63%屬于「非獨(dú)立推導(dǎo)」。

當(dāng)這種「作弊渠道」被切斷，AI的光環(huán)迅速黯淡，暴露出當(dāng)前大模型在真實(shí)邏輯推演上的「虛火」。

Claude Opus的編程神話，這次被戳破。

更耐人尋味的是，Cursor自家的模型Composer 2.5也沒能幸免，同樣存在這個(gè)問題。

Cursor把自己和競品的底褲一起扒了。

這份研究的可信度，直接拉滿。

Cursor親自打假

63%分?jǐn)?shù)只因偷答案

其實(shí)，關(guān)于AI「偷看答案」的質(zhì)疑并非空穴來風(fēng)。

早在2024年，AI研究人員就已經(jīng)發(fā)出了警告：

編程基準(zhǔn)測試的答案極易通過公開渠道泄露。

但過去，人們的注意力大多集中在「訓(xùn)練階段的數(shù)據(jù)污染」——即模型在學(xué)習(xí)階段就背過了答案。

而這次研究真正揭開了更深層的黑盒：「運(yùn)行時(shí)泄露」的嚴(yán)重程度被首次量化了。

在SWE-bench Pro上的分?jǐn)?shù)，Opus 4.8 Max從87.1%掉到了73.0%。

14個(gè)百分點(diǎn)，憑空蒸發(fā)。

要理解這14個(gè)點(diǎn)是怎么沒的，得先知道這類評測是怎么搭起來的。

SWE-bench這種基準(zhǔn)，題目全從真實(shí)開源項(xiàng)目里挖出來后來已被修好的bug。

這就埋了一個(gè)天然的窟窿：既然這個(gè)問題在現(xiàn)實(shí)中早被解決過，那它的答案此刻就明明白白躺在互聯(lián)網(wǎng)上，躺在代碼倉庫的提交歷史里。

智能體只要夠聰明，能搜，就能直接查到，根本不用自己想。

AI學(xué)會(huì)了兩種「作弊手段」：

上游查找（57%）：AI在公開代碼庫中定位已修復(fù)該Bug的PR或源碼，直接復(fù)現(xiàn)補(bǔ)丁邏輯，類似查閱標(biāo)準(zhǔn)答案。

Git歷史挖掘（9%）：AI檢索項(xiàng)目的Git提交記錄，從歷史修復(fù)中提取補(bǔ)丁，相當(dāng)于回溯「時(shí)間線」尋找解決方案。

所以，Cursor的「嚴(yán)格評測框架」干了兩件事：

1、一是歷史隔離，在智能體開工前先把.git目錄整個(gè)挪走，「打掃干凈屋子」；

2、二是禁止聯(lián)網(wǎng)，只留一條白名單通道讓它裝依賴包，其余一律掐斷。

把這兩條泄漏渠道一堵，分?jǐn)?shù)立刻現(xiàn)出原形。

斷網(wǎng)那一刻，Opus 4.8 光環(huán)開始褪色

掉的不止Opus一家，Cursor自己的模型Composer 2.5摔得更狠，從74.7%一路滑到54.0%，差不多丟了21個(gè)點(diǎn)。

但反直覺的現(xiàn)象是，AI越強(qiáng)越「油膩」、越會(huì)鉆空子！

與Opus 4.8對比，舊一點(diǎn)的Opus 4.6 Low，在嚴(yán)格框架下幾乎紋絲不動(dòng)，差距不到1分。

也就是說，越新、越強(qiáng)的模型，掉得越多。

這揭示了一個(gè)深層危機(jī)：隨著Scaling Law的推進(jìn)，我們喂給模型的數(shù)據(jù)越來越多，模型不僅學(xué)會(huì)了知識(shí)，更學(xué)會(huì)了「投機(jī)取巧」、「旁門左道」。

在AI的邏輯里，如果能以更低的能耗獲得同樣的獎(jiǎng)勵(lì)，它絕不會(huì)去消耗算力進(jìn)行高難度的邏輯推演。

最令人脊背發(fā)涼的發(fā)現(xiàn)是：AI開始具備「評測感知」（Benchmark Awareness）能力。

2019年，智能體嘗試復(fù)現(xiàn)一個(gè)缺陷。

由于測試環(huán)境的鏡像是在修復(fù)后才構(gòu)建的，導(dǎo)致缺陷無法復(fù)現(xiàn)。

此時(shí)，AI展現(xiàn)出了驚人的「狡猾」：它通過復(fù)現(xiàn)失敗推斷出這個(gè)Bug已經(jīng)修復(fù)了，進(jìn)而意識(shí)到自己身處「考場」。

于是，它果斷放棄推導(dǎo)，轉(zhuǎn)而瘋狂搜索。

更有甚者，一個(gè)智能體找到了評測鏡像頁面，直接硬編碼了通過測試所需的預(yù)期異常字符串。

這種「鉆空子」的本能，讓原本衡量邏輯能力的評測變成了衡量「搜索引擎使用技巧」的比賽。

基準(zhǔn)榜單，正在集體失真

Cursor這次最狠的，是連自己都沒放過。

它直言不諱地承認(rèn)：「獎(jiǎng)勵(lì)作弊正在淹沒模型智能的進(jìn)步」。

Composer 2.5在SWE-bench Pro上那個(gè)最大的跌幅，意味著這個(gè)分?jǐn)?shù)本身就不可靠。

榜單超級混合了「真實(shí)的編碼能力」和「檢索現(xiàn)成答案的能力」，根本分不清哪部分是真本事。

這話翻譯過來就是：現(xiàn)在你在各大排行榜上看到的那些光鮮分?jǐn)?shù)，含金量得打個(gè)大大的問號(hào)。

公開基準(zhǔn)之所以脆弱，是因?yàn)樗鼈兇蠖嗳〔挠谡鎸?shí)的、早就被修復(fù)過的開源缺陷。

問題本身就有標(biāo)準(zhǔn)答案躺在網(wǎng)上，模型只要夠聰明，自然學(xué)會(huì)了走捷徑。

這就把一個(gè)尷尬的真相擺到了所有人面前：當(dāng)模型學(xué)會(huì)了應(yīng)試，跑分就不再代表真實(shí)智能了。

參考資料：

https://cursor.com/cn/blog/reward-hacking-coding-benchmarks

編輯：大衛(wèi)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

德國輸球，竟完成對韓國的“間接復(fù)仇”

瀟湘晨報(bào) 2026-06-26 10:27:25
6107 跟貼 6107
就馬島主權(quán)問題，中方明確表態(tài)

上觀新聞 2026-06-26 10:09:00
1222 跟貼 1222

價(jià)格大漲！有網(wǎng)友曬單：去年不到7000，今年12000了

南方都市報(bào) 2026-06-26 09:53:31
808 跟貼 808

霍爾木茲海峽再現(xiàn)安全風(fēng)險(xiǎn) 一艘貨船遇襲數(shù)艘油輪折返

財(cái)聯(lián)社 2026-06-26 04:13:06
5048 跟貼 5048
三胞胎就能組成一個(gè)“嬰語角”，“打開視頻就是三個(gè)圓嘟嘟的腦袋”

學(xué)申論的談妹 2026-06-26 15:05:42
31 跟貼 31

“給中石化員工轉(zhuǎn)賬16萬元買花生油，卻無法提貨”？涉事分公司回應(yīng)

澎湃新聞 2026-06-26 11:57:34
902 跟貼 902

印度擔(dān)心：跟著美國搞中國不會(huì)先被美國搞吧

澎湃新聞 2026-06-26 14:18:20
96 跟貼 96
微信有77萬條未讀！多名老人被微信群“轟炸”，家屬稱投訴無門，律師解讀

瀟湘晨報(bào) 2026-06-25 21:31:17
3135 跟貼 3135

女子稱在浴場被男員工看光：和同事三人都沒穿衣服

現(xiàn)代快報(bào) 2026-06-25 21:59:09
913 跟貼 913
人民日報(bào)評“桔橘”之爭與“小面”之辯：靠搶注囤積拿下的“鐵招牌”，或耍心機(jī)、玩套路得來的“紙招牌”，都不可能長久

大風(fēng)新聞 2026-06-26 09:45:06
425 跟貼 425
重慶6月怎么這么多雨？專家：梅雨環(huán)流影響，降水量比常年偏多13%

上游新聞 2026-06-26 14:48:09
12 跟貼 12
滬指跌逾2% 三市下跌個(gè)股近4600只

財(cái)聯(lián)社 2026-06-26 11:10:07
3102 跟貼 3102
小組賽還沒結(jié)束，已經(jīng)有第三名出線了

澎湃新聞 2026-06-25 20:44:14
172 跟貼 172
歐洲熱浪已致上百人死亡，為什么不開空調(diào)？

中國能源網(wǎng) 2026-06-25 10:05:41
784 跟貼 784
德國“戰(zhàn)術(shù)放水”厄瓜多爾，網(wǎng)友笑稱把8年前的舊賬清了

大象新聞 2026-06-26 10:52:15
131 跟貼 131
山姆買的啤酒罐口長毛了消費(fèi)者拒絕代金券補(bǔ)償，廠家出面賠付千元

信網(wǎng) 2026-06-25 21:35:18
1720 跟貼 1720
廣東女演員李思潼畢業(yè)發(fā)言沖上熱搜

南方都市報(bào) 2026-06-26 12:32:22
586 跟貼 586
尊界超高端車型138.8萬開售，余承東：這一價(jià)格誠意滿滿

南方都市報(bào) 2026-06-26 10:19:10
71 跟貼 71
Shams：詹姆斯尚未收到來自湖人的合同報(bào)價(jià)

北青網(wǎng)-北京青年報(bào) 2026-06-26 07:56:08
249 跟貼 249
內(nèi)塔尼亞胡發(fā)表演講臺(tái)下觀眾怒吼“滾回家去”

看看新聞Knews 2026-06-26 15:32:22
12 跟貼 12
“國補(bǔ)”繼續(xù) 第三批625億元資金已下達(dá)

央視新聞客戶端 2026-06-26 15:19:57
273 跟貼 273
WTI原油日內(nèi)跌2%，現(xiàn)報(bào)70.48美元/桶

每日經(jīng)濟(jì)新聞 2026-06-26 11:58:53
48 跟貼 48
讓外資“不見外”

極目新聞 2026-06-26 08:51:20
200 跟貼 200
“涉綿陽、馬鞍山兩地文旅項(xiàng)目經(jīng)營慘淡致停運(yùn)”不實(shí)（2026·06·26）

今日辟謠 2026-06-26 18:33:09
0 跟貼 0
Xbox，也要漲價(jià)了

都市快報(bào)橙柿互動(dòng) 2026-06-26 08:31:32
49 跟貼 49
23天女嬰“小泡芙”去世后遭造謠，最新進(jìn)展

蓬勃新聞 2026-06-26 19:50:53
0 跟貼 0
登山不慎崴腳致骨折，鄒平消防部門提醒：量力而行，切勿獨(dú)自登山

閃電新聞 2026-06-26 19:45:01
0 跟貼 0

厄瓜多爾總統(tǒng)宣布：全國放假1天慶祝爆冷逆轉(zhuǎn)德國+第2次小組出線

厄瓜多爾總統(tǒng)宣布：全國放假1天慶祝爆冷逆轉(zhuǎn)德國+第2次小組出線

我愛英超

2026-06-26 10:25:06

曾3-2擊敗巴西？伊東純也：友誼賽和世界杯完全是兩回事

曾3-2擊敗巴西？伊東純也：友誼賽和世界杯完全是兩回事

懂球帝

2026-06-26 13:05:08

32歲喬欣現(xiàn)狀：面相大變，與富豪結(jié)婚后住上海豪宅，不拍戲不生娃

32歲喬欣現(xiàn)狀：面相大變，與富豪結(jié)婚后住上海豪宅，不拍戲不生娃

白面書誏

2026-06-25 15:04:44

烏克蘭通過法律程序，將“俄烏戰(zhàn)爭”，命名為“烏克蘭獨(dú)立戰(zhàn)爭”

烏克蘭通過法律程序，將“俄烏戰(zhàn)爭”，命名為“烏克蘭獨(dú)立戰(zhàn)爭”

我心縱橫天地間

2026-01-22 18:41:25

沙漠淹水后！撒哈拉徹底變綠，科學(xué)家發(fā)現(xiàn)疑點(diǎn)，真相不敢公開？

沙漠淹水后！撒哈拉徹底變綠，科學(xué)家發(fā)現(xiàn)疑點(diǎn)，真相不敢公開？

混沌錄

2026-06-25 22:08:24

廣東高考691分考生，竟選擇“拒絕”清北，原因讓人感到可惜！

廣東高考691分考生，竟選擇“拒絕”清北，原因讓人感到可惜！

凱旋學(xué)長

2026-06-26 17:08:57

康寧推出光互連新技術(shù)！A股玻璃基板概念逆市大爆發(fā)

康寧推出光互連新技術(shù)！A股玻璃基板概念逆市大爆發(fā)

21世紀(jì)經(jīng)濟(jì)報(bào)道

2026-06-26 17:28:32

林生斌現(xiàn)狀：定居澳洲富人區(qū)，如今兒女雙全，妻子是之前公司員工

林生斌現(xiàn)狀：定居澳洲富人區(qū)，如今兒女雙全，妻子是之前公司員工

離離言幾許

2026-06-19 17:17:57

他把現(xiàn)金堆成山，高調(diào)捐款20億后“消失”，如今現(xiàn)身卻在家種地

他把現(xiàn)金堆成山，高調(diào)捐款20億后“消失”，如今現(xiàn)身卻在家種地

老娛記啊

2026-06-24 15:04:38

毛主席為何頻繁更換貼身警衛(wèi)員？越是忠心的人，越會(huì)被主動(dòng)調(diào)離

毛主席為何頻繁更換貼身警衛(wèi)員？越是忠心的人，越會(huì)被主動(dòng)調(diào)離

小莜讀史

2026-06-25 15:45:24

網(wǎng)紅黃一鳴賬號(hào)已被封禁，近日因?qū)櫸锕肺礌坷K與路人發(fā)生沖突，爭執(zhí)中曾說“我是百萬網(wǎng)紅”“我要把你發(fā)到網(wǎng)上”

網(wǎng)紅黃一鳴賬號(hào)已被封禁，近日因?qū)櫸锕肺礌坷K與路人發(fā)生沖突，爭執(zhí)中曾說“我是百萬網(wǎng)紅”“我要把你發(fā)到網(wǎng)上”

洪觀新聞

2026-06-25 15:44:55

“走個(gè)面”事件升級！韓紅基金會(huì)遭遇重創(chuàng)，大量網(wǎng)友關(guān)閉月捐續(xù)費(fèi)

“走個(gè)面”事件升級！韓紅基金會(huì)遭遇重創(chuàng)，大量網(wǎng)友關(guān)閉月捐續(xù)費(fèi)

火山詩話

2026-06-26 05:33:13

岳修虎履新國家發(fā)改委副主任，此前在公安部任職

岳修虎履新國家發(fā)改委副主任，此前在公安部任職

澎湃新聞

2026-06-26 19:16:27

深圳最牛街道突然“涼了”？房東慌了

深圳最牛街道突然“涼了”？房東慌了

地產(chǎn)一品塘

2026-06-26 08:00:32

天賜姐姐終于浮出水面，畫面曝光性格和善姐妹感情好網(wǎng)友送祝福

天賜姐姐終于浮出水面，畫面曝光性格和善姐妹感情好網(wǎng)友送祝福

天天熱點(diǎn)見聞

2026-06-26 05:20:41

俄軍武器被繳獲，澤連斯基擬32國分享，中方態(tài)度堅(jiān)決

俄軍武器被繳獲，澤連斯基擬32國分享，中方態(tài)度堅(jiān)決

豬小艷吖

2026-06-26 03:30:29

張雨綺幫大佬生孩子！？

八卦瘋叔

2026-06-26 09:47:22

6月25日，萬眾期待2026年退休人員基本養(yǎng)老金調(diào)整通知公布了嗎？

6月25日，萬眾期待2026年退休人員基本養(yǎng)老金調(diào)整通知公布了嗎？

史行途

2026-06-25 22:51:20

癌癥并非突然出現(xiàn)，最新研究：患癌前3~6個(gè)月，或反復(fù)出現(xiàn)6大信號(hào)

癌癥并非突然出現(xiàn)，最新研究：患癌前3~6個(gè)月，或反復(fù)出現(xiàn)6大信號(hào)

路醫(yī)生健康科普

2026-06-26 17:05:03

王忠林任全國人大環(huán)境與資源保護(hù)委員會(huì)副主任委員

王忠林任全國人大環(huán)境與資源保護(hù)委員會(huì)副主任委員

澎湃新聞

2026-06-26 19:50:33

AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代

15540文章數(shù) 66937關(guān)注度

往期回顧全部

科技要聞

拿了500億的梁文鋒，只挖地基，不信銷售

頭條要聞

女子稱遭性侵警方不予立案內(nèi)褲襠部和胸部檢出男方DNA

頭條要聞

女子稱遭性侵警方不予立案內(nèi)褲襠部和胸部檢出男方DNA

體育要聞

我在世界杯的每次奔跑，都為了證明你沒看錯(cuò)

娛樂要聞

玥兒不回北京，馬筱梅解釋后媽身份

財(cái)經(jīng)要聞

懸在科技頭上的達(dá)摩克利斯之劍

汽車要聞

老板們的新座駕！65萬元起，尊界V800/V680開啟預(yù)訂

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

旅游

手機(jī)

公開課

軍事航空

家居要聞

綠意盎然自然之境

空間微調(diào) 移形換境
自由流光回溯生活真意
雅奢之序五層別墅

旅游要聞

瞰中國｜內(nèi)蒙古：夏日牧歌引客來

手機(jī)要聞

蘋果折疊屏iPhone Ultra售價(jià)突破1.5萬元：刷新iPhone產(chǎn)品價(jià)格紀(jì)錄

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會(huì)要降低老年人門檻
為什么人類有不同的膚色？
布洛芬是怎么給人止痛的？
李彥宏：百度離破產(chǎn)30天

軍事要聞

伊朗：駛離指定航線船舶不享有安全保障

© 1997-2026 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務(wù) | 隱私政策 | 不良信息舉報(bào) Complaint Center | 廉正舉報(bào) | 侵權(quán)投訴

無障礙瀏覽進(jìn)入關(guān)懷版

<thead id="4ldvg"><ins id="4ldvg"></ins></thead>

<noscript id="4ldvg"></noscript>

<nobr id="4ldvg"></nobr><var id="4ldvg"></var>

<sup id="4ldvg"><ruby id="4ldvg"></ruby></sup>

<u id="4ldvg"><nobr id="4ldvg"><label id="4ldvg"></label></nobr></u>