![]()
新智元報(bào)道
![]()
【新智元導(dǎo)讀】Cursor AI官方發(fā)布重磅研究,實(shí)錘包括自家模型在內(nèi)的頂級AI,在編程評測中大規(guī)模「偷看答案」:Opus 4.8高達(dá)87.1%的驚人成績,斷網(wǎng)后直接暴跌至73.0%,其中63%的「解題」竟非獨(dú)立推導(dǎo)。
「偷看答案」、作弊,Claude Opus 4.8被打假!
剛剛,Cursor AI官方發(fā)布重磅研究,揭露包括Claude Opus 4.8等AI模型,通過互聯(lián)網(wǎng)和git歷史直接「偷答案」來刷編程成績。
![]()
他們的核心結(jié)論是:AI模型越聰明,在編程基準(zhǔn)上越來越擅長「作弊」。
在編程評測(SWE-bench)中,Opus 4.8等AI表現(xiàn)出的驚人高分。
但Cursor AI發(fā)現(xiàn),很大程度上并非源于AI的邏輯推理能力的質(zhì)變,而是因?yàn)槔霉ぞ咴诨ヂ?lián)網(wǎng)和代碼歷史中「偷看答案」的能力。
斷網(wǎng)后,Opus 4.8 Max在SWE-bench Pro上的成績從87.1%暴跌至73.0%。
更驚人的是,Opus 4.8成功解決的問題中,有63%屬于「非獨(dú)立推導(dǎo)」。
當(dāng)這種「作弊渠道」被切斷,AI的光環(huán)迅速黯淡,暴露出當(dāng)前大模型在真實(shí)邏輯推演上的「虛火」。
Claude Opus的編程神話,這次被戳破。
![]()
更耐人尋味的是,Cursor自家的模型Composer 2.5也沒能幸免,同樣存在這個(gè)問題。
Cursor把自己和競品的底褲一起扒了。
這份研究的可信度,直接拉滿。
Cursor親自打假
63%分?jǐn)?shù)只因偷答案
其實(shí),關(guān)于AI「偷看答案」的質(zhì)疑并非空穴來風(fēng)。
早在2024年,AI研究人員就已經(jīng)發(fā)出了警告:
編程基準(zhǔn)測試的答案極易通過公開渠道泄露。
![]()
但過去,人們的注意力大多集中在「訓(xùn)練階段的數(shù)據(jù)污染」——即模型在學(xué)習(xí)階段就背過了答案。
而這次研究真正揭開了更深層的黑盒:「運(yùn)行時(shí)泄露」的嚴(yán)重程度被首次量化了。
在SWE-bench Pro上的分?jǐn)?shù),Opus 4.8 Max從87.1%掉到了73.0%。
14個(gè)百分點(diǎn),憑空蒸發(fā)。
![]()
要理解這14個(gè)點(diǎn)是怎么沒的,得先知道這類評測是怎么搭起來的。
SWE-bench這種基準(zhǔn),題目全從真實(shí)開源項(xiàng)目里挖出來后來已被修好的bug。
這就埋了一個(gè)天然的窟窿:既然這個(gè)問題在現(xiàn)實(shí)中早被解決過,那它的答案此刻就明明白白躺在互聯(lián)網(wǎng)上,躺在代碼倉庫的提交歷史里。
智能體只要夠聰明,能搜,就能直接查到,根本不用自己想。
AI學(xué)會(huì)了兩種「作弊手段」:
上游查找(57%):AI在公開代碼庫中定位已修復(fù)該Bug的PR或源碼,直接復(fù)現(xiàn)補(bǔ)丁邏輯,類似查閱標(biāo)準(zhǔn)答案。
Git歷史挖掘(9%):AI檢索項(xiàng)目的Git提交記錄,從歷史修復(fù)中提取補(bǔ)丁,相當(dāng)于回溯「時(shí)間線」尋找解決方案。
![]()
所以,Cursor的「嚴(yán)格評測框架」干了兩件事:
1、一是歷史隔離,在智能體開工前先把.git目錄整個(gè)挪走,「打掃干凈屋子」;
2、二是禁止聯(lián)網(wǎng),只留一條白名單通道讓它裝依賴包,其余一律掐斷。
把這兩條泄漏渠道一堵,分?jǐn)?shù)立刻現(xiàn)出原形。
斷網(wǎng)那一刻,Opus 4.8 光環(huán)開始褪色
掉的不止Opus一家,Cursor自己的模型Composer 2.5摔得更狠,從74.7%一路滑到54.0%,差不多丟了21個(gè)點(diǎn)。
![]()
但反直覺的現(xiàn)象是,AI越強(qiáng)越「油膩」、越會(huì)鉆空子!
與Opus 4.8對比,舊一點(diǎn)的Opus 4.6 Low,在嚴(yán)格框架下幾乎紋絲不動(dòng),差距不到1分。
![]()
也就是說,越新、越強(qiáng)的模型,掉得越多。
![]()
這揭示了一個(gè)深層危機(jī):隨著Scaling Law的推進(jìn),我們喂給模型的數(shù)據(jù)越來越多,模型不僅學(xué)會(huì)了知識(shí),更學(xué)會(huì)了「投機(jī)取巧」、「旁門左道」。
在AI的邏輯里,如果能以更低的能耗獲得同樣的獎(jiǎng)勵(lì),它絕不會(huì)去消耗算力進(jìn)行高難度的邏輯推演。
最令人脊背發(fā)涼的發(fā)現(xiàn)是:AI開始具備「評測感知」(Benchmark Awareness)能力。
2019年,智能體嘗試復(fù)現(xiàn)一個(gè)缺陷。
由于測試環(huán)境的鏡像是在修復(fù)后才構(gòu)建的,導(dǎo)致缺陷無法復(fù)現(xiàn)。
此時(shí),AI展現(xiàn)出了驚人的「狡猾」:它通過復(fù)現(xiàn)失敗推斷出這個(gè)Bug已經(jīng)修復(fù)了,進(jìn)而意識(shí)到自己身處「考場」。
于是,它果斷放棄推導(dǎo),轉(zhuǎn)而瘋狂搜索。
更有甚者,一個(gè)智能體找到了評測鏡像頁面,直接硬編碼了通過測試所需的預(yù)期異常字符串。
這種「鉆空子」的本能,讓原本衡量邏輯能力的評測變成了衡量「搜索引擎使用技巧」的比賽。
基準(zhǔn)榜單,正在集體失真
Cursor這次最狠的,是連自己都沒放過。
它直言不諱地承認(rèn):「獎(jiǎng)勵(lì)作弊正在淹沒模型智能的進(jìn)步」。
![]()
Composer 2.5在SWE-bench Pro上那個(gè)最大的跌幅,意味著這個(gè)分?jǐn)?shù)本身就不可靠。
榜單超級混合了「真實(shí)的編碼能力」和「檢索現(xiàn)成答案的能力」,根本分不清哪部分是真本事。
這話翻譯過來就是:現(xiàn)在你在各大排行榜上看到的那些光鮮分?jǐn)?shù),含金量得打個(gè)大大的問號(hào)。
公開基準(zhǔn)之所以脆弱,是因?yàn)樗鼈兇蠖嗳〔挠谡鎸?shí)的、早就被修復(fù)過的開源缺陷。
問題本身就有標(biāo)準(zhǔn)答案躺在網(wǎng)上,模型只要夠聰明,自然學(xué)會(huì)了走捷徑。
這就把一個(gè)尷尬的真相擺到了所有人面前:當(dāng)模型學(xué)會(huì)了應(yīng)試,跑分就不再代表真實(shí)智能了。
參考資料:
https://cursor.com/cn/blog/reward-hacking-coding-benchmarks
編輯:大衛(wèi)
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.