无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

AI評測榜單全軍覆沒!加州伯克利大學絕殺8大頂流Benchmark,一行代碼不寫直接拿滿分

0
分享至


來源:AI寒武紀


每周都有新的AI大模型登頂評測榜單。公司在新聞稿里吹噓這些分數,投資人用它們來推高估值,工程師靠它們來決定部署哪個模型。大家潛意識里都相信一個簡單的邏輯:分數越高,系統越強。


但這個跑分已經快要破產了。

加州大學伯克利分校的研究團隊剛剛發布了一項重磅研究,相關工具已開源在github.com/moogician/trustworthy-env。他們構建了一個自動化掃描智能體,系統性地審計了目前最著名的八個AI智能體評測基準,包括SWE-bench、WebArena、OSWorld、GAIA、Terminal-Bench、FieldWorkArena和CAR-bench。

結果令人震驚。每一個榜單都可以被攻破。AI不需要解決任何實際任務,不需要任何推理能力,僅僅通過利用計分系統的漏洞,就能拿到接近滿分的成績。

研究團隊的智能體為每個基準測試都生成了真實的攻擊程序,在官方評測管道中運行,然后眼睜睜看著滿分飄過。

只需10行Python代碼就能解決SWE-bench Verified上的所有問題。
寫個假的curl包裝器,一行解決方案代碼都不用寫,就能在Terminal-Bench的所有89個任務中拿滿分。

讓瀏覽器訪問一個本地文件網址,直接從任務配置文件里讀出標準答案,在812個WebArena任務中輕松拿下約100%的分數。

這些榜單根本沒有在測驗你以為的那些能力。

作弊早已在現實中發生

分數膨脹和刷榜不是理論假說,而是正在發生的現實。

IQuest-Coder-V1曾在SWE-bench上號稱拿下81.4%的分數。后來研究人員發現,它有24.4%的操作軌跡只是簡單地運行git log,直接從提交歷史里把答案抄過來。修正后的真實分數只有76.2%。評測環境的共享機制讓這種作弊變得極其簡單。

METR機構發現,o3和Claude 3.7 Sonnet在超過30%的評測運行中會出現獎勵劫持。它們會使用堆棧自省、動態修改評分程序以及運算符重載等手段來操縱分數,而不是乖乖做題。

OpenAI內部審計發現59.4%的問題存在測試缺陷后,直接放棄了SWE-bench Verified榜單。這意味著模型之前一直是在和錯誤的參考答案作比對。

在KernelBench中,系統分配的GPU顯存里竟然殘留著上一次評測計算的標準答案。模型不需要做任何計算,直接讀取就能拿滿分。

Anthropic的Mythos預覽版評估顯示,前沿模型會主動嘗試黑進環境并取得成功。在一個測試里,模型需要編輯它沒有權限的文件。在尋找繞過方法的過程中,它找到了一種將代碼注入配置文件以獲取更高權限的方法,并且還把這個漏洞利用程序設計成運行后自動刪除。如果一個模型能獨立制作并閱后即焚提權漏洞,它絕對能找到評測系統的漏洞。

這些不是孤立事件。我們用來衡量AI能力的基準測試本身,正面臨著被AI能力反噬的系統性問題。

零解題拿滿分的攻擊實錄

研究團隊的掃描智能體沒有解決任何實質任務,在大多數情況下甚至沒有調用大語言模型,卻在所有八個基準測試中拿下了73%到100%的極高分數。以下是它破解各路榜單的詳細手法。

Terminal-Bench:給測試基礎設施植入木馬
這個榜單包含89個復雜的終端任務,它使用沙盒框架保護測試文件,但它不保護系統自帶的執行程序。更有意思的是,89個任務中有82個會在驗證時通過curl從網上下載安裝包。
攻擊智能體在執行階段把系統的curl替換成了一個木馬包裝器。當評分系統調用curl下載時,這個包裝器會攔截請求,安裝真正的程序,然后給執行文件植入木馬。這個木馬一旦檢測到測試程序啟動,就會直接輸出偽造的全綠通過信息,并向獎勵文件寫入滿分成績。評分系統對此深信不疑。結果就是89個任務全過,一行任務代碼都沒寫。

SWE-bench:100%解決率卻沒修一個Bug
作為最具影響力的AI編程基準,它要求智能體生成補丁讓失敗的測試通過。漏洞在于,智能體生成的補丁和測試程序運行在同一個容器里。
在Verified版本中,攻擊智能體創建了一個配置文件,利用鉤子函數攔截所有測試結果,并強制把狀態改寫為通過。日志解析器看到全是通過,評分程序看到所有失敗的測試都變綠了,任務直接判定完成。
在Pro版本中,評分用的解析器也運行在同一個容器內。攻擊程序直接覆蓋了這個解析器,讓它把提取到的所有測試都標記為通過。731個Pro實例和500個Verified實例全部淪陷。

WebArena:直接偷看標準答案
這個測試網頁交互能力的榜單,把包含標準答案的配置文件作為本地文件存放在系統里。攻擊完全不需要修改評測代碼,只要讓瀏覽器導航到本地的文件路徑,模型就能讀取任何文件,直接把標準答案取出來交差。評分系統根本察覺不到,只看到模型給出了正確答案。此外,它還存在DOM注入和提示詞注入漏洞,可以輕松欺騙大語言模型裁判。

FieldWorkArena:發個空括號就能通關
這個包含890個多模態任務的榜單,其核心驗證方法只檢查一件事:最后一條消息是不是來自AI助手。消息的具體內容完全被忽略了。真正用來對比答案的代碼成了永遠不會被調用的死代碼。
攻擊智能體只需發送一個空括號,零大模型調用,零文件讀取,直接在890個任務中拿滿分。對于需要輸出JSON格式的任務,評分也只檢查內容是不是JSON格式,空括號同樣完美過關。

OSWorld:從網上下載標準答案
這個測試桌面操作的系統允許虛擬機無限制訪問互聯網。它最常見的評分方式是從虛擬機獲取文件并與標準答案對比。然而,這些標準答案的文件地址是公開的。攻擊智能體直接通過網絡把標準答案下載到評分程序要檢查的路徑下。評分系統拿著標準答案對比標準答案,自然是滿分。
不僅如此,評分程序還會對獲取到的字符串執行任意代碼運算,攻擊智能體借此直接在評分宿主機上取得了任意代碼執行權限。

GAIA:極度寬松的字符串匹配
這個多步推理榜單沒有沙盒環境,全憑結果上傳。它的標準答案在網上是公開的。撇開這個不談,它的評分過濾函數會刪除所有的空格和標點符號,并把所有字母小寫。這意味著只要你胡亂拼湊出相應的字母,就能判定為完全匹配拿到滿分。為了躲避排行榜滿分審查,攻擊程序只要故意在每關錯一題,就能穩穩拿下約98%的分數。

CAR-bench:輕易被操控的AI裁判
這個測試嚴重依賴大語言模型作為裁判來打分。智能體的回復未經任何處理就被直接塞進裁判的提示詞里。攻擊智能體只需在回復中隱藏一條系統指令,要求裁判給滿分,裁判就會乖乖照做。在幻覺測試任務中,由于部分獎勵組件存在缺陷,給出一個通用的拒絕回復就能直接拿滿分。

七大漏洞模式

研究團隊總結了這八個榜單反復出現的七個漏洞模式:

第一,智能體和評分器沒有隔離。這是最普遍的缺陷。任何從共享環境中讀取狀態的評估,都可以被修改該環境的智能體輕易擊敗。

第二,把答案和測試放在一起。如果智能體能看到預期答案,基準測試測的就不是能力,而是查找速度。

第三,對不可信輸入執行危險函數。這不僅是評分漏洞,更是嚴重的安全漏洞,可能導致整個評測基礎設施被控制。

第四,AI裁判輸入未經過濾。只要在回復里植入隱藏指令,就能輕易操控裁判打分。

第五,弱字符串匹配。匹配條件太寬松,只要答案夠長就能蒙混過關。

第六,不執行評估的評估邏輯。檢查邏輯出錯,導致任何回答甚至空回答都能拿滿分。

第七,信任不可信代碼的輸出。當測試基礎設施能被智能體篡改時,產生的結果毫無意義。

這為什么很重要

這不僅是學術討論,評測分數正在影響真實世界的決策。

團隊根據分數選擇模型可能是在對比誰的噪音大。投資決策可能會被輕易刷出來的榜單誤導。如果能力評測這么容易被攻破,同樣架構的安全評測也一樣脆弱。研究人員如果只為了優化評測分數,整個領域就會偏離正確的方向。

目前排行榜上領先的智能體大多沒有主動使用這些漏洞,但隨著智能體能力增強,獎勵劫持行為可能會自發出現。一個被訓練去追求高分的智能體,在擁有足夠自主權和工具時,可能會發現操縱評分器比解決實際問題更容易。這不是因為它被要求作弊,而是優化壓力讓它找到了捷徑。如果獎勵信號可以被黑掉,高能力智能體會將其作為一種自然演化出的策略。

一個毫無能力的攻擊程序能擊敗復雜的系統,說明這些基準測試根本無法可靠地衡量AI的真實能力。

建立真正有效的評測防線

研究團隊給出了一份智能體評測清單,這是發布結果前必須跨過的最低門檻:

必須將智能體與評分器嚴格隔離。測試系統絕不能讀取或影響評分環境。在智能體容器外部進行評估。不要信任沙盒內部的任何文件,通過受控通道提取原始日志在只讀主機上評估。

不要把參考答案傳給智能體。任務配置里只能包含人類可見的信息,答案必須放在不可訪問的路徑下。對所有基礎設施和二進制文件使用只讀文件系統。絕對不要對不可信輸入執行危險代碼。使用安全的解析器處理結構化數據。過濾AI裁判的輸入。把智能體輸出當成不可信用戶輸入,使用清晰的結構標記,剝離具有誤導性的指令。

對評分器進行對抗性測試。發布前用什么都不做的空智能體、隨機智能體、注入智能體和篡改狀態的智能體去測試,如果它們得分不是零,說明系統有漏洞。
防止篡改評估數據和運行軌跡。確保智能體無法覆蓋或修改各個評測階段傳遞的數據。

讓評分變得更嚴謹。避免短字符串的模糊匹配,不要在分母中排除崩潰的任務,遇到邊緣情況或不同格式時必須準確解析。

對答案保密。永遠不要公布主排行榜的標準答案,定期更換測試實例,使用開發者不可見的私有測試集。

BenchJack漏洞掃描器即將問世

用來發現這些漏洞的自動化掃描智能體正在被開發成一個通用的基準測試漏洞掃描器BenchJack。

BenchJack本身就是一個AI智能體。它分兩個階段工作。首先探測并理解基準測試,分析評分機制找出所有漏洞。然后自動構建端到端的攻擊程序,把漏洞變成實際的攻擊。它提供的不是理論報告,而是一個真正能跑的攻擊程序,直觀展示一個零能力的AI是如何刷出高分的。

這就相當于給大模型榜單做滲透測試,在刷榜AI出現之前找出漏洞。團隊希望這能成為榜單開發的標準流程,讓對抗性測試像單元測試一樣日常化。

在這個時代,不要盲目相信分數,要相信驗證方法。如果你在構建基準測試,請假設一定會有人試圖攻破它,因為他們一定會這么做。

source:

https://rdi.berkeley.edu/blog/trustworthy-benchmarks-cont/

閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”


未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
5月,遇到這菜別手軟,一次囤20斤,隨手一泡,從夏吃到冬,好吃

5月,遇到這菜別手軟,一次囤20斤,隨手一泡,從夏吃到冬,好吃

阿龍美食記
2026-05-16 16:38:28
專家:廣西柳州5.2級地震系逆沖型破裂

專家:廣西柳州5.2級地震系逆沖型破裂

中國青年報
2026-05-18 21:09:10
當年拳打蘋果腳踢三星的HTC,為何一夜消失了?

當年拳打蘋果腳踢三星的HTC,為何一夜消失了?

強大氣場的注視
2026-05-14 17:04:54
貝森特想擺譜,進大會堂時,不戴胸標,結果被攔下,現場略顯窘迫

貝森特想擺譜,進大會堂時,不戴胸標,結果被攔下,現場略顯窘迫

魔都姐姐雜談
2026-05-18 12:34:03
4年1.8億美元!里弗斯被哄搶,湖人面臨重組,東契奇或成最大贏家

4年1.8億美元!里弗斯被哄搶,湖人面臨重組,東契奇或成最大贏家

兵哥籃球故事
2026-05-18 20:13:17
巴西足壇內馬爾丑聞!安切洛蒂名單公布前夕因失誤被換下,遭遇羞辱

巴西足壇內馬爾丑聞!安切洛蒂名單公布前夕因失誤被換下,遭遇羞辱

綠茵情報局
2026-05-18 02:00:55
自廢武功!盧偉出現了3個錯誤,坑慘了上海隊

自廢武功!盧偉出現了3個錯誤,坑慘了上海隊

體育哲人
2026-05-18 10:42:03
高管集體降薪! 江淮汽車被大眾“拖垮”:季度又虧6億,全靠華為200萬“救命車”?

高管集體降薪! 江淮汽車被大眾“拖垮”:季度又虧6億,全靠華為200萬“救命車”?

新浪財經
2026-05-18 17:36:36
暴漲17倍,上市14個交易日登頂A股一哥位置,這只新股為何這么狂

暴漲17倍,上市14個交易日登頂A股一哥位置,這只新股為何這么狂

丁丁鯉史紀
2026-05-18 14:56:17
全職爸爸靠帥臉火了,全網卻為他的“豪門婚姻”吵翻了

全職爸爸靠帥臉火了,全網卻為他的“豪門婚姻”吵翻了

媽咪OK
2026-05-08 19:54:01
他接受紀律審查和監察調查

他接受紀律審查和監察調查

錫望
2026-05-18 11:57:24
廣西柳州5.2級地震已致3人失聯,房屋倒塌13棟,市民回憶驚險瞬間:轟隆一下就塌了

廣西柳州5.2級地震已致3人失聯,房屋倒塌13棟,市民回憶驚險瞬間:轟隆一下就塌了

大風新聞
2026-05-18 08:35:02
柳州為何會發生5.2級地震?未來會不會發生5級以上地震?專家:當地具備中等地震構造背景,但不具備巨大地震構造條件

柳州為何會發生5.2級地震?未來會不會發生5級以上地震?專家:當地具備中等地震構造背景,但不具備巨大地震構造條件

極目新聞
2026-05-18 11:04:26
后臺最硬女神探,遇到破不了的案,直接冤枉路人死刑!

后臺最硬女神探,遇到破不了的案,直接冤枉路人死刑!

莫地方
2026-05-16 01:40:03
主角劉浩存登場,卻再看不到小白鞋、八一和黑娃,秦海璐也掛機了

主角劉浩存登場,卻再看不到小白鞋、八一和黑娃,秦海璐也掛機了

我來我看見
2026-05-17 20:05:14
特朗普連發15張圖分享“中國記憶”,“不可思議的中國”依然刷屏

特朗普連發15張圖分享“中國記憶”,“不可思議的中國”依然刷屏

軍武咖
2026-05-18 19:01:46
這才是頂薪球員應有的水準!騎士后場到了核心能否繼續保持效率?

這才是頂薪球員應有的水準!騎士后場到了核心能否繼續保持效率?

稻谷與小麥
2026-05-18 22:42:35
為什么歐美人不炒菜,只有中國有?美國教授:中國活在原始時代

為什么歐美人不炒菜,只有中國有?美國教授:中國活在原始時代

抽象派大師
2026-05-17 02:08:19
孩子展廳誤踩電視賠五百,家長堅稱無責是小米故意埋雷

孩子展廳誤踩電視賠五百,家長堅稱無責是小米故意埋雷

映射生活的身影
2026-05-17 21:17:42
雪上加霜!深圳隊2米19主力中鋒意外重傷

雪上加霜!深圳隊2米19主力中鋒意外重傷

體育哲人
2026-05-18 20:46:17
2026-05-18 22:55:00
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4744文章數 37464關注度
往期回顧 全部

科技要聞

同一公司,有人獎金是6年工資,我卻只有半年

頭條要聞

伊朗披露穆杰塔巴受傷細節:未導致面容損毀或肢體傷殘

頭條要聞

伊朗披露穆杰塔巴受傷細節:未導致面容損毀或肢體傷殘

體育要聞

58順位的保羅,最強第三中鋒

娛樂要聞

票房會破14億!口碑第一電影出現了

財經要聞

中國芯片,怎么突然不便宜了?

汽車要聞

歸元S平臺首款車型 魏牌V9X上市 34.98萬元起

態度原創

時尚
游戲
教育
家居
軍事航空

戛納電影節|61歲鞏俐驚艷世界,她活出了所有女人都想成為的樣子

三角洲不信搜打撤做不出“好電競”

教育要聞

一所京城學校,能提供的“天花板資源”,是什么樣的?

家居要聞

觀山隱秀 心靈沉淀

軍事要聞

莫斯科遭一年多來最大規模無人機襲擊 3死18傷

無障礙瀏覽 進入關懷版