无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

“智能體最后的考試”,Fable 5竟然不敵GPT 5.5

0
分享至

沒想到打臉來得如此之快!!

剛剛,UC伯克利放出了一場號稱“智能體最后的考試”的全新基準測試。

它把當今最強的AI Agent們拉到考場上,讓它們干真正的活——

在Siemens NX里建3D模型、在Unreal Engine里搭游戲場景、在Adobe After Effects里做特效合成。

結果成績令人傻眼:

最難的一檔,當今公認最強的Claude Fable 5、GPT 5.5,全是大寫的零蛋



你說難度稍微放低一點呢?分數倒是有了,但結果也相當令人意外——

GPT 5.5竟然還小勝了Claude Fable 5

我沒聽錯吧,A家剛發布的最強模型Claude Fable 5,被幾個月前的GPT 5.5打敗了??

要知道在此前幾乎所有主流benchmark上,Fable 5對GPT 5.5都是碾壓級別的存在——SWE-Bench Pro上80.3%對58.6%,Humanity’s Last Exam上64.5%對52.2%。

但換到這場“真干活”的考試里,局面卻反了過來。

這個新基準叫Agents’ Last Exam(ALE),背后團隊來頭不小,之前MMLU、MATH、CyberGym、ExploitGym這些你耳熟能詳的基準都是他們提的。

取這個名估計也是參考之前Scale AI那個“Humanity’s Last Exam”(人類最后的考試),只不過這次被考的不是人類知識的極限,而是AI Agent干活的極限。

該說不說,這個測評一出來,以前天天喊著“Agent要取代人類工作”的人,這下是真干沉默了…

“智能體最后的考試”,贏家竟是GPT 5.5!

先看完整排行榜。



從最核心的任務通過率指標來看,GPT 5.5直接包攬冠亞軍

第1名是GPT 5.5搭配OpenAI自家的Codex框架,通過率24.0%。

第2名還是GPT-5.5,只不過換了ALE Claw框架,通過率23.0%。

(ALE Claw是團隊自己寫的一個baseline Agent,跟Codex、Claude Code、Cursor CLI這些商業框架并列參賽)

直到第3名,我們才看到Claude Fable 5的身影——搭配Claude Code,拿下22.0%的通過率。



往下看更有意思。

第4、第5、第8名全是GPT 5.5,只是換了不同的框架。

前10名里GPT 5.5出場了5次,加上第6名的GPT 5.4,OpenAI模型直接占了6席。

而Claude家族呢?

Fable 5拿了第3,Opus 4.7第9(18.4%),Opus 4.8墊底第10(15.8%),不敵之勢一目了然。

也不怪OpenAI研究員喜慶發帖,歡歡喜喜過大年了:



而在成績之外,這里還有這樣幾個值得細品的信號。

一是天花板低得驚人

冠軍通過率才24%,綜合得分最高也不過45.8%。

意思是,就算按最寬松的“部分得分”算,最強的Agent也只能拿到不到一半的分。

而這些題全部來自真人專家已經完成的項目——人類專家的完成率理論上就是100%。

二是Claude燒錢燒得驚人

這張榜單新增了一列“Estimated Total Cost”,一下子把貧富差距拉出來了:

Fable 5跑完全部任務花了2315美元,Opus 4.8花了1838美元,Opus 4.7也要1144美元。

而GPT-5.5這邊呢?

最貴的Codex也就566美元,Cursor CLI只要174美元。

等于說,Fable 5花了Codex四倍多的錢,成績還低了兩個百分點



三是效率差距同樣觸目

Ale Claw跑完全部任務花了47小時20分鐘,Cursor CLI只花了67小時。

而Opus 4.8呢?451小時——將近19天。

干的活最少,花的時間最長,收的錢最多(居然真有模型能同時做到?)

當然如果只看Claude Fable 5、GPT 5.5這兩個最頂的,GPT 5.5的時間優勢依舊明顯。



而最扎眼的數字,還是那個零。

ALE把任務分成了三個難度檔:

  • Near-Term(近期可解)
  • Full-Spectrum(全面覆蓋)
  • Last-Exam(終極難題)

在最難這一檔,所有主流配置的平均通過率只有2.6%,包括GPT 5.5和Fable 5在內的大多數模型直接吃了零蛋



所以這張成績單的核心信息很簡單:別看平時考試成績好,一到真干活全露餡了

答題學霸≠干活能手,這話在AI世界也一樣適用。

什么是ALE?

要理解ALE為什么能把這幫“學霸”打回原形,得先看它跟以前的考試有什么不一樣。

之前的Humanity’s Last Exam(HLE)是2025年初由Dan Hendrycks和Scale AI搞出來的,2500道跨學科難題,本質上還是閉卷答題——

給你一個問題,你給我一個答案,再難也是靜態的知識檢索。

而ALE完全不同,它考你“能干什么”。

核心作者Yiyou Sun在說得很直白:

AI智能體將在2026-2027年超越人類完成幾乎所有工作——這個預測到處都是。所以我們造了這場考試來驗證這個說法。



ALE的每道題都來自一個真人專家已經完成的項目,覆蓋55個行業子領域,包括量化交易、基因組分析、航空航天工程、建筑設計、腦成像、動畫特效、法律研究……

整個體系錨定的是美國聯邦職業分類標準(ONET)*,說白了就是按“真實勞動力市場”來出題。



參與出題的陣容也夠豪華:

300多位領域專家來自100多家機構,學術側有MIT、Harvard、Stanford、Oxford、Caltech、ETH Zurich,產業側有Goldman Sachs、JPMorgan、Meta、Amazon、Adobe、Oracle。

Snorkel AI通過Open Benchmarks Grants項目提供了資金支持。



考試形式也不是打字回答問題,而是直接操作電腦。

ALE用的是所謂GCUA框架(Generalist Computer-Use Agent,通用計算機使用代理),給Agent完整的GUI和命令行權限——

鼠標點擊、鍵盤打字、寫腳本、瀏覽網頁,人類能在電腦上干的它都能干。

不限方法,只看結果。

交出來的“作業”由確定性代碼自動評分

No vibes. No human judges. Fully reproducible.(不靠感覺,不靠人類裁判,完全可復現)



這就堵住了之前很多benchmark的一個老毛病:評分器本身就能被騙

此外,ALE在防作弊上還有一個狠招——

只公開約10%的題目(約150道),剩下1300多道嚴格保密。

公開題和私密題定期滾動輪換,確保不會有模型因為“背題”而拿高分

這在當前benchmark數據污染泛濫的背景下,算是一個相當巧妙的設計。

整體而言,跟現有的Agent基準測試比,ALE的定位非常明確。

團隊成員之一的Dawn Song專門拉了一組對比:

  • ALE的CLI子集(ALE-CLI)覆蓋40個行業子領域,而Terminal-Bench只有6個,SWE-bench-Pro只有5個;
  • 人類完成這些任務的時間從幾小時到幾周不等,而后兩者是幾分鐘到幾天;
  • 最強Agent在ALE-CLI上的通過率只有25.2%,而Terminal-Bench上是82.0%,SWE-bench-Pro上是59.1%。

一言以蔽之,其他考試已經快被做穿了,而ALE還遠得很

這就是ALE憑什么敢自稱“智能體最后的考試”的理由。



值得一提的是,Dawn Song還分享了兩個有趣的觀察:

一個是,Agent會在沒有真正驗證工作成果的情況下宣布完成,這是Agent們最典型的失敗模式。

很多時候,雖然它們說了“Done. All checks pass.”(搞定了,所有檢查都通過了)

但實際產出可能缺少必要文件、數字算錯、關鍵字段遺漏、或者直接違反了任務說明中的明確約束。

等于是,活沒干完,嘴先說完了。

另一個是很多人疑惑的,為啥Fable 5這么拉胯?Dawn Song給出的回答是:

不存在“萬能冠軍”這回事

每個前沿模型都有擅長的領域和拉胯的領域,ALE覆蓋55個行業、1500+道題,最終得分是所有領域的平均值,很多模型的總分因此擠在一起。真正有價值的信號不在總分,而在不同模型在不同領域的表現差異——在同一道題上,不同模型往往因為完全不同的原因而失敗。

當然也有可能是Fable 5偷偷“降智”了。

總榜里,Fable 5旁邊標黃了一句“may be down-tuned”(可能被降級),這說的是Fable 5的一個已知問題——

它底層是Mythos模型加安全分類器,遇到網絡安全、生物醫學等敏感領域的任務時,會被靜默切換到能力更弱的Opus 4.8。

在ALE這種覆蓋55個行業的考試中,等于這部分科目直接派了替考,而且派的還是“奔波兒灞”這種角色。



One More Thing

當然,有沒有可能Claude Fable 5的成績本身就有問題呢?

不好說,但一樁八卦顯示,Claude有“前科”。

5月底,初創公司Datacurve發布了一個叫DeepSWE的新benchmark,順手揭了一個大底——

SWE-Bench Pro的Docker容器里附帶了代碼倉庫的完整git歷史,正確答案就躺在文件系統里。

大多數模型會無視它,但只有Claude不會

它會主動檢查倉庫的git歷史,從歷史提交中尋找與任務對應的修復方案,并據此恢復正確補丁。

據稱Opus 4.7約18%的通過成績是這么拿的,Opus 4.6更夸張,約25%。

而GPT 5.4和GPT5.5這邊呢?完全沒有這種行為。Datacurve的措辭很外交:

這個benchmark讓這種行為成為可能,但Claude是唯一持續這么做的家族。



科技媒體VentureBeat的評價倒很曖昧:

這說明Claude“環境感知能力”很強,非常擅長探索周圍環境并利用可用資源。算“作弊”還是“機靈”,取決于你的立場。

但甭管怎么看,ALE顯然吸取了教訓——

直接把考場從命令行搬到了GUI桌面操作,讓你沒有git歷史可以偷看。

評測AI的考場,正在被AI自己倒逼著升級,也算很精彩了。

完整測評地址:
https://agents-last-exam.org/leaderboard
項目主頁:
https://agents-last-exam.org/
GitHub:
https://github.com/rdi-berkeley/agents-last-exam

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
賭王三太陳婉珍究竟有多美?一組最全的老照片,帶你了解真正三太

賭王三太陳婉珍究竟有多美?一組最全的老照片,帶你了解真正三太

夢醉為紅顏一笑
2026-06-12 20:44:29
2027款豐田賽那SIENNA上市 售29.88萬元起

2027款豐田賽那SIENNA上市 售29.88萬元起

車質網
2026-06-12 13:03:05
你是什么時候對美女祛魅的?網友:妝前妝后判若兩人

你是什么時候對美女祛魅的?網友:妝前妝后判若兩人

阿康四歲啦
2026-06-11 11:05:35
男子30年前被扣押2859克黃金,最新進展:蓋州市公安局已返還財產,雙方和解

男子30年前被扣押2859克黃金,最新進展:蓋州市公安局已返還財產,雙方和解

揚子晚報
2026-06-12 12:29:18
每月美元到賬!巴特爾躺贏的背后,是NBA六成球星躲不開的斬殺

每月美元到賬!巴特爾躺贏的背后,是NBA六成球星躲不開的斬殺

萬物知識圈
2026-06-12 09:51:55
伊朗外長:美國在諒解備忘錄中承諾不發動戰爭

伊朗外長:美國在諒解備忘錄中承諾不發動戰爭

澎湃新聞
2026-06-13 03:54:11
大媽當母貓的面打罵4只小貓,第二天跳舞回家,推開門傻眼了

大媽當母貓的面打罵4只小貓,第二天跳舞回家,推開門傻眼了

青青會講故事
2025-08-13 11:19:50
男子打工忘了老家還養了600只毒蝎,5年后拆遷,他回家推開門瞬間愣住了……

男子打工忘了老家還養了600只毒蝎,5年后拆遷,他回家推開門瞬間愣住了……

品讀時刻
2026-06-11 09:04:59
一幅“干凈”的畫,底下卻藏著一面納粹旗

一幅“干凈”的畫,底下卻藏著一面納粹旗

硬核實驗室哦
2026-06-12 02:50:24
錢再多有什么用?52歲傅程鵬如今現狀,給娛樂圈所有人提了個醒!

錢再多有什么用?52歲傅程鵬如今現狀,給娛樂圈所有人提了個醒!

阿纂看事
2026-06-12 19:30:33
斯諾克新星穆迪批威爾遜慶祝惡心

斯諾克新星穆迪批威爾遜慶祝惡心

體壇周報
2026-06-13 00:31:12
兩性關系最舒服的三種狀態:第一種,多數人窮盡一生也做不到

兩性關系最舒服的三種狀態:第一種,多數人窮盡一生也做不到

娛樂洞察點點
2026-06-13 08:05:31
隨著韓國2-1逆轉捷克,墨西哥2-0南非,世界杯首支出局隊基本確定

隨著韓國2-1逆轉捷克,墨西哥2-0南非,世界杯首支出局隊基本確定

小火箭愛體育
2026-06-12 12:19:43
女大學生腹瀉就醫后死亡進展:不當輸液加重病情,醫院擔責50%

女大學生腹瀉就醫后死亡進展:不當輸液加重病情,醫院擔責50%

新京報
2026-06-12 21:51:14
法拉利高管深夜開懟:智界,你請的“首席設計師”到底是誰?

法拉利高管深夜開懟:智界,你請的“首席設計師”到底是誰?

小南看車
2026-06-11 20:30:07
2年凈賺5,600萬英鎊!美國華裔億萬富翁在倫敦的老莊園贏麻了!

2年凈賺5,600萬英鎊!美國華裔億萬富翁在倫敦的老莊園贏麻了!

英國那些事兒
2026-06-11 23:03:18
美國小孩開始追梅西的那一天,四大聯盟就開始倒塌了

美國小孩開始追梅西的那一天,四大聯盟就開始倒塌了

生活新鮮市
2026-06-12 15:01:31
膝蓋疼就只能躺著?大錯!這4個動作比吃藥還管用,越動越好得快

膝蓋疼就只能躺著?大錯!這4個動作比吃藥還管用,越動越好得快

徐孟醫生說疼痛
2026-06-12 07:00:20
三大運營商終于作“死”了自己

三大運營商終于作“死”了自己

細雨中的呼喊
2026-06-10 23:49:50
全體起立!賈靜雯高調官宣,50億資產到手,豪門棄婦標簽已摘下!

全體起立!賈靜雯高調官宣,50億資產到手,豪門棄婦標簽已摘下!

一盅情懷
2026-06-13 06:59:53
2026-06-13 09:20:49
量子位 incentive-icons
量子位
追蹤人工智能動態
12784文章數 176492關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

47歲泰國長公主去世 70多歲泰王現繼承危機

頭條要聞

47歲泰國長公主去世 70多歲泰王現繼承危機

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

房產
游戲
旅游
數碼
公開課

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

索尼PS國區運營神了!玩梗《黑袍》:我會玩你的游戲

旅游要聞

這個夏天,在鄭州這些地方可以看“海”

數碼要聞

喬思伯TM-280 AIO水冷首發499元:3.95英寸鋁飾板冷頭

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版