網易首頁 > 網易號 > 正文申請入駐

“智能體最后的考試”，Fable 5竟然不敵GPT 5.5

2026-06-12 12:10:09　來源: 量子位

河北舉報

分享至

沒想到打臉來得如此之快！！

剛剛，UC伯克利放出了一場號稱“智能體最后的考試”的全新基準測試。

它把當今最強的AI Agent們拉到考場上，讓它們干真正的活——

在Siemens NX里建3D模型、在Unreal Engine里搭游戲場景、在Adobe After Effects里做特效合成。

結果成績令人傻眼：

最難的一檔，當今公認最強的Claude Fable 5、GPT 5.5，全是大寫的零蛋。

你說難度稍微放低一點呢？分數倒是有了，但結果也相當令人意外——

GPT 5.5竟然還小勝了Claude Fable 5。

我沒聽錯吧，A家剛發布的最強模型Claude Fable 5，被幾個月前的GPT 5.5打敗了？？

要知道在此前幾乎所有主流benchmark上，Fable 5對GPT 5.5都是碾壓級別的存在——SWE-Bench Pro上80.3%對58.6%，Humanity’s Last Exam上64.5%對52.2%。

但換到這場“真干活”的考試里，局面卻反了過來。

這個新基準叫Agents’ Last Exam（ALE），背后團隊來頭不小，之前MMLU、MATH、CyberGym、ExploitGym這些你耳熟能詳的基準都是他們提的。

取這個名估計也是參考之前Scale AI那個“Humanity’s Last Exam”（人類最后的考試），只不過這次被考的不是人類知識的極限，而是AI Agent干活的極限。

該說不說，這個測評一出來，以前天天喊著“Agent要取代人類工作”的人，這下是真干沉默了…

“智能體最后的考試”，贏家竟是GPT 5.5！

先看完整排行榜。

從最核心的任務通過率指標來看，GPT 5.5直接包攬冠亞軍：

第1名是GPT 5.5搭配OpenAI自家的Codex框架，通過率24.0%。

第2名還是GPT-5.5，只不過換了ALE Claw框架，通過率23.0%。

（ALE Claw是團隊自己寫的一個baseline Agent，跟Codex、Claude Code、Cursor CLI這些商業框架并列參賽）

直到第3名，我們才看到Claude Fable 5的身影——搭配Claude Code，拿下22.0%的通過率。

往下看更有意思。

第4、第5、第8名全是GPT 5.5，只是換了不同的框架。

前10名里GPT 5.5出場了5次，加上第6名的GPT 5.4，OpenAI模型直接占了6席。

而Claude家族呢？

Fable 5拿了第3，Opus 4.7第9（18.4%），Opus 4.8墊底第10（15.8%），不敵之勢一目了然。

也不怪OpenAI研究員喜慶發帖，歡歡喜喜過大年了：

而在成績之外，這里還有這樣幾個值得細品的信號。

一是天花板低得驚人。

冠軍通過率才24%，綜合得分最高也不過45.8%。

意思是，就算按最寬松的“部分得分”算，最強的Agent也只能拿到不到一半的分。

而這些題全部來自真人專家已經完成的項目——人類專家的完成率理論上就是100%。

二是Claude燒錢燒得驚人。

這張榜單新增了一列“Estimated Total Cost”，一下子把貧富差距拉出來了：

Fable 5跑完全部任務花了2315美元，Opus 4.8花了1838美元，Opus 4.7也要1144美元。

而GPT-5.5這邊呢？

最貴的Codex也就566美元，Cursor CLI只要174美元。

等于說，Fable 5花了Codex四倍多的錢，成績還低了兩個百分點。

三是效率差距同樣觸目。

Ale Claw跑完全部任務花了47小時20分鐘，Cursor CLI只花了67小時。

而Opus 4.8呢？451小時——將近19天。

干的活最少，花的時間最長，收的錢最多（居然真有模型能同時做到？）

當然如果只看Claude Fable 5、GPT 5.5這兩個最頂的，GPT 5.5的時間優勢依舊明顯。

而最扎眼的數字，還是那個零。

ALE把任務分成了三個難度檔：

Near-Term（近期可解）
Full-Spectrum（全面覆蓋）
Last-Exam（終極難題）

在最難這一檔，所有主流配置的平均通過率只有2.6%，包括GPT 5.5和Fable 5在內的大多數模型直接吃了零蛋。

所以這張成績單的核心信息很簡單：別看平時考試成績好，一到真干活全露餡了。

答題學霸≠干活能手，這話在AI世界也一樣適用。

什么是ALE？

要理解ALE為什么能把這幫“學霸”打回原形，得先看它跟以前的考試有什么不一樣。

之前的Humanity’s Last Exam（HLE）是2025年初由Dan Hendrycks和Scale AI搞出來的，2500道跨學科難題，本質上還是閉卷答題——

給你一個問題，你給我一個答案，再難也是靜態的知識檢索。

而ALE完全不同，它考你“能干什么”。

核心作者Yiyou Sun在說得很直白：

AI智能體將在2026-2027年超越人類完成幾乎所有工作——這個預測到處都是。所以我們造了這場考試來驗證這個說法。

ALE的每道題都來自一個真人專家已經完成的項目，覆蓋55個行業子領域，包括量化交易、基因組分析、航空航天工程、建筑設計、腦成像、動畫特效、法律研究……

整個體系錨定的是美國聯邦職業分類標準（ONET）*，說白了就是按“真實勞動力市場”來出題。

參與出題的陣容也夠豪華：

300多位領域專家來自100多家機構，學術側有MIT、Harvard、Stanford、Oxford、Caltech、ETH Zurich，產業側有Goldman Sachs、JPMorgan、Meta、Amazon、Adobe、Oracle。

Snorkel AI通過Open Benchmarks Grants項目提供了資金支持。

考試形式也不是打字回答問題，而是直接操作電腦。

ALE用的是所謂GCUA框架（Generalist Computer-Use Agent，通用計算機使用代理），給Agent完整的GUI和命令行權限——

鼠標點擊、鍵盤打字、寫腳本、瀏覽網頁，人類能在電腦上干的它都能干。

不限方法，只看結果。

交出來的“作業”由確定性代碼自動評分。

No vibes. No human judges. Fully reproducible.（不靠感覺，不靠人類裁判，完全可復現）

這就堵住了之前很多benchmark的一個老毛病：評分器本身就能被騙。

此外，ALE在防作弊上還有一個狠招——

只公開約10%的題目（約150道），剩下1300多道嚴格保密。

公開題和私密題定期滾動輪換，確保不會有模型因為“背題”而拿高分。

這在當前benchmark數據污染泛濫的背景下，算是一個相當巧妙的設計。

整體而言，跟現有的Agent基準測試比，ALE的定位非常明確。

團隊成員之一的Dawn Song專門拉了一組對比：

ALE的CLI子集（ALE-CLI）覆蓋40個行業子領域，而Terminal-Bench只有6個，SWE-bench-Pro只有5個；
人類完成這些任務的時間從幾小時到幾周不等，而后兩者是幾分鐘到幾天；
最強Agent在ALE-CLI上的通過率只有25.2%，而Terminal-Bench上是82.0%，SWE-bench-Pro上是59.1%。

一言以蔽之，其他考試已經快被做穿了，而ALE還遠得很。

這就是ALE憑什么敢自稱“智能體最后的考試”的理由。

值得一提的是，Dawn Song還分享了兩個有趣的觀察：

一個是，Agent會在沒有真正驗證工作成果的情況下宣布完成，這是Agent們最典型的失敗模式。

很多時候，雖然它們說了“Done. All checks pass.”（搞定了，所有檢查都通過了）

但實際產出可能缺少必要文件、數字算錯、關鍵字段遺漏、或者直接違反了任務說明中的明確約束。

等于是，活沒干完，嘴先說完了。

另一個是很多人疑惑的，為啥Fable 5這么拉胯？Dawn Song給出的回答是：

不存在“萬能冠軍”這回事。

每個前沿模型都有擅長的領域和拉胯的領域，ALE覆蓋55個行業、1500+道題，最終得分是所有領域的平均值，很多模型的總分因此擠在一起。真正有價值的信號不在總分，而在不同模型在不同領域的表現差異——在同一道題上，不同模型往往因為完全不同的原因而失敗。

當然也有可能是Fable 5偷偷“降智”了。

總榜里，Fable 5旁邊標黃了一句“may be down-tuned”（可能被降級），這說的是Fable 5的一個已知問題——

它底層是Mythos模型加安全分類器，遇到網絡安全、生物醫學等敏感領域的任務時，會被靜默切換到能力更弱的Opus 4.8。

在ALE這種覆蓋55個行業的考試中，等于這部分科目直接派了替考，而且派的還是“奔波兒灞”這種角色。

One More Thing

當然，有沒有可能Claude Fable 5的成績本身就有問題呢？

不好說，但一樁八卦顯示，Claude有“前科”。

5月底，初創公司Datacurve發布了一個叫DeepSWE的新benchmark，順手揭了一個大底——

SWE-Bench Pro的Docker容器里附帶了代碼倉庫的完整git歷史，正確答案就躺在文件系統里。

大多數模型會無視它，但只有Claude不會。

它會主動檢查倉庫的git歷史，從歷史提交中尋找與任務對應的修復方案，并據此恢復正確補丁。

據稱Opus 4.7約18%的通過成績是這么拿的，Opus 4.6更夸張，約25%。

而GPT 5.4和GPT5.5這邊呢？完全沒有這種行為。Datacurve的措辭很外交：

這個benchmark讓這種行為成為可能，但Claude是唯一持續這么做的家族。

科技媒體VentureBeat的評價倒很曖昧：

這說明Claude“環境感知能力”很強，非常擅長探索周圍環境并利用可用資源。算“作弊”還是“機靈”，取決于你的立場。

但甭管怎么看，ALE顯然吸取了教訓——

直接把考場從命令行搬到了GUI桌面操作，讓你沒有git歷史可以偷看。

評測AI的考場，正在被AI自己倒逼著升級，也算很精彩了。

完整測評地址：
https://agents-last-exam.org/leaderboard
項目主頁：
https://agents-last-exam.org/
GitHub：
https://github.com/rdi-berkeley/agents-last-exam

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

4位AI大牛對話50分鐘！編程是AI勝負手、Claude“神話”模型是自然結果、降token是正確的

智東西 2026-06-12 14:52:40
13 跟貼 13
當Agent大規模落地，IT部門將成為下一個HR部門？

虎嗅APP 2026-06-12 21:00:12
1 跟貼 1

華為HarmonyOS 7開發者測試版正式面世鴻蒙在Agent時代要怎么變？

每日經濟新聞 2026-06-12 19:19:06
3 跟貼 3

2026智源大會：一場技術硬核的AI年度盛會

機器之心Pro 2026-06-12 22:14:15
0 跟貼 0
Transformer解決計算問題？人大團隊指出上限取決于上下文管理

機器之心Pro 2026-06-12 12:58:06
0 跟貼 0

入圍CVPR 2026最佳論文決選，ViT3突破Transformer復雜度瓶頸

機器之心Pro 2026-06-12 17:09:54
0 跟貼 0

微軟不敢給員工用的AI，轉頭賣給你！法務卡住最強Claude

新智元 2026-06-13 00:19:46
0 跟貼 0
OpenAI、Anthropic急了？外媒曝創企轉向中國更便宜開源模型，特定場景成本能降95%

智東西 2026-06-12 23:21:20
7 跟貼 7

別學Claude Code了！OMC五大「臥槽」功能解析：自動化開發軍團來了

鈦媒體APP 2026-04-01 11:09:53
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
Agent輸出到底該用誰？卡帕西轉發：試試讓AI輸出HTML

量子位 2026-05-13 07:19:50
0 跟貼 0
“AI領域最被濫用的術語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
王曉野：Working Agent將是下一個爆發點

量子位 2026-05-21 08:05:51
0 跟貼 0
臺灣省，機車駕照考試現場是這樣的，通過就可以拿駕照

沙雕小分隊 2026-06-12 16:47:11
1 跟貼 1
1.88米的兒子考試沒考好，當他向爸爸匯報成績那一刻，你們都別笑

胡萊克修斯 2026-06-12 03:50:42
0 跟貼 0
高考后24小時，為什么比考試更重要？90%的考生都浪費了

剪狗毛的倩哥 2026-06-11 03:07:54
0 跟貼 0
Kimi最強編程模型來了：Token消耗直降30%，過度思考有救了，附一手實測

智東西 2026-06-13 01:07:25
2 跟貼 2
高考物理比數學難度更大，考生直呼“難爆了”

CQTV新視界 2026-06-08 14:36:15
0 跟貼 0
學霸們沒進去考試？原來是這樣學霸們在外面給自己的同學們加油

大目看點 2026-06-11 08:25:05
89 跟貼 89
考試考砸了，回家后的那點事

星星愛你呀 2026-06-11 16:28:14
1 跟貼 1
國外摩托車駕駛證考試，場面像排兵列陣，小伙車技太高超！

肥熊愛搞笑 2026-06-12 15:09:02
1 跟貼 1
5秒攻破，僅需1次對話：Fable 5最強安全機制被華人團隊破解

機器之心Pro 2026-06-12 17:13:58
0 跟貼 0
剛剛，人類歷史上首位萬億美元富豪誕生！

每日經濟新聞 2026-06-12 22:32:06
3741 跟貼 3741
惡臭!上海一別墅區傳出高頻尖叫,居民不堪其擾

看看新聞Knews 2026-06-12 22:37:03
1172 跟貼 1172
高考，考的不僅僅是分數

環球網資訊 2026-06-12 18:45:15
173 跟貼 173
2026年高考最后一場考試結束，考生們百米沖刺般跑出考場

CQTV探索 2026-06-10 11:28:47
19 跟貼 19
考生終于趕到了英語考試的最后一分鐘，年年都有這樣的學生

給你大肥魚 2026-06-11 15:58:10
1 跟貼 1
秀場天王豬哥亮遇上麻辣天后小S，無腳本互掐堪稱教科書級搞笑

博哥剪輯圈 2026-06-11 00:36:00
0 跟貼 0
財政緊張山西原平仍斥資近億元在偏遠深山建景觀小鎮

上觀新聞 2026-06-13 07:56:33
249 跟貼 249
當女生考試完家人給的驚喜，姐姐：不管考的好不好全家都很愛你們

重慶觀天下 2026-06-10 16:37:38
0 跟貼 0
梁文鋒向左，楊植麟向右

虎嗅APP 2026-06-13 02:52:07
3 跟貼 3
高考最后一場考試結束，學生們開心地沖出校門

每日看點匯 2026-06-12 12:53:00
0 跟貼 0
華中師大“盤龍”K12數學智能體高考數學試題測評獲滿分

極目新聞 2026-06-13 08:19:31
0 跟貼 0
女生拍轉場視頻，前面是考試結束在大巴車上，后面是已經坐上高鐵了

重慶觀資訊 2026-06-12 14:45:15
0 跟貼 0
考試結束鈴聲響起，孩子們歡呼著飛奔出考場，滿是釋然后的輕松與雀躍

南陽日報 2026-06-09 13:47:46
0 跟貼 0
志愿填報Agent：騰訊克制，阿里激進

光子星球 2026-06-12 19:20:56
0 跟貼 0
政治考試僅剩25分鐘極限換答題卡，女生道歉：不鼓勵這樣的行為

星視頻 2026-06-12 16:18:01
0 跟貼 0
我問他要不要穿旗袍去考試，他卻這樣跟我說

開心就好你管我 2026-06-08 14:27:36
0 跟貼 0

量子位

追蹤人工智能動態

12784文章數 176492關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

游戲

旅游

數碼

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

“智能體最后的考試”，Fable 5竟然不敵GPT 5.5

剛剛，人類歷史上首位萬億美元富豪誕生！

47歲泰國長公主去世 70多歲泰王現繼承危機

47歲泰國長公主去世 70多歲泰王現繼承危機

歐洲恐韓？肉德維德？

一天4個瓜，肖戰熱巴最意外

梁文鋒向左，楊植麟向右

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

海南最賺錢行業曝光！最快4年半，海口全款買三房！

索尼PS國區運營神了！玩梗《黑袍》:我會玩你的游戲

這個夏天，在鄭州這些地方可以看“海”

喬思伯TM-280 AIO水冷首發499元：3.95英寸鋁飾板冷頭

標配激光雷達/雙動力可選昊鉑S600限時售17.99萬起