網易首頁 > 網易號 > 正文申請入駐

這套題，GPT-5.5、Opus 4.7加起來沒考到1分，人類卻拿了滿分100

2026-05-03 09:22:46　來源: 機器之心Pro

河北舉報

分享至

機器之心編輯部

在大模型「卷生卷死」的今天，大家似乎已經習慣了模型在各大榜單上刷出逼近滿分準確率。然而，在一項名為 ARC-AGI-3 的基準測試中，堪稱當下「最紅炸子雞」的兩款頂尖模型 ——OpenAI 的 GPT-5.5 和 Anthropic 的 Claude Opus 4.7，卻雙雙「折戟」……

近日，ARC Prize 官方發布了針對這兩款頂級模型的詳細分析報告，結果令人震驚：在面對未見過的邏輯任務時，兩者的表現得分均低于 1%，GPT-5.5 得分 0.43%，Claude Opus 4.7 得分 0.18%。

這意味著，即便擁有千億級參數和近乎無限的算力，這些模型在處理「全新邏輯環境」時的表現，甚至不如一個 6 歲的兒童。

這是怎么一回事？

ARC-AGI-3：智能的「真偽試金石」

為了更好理解這一成績，首先我們來了解一下 ARC-AGI-3，這是由 Keras 之父 Fran?ois Chollet 創立的基準測試系列的最新一代，于今年 3 月分布。

Fran?ois Chollet 當時稱，當一個 AI 系統在首次接觸所有環境時，其行動效率能夠達到或超過人類水平，才算真正「攻克」ARC-AGI-3。

而根據團隊進行的大量的人類測試結果來看：在沒有任何先驗訓練、沒有任何說明的情況下，人類在第一次接觸時可以 100% 解決這些環境中難題，與此同時，目前所有前沿的 AI 推理模型在這一測試上的表現都低于 1%。

彼時，OpenAI 的 GPT-5.5 和 Anthropic 的 Claude Opus 4.7 還沒有發布，如今來看，這兩個模型也同樣難逃這一結果。

具體來看，ARC-AGI-3 是由 135 個全新環境組成的測試集，每個環境都由人類手工設計，用來測試模型面對「未知」的能力。

對于測試者來說，無論人類還是 AI，進入環境中將不會獲得任何的玩法說明，要前進，取得進展，必須做到以下幾點：

探索未知界面；
從稀疏反饋中推斷規則（構建世界模型）；
提出并驗證假設；
從錯誤中恢復；
將經驗遷移到下一關（持續學習）。

每個環境的構建都缺乏模型通常依賴的文化知識，只保留「抽象推理能力本身」。

換句話說，可以把 ARC-AGI-3 理解為，一個在「新穎性、模糊性、規劃、適應性」上的最低共同測試集合，而這些，正是現實世界任務對智能體的核心要求。因此，ARC-AGI-3 也被公認為目前最接近「人類智能本質」的測試。

頂尖模型紛紛「敗北」背后的三大失敗模式

此次，GPT-5.5 和 Claude Opus 4.7 的表現得分均低于 1% 的成績固然令人「心痛」，但比起成績，知道背后的失敗原因似乎更重要。

ARC Prize 研究團隊通過分析 160 組完整運行軌跡，包括模型的每一步操作和推理過程，總結出了導致模型「崩潰」的三大核心失敗模式：

一、真實的局部反饋，虛假的世界模型

模型能夠理解哪一步動作產生了變化（局部反饋），但無法將這種因果效應轉化為一套通用的全局規則。

這是一個最為明顯的原因。比如，在一個需要旋轉物體以匹配插槽的任務中，模型能夠識別出「我按下這個鍵，物體可以旋轉」這一局部規律，但它無法將此邏輯上升為全局目標，進一步推理出：「旋轉會影響結果，因此我需要在行動前調整物體方向以匹配目標?！?/p>

換句話說，模型失敗不是因為它們「看不見」，而在于無法把觀察的事物整合成一個完整的世界模型。

比例，Claude Opus 4.7 在運行任務「cd82」時，在第 4 步已經意識到執行「ACTION3」可以旋轉容器，隨后在第 6 步也觀察到執行「ACTION5」可以傾倒或蘸取油漆。然而，它始終無法將這些碎片化的認知轉化為一個完整的邏輯策略，即「先調整桶的方向，然后再蘸取油漆，以還原左上角的目標圖像」。

Claude Opus 4.7 理解 ACTION3 旋轉物體，但未能理解游戲的概念。

或者在任務「cn04」中，Claude Opus 4.7 雖然發現了一個成功的「旋轉后放置」交互邏輯（這是正確的假設，見第 23 步），但隨后卻陷入了追求「整體形狀重疊」的誤區（錯誤假設），并為了追求「頂行進度」的假象而偏離了目標（見第 60 步）。

二、被訓練數據「綁架」的抽象思維

模型對當前環境產生了誤判，由于受到訓練數據的影響，它們會將一個全新的「ARC-AGI-3」任務誤認為是在玩另一種已知的游戲。

這種失敗模式源于模型對訓練數據的「錯誤抽象」，在多次運行中，模型反復嘗試通過將其映射到已知游戲來解釋陌生的機制，這些游戲包括：「俄羅斯方塊」「青蛙過河」「推箱子」「粉末游戲」「填充顏色」「打磚塊」等。

雖然從核心先驗知識中提取抽象概念在理論上有助于解決問題，但這些來自訓練數據的字面類比反而「綁架」了模型的動作選擇，從而演變成：局部視覺相似、導致被誤認為完整的游戲規則、行動方向被帶偏。

比如，在任務「cd82」中，GPT-5.5 的思維被錨定在了流沙、物理模擬或「填充顏色」的游戲機制上；而在任務「ls20」中，它將本應是按鍵組合的邏輯誤判為了「打磚塊」。

三、通關了關卡，卻沒學會規則

模型僥幸通過了某個特定關卡，卻無法利用那個成功的獎勵信號來強化并執行正確的后續操作。這說明，「通關并不等于理解」。

Claude Opus 4.7 的兩次記錄很好地說明了這一點。

在任務「ka59」中，Claude Opus 4.7 用 37 步完成了 Level 1，但它對「點擊」這一操作的理解其實是錯誤的 —— 它認為點擊是在「傳送當前角色」。雖然結果看起來像是一次干凈利落的勝利，但本質上只是對底層機制的誤讀，恰好碰上了一個比較寬容的關卡。

因此，當進入 Level 2，需要真正的機制（形狀匹配與推動）時，Opus 將這種錯誤理解進一步固化為「點擊每個目標來填充它」，結果可想而知，整個過程徹底偏離、崩潰，且無法恢復。

Opus 4.7 正在運行任務「ka59」，陷入了「盲目點擊（Click-fishing）」的死循環，游戲得分：2.04%。

在「ar25」任務中也是如此。Opus 在 Level 1 通過對「鏡像移動」的正確解讀成功通關（見第 4 步）；隨后在 Level 2，它實際上已經發現了新的「可移動軸」機制（見第 227 步），但緊接著它又陷入了幻覺，開始臆想出諸如「打孔」或「需要翻轉」等并不存在的規則。

在這兩種情況下，Level 1 的成功掩蓋了模型對底層機制的缺失或扭曲，這種「局部勝利」反而為錯誤的 Level 2 策略提供了一個看似自信的支撐框架。

這也說明，早期關卡的推進并不能可靠反映模型是否真正理解了任務。如果沒有明確檢驗模型「為什么能過關」，它就會把錯誤的認知帶入下一關，并在此基礎上不斷放大偏差。

GPT-5.5 vs Opus 4.7：不同的「翻車」姿勢

有意思的是，雖然 GPT-5.5 和 Opus 4.7 的得分成績都不盡如人意，但研究團隊通過對比兩者的運行記錄發現，它們的失敗方式完全不同。

簡單來說就是，Claude Opus 4.7 的問題是「壓縮錯了」，而 GPT-5.5 的問題則在于「壓縮不了」。

具體來看，Opus 4.7 在短周期的機制發現方面表現更強。例如在任務「ar25」中，它幾乎立刻識別出鏡像結構，并順利通過 Level 1；在任務「ka59」中，即便世界模型并不完整，它也能讀出「雙角色、雙目標」的布局，并完成較短的 Level 1 操作序列。

但問題在于，它也更容易抓住一個錯誤的「恒定特征」，并堅定執行下去。

比如在任務「cn04」中，它構建了一套「進度 / 計時 / 轉換」的錯誤理論，并在這一假設下不斷嘗試操作（第 60 步）。它確實形成了一套「可運行的解釋」，只是這套解釋是錯的。

GPT-5.5 則是另一個極端。它的「假設生成」更廣泛，這使得它更有可能說出正確的思路，但同時也更難將其轉化為具體行動。

比如在任務「ar25」中，它識別出了鏡像效應，但不斷重新打開「可能的游戲類型空間」，在「俄羅斯方塊」「青蛙過河」「乒乓球」「漢諾塔」之間反復橫跳，始終無法堅定地執行鏡像邏輯。而在任務「ka59」中，它也構建出了正確的對象結構 —— 兩個目標輪廓和一個可切換的第二角色 —— 但始終沒有真正執行這一理解。

換句話說，Claude Opus 4.7 有點像「過度自信的直覺主義者」，GPT-5.5 則像「思維發散的理論家」。

而歸根結底，兩者之間的這種差異在于「壓縮」能力的區別：Claude Opus 4.7 將觀察壓縮成了一個「自信但錯誤」的理論，而 GPT-5.5 則幾乎無法完成壓縮，始終停留在分散的可能性之中。

不得不說，此次 Claude Opus 4.7 和 GPT-5.5 雙雙在 ARC-AGI-3，這一堪稱目前最接近「人類智能本質」的測試上的低分表現，揭示了一個事實：AGI 之路「道阻且長」啊。

你呢，如何看待 AI 的這一成績？歡迎在評論區留言、交流！

https://x.com/fchollet/status/2050328852107612559

https://arcprize.org/blog/arc-agi-3-gpt-5-5-opus-4-7-analysis

https://x.com/GregKamradt/status/2050262126120632554

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.