網易首頁 > 網易號 > 正文 申請入駐

這套題,GPT-5.5、Opus 4.7加起來沒考到1分,人類卻拿了滿分100

0
分享至



機器之心編輯部

在大模型「卷生卷死」的今天,大家似乎已經習慣了模型在各大榜單上刷出逼近滿分準確率。然而,在一項名為 ARC-AGI-3 的基準測試中,堪稱當下「最紅炸子雞」的兩款頂尖模型 ——OpenAI 的 GPT-5.5 和 Anthropic 的 Claude Opus 4.7,卻雙雙「折戟」……

近日,ARC Prize 官方發布了針對這兩款頂級模型的詳細分析報告,結果令人震驚:在面對未見過的邏輯任務時,兩者的表現得分均低于 1%,GPT-5.5 得分 0.43%,Claude Opus 4.7 得分 0.18%。



這意味著,即便擁有千億級參數和近乎無限的算力,這些模型在處理「全新邏輯環境」時的表現,甚至不如一個 6 歲的兒童。

這是怎么一回事?

ARC-AGI-3:智能的「真偽試金石」

為了更好理解這一成績,首先我們來了解一下 ARC-AGI-3,這是由 Keras 之父 Fran?ois Chollet 創立的基準測試系列的最新一代,于今年 3 月分布。

Fran?ois Chollet 當時稱,當一個 AI 系統在首次接觸所有環境時,其行動效率能夠達到或超過人類水平,才算真正「攻克」ARC-AGI-3。

而根據團隊進行的大量的人類測試結果來看:在沒有任何先驗訓練、沒有任何說明的情況下,人類在第一次接觸時可以 100% 解決這些環境中難題,與此同時,目前所有前沿的 AI 推理模型在這一測試上的表現都低于 1%。



彼時,OpenAI 的 GPT-5.5 和 Anthropic 的 Claude Opus 4.7 還沒有發布,如今來看,這兩個模型也同樣難逃這一結果。

具體來看,ARC-AGI-3 是由 135 個全新環境組成的測試集,每個環境都由人類手工設計,用來測試模型面對「未知」的能力。

對于測試者來說,無論人類還是 AI,進入環境中將不會獲得任何的玩法說明,要前進,取得進展,必須做到以下幾點:

  • 探索未知界面 ;
  • 從稀疏反饋中推斷規則(構建世界模型) ;
  • 提出并驗證假設 ;
  • 從錯誤中恢復 ;
  • 將經驗遷移到下一關(持續學習)。

每個環境的構建都缺乏模型通常依賴的文化知識,只保留「抽象推理能力本身」。

換句話說,可以把 ARC-AGI-3 理解為,一個在「新穎性、模糊性、規劃、適應性」上的最低共同測試集合,而這些,正是現實世界任務對智能體的核心要求。因此,ARC-AGI-3 也被公認為目前最接近「人類智能本質」的測試。

頂尖模型紛紛「敗北」背后的三大失敗模式

此次,GPT-5.5 和 Claude Opus 4.7 的表現得分均低于 1% 的成績固然令人「心痛」,但比起成績,知道背后的失敗原因似乎更重要。

ARC Prize 研究團隊通過分析 160 組完整運行軌跡,包括模型的每一步操作和推理過程,總結出了導致模型「崩潰」的三大核心失敗模式:

一、真實的局部反饋,虛假的世界模型

模型能夠理解哪一步動作產生了變化(局部反饋),但無法將這種因果效應轉化為一套通用的全局規則。

這是一個最為明顯的原因。比如,在一個需要旋轉物體以匹配插槽的任務中,模型能夠識別出「我按下這個鍵,物體可以旋轉」這一局部規律,但它無法將此邏輯上升為全局目標,進一步推理出:「旋轉會影響結果,因此我需要在行動前調整物體方向以匹配目標?!?/p>

換句話說,模型失敗不是因為它們「看不見」,而在于無法把觀察的事物整合成一個完整的世界模型。

比例,Claude Opus 4.7 在運行任務 「cd82」 時,在第 4 步已經意識到執行 「ACTION3」 可以旋轉容器,隨后在第 6 步也觀察到執行 「ACTION5」 可以傾倒或蘸取油漆。然而,它始終無法將這些碎片化的認知轉化為一個完整的邏輯策略,即「先調整桶的方向,然后再蘸取油漆,以還原左上角的目標圖像」。



Claude Opus 4.7 理解 ACTION3 旋轉物體,但未能理解游戲的概念。

或者在任務 「cn04」 中,Claude Opus 4.7 雖然發現了一個成功的「旋轉后放置」交互邏輯(這是正確的假設,見第 23 步),但隨后卻陷入了追求「整體形狀重疊」的誤區(錯誤假設),并為了追求「頂行進度」的假象而偏離了目標(見第 60 步)。



二、被訓練數據「綁架」的抽象思維

模型對當前環境產生了誤判,由于受到訓練數據的影響,它們會將一個全新的「ARC-AGI-3」任務誤認為是在玩另一種已知的游戲。

這種失敗模式源于模型對訓練數據的「錯誤抽象」,在多次運行中,模型反復嘗試通過將其映射到已知游戲來解釋陌生的機制,這些游戲包括:「俄羅斯方塊」「青蛙過河」「推箱子」「粉末游戲」「填充顏色」「打磚塊」等。

雖然從核心先驗知識中提取抽象概念在理論上有助于解決問題,但這些來自訓練數據的字面類比反而「綁架」了模型的動作選擇,從而演變成:局部視覺相似、導致被誤認為完整的游戲規則、行動方向被帶偏。

比如,在任務 「cd82」 中,GPT-5.5 的思維被錨定在了流沙、物理模擬或 「填充顏色」的游戲機制上;而在任務 「ls20」 中,它將本應是按鍵組合的邏輯誤判為了「打磚塊」。



三、通關了關卡,卻沒學會規則

模型僥幸通過了某個特定關卡,卻無法利用那個成功的獎勵信號來強化并執行正確的后續操作。這說明,「通關并不等于理解」。

Claude Opus 4.7 的兩次記錄很好地說明了這一點。

在任務「ka59」中,Claude Opus 4.7 用 37 步完成了 Level 1,但它對「點擊」這一操作的理解其實是錯誤的 —— 它認為點擊是在「傳送當前角色」。雖然結果看起來像是一次干凈利落的勝利,但本質上只是對底層機制的誤讀,恰好碰上了一個比較寬容的關卡。

因此,當進入 Level 2,需要真正的機制(形狀匹配與推動)時,Opus 將這種錯誤理解進一步固化為「點擊每個目標來填充它」,結果可想而知,整個過程徹底偏離、崩潰,且無法恢復。



Opus 4.7 正在運行任務 「ka59」,陷入了「盲目點擊(Click-fishing)」的死循環,游戲得分:2.04%。

在「ar25」任務中也是如此。Opus 在 Level 1 通過對「鏡像移動」的正確解讀成功通關(見第 4 步);隨后在 Level 2,它實際上已經發現了新的「可移動軸」機制(見第 227 步),但緊接著它又陷入了幻覺,開始臆想出諸如「打孔」或「需要翻轉」等并不存在的規則。



在這兩種情況下,Level 1 的成功掩蓋了模型對底層機制的缺失或扭曲,這種「局部勝利」反而為錯誤的 Level 2 策略提供了一個看似自信的支撐框架。

這也說明,早期關卡的推進并不能可靠反映模型是否真正理解了任務。如果沒有明確檢驗模型「為什么能過關」,它就會把錯誤的認知帶入下一關,并在此基礎上不斷放大偏差。

GPT-5.5 vs Opus 4.7:不同的「翻車」姿勢

有意思的是,雖然 GPT-5.5 和 Opus 4.7 的得分成績都不盡如人意,但研究團隊通過對比兩者的運行記錄發現,它們的失敗方式完全不同。

簡單來說就是,Claude Opus 4.7 的問題是「壓縮錯了」,而 GPT-5.5 的問題則在于「壓縮不了」。

具體來看,Opus 4.7 在短周期的機制發現方面表現更強。例如在任務「ar25」中,它幾乎立刻識別出鏡像結構,并順利通過 Level 1;在任務「ka59」中,即便世界模型并不完整,它也能讀出「雙角色、雙目標」的布局,并完成較短的 Level 1 操作序列。

但問題在于,它也更容易抓住一個錯誤的「恒定特征」,并堅定執行下去。

比如在任務「cn04」中,它構建了一套「進度 / 計時 / 轉換」的錯誤理論,并在這一假設下不斷嘗試操作(第 60 步)。它確實形成了一套「可運行的解釋」,只是這套解釋是錯的。

GPT-5.5 則是另一個極端。它的「假設生成」更廣泛,這使得它更有可能說出正確的思路,但同時也更難將其轉化為具體行動。

比如在任務「ar25」中,它識別出了鏡像效應,但不斷重新打開「可能的游戲類型空間」,在「俄羅斯方塊」「青蛙過河」「乒乓球」「漢諾塔」之間反復橫跳,始終無法堅定地執行鏡像邏輯。而在任務「ka59」中,它也構建出了正確的對象結構 —— 兩個目標輪廓和一個可切換的第二角色 —— 但始終沒有真正執行這一理解。

換句話說,Claude Opus 4.7 有點像「過度自信的直覺主義者」,GPT-5.5 則像「思維發散的理論家」。

而歸根結底,兩者之間的這種差異在于「壓縮」能力的區別:Claude Opus 4.7 將觀察壓縮成了一個「自信但錯誤」的理論,而 GPT-5.5 則幾乎無法完成壓縮,始終停留在分散的可能性之中。

不得不說,此次 Claude Opus 4.7 和 GPT-5.5 雙雙在 ARC-AGI-3,這一堪稱目前最接近「人類智能本質」的測試上的低分表現,揭示了一個事實:AGI 之路「道阻且長」啊。

你呢,如何看待 AI 的這一成績?歡迎在評論區留言、交流!

https://x.com/fchollet/status/2050328852107612559

https://arcprize.org/blog/arc-agi-3-gpt-5-5-opus-4-7-analysis

https://x.com/GregKamradt/status/2050262126120632554

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
蔚來遭索賠2.5億美元!

蔚來遭索賠2.5億美元!

新浪財經
2026-05-01 15:12:36
演員姜武飾演張雪本人!張雪原型故事《有夢就去追》登上央視五一晚會

演員姜武飾演張雪本人!張雪原型故事《有夢就去追》登上央視五一晚會

快科技
2026-05-02 10:55:05
一個人的命好不好,脫鞋看一眼“腳”就知道!腳上有這兩種特征的人,天生就是“富貴命”,越老越有錢

一個人的命好不好,脫鞋看一眼“腳”就知道!腳上有這兩種特征的人,天生就是“富貴命”,越老越有錢

心理觀察局
2026-05-03 08:19:04
保羅:我每次看到比賽出現巨大分差,我都希望能打破58分紀錄

保羅:我每次看到比賽出現巨大分差,我都希望能打破58分紀錄

懂球帝
2026-05-02 09:40:09
1973年徐向前元帥夫人含淚認親,失散33年的烈士獨子竟成了資產雄厚的香港巨商

1973年徐向前元帥夫人含淚認親,失散33年的烈士獨子竟成了資產雄厚的香港巨商

寄史言志
2026-05-02 19:00:17
退休十年后我才想明白:那些早早放手不管子女的老同事,和拼命幫兒女帶娃的人,誰的晚年過得更有尊嚴,答案讓我沉默了很久

退休十年后我才想明白:那些早早放手不管子女的老同事,和拼命幫兒女帶娃的人,誰的晚年過得更有尊嚴,答案讓我沉默了很久

心理觀察局
2026-05-03 09:01:05
烏度卡:我們選擇簽下杜蘭特,原本是為了打這樣的比賽

烏度卡:我們選擇簽下杜蘭特,原本是為了打這樣的比賽

懂球帝
2026-05-02 13:14:49
王祉怡與山口茜鏖戰1小時取勝,韓媒發問:這樣下去怎么贏安洗瑩?

王祉怡與山口茜鏖戰1小時取勝,韓媒發問:這樣下去怎么贏安洗瑩?

舟望停云
2026-05-03 00:43:09
1978年起陳云地位迅速上升,跨越多級“臺階”,背后原因何在

1978年起陳云地位迅速上升,跨越多級“臺階”,背后原因何在

鶴羽說個事
2026-04-30 22:47:23
聯通取消月租,用多少付多少!移動電信要跟風?

聯通取消月租,用多少付多少!移動電信要跟風?

林子說事
2026-05-03 10:36:38
兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,而是這6點

兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,而是這6點

周哥一影視
2026-04-17 06:45:59
中國變壓器“一哥”:產量超過5億kVA,公司年收入達到973億元

中國變壓器“一哥”:產量超過5億kVA,公司年收入達到973億元

火星人雜談
2026-05-02 20:57:52
日本已全面進入臨戰狀態!步步緊逼,劍指中國,國人務必警醒

日本已全面進入臨戰狀態!步步緊逼,劍指中國,國人務必警醒

樂享人生風雨
2026-05-03 02:58:38
場均24分9助1.8帽+鎖死哈登!24歲鋒線狂人練成了,他不比小卡差

場均24分9助1.8帽+鎖死哈登!24歲鋒線狂人練成了,他不比小卡差

籃球信息社
2026-05-02 22:25:05
劉曉慶風波升級!官方回應,王婆說話難聽,網友:都75了還想怎樣

劉曉慶風波升級!官方回應,王婆說話難聽,網友:都75了還想怎樣

鄉野小珥
2026-05-03 10:20:42
被罵瘋子的米萊終結阿根廷幾十年赤字

被罵瘋子的米萊終結阿根廷幾十年赤字

桂系007
2026-04-28 15:20:23
5月開始,如果不出意外的話,中國房價、樓市或迎來4大變化

5月開始,如果不出意外的話,中國房價、樓市或迎來4大變化

林子說事
2026-05-03 06:37:01
2米接應大爆發!土耳其球隊成贏家,世俱杯名單出爐,王媛媛真強

2米接應大爆發!土耳其球隊成贏家,世俱杯名單出爐,王媛媛真強

跑者排球視角
2026-05-03 06:13:51
無才無德、裝瘋賣傻、一肚子草包,是誰捧紅了這些跳梁小丑?

無才無德、裝瘋賣傻、一肚子草包,是誰捧紅了這些跳梁小丑?

蹲坑看世界
2026-04-22 23:00:21
海航推出6萬6“天價隨心飛”,網友:這是賣機票還是搞傳銷?

海航推出6萬6“天價隨心飛”,網友:這是賣機票還是搞傳銷?

天涯社區
2026-05-02 16:34:34
2026-05-03 11:51:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12904文章數 142639關注度
往期回顧 全部

科技要聞

庫克罕見"拒答"!蘋果正被AI供應鏈卡脖子

頭條要聞

牛彈琴:比網紅還網紅 快80歲的特朗普一晚上發8張圖

頭條要聞

牛彈琴:比網紅還網紅 快80歲的特朗普一晚上發8張圖

體育要聞

裁判準備下班,結果吳宜澤進了決賽

娛樂要聞

蔡卓妍婚后首現身 戴結婚戒指笑容不斷

財經要聞

后巴菲特時代,首場股東會透露了啥

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態度原創

游戲
時尚
教育
親子
房產

《黑神話》五一活動現場照曝光!楊奇驚現官方吐槽

春天別總傻傻穿一身黑,看看這些日常穿搭,高級舒適又優雅

教育要聞

能者不想干,中學行政“空心化”何時休?

親子要聞

勞動小能手節日快樂

房產要聞

五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

無障礙瀏覽 進入關懷版