網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

全球頂尖大模型集體翻車！ARC-AGI-3測(cè)試，人類滿分AI最高0.2%

2026-03-27 11:31:00　來(lái)源: 魏家東

北京舉報(bào)

分享至

就在今天，一條消息炸遍整個(gè)AI圈——全球唯一尚未飽和的智能體基準(zhǔn)測(cè)試ARC-AGI-3正式出爐，直接把全球頂尖大模型“打回原形”。人類在測(cè)試中拿下100%滿分，而最頂尖的AI模型得分普遍低于1%，曾經(jīng)的“學(xué)霸”ClaudeOpus4.6更是僅得0.2%。這場(chǎng)測(cè)試像一面照妖鏡，戳破了“AGI已至”的泡沫，也讓所有人看清：當(dāng)下的AI，離真正的通用智能，還差著一座珠穆朗瑪峰的距離。

一、慘烈成績(jī)單：人類滿分，AI連1分都拿不到

ARC-AGI-3的測(cè)試結(jié)果，用“慘烈”二字形容毫不為過(guò)。1200多名普通人類玩家參與測(cè)試，完成3900多場(chǎng)游戲，整體基線得分100%。大多數(shù)人不僅輕松通關(guān)，還能玩出“速通”操作，甚至挑戰(zhàn)理論最優(yōu)步數(shù)——對(duì)人類而言，這些游戲更像是輕松的休閑項(xiàng)目，而非高難度測(cè)試。

反觀AI陣營(yíng)，結(jié)果堪稱“集體潰敗”。在上一代ARC-AGI-2測(cè)試中拿下69.2%高分的ClaudeOpus4.6，到了ARC-AGI-3直接“現(xiàn)原形”，得分僅0.2%，是純大模型里的第一名。其余包括GPT系列、Gemini系列在內(nèi)的所有前沿大模型，得分全部低于1%，有的甚至頻繁崩潰，分?jǐn)?shù)趨近于0。

更反直覺(jué)的是，測(cè)試排行榜前三名全是非大模型方案：基于卷積神經(jīng)網(wǎng)絡(luò)（CNN）的StochasticGoose、基于規(guī)則的狀態(tài)圖探索、無(wú)需訓(xùn)練的幀圖搜索。其中StochasticGoose以12.58%的得分成為預(yù)覽期冠軍，比GPT-5.x系列高出12個(gè)百分點(diǎn)以上。但即便如此，它在一款調(diào)水位游戲中，開(kāi)局仍花了近350步做無(wú)效點(diǎn)擊，而人類只需要兩三下就能摸清規(guī)則。

這組數(shù)據(jù)背后，是AI與人類智能的本質(zhì)差距——人類是“會(huì)學(xué)習(xí)的智能”，而當(dāng)下的AI，只是“會(huì)匹配模式的工具”。

二、ARC-AGI-3到底有多“變態(tài)”？從靜態(tài)題到互動(dòng)游戲的維度升級(jí)

ARC-AGI系列一直是AI圈的“魔鬼測(cè)試”，前兩代ARC-AGI-1、ARC-AGI-2就以“抽象推理”難倒無(wú)數(shù)模型。而ARC-AGI-3，直接把難度拉到了全新維度：從“靜態(tài)題”變成了“無(wú)提示互動(dòng)游戲”。

測(cè)試包含150多個(gè)手工設(shè)計(jì)的交互式游戲環(huán)境，1000多個(gè)關(guān)卡。每個(gè)游戲都有專屬邏輯、隱藏規(guī)則和通關(guān)條件，但沒(méi)有任何說(shuō)明文檔、沒(méi)有自然語(yǔ)言提示、沒(méi)有任何操作指引——AI不知道“左邊按鈕會(huì)開(kāi)門(mén)”，也不知道“收集三個(gè)紅色方塊能過(guò)關(guān)”，只能像盲人摸象一樣，通過(guò)觀察畫(huà)面、執(zhí)行動(dòng)作、反饋結(jié)果，一步步拼湊對(duì)世界的認(rèn)知。

ARCPrize基金會(huì)設(shè)計(jì)這套測(cè)試，核心是測(cè)AI的四大核心能力：

探索：能否主動(dòng)與環(huán)境互動(dòng)，獲取關(guān)鍵信息？

建模：能否把零散觀察，凝聚成可預(yù)測(cè)未來(lái)的世界模型？

目標(biāo)獲取：無(wú)人下達(dá)指令，能否自主判斷“該以什么為目標(biāo)”？

規(guī)劃與執(zhí)行：能否規(guī)劃行動(dòng)路徑，并根據(jù)反饋隨時(shí)修正？

這四項(xiàng)能力，恰恰是人類與生俱來(lái)的本能，卻是當(dāng)下AI的致命短板。

更“殘忍”的是它的評(píng)分標(biāo)準(zhǔn)——不看“是否通關(guān)”，只看“效率”，且直接對(duì)標(biāo)人類效率。評(píng)分公式為：(人類步數(shù)/AI步數(shù))2。比如人類10步解決的問(wèn)題，AI用了100步，得分僅1%；用了200步，得分0.25%；用了500步，得分僅0.04%。這種規(guī)則直接堵死了AI的“蠻力窮舉”之路——多試一步，分?jǐn)?shù)就斷崖式下跌。Opus4.6的0.2%，換算下來(lái)意味著它解決人類10步的問(wèn)題，需要走約224步，完全是在迷宮里原地轉(zhuǎn)圈。

三、AI為何慘敗？缺的不是算力，是“元認(rèn)知”

ARC團(tuán)隊(duì)在測(cè)試中發(fā)現(xiàn)一個(gè)關(guān)鍵現(xiàn)象：AI的主要失敗模式，是“以為自己在玩另一個(gè)游戲”。就像一個(gè)人被蒙眼扔進(jìn)廚房，摸到圓形物體就斷定是籃球，開(kāi)始瘋狂“投籃”——AI在全新環(huán)境中，看到初始視覺(jué)信息，會(huì)迅速“腦補(bǔ)”一個(gè)熟悉的游戲框架，然后沿著錯(cuò)誤假設(shè)死磕到底，越走越偏，卻從不停下來(lái)反思：“我的假設(shè)是不是錯(cuò)了？”

這背后，是當(dāng)下AI缺乏元認(rèn)知能力——它不知道自己不知道，更不會(huì)主動(dòng)修正錯(cuò)誤認(rèn)知。參數(shù)量越大、預(yù)訓(xùn)練知識(shí)越豐富的大模型，反而越容易陷入這個(gè)陷阱。它們被海量數(shù)據(jù)“喂”出了強(qiáng)烈的“先入為主”，遇到陌生場(chǎng)景，第一反應(yīng)是匹配已知模式，而非從零探索；而輕量級(jí)CNN、圖搜索系統(tǒng)，因?yàn)闆](méi)有“知識(shí)包袱”，反而能老老實(shí)實(shí)地從環(huán)境反饋中學(xué)習(xí)，成績(jī)反而更好。

反觀人類，面對(duì)全新游戲時(shí)，會(huì)本能地完成“探索-建模-驗(yàn)證-修正”的循環(huán)：

先觀察，幾分鐘內(nèi)搭建粗糙但可用的“世界模型”；

再驗(yàn)證，根據(jù)結(jié)果強(qiáng)化或修正模型；

最后快速迭代，錯(cuò)了就改，改了再試。

人類的學(xué)習(xí)是在線、交互、假設(shè)驅(qū)動(dòng)的，而AI的學(xué)習(xí)是離線、數(shù)據(jù)驅(qū)動(dòng)、模式匹配的。ARC-AGI-3沒(méi)有“題海戰(zhàn)術(shù)”可依賴，考的正是“如何學(xué)習(xí)”——這恰恰是目前AI最弱的一環(huán)。

四、AGI之爭(zhēng)：黃仁勛說(shuō)“已實(shí)現(xiàn)”，測(cè)試說(shuō)“還差99%”

就在ARC-AGI-3發(fā)布前，英偉達(dá)CEO黃仁勛在采訪中直言“我們已經(jīng)實(shí)現(xiàn)了AGI”，引發(fā)行業(yè)熱議。但ARC-AGI-3的結(jié)果，無(wú)疑給這一觀點(diǎn)潑了一盆冷水——當(dāng)下的AI，或許連1%的AGI都沒(méi)實(shí)現(xiàn)。

關(guān)于AGI的定義，學(xué)界和產(chǎn)業(yè)界一直存在分歧。黃仁勛的定義偏向?qū)嵱弥髁x：“AI能否啟動(dòng)、運(yùn)營(yíng)一家價(jià)值超10億美元的公司”，大幅降低了AGI門(mén)檻。而學(xué)界主流觀點(diǎn)，如Bengio團(tuán)隊(duì)提出的定義，將AGI視為“能匹配或超越受過(guò)良好教育成年人的認(rèn)知廣度和熟練度”，涵蓋推理、記憶、感知等10項(xiàng)核心能力，總分100分才算達(dá)標(biāo)。

ARC-AGI-3的測(cè)試邏輯，更貼合學(xué)界對(duì)AGI的核心要求——通用學(xué)習(xí)能力。它不考AI記住了多少知識(shí)，而考AI能否在無(wú)提示、無(wú)經(jīng)驗(yàn)的全新環(huán)境中，自主探索、建模、規(guī)劃并高效解決問(wèn)題。從這個(gè)角度看，當(dāng)下所有大模型都遠(yuǎn)未達(dá)標(biāo)，它們只是在特定任務(wù)上表現(xiàn)出色的“窄AI”，而非真正的“通用智能”。

目前，ARC-AGI-3挑戰(zhàn)賽獎(jiǎng)金池高達(dá)85萬(wàn)美元，其中70萬(wàn)美元留給“滿分通關(guān)者”，且要求參賽者完全開(kāi)源代碼、在無(wú)網(wǎng)環(huán)境下評(píng)估——杜絕了調(diào)用云端大模型、聯(lián)網(wǎng)查資料的“作弊”可能。

這場(chǎng)測(cè)試撕開(kāi)了AI行業(yè)的“遮羞布”，也讓所有人清醒：AGI不是靠堆算力、擴(kuò)參數(shù)就能實(shí)現(xiàn)的，它需要突破“元認(rèn)知”“自主學(xué)習(xí)”等底層認(rèn)知瓶頸。人類與AI的差距，從來(lái)不是算力，而是“會(huì)思考、會(huì)學(xué)習(xí)、會(huì)反思”的本能。

ARC-AGI-3的出現(xiàn)，不是否定AI的進(jìn)步，而是為AGI研究指明了更清晰的方向——未來(lái)的AI，不能再做“只會(huì)刷題的應(yīng)試高手”，而要成為“會(huì)學(xué)習(xí)、會(huì)探索、會(huì)修正”的真正智能體。至于這座天塹何時(shí)能被跨越，我們只能靜待時(shí)間給出答案。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.