![]()
就在今天,一條消息炸遍整個(gè)AI圈——全球唯一尚未飽和的智能體基準(zhǔn)測(cè)試ARC-AGI-3正式出爐,直接把全球頂尖大模型“打回原形”。人類在測(cè)試中拿下100%滿分,而最頂尖的AI模型得分普遍低于1%,曾經(jīng)的“學(xué)霸”ClaudeOpus4.6更是僅得0.2%。這場(chǎng)測(cè)試像一面照妖鏡,戳破了“AGI已至”的泡沫,也讓所有人看清:當(dāng)下的AI,離真正的通用智能,還差著一座珠穆朗瑪峰的距離。
![]()
一、慘烈成績(jī)單:人類滿分,AI連1分都拿不到
ARC-AGI-3的測(cè)試結(jié)果,用“慘烈”二字形容毫不為過(guò)。1200多名普通人類玩家參與測(cè)試,完成3900多場(chǎng)游戲,整體基線得分100%。大多數(shù)人不僅輕松通關(guān),還能玩出“速通”操作,甚至挑戰(zhàn)理論最優(yōu)步數(shù)——對(duì)人類而言,這些游戲更像是輕松的休閑項(xiàng)目,而非高難度測(cè)試。
反觀AI陣營(yíng),結(jié)果堪稱“集體潰敗”。在上一代ARC-AGI-2測(cè)試中拿下69.2%高分的ClaudeOpus4.6,到了ARC-AGI-3直接“現(xiàn)原形”,得分僅0.2%,是純大模型里的第一名。其余包括GPT系列、Gemini系列在內(nèi)的所有前沿大模型,得分全部低于1%,有的甚至頻繁崩潰,分?jǐn)?shù)趨近于0。
![]()
更反直覺(jué)的是,測(cè)試排行榜前三名全是非大模型方案:基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的StochasticGoose、基于規(guī)則的狀態(tài)圖探索、無(wú)需訓(xùn)練的幀圖搜索。其中StochasticGoose以12.58%的得分成為預(yù)覽期冠軍,比GPT-5.x系列高出12個(gè)百分點(diǎn)以上。但即便如此,它在一款調(diào)水位游戲中,開(kāi)局仍花了近350步做無(wú)效點(diǎn)擊,而人類只需要兩三下就能摸清規(guī)則。
![]()
這組數(shù)據(jù)背后,是AI與人類智能的本質(zhì)差距——人類是“會(huì)學(xué)習(xí)的智能”,而當(dāng)下的AI,只是“會(huì)匹配模式的工具”。
![]()
二、ARC-AGI-3到底有多“變態(tài)”?從靜態(tài)題到互動(dòng)游戲的維度升級(jí)
ARC-AGI系列一直是AI圈的“魔鬼測(cè)試”,前兩代ARC-AGI-1、ARC-AGI-2就以“抽象推理”難倒無(wú)數(shù)模型。而ARC-AGI-3,直接把難度拉到了全新維度:從“靜態(tài)題”變成了“無(wú)提示互動(dòng)游戲”。
![]()
![]()
測(cè)試包含150多個(gè)手工設(shè)計(jì)的交互式游戲環(huán)境,1000多個(gè)關(guān)卡。每個(gè)游戲都有專屬邏輯、隱藏規(guī)則和通關(guān)條件,但沒(méi)有任何說(shuō)明文檔、沒(méi)有自然語(yǔ)言提示、沒(méi)有任何操作指引——AI不知道“左邊按鈕會(huì)開(kāi)門(mén)”,也不知道“收集三個(gè)紅色方塊能過(guò)關(guān)”,只能像盲人摸象一樣,通過(guò)觀察畫(huà)面、執(zhí)行動(dòng)作、反饋結(jié)果,一步步拼湊對(duì)世界的認(rèn)知。
![]()
![]()
ARCPrize基金會(huì)設(shè)計(jì)這套測(cè)試,核心是測(cè)AI的四大核心能力:
探索:能否主動(dòng)與環(huán)境互動(dòng),獲取關(guān)鍵信息?
建模:能否把零散觀察,凝聚成可預(yù)測(cè)未來(lái)的世界模型?
目標(biāo)獲取:無(wú)人下達(dá)指令,能否自主判斷“該以什么為目標(biāo)”?
規(guī)劃與執(zhí)行:能否規(guī)劃行動(dòng)路徑,并根據(jù)反饋隨時(shí)修正?
這四項(xiàng)能力,恰恰是人類與生俱來(lái)的本能,卻是當(dāng)下AI的致命短板。
![]()
更“殘忍”的是它的評(píng)分標(biāo)準(zhǔn)——不看“是否通關(guān)”,只看“效率”,且直接對(duì)標(biāo)人類效率。評(píng)分公式為:(人類步數(shù)/AI步數(shù))2。比如人類10步解決的問(wèn)題,AI用了100步,得分僅1%;用了200步,得分0.25%;用了500步,得分僅0.04%。這種規(guī)則直接堵死了AI的“蠻力窮舉”之路——多試一步,分?jǐn)?shù)就斷崖式下跌。Opus4.6的0.2%,換算下來(lái)意味著它解決人類10步的問(wèn)題,需要走約224步,完全是在迷宮里原地轉(zhuǎn)圈。
三、AI為何慘敗?缺的不是算力,是“元認(rèn)知”
ARC團(tuán)隊(duì)在測(cè)試中發(fā)現(xiàn)一個(gè)關(guān)鍵現(xiàn)象:AI的主要失敗模式,是“以為自己在玩另一個(gè)游戲”。就像一個(gè)人被蒙眼扔進(jìn)廚房,摸到圓形物體就斷定是籃球,開(kāi)始瘋狂“投籃”——AI在全新環(huán)境中,看到初始視覺(jué)信息,會(huì)迅速“腦補(bǔ)”一個(gè)熟悉的游戲框架,然后沿著錯(cuò)誤假設(shè)死磕到底,越走越偏,卻從不停下來(lái)反思:“我的假設(shè)是不是錯(cuò)了?”
這背后,是當(dāng)下AI缺乏元認(rèn)知能力——它不知道自己不知道,更不會(huì)主動(dòng)修正錯(cuò)誤認(rèn)知。參數(shù)量越大、預(yù)訓(xùn)練知識(shí)越豐富的大模型,反而越容易陷入這個(gè)陷阱。它們被海量數(shù)據(jù)“喂”出了強(qiáng)烈的“先入為主”,遇到陌生場(chǎng)景,第一反應(yīng)是匹配已知模式,而非從零探索;而輕量級(jí)CNN、圖搜索系統(tǒng),因?yàn)闆](méi)有“知識(shí)包袱”,反而能老老實(shí)實(shí)地從環(huán)境反饋中學(xué)習(xí),成績(jī)反而更好。
![]()
反觀人類,面對(duì)全新游戲時(shí),會(huì)本能地完成“探索-建模-驗(yàn)證-修正”的循環(huán):
先觀察,幾分鐘內(nèi)搭建粗糙但可用的“世界模型”;
再驗(yàn)證,根據(jù)結(jié)果強(qiáng)化或修正模型;
最后快速迭代,錯(cuò)了就改,改了再試。
人類的學(xué)習(xí)是在線、交互、假設(shè)驅(qū)動(dòng)的,而AI的學(xué)習(xí)是離線、數(shù)據(jù)驅(qū)動(dòng)、模式匹配的。ARC-AGI-3沒(méi)有“題海戰(zhàn)術(shù)”可依賴,考的正是“如何學(xué)習(xí)”——這恰恰是目前AI最弱的一環(huán)。
四、AGI之爭(zhēng):黃仁勛說(shuō)“已實(shí)現(xiàn)”,測(cè)試說(shuō)“還差99%”
就在ARC-AGI-3發(fā)布前,英偉達(dá)CEO黃仁勛在采訪中直言“我們已經(jīng)實(shí)現(xiàn)了AGI”,引發(fā)行業(yè)熱議。但ARC-AGI-3的結(jié)果,無(wú)疑給這一觀點(diǎn)潑了一盆冷水——當(dāng)下的AI,或許連1%的AGI都沒(méi)實(shí)現(xiàn)。
![]()
![]()
關(guān)于AGI的定義,學(xué)界和產(chǎn)業(yè)界一直存在分歧。黃仁勛的定義偏向?qū)嵱弥髁x:“AI能否啟動(dòng)、運(yùn)營(yíng)一家價(jià)值超10億美元的公司”,大幅降低了AGI門(mén)檻。而學(xué)界主流觀點(diǎn),如Bengio團(tuán)隊(duì)提出的定義,將AGI視為“能匹配或超越受過(guò)良好教育成年人的認(rèn)知廣度和熟練度”,涵蓋推理、記憶、感知等10項(xiàng)核心能力,總分100分才算達(dá)標(biāo)。
ARC-AGI-3的測(cè)試邏輯,更貼合學(xué)界對(duì)AGI的核心要求——通用學(xué)習(xí)能力。它不考AI記住了多少知識(shí),而考AI能否在無(wú)提示、無(wú)經(jīng)驗(yàn)的全新環(huán)境中,自主探索、建模、規(guī)劃并高效解決問(wèn)題。從這個(gè)角度看,當(dāng)下所有大模型都遠(yuǎn)未達(dá)標(biāo),它們只是在特定任務(wù)上表現(xiàn)出色的“窄AI”,而非真正的“通用智能”。
目前,ARC-AGI-3挑戰(zhàn)賽獎(jiǎng)金池高達(dá)85萬(wàn)美元,其中70萬(wàn)美元留給“滿分通關(guān)者”,且要求參賽者完全開(kāi)源代碼、在無(wú)網(wǎng)環(huán)境下評(píng)估——杜絕了調(diào)用云端大模型、聯(lián)網(wǎng)查資料的“作弊”可能。
![]()
這場(chǎng)測(cè)試撕開(kāi)了AI行業(yè)的“遮羞布”,也讓所有人清醒:AGI不是靠堆算力、擴(kuò)參數(shù)就能實(shí)現(xiàn)的,它需要突破“元認(rèn)知”“自主學(xué)習(xí)”等底層認(rèn)知瓶頸。人類與AI的差距,從來(lái)不是算力,而是“會(huì)思考、會(huì)學(xué)習(xí)、會(huì)反思”的本能。
ARC-AGI-3的出現(xiàn),不是否定AI的進(jìn)步,而是為AGI研究指明了更清晰的方向——未來(lái)的AI,不能再做“只會(huì)刷題的應(yīng)試高手”,而要成為“會(huì)學(xué)習(xí)、會(huì)探索、會(huì)修正”的真正智能體。至于這座天塹何時(shí)能被跨越,我們只能靜待時(shí)間給出答案。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.