亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

全球頂尖大模型集體翻車!ARC-AGI-3測(cè)試,人類滿分AI最高0.2%

0
分享至



就在今天,一條消息炸遍整個(gè)AI圈——全球唯一尚未飽和的智能體基準(zhǔn)測(cè)試ARC-AGI-3正式出爐,直接把全球頂尖大模型“打回原形”。人類在測(cè)試中拿下100%滿分,而最頂尖的AI模型得分普遍低于1%,曾經(jīng)的“學(xué)霸”ClaudeOpus4.6更是僅得0.2%。這場(chǎng)測(cè)試像一面照妖鏡,戳破了“AGI已至”的泡沫,也讓所有人看清:當(dāng)下的AI,離真正的通用智能,還差著一座珠穆朗瑪峰的距離。



一、慘烈成績(jī)單:人類滿分,AI連1分都拿不到

ARC-AGI-3的測(cè)試結(jié)果,用“慘烈”二字形容毫不為過(guò)。1200多名普通人類玩家參與測(cè)試,完成3900多場(chǎng)游戲,整體基線得分100%。大多數(shù)人不僅輕松通關(guān),還能玩出“速通”操作,甚至挑戰(zhàn)理論最優(yōu)步數(shù)——對(duì)人類而言,這些游戲更像是輕松的休閑項(xiàng)目,而非高難度測(cè)試。

反觀AI陣營(yíng),結(jié)果堪稱“集體潰敗”。在上一代ARC-AGI-2測(cè)試中拿下69.2%高分的ClaudeOpus4.6,到了ARC-AGI-3直接“現(xiàn)原形”,得分僅0.2%,是純大模型里的第一名。其余包括GPT系列、Gemini系列在內(nèi)的所有前沿大模型,得分全部低于1%,有的甚至頻繁崩潰,分?jǐn)?shù)趨近于0。



更反直覺(jué)的是,測(cè)試排行榜前三名全是非大模型方案:基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的StochasticGoose、基于規(guī)則的狀態(tài)圖探索、無(wú)需訓(xùn)練的幀圖搜索。其中StochasticGoose以12.58%的得分成為預(yù)覽期冠軍,比GPT-5.x系列高出12個(gè)百分點(diǎn)以上。但即便如此,它在一款調(diào)水位游戲中,開(kāi)局仍花了近350步做無(wú)效點(diǎn)擊,而人類只需要兩三下就能摸清規(guī)則。



這組數(shù)據(jù)背后,是AI與人類智能的本質(zhì)差距——人類是“會(huì)學(xué)習(xí)的智能”,而當(dāng)下的AI,只是“會(huì)匹配模式的工具”。



二、ARC-AGI-3到底有多“變態(tài)”?從靜態(tài)題到互動(dòng)游戲的維度升級(jí)

ARC-AGI系列一直是AI圈的“魔鬼測(cè)試”,前兩代ARC-AGI-1、ARC-AGI-2就以“抽象推理”難倒無(wú)數(shù)模型。而ARC-AGI-3,直接把難度拉到了全新維度:從“靜態(tài)題”變成了“無(wú)提示互動(dòng)游戲”。





測(cè)試包含150多個(gè)手工設(shè)計(jì)的交互式游戲環(huán)境,1000多個(gè)關(guān)卡。每個(gè)游戲都有專屬邏輯、隱藏規(guī)則和通關(guān)條件,但沒(méi)有任何說(shuō)明文檔、沒(méi)有自然語(yǔ)言提示、沒(méi)有任何操作指引——AI不知道“左邊按鈕會(huì)開(kāi)門(mén)”,也不知道“收集三個(gè)紅色方塊能過(guò)關(guān)”,只能像盲人摸象一樣,通過(guò)觀察畫(huà)面、執(zhí)行動(dòng)作、反饋結(jié)果,一步步拼湊對(duì)世界的認(rèn)知。





ARCPrize基金會(huì)設(shè)計(jì)這套測(cè)試,核心是測(cè)AI的四大核心能力:

探索:能否主動(dòng)與環(huán)境互動(dòng),獲取關(guān)鍵信息?

建模:能否把零散觀察,凝聚成可預(yù)測(cè)未來(lái)的世界模型?

目標(biāo)獲取:無(wú)人下達(dá)指令,能否自主判斷“該以什么為目標(biāo)”?

規(guī)劃與執(zhí)行:能否規(guī)劃行動(dòng)路徑,并根據(jù)反饋隨時(shí)修正?

這四項(xiàng)能力,恰恰是人類與生俱來(lái)的本能,卻是當(dāng)下AI的致命短板。



更“殘忍”的是它的評(píng)分標(biāo)準(zhǔn)——不看“是否通關(guān)”,只看“效率”,且直接對(duì)標(biāo)人類效率。評(píng)分公式為:(人類步數(shù)/AI步數(shù))2。比如人類10步解決的問(wèn)題,AI用了100步,得分僅1%;用了200步,得分0.25%;用了500步,得分僅0.04%。這種規(guī)則直接堵死了AI的“蠻力窮舉”之路——多試一步,分?jǐn)?shù)就斷崖式下跌。Opus4.6的0.2%,換算下來(lái)意味著它解決人類10步的問(wèn)題,需要走約224步,完全是在迷宮里原地轉(zhuǎn)圈。

三、AI為何慘敗?缺的不是算力,是“元認(rèn)知”

ARC團(tuán)隊(duì)在測(cè)試中發(fā)現(xiàn)一個(gè)關(guān)鍵現(xiàn)象:AI的主要失敗模式,是“以為自己在玩另一個(gè)游戲”。就像一個(gè)人被蒙眼扔進(jìn)廚房,摸到圓形物體就斷定是籃球,開(kāi)始瘋狂“投籃”——AI在全新環(huán)境中,看到初始視覺(jué)信息,會(huì)迅速“腦補(bǔ)”一個(gè)熟悉的游戲框架,然后沿著錯(cuò)誤假設(shè)死磕到底,越走越偏,卻從不停下來(lái)反思:“我的假設(shè)是不是錯(cuò)了?”

這背后,是當(dāng)下AI缺乏元認(rèn)知能力——它不知道自己不知道,更不會(huì)主動(dòng)修正錯(cuò)誤認(rèn)知。參數(shù)量越大、預(yù)訓(xùn)練知識(shí)越豐富的大模型,反而越容易陷入這個(gè)陷阱。它們被海量數(shù)據(jù)“喂”出了強(qiáng)烈的“先入為主”,遇到陌生場(chǎng)景,第一反應(yīng)是匹配已知模式,而非從零探索;而輕量級(jí)CNN、圖搜索系統(tǒng),因?yàn)闆](méi)有“知識(shí)包袱”,反而能老老實(shí)實(shí)地從環(huán)境反饋中學(xué)習(xí),成績(jī)反而更好。



反觀人類,面對(duì)全新游戲時(shí),會(huì)本能地完成“探索-建模-驗(yàn)證-修正”的循環(huán):

先觀察,幾分鐘內(nèi)搭建粗糙但可用的“世界模型”;

再驗(yàn)證,根據(jù)結(jié)果強(qiáng)化或修正模型;

最后快速迭代,錯(cuò)了就改,改了再試。

人類的學(xué)習(xí)是在線、交互、假設(shè)驅(qū)動(dòng)的,而AI的學(xué)習(xí)是離線、數(shù)據(jù)驅(qū)動(dòng)、模式匹配的。ARC-AGI-3沒(méi)有“題海戰(zhàn)術(shù)”可依賴,考的正是“如何學(xué)習(xí)”——這恰恰是目前AI最弱的一環(huán)。

四、AGI之爭(zhēng):黃仁勛說(shuō)“已實(shí)現(xiàn)”,測(cè)試說(shuō)“還差99%”

就在ARC-AGI-3發(fā)布前,英偉達(dá)CEO黃仁勛在采訪中直言“我們已經(jīng)實(shí)現(xiàn)了AGI”,引發(fā)行業(yè)熱議。但ARC-AGI-3的結(jié)果,無(wú)疑給這一觀點(diǎn)潑了一盆冷水——當(dāng)下的AI,或許連1%的AGI都沒(méi)實(shí)現(xiàn)。





關(guān)于AGI的定義,學(xué)界和產(chǎn)業(yè)界一直存在分歧。黃仁勛的定義偏向?qū)嵱弥髁x:“AI能否啟動(dòng)、運(yùn)營(yíng)一家價(jià)值超10億美元的公司”,大幅降低了AGI門(mén)檻。而學(xué)界主流觀點(diǎn),如Bengio團(tuán)隊(duì)提出的定義,將AGI視為“能匹配或超越受過(guò)良好教育成年人的認(rèn)知廣度和熟練度”,涵蓋推理、記憶、感知等10項(xiàng)核心能力,總分100分才算達(dá)標(biāo)。

ARC-AGI-3的測(cè)試邏輯,更貼合學(xué)界對(duì)AGI的核心要求——通用學(xué)習(xí)能力。它不考AI記住了多少知識(shí),而考AI能否在無(wú)提示、無(wú)經(jīng)驗(yàn)的全新環(huán)境中,自主探索、建模、規(guī)劃并高效解決問(wèn)題。從這個(gè)角度看,當(dāng)下所有大模型都遠(yuǎn)未達(dá)標(biāo),它們只是在特定任務(wù)上表現(xiàn)出色的“窄AI”,而非真正的“通用智能”。

目前,ARC-AGI-3挑戰(zhàn)賽獎(jiǎng)金池高達(dá)85萬(wàn)美元,其中70萬(wàn)美元留給“滿分通關(guān)者”,且要求參賽者完全開(kāi)源代碼、在無(wú)網(wǎng)環(huán)境下評(píng)估——杜絕了調(diào)用云端大模型、聯(lián)網(wǎng)查資料的“作弊”可能。



這場(chǎng)測(cè)試撕開(kāi)了AI行業(yè)的“遮羞布”,也讓所有人清醒:AGI不是靠堆算力、擴(kuò)參數(shù)就能實(shí)現(xiàn)的,它需要突破“元認(rèn)知”“自主學(xué)習(xí)”等底層認(rèn)知瓶頸。人類與AI的差距,從來(lái)不是算力,而是“會(huì)思考、會(huì)學(xué)習(xí)、會(huì)反思”的本能。

ARC-AGI-3的出現(xiàn),不是否定AI的進(jìn)步,而是為AGI研究指明了更清晰的方向——未來(lái)的AI,不能再做“只會(huì)刷題的應(yīng)試高手”,而要成為“會(huì)學(xué)習(xí)、會(huì)探索、會(huì)修正”的真正智能體。至于這座天塹何時(shí)能被跨越,我們只能靜待時(shí)間給出答案。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
大佬站隊(duì)、鄭麗文得強(qiáng)援!國(guó)民黨1人嚇破膽,連忙否認(rèn)“2個(gè)太陽(yáng)”

大佬站隊(duì)、鄭麗文得強(qiáng)援!國(guó)民黨1人嚇破膽,連忙否認(rèn)“2個(gè)太陽(yáng)”

趣文說(shuō)娛
2026-04-17 21:57:34
多家寺廟陸續(xù)宣布關(guān)門(mén),并非維修也非裝修,知情人透露真實(shí)原因!

多家寺廟陸續(xù)宣布關(guān)門(mén),并非維修也非裝修,知情人透露真實(shí)原因!

北緯的咖啡豆
2026-04-14 17:19:29
3-2!38歲梅西雙響+兜射絕殺 助邁阿密終結(jié)2連平 新帥上任開(kāi)門(mén)紅

3-2!38歲梅西雙響+兜射絕殺 助邁阿密終結(jié)2連平 新帥上任開(kāi)門(mén)紅

我愛(ài)英超
2026-04-19 06:54:24
馬克龍證實(shí):有法國(guó)士兵身亡

馬克龍證實(shí):有法國(guó)士兵身亡

魯中晨報(bào)
2026-04-18 21:24:20
美軍都沒(méi)敢做的事,日艦獨(dú)走穿航臺(tái)灣海峽,解放軍當(dāng)場(chǎng)懲治日本人

美軍都沒(méi)敢做的事,日艦獨(dú)走穿航臺(tái)灣海峽,解放軍當(dāng)場(chǎng)懲治日本人

星星會(huì)墜落
2026-04-18 18:38:26
一次電梯偶遇讓廣東千萬(wàn)身家老板一夜之間傾家蕩產(chǎn),每月靠借錢(qián)維生,不敢把真相告訴女兒

一次電梯偶遇讓廣東千萬(wàn)身家老板一夜之間傾家蕩產(chǎn),每月靠借錢(qián)維生,不敢把真相告訴女兒

環(huán)球網(wǎng)資訊
2026-04-19 07:47:19
西班牙、巴西、墨西哥發(fā)表聯(lián)合聲明

西班牙、巴西、墨西哥發(fā)表聯(lián)合聲明

環(huán)球時(shí)報(bào)國(guó)際
2026-04-19 08:22:53
拔蘿卜帶泥!逃往美國(guó)的恒大“二把手”,鄰居卻是另一名潛逃富豪

拔蘿卜帶泥!逃往美國(guó)的恒大“二把手”,鄰居卻是另一名潛逃富豪

二大爺觀世界
2026-03-14 18:43:53
離大譜!大媽沖進(jìn)餐廳強(qiáng)行放生龍蝦,結(jié)果人家是寵物,直接被她救死了...

離大譜!大媽沖進(jìn)餐廳強(qiáng)行放生龍蝦,結(jié)果人家是寵物,直接被她救死了...

英國(guó)那些事兒
2026-04-17 23:25:19
河北山東等9省區(qū)市部分地區(qū)有10級(jí)以上雷暴大風(fēng)

河北山東等9省區(qū)市部分地區(qū)有10級(jí)以上雷暴大風(fēng)

界面新聞
2026-04-19 08:27:33
黑尾醬,徹底消失了?

黑尾醬,徹底消失了?

生如稗草
2026-03-15 08:48:11
蛋糕店,為什么是“幽靈外賣”的重災(zāi)區(qū)?

蛋糕店,為什么是“幽靈外賣”的重災(zāi)區(qū)?

新浪財(cái)經(jīng)
2026-04-19 00:09:47
西伯利亞:吃不完的鹿肉,收不完的糧;砍不完的森林,挖不完的礦

西伯利亞:吃不完的鹿肉,收不完的糧;砍不完的森林,挖不完的礦

小莜讀史
2026-04-17 20:53:45
烏克蘭基輔槍擊事件已致5人死亡 槍手身份公布

烏克蘭基輔槍擊事件已致5人死亡 槍手身份公布

財(cái)聯(lián)社
2026-04-19 00:18:15
15輪不勝深陷降級(jí)區(qū)!全球身價(jià)第8的熱刺,可能真要奔赴英冠了!

15輪不勝深陷降級(jí)區(qū)!全球身價(jià)第8的熱刺,可能真要奔赴英冠了!

球叮足球
2026-04-19 08:49:06
這是當(dāng)年41歲的劉曉慶,簡(jiǎn)直是人見(jiàn)人愛(ài),花見(jiàn)花開(kāi),美若天仙

這是當(dāng)年41歲的劉曉慶,簡(jiǎn)直是人見(jiàn)人愛(ài),花見(jiàn)花開(kāi),美若天仙

草莓解說(shuō)體育
2026-04-19 06:15:59
恭喜俄羅斯和烏克蘭!打了1500多天,終于打成全世界都喜歡的樣子

恭喜俄羅斯和烏克蘭!打了1500多天,終于打成全世界都喜歡的樣子

嫹筆牂牂
2026-04-15 10:03:39
票房破44億只是開(kāi)始!于和偉、梁朝偉、周潤(rùn)發(fā)要掀起一波新高潮了

票房破44億只是開(kāi)始!于和偉、梁朝偉、周潤(rùn)發(fā)要掀起一波新高潮了

八斗小先生
2026-04-18 14:57:45
這圓潤(rùn)是滿分,偏偏被顏值“拖了后腿”

這圓潤(rùn)是滿分,偏偏被顏值“拖了后腿”

飛娛日記
2026-04-17 09:13:53
北京這夜,藍(lán)盈瑩搶位置,黃渤拽高葉到C位,他憑啥坐于和偉前面

北京這夜,藍(lán)盈瑩搶位置,黃渤拽高葉到C位,他憑啥坐于和偉前面

往史過(guò)眼云煙
2026-04-17 17:01:44
2026-04-19 09:36:49
魏家東 incentive-icons
魏家東
一個(gè)人的營(yíng)銷商學(xué)院!
2653文章數(shù) 12237關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

女子與情人在車上發(fā)生關(guān)系后被殺 還被灌農(nóng)藥偽造殉情

頭條要聞

女子與情人在車上發(fā)生關(guān)系后被殺 還被灌農(nóng)藥偽造殉情

體育要聞

時(shí)隔25年重返英超!沒(méi)有人再嘲笑他了

娛樂(lè)要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

奇瑞威麟R08 PRO正式上市 售價(jià)14.48萬(wàn)元起

態(tài)度原創(chuàng)

游戲
家居
本地
旅游
公開(kāi)課

讓老粥批直呼“計(jì)劃有變”的歲獸代理人,到底是什么東西?

家居要聞

法式線條 時(shí)光靜淌

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

旅游要聞

貴州湄潭:從賣茶葉到賣體驗(yàn),一片茶葉如何“玩”出新業(yè)態(tài)?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版