无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

人類100%通關(guān),AI 最高僅0.37%!這個(gè)測(cè)試戳破AGI“泡沫”?

0
分享至

3月底,ARC大獎(jiǎng)基金會(huì)發(fā)布了一篇全新論文,推出ARC-AGI-3智能測(cè)試基準(zhǔn),直接給當(dāng)下所有頂尖大模型來了次“裸考”。


結(jié)果相當(dāng)殘酷。

研究團(tuán)隊(duì)找了486名普通人類受試者,測(cè)試了414個(gè)環(huán)境。

結(jié)果,人類100%能完成所有任務(wù),單次嘗試中位耗時(shí)僅7.4分鐘,最快幾分鐘就能搞定一關(guān)。

而GPT、Gemini、Opus這些頂流AI,最高分才0.37%,幾乎全軍覆沒。


先搞懂這個(gè)論文的主角 ARC-AGI系列,到底是個(gè)什么測(cè)試?

早在2019年,第一篇ARC-AGI-1就橫空出世。

它的設(shè)計(jì)理念很純粹,不考記憶、不考刷題、不考語言和現(xiàn)成知識(shí),只測(cè)最核心的抽象推理能力。


ARC-AGI-1和2025年推出的ARC-AGI-2,都是用網(wǎng)格圖形題,讓AI從少量示例里找規(guī)律、推規(guī)則,杜絕靠大數(shù)據(jù)訓(xùn)練“作弊”。

而且,評(píng)分機(jī)制懲罰蠻力。

如果人類需要 10 個(gè)步驟,而 AI 需要 100 個(gè)步驟,AI 不會(huì)獲得 10% 的分?jǐn)?shù),而是 1%。

就是說,你無法通過增加計(jì)算能力來解決這個(gè)問題。

前兩代測(cè)試,已經(jīng)讓很多AI現(xiàn)出原形,可隨著大模型發(fā)展,出現(xiàn)了新問題。


不少模型投入數(shù)百萬美元,通過海量相似任務(wù)訓(xùn)練、測(cè)試時(shí)優(yōu)化,找到了“記憶捷徑”,慢慢能刷出高分。

比如, Gemini 在該測(cè)試中取得了 98% 的正確率。ARC-AGI-2 的正確率在不到一年的時(shí)間內(nèi)從 3% 提升到了 77%。

正是為了補(bǔ)上這個(gè)缺口,ARC-AGI-3應(yīng)運(yùn)而生,它徹底換了打法:從“做題”變成“玩游戲”。

就是把AI放進(jìn)一個(gè)個(gè)全新的交互式回合制環(huán)境里,沒有任何指令、沒有教程、沒有提示,連目標(biāo)是什么都不說,全靠AI自己摸索。


論文里明確,它專門測(cè)試智能體的四大核心能力,這恰恰是人類天生具備,卻是當(dāng)下AI最大短板:

1. 探索能力:主動(dòng)和環(huán)境互動(dòng),自己找信息、摸規(guī)則,而不是等著喂數(shù)據(jù);

2. 建模能力:把零散的觀察,總結(jié)成環(huán)境運(yùn)行的規(guī)律,構(gòu)建自己的“世界模型”;

3. 目標(biāo)設(shè)定:沒人告訴它要做什么,自己判斷通關(guān)條件、找到獲勝目標(biāo);

4. 規(guī)劃執(zhí)行:制定行動(dòng)步驟,還能根據(jù)環(huán)境反饋隨時(shí)調(diào)整,不是盲目試錯(cuò)。

為了保證公平,這套測(cè)試的設(shè)計(jì)極其嚴(yán)格:

? 所有環(huán)境只基于客體、基礎(chǔ)幾何、直覺物理等核心先驗(yàn)知識(shí),不用語言、數(shù)字、文化符號(hào),杜絕靠常識(shí)“躺贏”;

? 每個(gè)環(huán)境都是全新原創(chuàng),和現(xiàn)有游戲、前兩代任務(wù)完全不同,防止AI靠記憶刷分;

? 經(jīng)過大規(guī)模人類測(cè)試,確保普通人都能輕松通關(guān),排除題目本身太難的問題。

整個(gè)基準(zhǔn)分為公共演示集和私有測(cè)試集,公共集用來展示,真正打分的私有集完全保密,從根源上避免AI針對(duì)性優(yōu)化。

經(jīng)過測(cè)試,從論文里公布的官方測(cè)試數(shù)據(jù)看,堪稱 AI 的滑鐵盧。

論文還特意區(qū)分了兩個(gè)排行榜。


官方榜:純?cè)鶤I,無任何輔助,測(cè)的是真實(shí)智能;


社區(qū)榜:允許用外部框架,分?jǐn)?shù)再高,也不代表AGI真正進(jìn)步。

說白了,加了“外掛”的AI能拿高分,但那是人類設(shè)計(jì)的框架在幫忙,不是AI本身變聰明了。


這兩年,AI畫畫、寫代碼、對(duì)話越來越像人,很多人喊著“AGI已來”。

前不久,黃仁勛還在說,AGI 已經(jīng)來了。

可ARC-AGI-3的測(cè)試結(jié)果看, AI要么摸不透規(guī)則,要么找不到目標(biāo),要么只會(huì)盲目試錯(cuò),完全沒有人類那種“舉一反三、自主探索”的能力。

看起來,當(dāng)下 AI 的本質(zhì),還是“指令驅(qū)動(dòng)”,還是“做題家”——給任務(wù)、給規(guī)則才能做,和人類的通用智能有根本的差距。

前者擅長(zhǎng)的是記憶、計(jì)算、模仿,而人類的智能,是探索、推理、創(chuàng)造。

而真正的智能,從來不應(yīng)該是知識(shí)型,而是在未知里,去尋找解決方案的能力。

最新消息是,經(jīng)過訓(xùn)練,已經(jīng)有公司宣布全部通關(guān)了 ARC-AGi-3,但還沒有人去領(lǐng)取獎(jiǎng)金。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一家6口5本美國(guó)護(hù)照,卻還在國(guó)內(nèi)“撈金”,年?duì)I收上百億

一家6口5本美國(guó)護(hù)照,卻還在國(guó)內(nèi)“撈金”,年?duì)I收上百億

混沌錄
2026-06-19 16:14:07
中國(guó)將迎來前所未有的死亡高峰,專家得出答案:是這些因素導(dǎo)致的

中國(guó)將迎來前所未有的死亡高峰,專家得出答案:是這些因素導(dǎo)致的

混沌錄
2026-05-28 22:53:01
抖音網(wǎng)紅表妹李KK塌房,徹底玩完

抖音網(wǎng)紅表妹李KK塌房,徹底玩完

新浪財(cái)經(jīng)
2026-06-23 00:08:03
立陶宛新任總理現(xiàn)身,上來就對(duì)臺(tái)當(dāng)局喊話,又一個(gè)狠角色登上臺(tái)面

立陶宛新任總理現(xiàn)身,上來就對(duì)臺(tái)當(dāng)局喊話,又一個(gè)狠角色登上臺(tái)面

云上烏托邦
2026-06-24 22:17:53
一個(gè)月暴漲67%!苦哈哈造屏幕的京東方,搖身成了最猛AI股

一個(gè)月暴漲67%!苦哈哈造屏幕的京東方,搖身成了最猛AI股

硅基觀察Pro
2026-06-24 22:21:33
吃完嫩的吃老的,山西兒媳出軌公公10年,親自給丈夫生下一個(gè)妹妹

吃完嫩的吃老的,山西兒媳出軌公公10年,親自給丈夫生下一個(gè)妹妹

莫地方
2026-06-02 00:10:26
日元暴跌破40年紀(jì)錄!日本狂拋美債救市,美國(guó)反手收緊致命枷鎖

日元暴跌破40年紀(jì)錄!日本狂拋美債救市,美國(guó)反手收緊致命枷鎖

次元君情感
2026-06-24 17:33:14
女子被歹徒蹂躪三小時(shí),死前哀求別吵醒女兒,丁照月遇害案始末

女子被歹徒蹂躪三小時(shí),死前哀求別吵醒女兒,丁照月遇害案始末

易玄
2026-06-23 06:45:08
2:1!射門9:4,世界杯生死戰(zhàn),卡塔爾半場(chǎng)落后波黑,輸球就出局

2:1!射門9:4,世界杯生死戰(zhàn),卡塔爾半場(chǎng)落后波黑,輸球就出局

安海客
2026-06-25 03:56:08
一個(gè)家庭最大的災(zāi)難,不是窮,而是父母六七十了,還存在3種情況

一個(gè)家庭最大的災(zāi)難,不是窮,而是父母六七十了,還存在3種情況

熱心市民小黃
2026-05-14 19:05:42
相差15歲姐弟戀!00后體育生愛上重慶單親媽媽,喜歡叫對(duì)方姐姐

相差15歲姐弟戀!00后體育生愛上重慶單親媽媽,喜歡叫對(duì)方姐姐

那年秋天
2026-05-03 11:50:10
跨越32年!老哈蘭德三兄弟并肩作戰(zhàn),小哈蘭德三兄弟再度攜手

跨越32年!老哈蘭德三兄弟并肩作戰(zhàn),小哈蘭德三兄弟再度攜手

劉哥談體育
2026-06-24 14:50:48
41歲C羅還在世界杯進(jìn)球,情史12個(gè)女友,最后卻被一個(gè)柜姐收了心

41歲C羅還在世界杯進(jìn)球,情史12個(gè)女友,最后卻被一個(gè)柜姐收了心

阿廢冷眼觀察所
2026-06-24 16:13:06
總理調(diào)研期間,登上在建船只

總理調(diào)研期間,登上在建船只

政知新媒體
2026-06-24 00:51:15
黃金、白銀、原油,大跌!特朗普,最新發(fā)聲!

黃金、白銀、原油,大跌!特朗普,最新發(fā)聲!

證券時(shí)報(bào)e公司
2026-06-25 00:20:26
皇馬有救了!穆里尼奧剛上任就放話,激活姆巴佩的鑰匙找到了!

皇馬有救了!穆里尼奧剛上任就放話,激活姆巴佩的鑰匙找到了!

瀾歸序
2026-06-25 03:14:50
為什么說女人和丈夫上床十次,不如和情人偷情一次呢?

為什么說女人和丈夫上床十次,不如和情人偷情一次呢?

思絮
2026-06-22 21:40:32
發(fā)現(xiàn)了嗎?女人不管個(gè)子高矮,只要腰細(xì)屁股大,身材就不會(huì)差

發(fā)現(xiàn)了嗎?女人不管個(gè)子高矮,只要腰細(xì)屁股大,身材就不會(huì)差

皓皓情感說
2026-06-19 19:56:21
越扒越有!娜然坐霍家主桌僅48小時(shí),再迎2大噩耗,大房早已表態(tài)

越扒越有!娜然坐霍家主桌僅48小時(shí),再迎2大噩耗,大房早已表態(tài)

趣文說娛
2026-06-23 18:39:52
這么優(yōu)秀的兩個(gè)孩子,可以加進(jìn)遺囑了吧!

這么優(yōu)秀的兩個(gè)孩子,可以加進(jìn)遺囑了吧!

BenSir本色說
2026-06-25 01:39:13
2026-06-25 05:11:00
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應(yīng)用精選與評(píng)測(cè)
552文章數(shù) 92關(guān)注度
往期回顧 全部

科技要聞

豆包專業(yè)版上線:定價(jià)68-500元每月

頭條要聞

15歲男孩肥胖誘發(fā)糖尿病 搶救無效離世

頭條要聞

15歲男孩肥胖誘發(fā)糖尿病 搶救無效離世

體育要聞

字母哥,會(huì)把凱爾特人拆了嗎?

娛樂要聞

向佐向佑兄弟合體直播!母子終于和解

財(cái)經(jīng)要聞

逃稅23億:審計(jì)署年報(bào)直指七家機(jī)構(gòu)

汽車要聞

施鵬澤:為什么奧迪E7X強(qiáng)調(diào)座艙氣味安全?

態(tài)度原創(chuàng)

本地
家居
數(shù)碼
親子
教育

本地新聞

2026世界杯全勤太難?這份保姆級(jí)攻略請(qǐng)收好

家居要聞

綠意盎然 自然之境

數(shù)碼要聞

三星電子公眾號(hào)注銷!家電業(yè)務(wù)已官宣退出中國(guó)大陸市場(chǎng)

親子要聞

今天教兒子如何擦屁股

教育要聞

2026高考分?jǐn)?shù)線最新匯總!12省已公布,含藝術(shù)類各專業(yè)分?jǐn)?shù)線

無障礙瀏覽 進(jìn)入關(guān)懷版