无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

上交大與美團聯手打造"我的世界"AI考場:讓大模型證明"聰明"

0
分享至


這項由上海交通大學計算機科學學院與美團聯合開展的研究,以預印本形式于2026年5月29日發布,編號為arXiv:2605.30931,有興趣深入了解的讀者可以通過該編號在arXiv平臺查詢完整論文。

說起現在最火的AI技術,大家腦海里可能會浮現出那些能寫文章、畫圖、回答問題的"大模型"。這些模型在各種測試中表現出色,讓很多人覺得AI已經足夠聰明了。但是,有一個問題一直困擾著研究者:這些模型在真實的、動態變化的世界里,真的能靠自己完成復雜任務嗎?坐在考場里答題和在街上獨立生存,完全是兩回事。

于是,上交大與美團的研究團隊想到了一個絕妙的方案:把《我的世界》(Minecraft)這款沙盒游戲變成一個考場,專門用來測試AI模型在開放世界里的探索能力。這個考場有個正式的名字——MINEEXPLORER。

為什么是《我的世界》?因為這款游戲里有草地、森林、河流、村莊、各種動物和怪物,玩家需要觀察環境、制定計劃、一步步完成目標。這跟真實世界里解決問題的邏輯非常相似。但麻煩的是,《我的世界》也有很多只有老玩家才知道的"秘籍"——比如特定的合成配方、特殊的游戲機制——這些跟現實世界的常識毫無關系。研究團隊認為,如果AI答對了問題但只是因為它"背過游戲攻略",那這個考試就沒意義了。真正想考察的,是AI用通用的推理能力和常識,在一個動態變化的環境里靈活應對。

正因為這個核心理念,MINEEXPLORER做了一件很關鍵的事:從3382個游戲任務里,篩掉了所有"需要懂游戲內部規則才能完成"的任務,只保留了1497個靠現實世界常識就能搞定的任務。然后,研究團隊把這些任務組合成813個經過真人驗證的復合測試案例,難度從"一步到位"一直升級到"需要提前完成四個隱藏步驟"。測試結果令人警醒:哪怕是目前最頂尖的AI模型,在這個考場里的表現也遠遠稱不上優秀。

一、如何讓考場只考"真本領"而不考"游戲攻略"

打造這個考場的第一步,是解決一個根本性的矛盾:《我的世界》里有大量只屬于游戲本身的規則,跟現實世界的常識完全不一樣。以合成物品為例,在游戲里要做一個活塞,需要按照特定的擺放方式組合木頭、圓石、鐵錠和紅石,這套規則在現實生活里毫無對應,普通人就算從沒玩過游戲,靠常識也完全猜不出來。

研究團隊把這類"只有老玩家才懂"的任務統統剔除,保留那些靠常識就能理解的任務。比如"獵殺一只羊"——找到羊、靠近它、攻擊它,這個邏輯在現實世界里完全說得通。再比如"找到一條河流然后游過去"——識別水域、下水、游到對岸,這也是任何人憑直覺都能想到的。相反,"釀造一瓶治愈藥水"就被剔除了,因為要知道需要把地獄疣和閃光甜瓜放進釀造臺,這完全是游戲獨有的設定。

為了做這個篩選,研究團隊準備了一份《我的世界》規則說明書,讓AI判斷官:對于每一個候選任務,一個從沒玩過這款游戲的普通人,能不能只憑現實世界的常識把它完成?能——留下來;不能——淘汰。這個過程很像給一套試卷做"公平性審核",確保題目考的是真實能力而不是死記硬背。經過這輪篩選,原本3382個任務里,只有1497個通過了審核。

為了驗證這個篩選過程本身是否可靠,研究團隊抽取了500個任務,讓真人去檢驗AI判官的判斷是否準確,結果整體吻合率達到86.8%,誤判率都在10%以下,這說明篩選過程相當靠譜。

二、用"看-想-做"的框架給AI能力畫地圖

光有一堆任務還不夠,研究團隊還需要一套系統來分析:完成每個任務,AI到底需要哪些能力?他們借鑒了一個叫"ReAct"的思路——這個名字來自英文"推理"(Reasoning)和"行動"(Acting)的組合——把AI在游戲里需要做的事情分成三大類:感知、推理和行動。

感知,就是AI"用眼睛"理解世界的能力。具體來說,它需要判斷周圍地形和目標位置的空間關系,需要感知任務過程中環境的變化,需要識別場景里的動物、怪物、村民等各種角色,需要監控自身狀態(比如血量是否不足),還需要檢查自己背包里有什么東西。這五種感知能力,共同構成了AI"睜眼看世界"的基礎。

推理,是AI"用腦子"分析情況的能力。它需要用現實世界的常識做出判斷——比如知道砍樹可以得到木頭,而木頭可以用來做工具;它還需要理解因果關系,明白"先做A,才能做B"的邏輯;另外它還需要理解空間和對象之間的關系,比如判斷哪個目標離自己更近、某個物品在哪個區域。

行動,是AI"用手腳"執行計劃的能力。在游戲里,這包括基本移動(走路、游泳)、跳躍越過障礙、采集物品(挖礦、砍樹、撿東西)、放置方塊、合成物品,以及戰斗。

給每個任務貼上這三類能力的標簽之后,研究團隊就能清楚地知道:每道考題究竟在考AI的哪些能力,考得有多難。

三、把簡單任務編織成"隱藏關卡"——多跳任務的設計

MINEEXPLORER里最有意思的設計,是把若干個簡單任務組合成一個"隱藏關卡"。正式的叫法是"隱式多跳任務"。

以考場里的一個例子為例:AI收到的任務指令是"去打敗一只蜘蛛"。聽起來很簡單,對吧?但在這個精心設計的場景里,AI剛一出生,面前是一條河流擋住了去路,河對岸才有蜘蛛。所以AI必須先識別出河流是障礙,然后自己想到"得先過河",接著發現旁邊有一些材料可以合成武器,于是還得先造一把劍,然后游過河,最后才能打蜘蛛。

整個過程里,"過河"和"造劍"這兩個前置步驟,在任務指令里根本沒有提到。AI必須靠自己觀察環境,推斷出這些隱藏的前置條件,并且按正確的順序一步步完成。這就像你老板跟你說"去給客戶送份報告",但沒告訴你報告還沒打印、打印機沒紙、鑰匙在抽屜里——你得自己發現這些問題并一一解決。

研究團隊還為每個測試案例設計了一個"難度分數"。這個分數的核心邏輯是:需要提前完成的隱藏步驟越多、每個步驟涉及的能力越多樣,任務就越難。一跳任務就是沒有隱藏步驟,直接完成目標就行;兩跳任務有一個隱藏前置步驟;三跳有兩個;四跳有三個。數字越大,AI需要在腦子里維持的"計劃鏈條"就越長,出錯的可能性也就越大。

四、五個"專家"協同合作才能造出一道好題

設計出這些測試案例本身,就是一個相當復雜的工程。研究團隊發現,如果只讓一個AI模型來負責出題,生成的題目往往漏洞百出:場景擺放不合理、評分規則有誤、任務邏輯前后矛盾。于是他們設計了一個由五個專門角色組成的"出題委員會",每個角色各司其職。

第一個角色是任務選擇員,負責從候選任務池里挑選合適的任務組合,設計它們之間的依賴關系,并寫出那道"只說最終目標、不透露隱藏步驟"的任務指令。第二個角色是場景設計師,負責在游戲里搭建實際的場景——放置方塊、召喚動物怪物、調整地形——并且可以"進入"游戲場景親自走一遍,確認設計是否合理。

第三個角色是里程碑設計師,負責把每個子任務轉化成可以被程序自動判斷的規則。比如"采集到了煤礦"可以用"背包里煤炭數量增加了1"來判斷,"打敗了僵尸"可以用"僵尸從場景里消失了"來判斷。這些規則必須精確且可執行,而且設計師可以在游戲里實際觸發這些條件來驗證規則是否有效。第四個角色是《我的世界》專家,專門審查整個設計有沒有偷偷依賴游戲專屬知識,必要時可以查閱游戲維基百科來核實具體機制。第五個角色是驗證員,從結構上檢查任務的依賴圖有沒有邏輯錯誤,評分規則有沒有漏洞。

這五個角色在一個"討論組"里協作:先各自完成初稿,然后互相審查、提意見、修改,直到所有人都認為這道題沒有問題為止。這個過程跟學術論文的同行評審很像,只不過"評審人"都是AI。

研究團隊還專門比較了"五人團隊出題"和"一個AI單獨出題"的效果。真人評審的結果很說明問題:五人團隊出的題,整體合格率約為78%,質量評分約4.53分(滿分5分);而單個AI出的題,合格率只有約44%,質量評分約4.03分。在四跳任務這種最復雜的情況下,差距更為明顯——單個AI只有約27%的合格率,而團隊方式能達到約66%。這說明讓不同專長的角色分工合作,確實能大幅提升出題質量。

五、最終的考場長什么樣,AI怎么參加考試

完成所有篩選和生成之后,MINEEXPLORER最終包含813個經真人驗證的測試案例,從一跳到四跳均有覆蓋,分別有292、301、211和235個案例。每個案例都有明確的文字任務指令、一個精心搭建的游戲場景、一套隱藏的任務依賴圖,以及一組可以自動判分的里程碑規則。

參加考試的AI模型,以第一人稱視角進入游戲場景。每隔0.1秒,系統就截一張游戲畫面發給AI,AI看著畫面思考一下,然后輸出一個動作指令——往前走、轉頭看、揮錘挖礦等等。AI最多能記住最近20幀的歷史畫面,整個測試時長不超過30秒(300個步驟)。每一步之后,系統都會自動檢查里程碑規則是否被觸發。

評分用兩個主要指標:任務成功率(TSR)衡量最終目標有沒有完成,里程碑成功率(MSR)衡量在沒有完全成功的情況下,完成了多少個中間步驟。研究團隊也驗證了這套自動評分系統的可靠性:讓真人觀看AI的游戲視頻并打分,發現當所有里程碑都被自動檢測為"完成"時,真人的平均評分接近4分(滿分4分);當所有里程碑都被檢測為"失敗"時,真人的平均評分低于3分。自動判分系統與真人判斷的整體吻合率同樣達到86.8%。

六、頂尖AI在考場里的實際表現:差距令人吃驚

研究團隊邀請了18款當前最先進的多模態大模型參加這場考試,包括各大公司的旗艦產品。結果可以用一句話概括:在一跳任務里還算說得過去,但一旦任務鏈條變長,幾乎所有模型都急劇"失速"。

表現最好的是Claude-Opus-4.6,它的整體任務成功率約為41%。排名第二的是谷歌的Gemini-3.1-Pro-Preview,成功率約為37%。這兩款模型在一跳任務里的成功率分別約為78%和74%,看起來還不錯;但到了多跳任務,Claude-Opus-4.6的成功率下降到約24%,Gemini的成功率則約為20%。

換個角度理解這組數據更直觀:在一跳任務里,接近四分之三的任務能被頂尖模型完成;但在多跳任務里,超過四分之三的任務會失敗。隱藏步驟增多之后,AI的表現會急劇下滑,而不是緩慢降低。大多數排名靠后的模型,整體成功率在10%到20%之間,有些模型在四跳任務里的成功率接近于零。

從能力維度來看,AI在感知得分上普遍高于推理得分,行動得分則大致居中。這個規律在幾乎所有測試模型身上都成立。通俗地說,AI通常能"看到"場景里有什么,但往往想不清楚"下一步該怎么辦"。這個差距在多跳任務里更加明顯——當AI不僅要看清現狀,還要推斷出哪些隱藏的前置條件沒有滿足、應該先做什么,它的推理能力就明顯跟不上了。

還有一個出乎意料的發現:模型越大、推理越復雜,并不意味著游戲表現越好。在Qwen系列中,參數量更多的235B版本,其表現并不總是比32B版本更好。更令人困惑的是,專門加入了"思考模式"的版本,整體表現反而有時不如普通版本。具體來說,Qwen-3-VL-235B-A22B-Instruct的整體任務成功率約為10.6%,而它的"思考"版本Qwen-3-VL-235B-A22B-Thinking只有約8.1%。

這說明在開放世界探索這件事上,光靠增加參數量或者讓模型"多想想",并不能解決根本問題。關鍵在于,模型需要把它的推理過程和眼前的畫面實時聯系起來——當環境隨著每一個動作而變化,計劃也必須跟著實時更新。如果推理和感知之間沒有緊密耦合,多想反而可能是負擔。

七、為什么失敗,失敗在哪里

研究團隊對Claude-Opus-4.6的失敗案例進行了詳細分析,按照失敗原因把錯誤分成幾類。最常見的失敗原因是導航失敗,占所有失敗里程碑的約60%——AI找不到目標在哪,或者無法到達目標位置。這說明在三維空間里定位和導航,目前仍然是多模態模型的主要短板。第二大失敗原因是資源采集失敗,約占20%——AI看到了目標,但就是沒能成功完成采集動作。行動執行失敗和目標識別錯誤(也就是搞錯了自己該做什么)各占約10%。陷入死循環或者卡住的情況非常罕見,只占不到1%。

這三類主要失敗——導航、行動、目標識別——剛好分別對應感知、行動、推理三個能力維度,說明AI在這三個方向上都還有明顯的提升空間,而不是只有某一個短板。

在步驟效率方面也有一個有趣的規律:能完成任務的那些情況,大多數都在很早的階段就完成了,而那些失敗的情況,往往跑完了整個30秒的時限也沒有進展。這說明當前的AI模型在短期任務上還算有效,但在長時間的持續探索上基本沒有什么"越挫越勇"的能力——如果它在早期就迷失了方向,通常不會在之后找回來。

更強的模型完成任務時所花的步驟數往往更多,不是因為它們效率更低,而是因為它們能完成那些需要更長操作序列的中等難度任務,而弱一些的模型只能完成非常短小的任務。這個角度來看,步驟數多反而是能力強的一種體現。

歸根結底,MINEEXPLORER揭示了一個關鍵矛盾:當前的AI模型在接受單一、明確的指令時表現還可以,但當任務需要它們主動發現問題、自己制定計劃、在環境變化中隨機應變時,表現就會大幅下滑。現實世界里的大多數任務都更像后者——你的老板不會每隔0.1秒告訴你下一步該做什么。從這個意義上說,MINEEXPLORER測出來的差距,不只是游戲里的差距,也是AI走向真正實用的那段距離。

研究團隊希望MINEEXPLORER不只是一個測試臺,也能成為未來訓練AI的環境,幫助研究者找到讓AI真正學會"長程探索"的方法。如果你對這項研究感興趣,可以通過arXiv編號2605.30931找到完整論文,代碼和數據集也已在GitHub開源,地址為github.com/Jometeorie/MineExplorer。

Q&A

Q1:MINEEXPLORER是一個什么樣的測試平臺,它和普通的AI測試有什么區別?

A:MINEEXPLORER是一個基于《我的世界》游戲構建的AI能力評估平臺,專門用來測試多模態大模型在動態開放世界中的探索能力。與普通的AI測試不同,它不考靜態問答或短期單步任務,而是要求AI在不斷變化的游戲環境里,自己推斷隱藏的前置條件,按順序完成多個步驟,最終達成目標。整個過程更接近真實世界解決問題的邏輯,而不是背答案。

Q2:MINEEXPLORER里的多跳任務具體是什么意思,為什么AI在這類任務上會失敗得那么慘?

A:多跳任務是指任務指令只告訴AI最終目標,但完成目標之前需要先完成一個或多個隱藏的前置步驟。比如指令說"打敗蜘蛛",但AI得自己發現前方有河流擋路、需要先造武器。失敗的主要原因是AI通常能"看到"眼前的情況,卻難以推理出隱藏的前置邏輯;而且隨著環境變化,AI的計劃沒能及時跟上,導致越來越多的行動白費。

Q3:MINEEXPLORER的測試結果說明頂尖AI現在到底有多強、又差在哪里?

A:目前表現最好的模型Claude-Opus-4.6整體任務成功率約為41%,在只有一個步驟的簡單任務里能完成約78%,但在需要推斷多個隱藏步驟的復雜任務里成功率不到24%。主要差距在三個方向:在三維空間里找到目標(導航)、識別當前真正該做什么(推理)、以及成功執行具體操作(行動)。增加模型參數量或開啟"思考模式"并不能穩定改善這些問題。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

深析古今
2026-06-14 15:32:00
美國頂級戰略家一針見血,中國的這場危機不解決,未來后果很嚴重

美國頂級戰略家一針見血,中國的這場危機不解決,未來后果很嚴重

荷蘭豆愛健康
2026-06-14 13:42:59
伊朗:霍爾木茲海峽,全面關閉!任何通行船只都將被“果斷處置”!美聯儲新掌門首秀在即,6月利率不變概率飆至98.5%!

伊朗:霍爾木茲海峽,全面關閉!任何通行船只都將被“果斷處置”!美聯儲新掌門首秀在即,6月利率不變概率飆至98.5%!

金融界
2026-06-14 13:43:17
不出意外,下半年開始,寬帶費、有線電視費將迎來行業新一輪洗牌

不出意外,下半年開始,寬帶費、有線電視費將迎來行業新一輪洗牌

民生格物
2026-06-14 13:14:05
總決賽砍90+30+10歷史唯一!馬刺丟冠,唯獨他一人可以昂首離開

總決賽砍90+30+10歷史唯一!馬刺丟冠,唯獨他一人可以昂首離開

你的籃球頻道
2026-06-14 12:44:04
保時捷撞上兩車后,火速逃離現場!北京警方:姐弟兩人,一個刑拘一個拘留

保時捷撞上兩車后,火速逃離現場!北京警方:姐弟兩人,一個刑拘一個拘留

都市快報橙柿互動
2026-06-14 00:39:15
12000億光模塊巨頭,回應業績暴雷傳聞

12000億光模塊巨頭,回應業績暴雷傳聞

21世紀經濟報道
2026-06-14 14:12:59
中紀委怒批:公務員也是人,正常生活不應問責處理!

中紀委怒批:公務員也是人,正常生活不應問責處理!

細說職場
2026-06-13 12:51:02
爭議拉滿!迪麗熱巴手機殼用詞露骨惹網友吐槽

爭議拉滿!迪麗熱巴手機殼用詞露骨惹網友吐槽

暖心萌阿菇涼
2026-06-14 14:57:11
世界杯官方社媒:蘇格蘭1998年以來首次進球

世界杯官方社媒:蘇格蘭1998年以來首次進球

懂球帝
2026-06-14 10:31:36
包工頭退出舞臺!住建委:取消勞務分包!全面實現自有工人施工!國資委:建筑央企建立自有工人隊伍

包工頭退出舞臺!住建委:取消勞務分包!全面實現自有工人施工!國資委:建筑央企建立自有工人隊伍

新浪財經
2026-06-14 07:41:37
45歲安以軒復出,好友透露其近況:沒有工作和任何收入,靠以往積蓄投資理財,獨自照顧兩個孩子

45歲安以軒復出,好友透露其近況:沒有工作和任何收入,靠以往積蓄投資理財,獨自照顧兩個孩子

無比
2026-06-13 20:42:09
美國隊長又帥回來了,一次失敗的植發,毀了他兩年形象

美國隊長又帥回來了,一次失敗的植發,毀了他兩年形象

替補席懂王
2026-06-14 11:43:01
崩潰!6萬美術集訓班逼哭單親媽媽,美術老師瘋狂對女兒話術洗腦

崩潰!6萬美術集訓班逼哭單親媽媽,美術老師瘋狂對女兒話術洗腦

火山詩話
2026-06-14 05:11:04
中央定調:事業單位這三類人員不允許彈性延遲退休,到齡就得退休

中央定調:事業單位這三類人員不允許彈性延遲退休,到齡就得退休

職場資深秘書
2026-06-14 09:25:33
日媒:韓國決定申請加入CPTPP

日媒:韓國決定申請加入CPTPP

參考消息
2026-06-13 12:18:28
美聯儲,重磅來襲!加息,傳來大消息!

美聯儲,重磅來襲!加息,傳來大消息!

證券時報
2026-06-14 16:50:07
雷軍犯天條了,竟然遭到整個中國家電行業集體圍剿。

雷軍犯天條了,竟然遭到整個中國家電行業集體圍剿。

流蘇晚晴
2026-06-12 13:02:17
張雪奪第六冠,日媒集體破防:在三缸機領域,中國已經反超了日本

張雪奪第六冠,日媒集體破防:在三缸機領域,中國已經反超了日本

林子說事
2026-06-14 14:36:43
男童失蹤96小時!救援隊曝致命疑點,家屬哭喊:最怕的事要來了

男童失蹤96小時!救援隊曝致命疑點,家屬哭喊:最怕的事要來了

小陸搞笑日常
2026-06-14 15:13:09
2026-06-14 19:00:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業世界
8771文章數 565關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發生沖突

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發生沖突

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

家居
教育
游戲
本地
公開課

家居要聞

空間微調 移形換境

教育要聞

2026高考作文:萬古融雪,終貫滄海

《殺戮尖塔》UP主承認作弊!并承諾退回禮物重打挑戰

本地新聞

AK劉彰邂逅河北南大港濕地

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版