世界模型正在重新定義“游戲”的價值

2026-06-29 20:14:56　來源: DeepTech深科技

北京舉報

分享至

1943 年，29 歲的蘇格蘭心理學(xué)家 Kenneth Craik 出版了一本不到 200 頁的小書《The Nature of Explanation》。彼時二戰(zhàn)尚未結(jié)束，數(shù)字計算機尚未誕生，但 Craik 在書中提出了一個驚人的假說：人類思維的核心機制，不是“心靈”、不是“自我”、不是“感覺材料”，而是一種符號化的建模過程。大腦在內(nèi)部構(gòu)建了外部現(xiàn)實的“小尺度模型”（small-scale model），用它來替代真實世界的試錯。

他在這本書里寫下了這段被后人反復(fù)引用的話：

如果一個有機體能在腦中攜帶一個外部現(xiàn)實及其自身可能行動的“小尺度模型”，它就能試驗各種備選方案，從中選出最優(yōu)解，在未來情境到來之前就做出反應(yīng)，利用過去事件的知識來應(yīng)對當(dāng)下和未來，以一種更充分、更安全、更勝任的方式來回應(yīng)它所面臨的一切緊急狀況。

Kenneth Craik 和《The Nature of Explanation》來源：WikiPedia

Craik 進一步拆解了這個過程的三個步驟：

1. 將外部過程翻譯為內(nèi)部表征（感知）

2. 從這些表征中推導(dǎo)出新的符號（推理／預(yù)測）

3. 將推導(dǎo)結(jié)果重新翻譯為行動（決策／控制）

感知、預(yù)測、行動。這三個詞，恰好是 80 年后每一個世界模型系統(tǒng)試圖閉合的環(huán)路。

但 Craik 沒有等到自己的思想開花結(jié)果。1945 年 5 月 7 日，他在劍橋國王大道騎自行車時被一輛汽車撞倒；次日，也就是歐洲勝利日，在醫(yī)院去世，年僅 31 歲。他甚至沒來得及知道，愛因斯坦讀過他的書后評價了一句“偉大的著作”，而沃倫·麥卡洛克（Warren McCulloch）將在此后數(shù)十年反復(fù)傳述這個評價。

Craik 死后，他的思想?yún)s在控制論、認(rèn)知科學(xué)和人工智能的三條支流中持續(xù)擴散。1949 年，英國控制論俱樂部“Ratio Club”成立時，創(chuàng)始人 John Bates 專門為 Craik 的缺席表達遺憾，認(rèn)為如果他還活著，一定是最核心的成員。

1956 年，在被視為 AI 誕生標(biāo)志的達特茅斯研討會上，Nathaniel Rochester 在提案文件中引用了《The Nature of Explanation》中關(guān)于學(xué)習(xí)的模型。1983 年，Philip Johnson-Laird 出版《Mental Models》，將 Craik 的框架正式納入認(rèn)知科學(xué)的主流范式。

然后便是漫長的沉寂。1991 年，Rodney Brooks 發(fā)表了影響深遠的論文“Intelligence without Representation”，主張智能行為可以不需要內(nèi)部世界模型，只靠與環(huán)境的直接反應(yīng)式交互就能涌現(xiàn)。這條路線催生了行為主義機器人學(xué)，也讓“世界模型”這個概念在 AI 主流中沉寂了將近二十年，直到 2018 年。

從夢境中醒來

2018 年，Google Brain 的 David Ha 和瑞士人工智能實驗室 IDSIA 的 Jürgen Schmidhuber（LSTM 的發(fā)明者之一）發(fā)表了一篇名字直截了當(dāng)?shù)恼撐模骸禬orld Models》。

圖丨相關(guān)論文（來源：arXiv）

這篇論文的核心思想并不復(fù)雜：給 AI 一個“做夢”的能力。

他們設(shè)計了一個三組件架構(gòu)：

V（視覺模型）：一個變分自編碼器（VAE），把高維的像素畫面壓縮成低維的潛在表征，相當(dāng)于大腦把視覺信息壓縮成抽象概念
M（記憶模型）：一個混合密度網(wǎng)絡(luò)-循環(huán)神經(jīng)網(wǎng)絡(luò)（MDN-RNN），基于歷史觀測和動作預(yù)測下一步的潛在狀態(tài)，相當(dāng)于對“接下來會發(fā)生什么”的想象
C（控制器）：一個極其簡單的線性模型，在 V 和 M 構(gòu)建的壓縮世界表征上做決策

關(guān)鍵突破不在架構(gòu)本身，而在訓(xùn)練方式：智能體可以完全在自己“幻想出的夢境”中學(xué)習(xí)策略，然后遷移到真實環(huán)境中。Ha 和 Schmidhuber 在賽車游戲 VizDoom 上驗證了這個想法：智能體先在 M 生成的“夢境賽道”中學(xué)會開車，然后直接在真實游戲中跑出了不錯的成績。

其實早在 1990 年，Schmidhuber 就提出了預(yù)測性神經(jīng)架構(gòu)，允許智能體在內(nèi)部模擬環(huán)境動態(tài)并在毫秒級別內(nèi)完成規(guī)劃。但 2018 年這篇論文的貢獻在于，它把三十年的工作蒸餾成了一個干凈、可復(fù)現(xiàn)的框架，并且給了這個概念一個名字：World Models。

從那以后，這個領(lǐng)域開始加速。

Richard Sutton 早在 1990 年代提出的 Dyna 架構(gòu)（用學(xué)習(xí)到的世界模型來預(yù)測未來結(jié)果并規(guī)劃行動）成為了重要的理論橋梁。隨后，Dreamer 系列（2020—2023）、MuZero（2020）、EfficientZero（2021）等基于模型的強化學(xué)習(xí)（Reinforcement Learning，RL)系統(tǒng)相繼證明，在游戲領(lǐng)域，學(xué)習(xí)一個世界模型再用它來訓(xùn)練策略，可以匹配甚至超越直接與環(huán)境交互的無模型方法。

到了 2024—2025 年，世界模型從一個 RL 子領(lǐng)域的技術(shù)概念，演變成了一場更宏大的范式轉(zhuǎn)移。2025 年發(fā)表在 ACM Computing Surveys 上的綜述論文（清華大學(xué)團隊）將世界模型的功能劃分為兩大類：理解型（構(gòu)建世界運作機制的隱式表征）和預(yù)測型（模擬未來狀態(tài)以指導(dǎo)決策）。

另一篇 2026 年的綜述（arXiv：2604.22748）則提出了三級能力層級：L1 預(yù)測器（局部單步預(yù)測）→ L2 模擬器（多步可決策的仿真，需要長程一致性）→ L3 演化器（基于證據(jù)的自我修正）。

而在這個技術(shù)演進的每一個關(guān)鍵節(jié)點上，都有一個共同的身影：游戲。

為什么是游戲？

如果你要訓(xùn)練一個理解世界運作方式的 AI，你會選擇什么樣的訓(xùn)練環(huán)境？

理想的訓(xùn)練場應(yīng)該滿足幾個條件：環(huán)境復(fù)雜但邊界可控；失敗成本為零，可以無限試錯；每一步行動都有即時反饋；數(shù)據(jù)量近乎無限，這些特點幾乎完美對應(yīng)著電子游戲。

ACM Computing Surveys 2025 年那篇綜述概括了這一點：游戲環(huán)境代表了世界模型研究的理想實驗臺，它提供了受控但復(fù)雜的領(lǐng)域，要求對物理、因果關(guān)系和交互動力學(xué)有精深的理解。

但這不只是學(xué)術(shù)上的“理想”，游戲作為訓(xùn)練場的優(yōu)勢是非常明確的：

第一，數(shù)據(jù)天然帶標(biāo)注。每一幀游戲畫面都對應(yīng)著玩家的操作輸入（向左、跳躍、開火），形成了完美的 observation-action pair。訓(xùn)練一個自動駕駛的世界模型，你需要昂貴的傳感器陣列、精密的標(biāo)注團隊和漫長的道路測試。訓(xùn)練一個游戲世界模型，數(shù)據(jù)自己就跑出來了。Google DeepMind 訓(xùn)練 Genie 時用了超過 20 萬小時的公開互聯(lián)網(wǎng)游戲視頻，精選后得到 680 萬個 16 秒片段。這些數(shù)據(jù)不需要任何人工標(biāo)注，因為游戲本身就是最好的標(biāo)注器。

第二，物理規(guī)則是顯式的。游戲有重力，有碰撞檢測，有流體模擬。一個游戲世界模型學(xué)到的“球會下落”“墻會擋住路”“水會流動”，和物理世界中的同類現(xiàn)象共享深層的因果結(jié)構(gòu)。當(dāng)然，游戲物理是簡化的（否則它跑不到 60 幀），但這種簡化恰好提供了一個課程學(xué)習(xí)（curriculum learning）的起點：先在簡單物理中學(xué)會基本規(guī)則，再逐步遷移到更復(fù)雜的真實世界。

第三，規(guī)模驚人且還在增長。Steam 上有超過 10 萬款游戲。全球每天有數(shù)以億計的游戲進行中。游戲錄屏平臺 Medal.tv 每年從 1,000 萬用戶那里收集超過 20 億條游戲片段。這個數(shù)據(jù)量級是自動駕駛或機器人領(lǐng)域望塵莫及的。

第四，也是最容易被忽視的：游戲已經(jīng)預(yù)定義了一套壓縮良好的動作空間。手柄有十幾個按鍵和兩個搖桿，鍵鼠組合略多但也有限。幾十年來，游戲設(shè)計師和玩家共同迭代出了一套將人類意圖壓縮成離散／連續(xù)動作信號的通用接口。這個特性的意義，我們留到最后一章再展開。

當(dāng)然，這種關(guān)系是雙向的。

游戲不只是世界模型的訓(xùn)練場，游戲本身也需要世界模型。傳統(tǒng)游戲引擎靠手工編寫的物理規(guī)則和腳本化的 NPC 行為樹運轉(zhuǎn)，天花板肉眼可見：NPC 永遠在固定路線巡邏，物理引擎永遠按預(yù)設(shè)參數(shù)計算，每一個交互可能性都需要開發(fā)者提前想到并編碼。如果世界模型能替代這些硬編碼的規(guī)則，讓 NPC“理解”情境而非執(zhí)行腳本，讓物理“涌現(xiàn)”而非計算，那游戲體驗的上限將被根本性地改寫。

這就是為什么，當(dāng)世界模型在 2024 年開始從論文走向可運行的原型時，游戲成了第一個也是最密集的試驗場。

神經(jīng)網(wǎng)絡(luò)玩 DOOM：從論文到可玩原型

2024 年是世界模型從概念驗證跨入可交互原型的分水嶺，幾個標(biāo)志性系統(tǒng)集中出現(xiàn)，每一個都選擇了游戲作為證明自己的舞臺。

其中最具代表性的一個案例是 Google Research 的 GameNGen。這個團隊做了一件極具象征意義的事：用一個神經(jīng)網(wǎng)絡(luò)完全替代了 DOOM（1993）的游戲引擎。GameNGen 能以 20 幀／秒的速度實時生成 DOOM 的畫面，玩家按下方向鍵，模型預(yù)測下一幀應(yīng)該長什么樣。沒有傳統(tǒng)的渲染管線，沒有光線追蹤，沒有碰撞檢測算法。怪物的移動、子彈的軌跡、門的開關(guān)，全部編碼在神經(jīng)網(wǎng)絡(luò)的參數(shù)中。

DOOM 是 1993 年的游戲，物理規(guī)則簡單到可以用幾百行代碼描述，畫面在今天看來非常粗糙。但即便如此，讓一個神經(jīng)網(wǎng)絡(luò)完整地“理解”這個世界的運作方式并實時生成一致的視覺輸出，仍然是一個真正的技術(shù)突破。它證明了一個原理：游戲引擎的邏輯可以被學(xué)習(xí)，而不必被編程。當(dāng)然，局限也很明顯：它只能運行 30 年前的 DOOM，記憶窗口僅有 3 秒，走出一個房間再回來，房間里的東西可能已經(jīng)變了。

（來源：arXiv）

同年初發(fā)布的 Google DeepMind 的 Genie 系列則代表了另一條路線：不是在已有游戲中訓(xùn)練智能體，而是從視頻中學(xué)習(xí)生成全新的可交互世界。后來李飛飛創(chuàng)辦的 World Labs 也沿著相近的問題意識推進：不只是生成一段視頻，而是生成一個具有空間結(jié)構(gòu)、可以被進入和編輯的 3D 世界。

最初發(fā)布的 Genie 是一個 110 億參數(shù)的模型，它首次實現(xiàn)了從無標(biāo)簽互聯(lián)網(wǎng)視頻中以無監(jiān)督方式訓(xùn)練生成式交互環(huán)境。它的訓(xùn)練數(shù)據(jù)來自超過 20 萬小時的公開游戲視頻，最終精選出 680 萬個 16 秒片段。給它一張圖片，可以是照片、草圖甚至文字描述，它就能生成一個可以用虛擬手柄操控的 2D 世界。

2024 年 12 月發(fā)布的 Genie 2 走得更遠，它是一個自回歸潛擴散模型，能從單張圖片生成可操控的 3D 可玩環(huán)境。DeepMind 的官方博客列出了一系列在訓(xùn)練中涌現(xiàn)出的能力：物體交互、復(fù)雜角色動畫、物理模擬、光照效果，其中最引人注目的是 NPC 行為建模。

模型不是被編程來生成 NPC 的行為，而是在大量游戲視頻中“觀察”到了 NPC 應(yīng)該如何行動，然后在生成的世界中重現(xiàn)了類似的行為模式。DeepMind 將 Genie 2 定位為一個能提供“無限課程的新穎世界”的工具，用于 AI 智能體的訓(xùn)練和評估。但 Genie 2 生成的世界只能持續(xù) 10—20 秒，時間再長，一致性就開始崩塌。2025 年 8 月發(fā)布的 Genie 3 將這個窗口延長到了約一分鐘，Waymo 甚至已經(jīng)在用它做自動駕駛仿真。進步明顯，但一分鐘仍然不夠。

入局者：游戲公司與游戲數(shù)據(jù)公司

盡管 2024 年的那些成果可能離“可用”還差得遠，但有一件事已經(jīng)被證明：世界模型可以從游戲視頻里學(xué)會“世界如何回應(yīng)動作”。這意味著游戲錄像就不只是娛樂內(nèi)容，而是一種訓(xùn)練數(shù)據(jù)，甚至可能是最好用的訓(xùn)練數(shù)據(jù)之一。

同一時期，具身智能開始迅速發(fā)展，四足機器人、人形機器人、自動駕駛都在找更好的訓(xùn)練數(shù)據(jù)和仿真環(huán)境，這兩條線就此在 2025 年交匯了。世界模型需要大規(guī)模帶動作標(biāo)注的視頻數(shù)據(jù)，具身智能需要世界模型來理解物理世界，而坐在這兩個需求交叉點上的，是游戲公司和游戲數(shù)據(jù)公司，資本很快做出了反應(yīng)。

最有代表性的一個樣本是 General Intuition（GI）。2025 年 10 月，游戲錄屏平臺 Medal.tv 的創(chuàng)始人 Pim de Witte 據(jù)報拒絕了 OpenAI 高達 5 億美元的收購要約，轉(zhuǎn)而創(chuàng)立了這家公司，Khosla Ventures 和 General Catalyst 領(lǐng)投 1.34 億美元種子輪。

八個月后 A 輪 3.2 億美元到賬，估值 23 億美元，累計融資 4.54 億美元。GI 的敘事足夠有力也足夠簡潔：游戲數(shù)據(jù)是訓(xùn)練世界模型最好的預(yù)訓(xùn)練數(shù)據(jù)。Medal.tv 每年從 1,000 萬用戶那里收集超過 20 億條游戲片段，每一條都帶有完整的玩家操作記錄：哪一幀按了什么鍵，搖桿偏向了哪個方向。De Witte 說：“我們把這看作預(yù)訓(xùn)練的下一階段。”

圖丨 Pim de Witte（來源：Dutch News）

GI 的演示包括了這樣一個對比：同一個模型骨架，一邊能連續(xù)打 100 小時類《堡壘之夜》的射擊游戲，一邊能用 8 分鐘的街道視頻數(shù)據(jù)驅(qū)動一個四足機器人行走。

Khosla 說世界模型的關(guān)鍵飛躍在于“直覺”的涌現(xiàn)，模型不是在執(zhí)行規(guī)則，而是在“理解”世界應(yīng)該如何運轉(zhuǎn)。但需要注意的是：GI 目前最大的不確定性恰恰在于這個遷移故事。從游戲到機器人的遷移曲線到底有多陡，公司自己也沒有公開的、經(jīng)過同行評審的技術(shù)論文來回答。

KRAFTON（《絕地求生》的開發(fā)商）選擇了一條更具象的路徑。這家韓國游戲巨頭在 2025 年宣布轉(zhuǎn)型為“AI-first 公司”，投入約 1,000 億韓元建設(shè)專用 GPU 集群，成立 AI 子公司 Ludo Robotics，隨后在 2026 年 3 月與韓華航空航天簽署合作備忘錄，聯(lián)合開發(fā)物理 AI 技術(shù)并計劃成立合資企業(yè)。

KRAFTON 官方新聞稿提到：“KRAFTON 在運營大規(guī)模游戲數(shù)據(jù)和基于物理的虛擬世界方面積累的經(jīng)驗，是訓(xùn)練和驗證物理 AI 軟件的核心資產(chǎn)。”這幾乎是一家游戲公司能給出的最明確的戰(zhàn)略聲明：我們的游戲能力就是 AI 能力。

虛擬世界中的物理模擬、大規(guī)模玩家行為數(shù)據(jù)、實時渲染和狀態(tài)管理，這些在過去被視為“游戲技術(shù)”的東西，現(xiàn)在被重新定義為訓(xùn)練和驗證物理 AI 的基礎(chǔ)設(shè)施。韓華航空航天 CEO 的回應(yīng)同樣值得注意：“我們與 KRAFTON 的合作將在物理 AI 和未來防務(wù)領(lǐng)域提供新的范式標(biāo)準(zhǔn)。”從游戲到國防，中間只差一個世界模型。

除了上述這些公司之外，在這條賽道上，還有兩個無法繞開的玩家：NVIDIA 和騰訊。

NVIDIA 延續(xù)著一貫的作風(fēng)，它所做的不單單只是做一個世界模型，而是搭建了一層平臺。Cosmos 被定位為“物理 AI 世界基礎(chǔ)模型平臺”，不是一個單一的世界模型，而是一套構(gòu)建、訓(xùn)練和部署世界模型的基礎(chǔ)設(shè)施。

NVIDIA 將世界模型定義為“世界的數(shù)字孿生”，核心應(yīng)用鎖定在機器人訓(xùn)練上。配合 Isaac Sim（基于游戲引擎技術(shù)的機器人仿真平臺），NVIDIA 構(gòu)建了一條從游戲引擎到世界模型到物理機器人的完整工具鏈。

值得注意的是，Cosmos 的主要采用方大多是具身智能公司，而非游戲公司。游戲引擎和游戲技術(shù)正在被重新包裝為物理 AI 的訓(xùn)練基座，游戲公司積累了幾十年的資產(chǎn)（實時渲染、物理模擬、大規(guī)模并發(fā)）正在獲得超出娛樂產(chǎn)業(yè)的戰(zhàn)略估值。

而騰訊作為全球營收最高的游戲公司，它同時握著三樣稀缺輸入：混元大模型體系（多模態(tài) + 視頻 + 3D 生成）；AI 人才團隊以及算力基礎(chǔ)設(shè)施；以及全球游戲公司中最深的股權(quán)網(wǎng)絡(luò)（100% 控股 Riot、Supercell、持有 Epic 約 40%、KRAFTON 約 13.5%、FromSoftware 約 16%，加上天美、光子等自研工作室和《元夢之心》這樣的 UGC 平臺）。

前面提到的“入局者”中，有好幾個本身就有騰訊的身影。但騰訊的世界模型目前更偏“for human”（給開發(fā)者和創(chuàng)作者生成內(nèi)容），還沒有像 KRAFTON、GI、NVIDIA 那樣把“用世界模型訓(xùn)機器人”當(dāng)成明牌戰(zhàn)略。會不會從內(nèi)容側(cè)跨到具身側(cè)，是我們需要關(guān)注的重點。

這些案例指向同一個判斷：誰掌握了讓 AI 理解物理世界的能力，誰就掌握了下一個計算范式的入口。而在所有可能的訓(xùn)練路徑中，游戲正在成為共識性的起點。

從虛擬到物理，機器不必像人

最后，讓我們回到一個看似瘋狂但邏輯自洽的設(shè)想。

當(dāng)我們談?wù)摗坝糜螒驍?shù)據(jù)訓(xùn)練機器人”時，很容易陷入一個思維定式：機器人應(yīng)該長成人形，像人一樣行動，所以需要用人類的行為數(shù)據(jù)來訓(xùn)練。但這個思維定式忽略了一個更深層的事實：

手柄、方向盤、鍵盤鼠標(biāo)，是人類幾十年迭代出的“把意圖壓縮成通用動作信號”的接口。

一個游戲手柄有兩個搖桿、十幾個按鍵、兩個扳機。用這套接口，玩家可以控制一個人形角色在《艾爾登法環(huán)》里翻滾、格擋、攻擊；也可以控制一輛賽車在《GT 賽車》里過彎、加速、漂移；還可以控制一架直升機在《GTA》里起飛、懸停、降落。同一套動作空間，映射到了截然不同的物理系統(tǒng)上。

這意味著什么？意味著“人用手柄做了什么”的數(shù)據(jù)，本質(zhì)上是一種與具體形態(tài)無關(guān)的意圖-動作對。一個世界模型如果能從海量游戲錄像中學(xué)會“人類意圖如何映射到環(huán)境變化”，那它學(xué)到的不是“如何操控一個特定的角色”，而是“如何在一個動態(tài)系統(tǒng)中實現(xiàn)目標(biāo)”。

這是 General Intuition 的核心賭注。也是把“游戲”和“機器人”兩個看似不相干的領(lǐng)域焊死在一起的那一環(huán)。機器人不必長成人形，不必用兩條腿走路。它只需要能把意圖轉(zhuǎn)化為動作，而這種轉(zhuǎn)化能力，可以從幾十億條“人類通過手柄控制虛擬物理系統(tǒng)”的數(shù)據(jù)中學(xué)到。

從 Kenneth Craik 腦中的“小尺度模型”，到 Ha 和 Schmidhuber 讓智能體在夢境中學(xué)習(xí)賽車，到 Google 的神經(jīng)網(wǎng)絡(luò)替代 DOOM 引擎，到 General Intuition 用游戲錄像訓(xùn)練四足機器人，這條線之所以成立，不是因為某一個環(huán)節(jié)實現(xiàn)了突破，而是因為人類在過去 80 年里做的事，一直是同一件事：基于對世界的觀察和經(jīng)驗，構(gòu)建一個內(nèi)部模型，用它來預(yù)測下一步會發(fā)生什么，然后行動。

Craik 在 1943 年就理解了這一點。他寫道：“只有這種內(nèi)部現(xiàn)實模型，這個工作模型，才能讓我們預(yù)測物理世界中尚未發(fā)生的事件，這個過程節(jié)省了時間、成本，甚至生命。”

現(xiàn)在，同樣的過程正在從碳基生命遷移到硅基系統(tǒng)。而這個遷移的練習(xí)場，因為數(shù)據(jù)的密度、交互的豐富性、物理規(guī)則的可控性和失敗代價的可逆性，是游戲。

一個享年 31 歲的蘇格蘭心理學(xué)家在 1943 年洞察到的東西，在 80 年后正在被寫成代碼、訓(xùn)練成參數(shù)、部署到機器人身上。他沒有來得及看到這一天，但他的那個“小尺度模型”，或許正在變成一個越來越大的世界。

參考資料：

1.https://arxiv.org/abs/1803.10122

2.https://dl.acm.org/doi/10.1145/3720473

3.https://arxiv.org/abs/2405.12399

4.https://techcrunch.com/2026/06/18/general-intuition-raises-320m-series-a/

5.https://naavik.co/deep-dives/hello-world-models

6.https://www.notboring.co/p/world-models

7.https://www.quantamagazine.org/world-models-an-old-idea-in-ai-mount-a-comeback-20250923/

運營/排版：何晨龍

注：封面/首圖由 AI 輔助生成

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.