![]()
1943 年,29 歲的蘇格蘭心理學(xué)家 Kenneth Craik 出版了一本不到 200 頁的小書《The Nature of Explanation》。彼時二戰(zhàn)尚未結(jié)束,數(shù)字計算機尚未誕生,但 Craik 在書中提出了一個驚人的假說:人類思維的核心機制,不是“心靈”、不是“自我”、不是“感覺材料”,而是一種符號化的建模過程。大腦在內(nèi)部構(gòu)建了外部現(xiàn)實的“小尺度模型”(small-scale model),用它來替代真實世界的試錯。
他在這本書里寫下了這段被后人反復(fù)引用的話:
如果一個有機體能在腦中攜帶一個外部現(xiàn)實及其自身可能行動的“小尺度模型”,它就能試驗各種備選方案,從中選出最優(yōu)解,在未來情境到來之前就做出反應(yīng),利用過去事件的知識來應(yīng)對當(dāng)下和未來,以一種更充分、更安全、更勝任的方式來回應(yīng)它所面臨的一切緊急狀況。
![]()
Kenneth Craik 和《The Nature of Explanation》來源:WikiPedia
Craik 進一步拆解了這個過程的三個步驟:
1. 將外部過程翻譯為內(nèi)部表征(感知)
2. 從這些表征中推導(dǎo)出新的符號(推理/預(yù)測)
3. 將推導(dǎo)結(jié)果重新翻譯為行動(決策/控制)
感知、預(yù)測、行動。這三個詞,恰好是 80 年后每一個世界模型系統(tǒng)試圖閉合的環(huán)路。
但 Craik 沒有等到自己的思想開花結(jié)果。1945 年 5 月 7 日,他在劍橋國王大道騎自行車時被一輛汽車撞倒;次日,也就是歐洲勝利日,在醫(yī)院去世,年僅 31 歲。他甚至沒來得及知道,愛因斯坦讀過他的書后評價了一句“偉大的著作”,而沃倫·麥卡洛克(Warren McCulloch)將在此后數(shù)十年反復(fù)傳述這個評價。
Craik 死后,他的思想?yún)s在控制論、認(rèn)知科學(xué)和人工智能的三條支流中持續(xù)擴散。1949 年,英國控制論俱樂部“Ratio Club”成立時,創(chuàng)始人 John Bates 專門為 Craik 的缺席表達遺憾,認(rèn)為如果他還活著,一定是最核心的成員。
1956 年,在被視為 AI 誕生標(biāo)志的達特茅斯研討會上,Nathaniel Rochester 在提案文件中引用了《The Nature of Explanation》中關(guān)于學(xué)習(xí)的模型。1983 年,Philip Johnson-Laird 出版《Mental Models》,將 Craik 的框架正式納入認(rèn)知科學(xué)的主流范式。
然后便是漫長的沉寂。1991 年,Rodney Brooks 發(fā)表了影響深遠的論文“Intelligence without Representation”,主張智能行為可以不需要內(nèi)部世界模型,只靠與環(huán)境的直接反應(yīng)式交互就能涌現(xiàn)。這條路線催生了行為主義機器人學(xué),也讓“世界模型”這個概念在 AI 主流中沉寂了將近二十年,直到 2018 年。
從夢境中醒來
2018 年,Google Brain 的 David Ha 和瑞士人工智能實驗室 IDSIA 的 Jürgen Schmidhuber(LSTM 的發(fā)明者之一)發(fā)表了一篇名字直截了當(dāng)?shù)恼撐模骸禬orld Models》。
![]()
圖丨相關(guān)論文(來源:arXiv)
這篇論文的核心思想并不復(fù)雜:給 AI 一個“做夢”的能力。
他們設(shè)計了一個三組件架構(gòu):
- V(視覺模型):一個變分自編碼器(VAE),把高維的像素畫面壓縮成低維的潛在表征,相當(dāng)于大腦把視覺信息壓縮成抽象概念
- M(記憶模型):一個混合密度網(wǎng)絡(luò)-循環(huán)神經(jīng)網(wǎng)絡(luò)(MDN-RNN),基于歷史觀測和動作預(yù)測下一步的潛在狀態(tài),相當(dāng)于對“接下來會發(fā)生什么”的想象
- C(控制器):一個極其簡單的線性模型,在 V 和 M 構(gòu)建的壓縮世界表征上做決策
關(guān)鍵突破不在架構(gòu)本身,而在訓(xùn)練方式:智能體可以完全在自己“幻想出的夢境”中學(xué)習(xí)策略,然后遷移到真實環(huán)境中。Ha 和 Schmidhuber 在賽車游戲 VizDoom 上驗證了這個想法:智能體先在 M 生成的“夢境賽道”中學(xué)會開車,然后直接在真實游戲中跑出了不錯的成績。
其實早在 1990 年,Schmidhuber 就提出了預(yù)測性神經(jīng)架構(gòu),允許智能體在內(nèi)部模擬環(huán)境動態(tài)并在毫秒級別內(nèi)完成規(guī)劃。但 2018 年這篇論文的貢獻在于,它把三十年的工作蒸餾成了一個干凈、可復(fù)現(xiàn)的框架,并且給了這個概念一個名字:World Models。
從那以后,這個領(lǐng)域開始加速。
Richard Sutton 早在 1990 年代提出的 Dyna 架構(gòu)(用學(xué)習(xí)到的世界模型來預(yù)測未來結(jié)果并規(guī)劃行動)成為了重要的理論橋梁。隨后,Dreamer 系列(2020—2023)、MuZero(2020)、EfficientZero(2021)等基于模型的強化學(xué)習(xí)(Reinforcement Learning,RL)系統(tǒng)相繼證明,在游戲領(lǐng)域,學(xué)習(xí)一個世界模型再用它來訓(xùn)練策略,可以匹配甚至超越直接與環(huán)境交互的無模型方法。
到了 2024—2025 年,世界模型從一個 RL 子領(lǐng)域的技術(shù)概念,演變成了一場更宏大的范式轉(zhuǎn)移。2025 年發(fā)表在 ACM Computing Surveys 上的綜述論文(清華大學(xué)團隊)將世界模型的功能劃分為兩大類:理解型(構(gòu)建世界運作機制的隱式表征)和預(yù)測型(模擬未來狀態(tài)以指導(dǎo)決策)。
另一篇 2026 年的綜述(arXiv:2604.22748)則提出了三級能力層級:L1 預(yù)測器(局部單步預(yù)測)→ L2 模擬器(多步可決策的仿真,需要長程一致性)→ L3 演化器(基于證據(jù)的自我修正)。
而在這個技術(shù)演進的每一個關(guān)鍵節(jié)點上,都有一個共同的身影:游戲。
為什么是游戲?
如果你要訓(xùn)練一個理解世界運作方式的 AI,你會選擇什么樣的訓(xùn)練環(huán)境?
理想的訓(xùn)練場應(yīng)該滿足幾個條件:環(huán)境復(fù)雜但邊界可控;失敗成本為零,可以無限試錯;每一步行動都有即時反饋;數(shù)據(jù)量近乎無限,這些特點幾乎完美對應(yīng)著電子游戲。
ACM Computing Surveys 2025 年那篇綜述概括了這一點:游戲環(huán)境代表了世界模型研究的理想實驗臺,它提供了受控但復(fù)雜的領(lǐng)域,要求對物理、因果關(guān)系和交互動力學(xué)有精深的理解。
但這不只是學(xué)術(shù)上的“理想”,游戲作為訓(xùn)練場的優(yōu)勢是非常明確的:
第一,數(shù)據(jù)天然帶標(biāo)注。每一幀游戲畫面都對應(yīng)著玩家的操作輸入(向左、跳躍、開火),形成了完美的 observation-action pair。訓(xùn)練一個自動駕駛的世界模型,你需要昂貴的傳感器陣列、精密的標(biāo)注團隊和漫長的道路測試。訓(xùn)練一個游戲世界模型,數(shù)據(jù)自己就跑出來了。Google DeepMind 訓(xùn)練 Genie 時用了超過 20 萬小時的公開互聯(lián)網(wǎng)游戲視頻,精選后得到 680 萬個 16 秒片段。這些數(shù)據(jù)不需要任何人工標(biāo)注,因為游戲本身就是最好的標(biāo)注器。
第二,物理規(guī)則是顯式的。游戲有重力,有碰撞檢測,有流體模擬。一個游戲世界模型學(xué)到的“球會下落”“墻會擋住路”“水會流動”,和物理世界中的同類現(xiàn)象共享深層的因果結(jié)構(gòu)。當(dāng)然,游戲物理是簡化的(否則它跑不到 60 幀),但這種簡化恰好提供了一個課程學(xué)習(xí)(curriculum learning)的起點:先在簡單物理中學(xué)會基本規(guī)則,再逐步遷移到更復(fù)雜的真實世界。
第三,規(guī)模驚人且還在增長。Steam 上有超過 10 萬款游戲。全球每天有數(shù)以億計的游戲進行中。游戲錄屏平臺 Medal.tv 每年從 1,000 萬用戶那里收集超過 20 億條游戲片段。這個數(shù)據(jù)量級是自動駕駛或機器人領(lǐng)域望塵莫及的。
第四,也是最容易被忽視的:游戲已經(jīng)預(yù)定義了一套壓縮良好的動作空間。手柄有十幾個按鍵和兩個搖桿,鍵鼠組合略多但也有限。幾十年來,游戲設(shè)計師和玩家共同迭代出了一套將人類意圖壓縮成離散/連續(xù)動作信號的通用接口。這個特性的意義,我們留到最后一章再展開。
當(dāng)然,這種關(guān)系是雙向的。
游戲不只是世界模型的訓(xùn)練場,游戲本身也需要世界模型。傳統(tǒng)游戲引擎靠手工編寫的物理規(guī)則和腳本化的 NPC 行為樹運轉(zhuǎn),天花板肉眼可見:NPC 永遠在固定路線巡邏,物理引擎永遠按預(yù)設(shè)參數(shù)計算,每一個交互可能性都需要開發(fā)者提前想到并編碼。如果世界模型能替代這些硬編碼的規(guī)則,讓 NPC“理解”情境而非執(zhí)行腳本,讓物理“涌現(xiàn)”而非計算,那游戲體驗的上限將被根本性地改寫。
這就是為什么,當(dāng)世界模型在 2024 年開始從論文走向可運行的原型時,游戲成了第一個也是最密集的試驗場。
神經(jīng)網(wǎng)絡(luò)玩 DOOM:從論文到可玩原型
2024 年是世界模型從概念驗證跨入可交互原型的分水嶺,幾個標(biāo)志性系統(tǒng)集中出現(xiàn),每一個都選擇了游戲作為證明自己的舞臺。
其中最具代表性的一個案例是 Google Research 的 GameNGen。這個團隊做了一件極具象征意義的事:用一個神經(jīng)網(wǎng)絡(luò)完全替代了 DOOM(1993)的游戲引擎。GameNGen 能以 20 幀/秒的速度實時生成 DOOM 的畫面,玩家按下方向鍵,模型預(yù)測下一幀應(yīng)該長什么樣。沒有傳統(tǒng)的渲染管線,沒有光線追蹤,沒有碰撞檢測算法。怪物的移動、子彈的軌跡、門的開關(guān),全部編碼在神經(jīng)網(wǎng)絡(luò)的參數(shù)中。
DOOM 是 1993 年的游戲,物理規(guī)則簡單到可以用幾百行代碼描述,畫面在今天看來非常粗糙。但即便如此,讓一個神經(jīng)網(wǎng)絡(luò)完整地“理解”這個世界的運作方式并實時生成一致的視覺輸出,仍然是一個真正的技術(shù)突破。它證明了一個原理:游戲引擎的邏輯可以被學(xué)習(xí),而不必被編程。當(dāng)然,局限也很明顯:它只能運行 30 年前的 DOOM,記憶窗口僅有 3 秒,走出一個房間再回來,房間里的東西可能已經(jīng)變了。
![]()
(來源:arXiv)
同年初發(fā)布的 Google DeepMind 的 Genie 系列則代表了另一條路線:不是在已有游戲中訓(xùn)練智能體,而是從視頻中學(xué)習(xí)生成全新的可交互世界。后來李飛飛創(chuàng)辦的 World Labs 也沿著相近的問題意識推進:不只是生成一段視頻,而是生成一個具有空間結(jié)構(gòu)、可以被進入和編輯的 3D 世界。
最初發(fā)布的 Genie 是一個 110 億參數(shù)的模型,它首次實現(xiàn)了從無標(biāo)簽互聯(lián)網(wǎng)視頻中以無監(jiān)督方式訓(xùn)練生成式交互環(huán)境。它的訓(xùn)練數(shù)據(jù)來自超過 20 萬小時的公開游戲視頻,最終精選出 680 萬個 16 秒片段。給它一張圖片,可以是照片、草圖甚至文字描述,它就能生成一個可以用虛擬手柄操控的 2D 世界。
2024 年 12 月發(fā)布的 Genie 2 走得更遠,它是一個自回歸潛擴散模型,能從單張圖片生成可操控的 3D 可玩環(huán)境。DeepMind 的官方博客列出了一系列在訓(xùn)練中涌現(xiàn)出的能力:物體交互、復(fù)雜角色動畫、物理模擬、光照效果,其中最引人注目的是 NPC 行為建模。
模型不是被編程來生成 NPC 的行為,而是在大量游戲視頻中“觀察”到了 NPC 應(yīng)該如何行動,然后在生成的世界中重現(xiàn)了類似的行為模式。DeepMind 將 Genie 2 定位為一個能提供“無限課程的新穎世界”的工具,用于 AI 智能體的訓(xùn)練和評估。但 Genie 2 生成的世界只能持續(xù) 10—20 秒,時間再長,一致性就開始崩塌。2025 年 8 月發(fā)布的 Genie 3 將這個窗口延長到了約一分鐘,Waymo 甚至已經(jīng)在用它做自動駕駛仿真。進步明顯,但一分鐘仍然不夠。
入局者:游戲公司與游戲數(shù)據(jù)公司
盡管 2024 年的那些成果可能離“可用”還差得遠,但有一件事已經(jīng)被證明:世界模型可以從游戲視頻里學(xué)會“世界如何回應(yīng)動作”。這意味著游戲錄像就不只是娛樂內(nèi)容,而是一種訓(xùn)練數(shù)據(jù),甚至可能是最好用的訓(xùn)練數(shù)據(jù)之一。
同一時期,具身智能開始迅速發(fā)展,四足機器人、人形機器人、自動駕駛都在找更好的訓(xùn)練數(shù)據(jù)和仿真環(huán)境,這兩條線就此在 2025 年交匯了。世界模型需要大規(guī)模帶動作標(biāo)注的視頻數(shù)據(jù),具身智能需要世界模型來理解物理世界,而坐在這兩個需求交叉點上的,是游戲公司和游戲數(shù)據(jù)公司,資本很快做出了反應(yīng)。
最有代表性的一個樣本是 General Intuition(GI)。2025 年 10 月,游戲錄屏平臺 Medal.tv 的創(chuàng)始人 Pim de Witte 據(jù)報拒絕了 OpenAI 高達 5 億美元的收購要約,轉(zhuǎn)而創(chuàng)立了這家公司,Khosla Ventures 和 General Catalyst 領(lǐng)投 1.34 億美元種子輪。
八個月后 A 輪 3.2 億美元到賬,估值 23 億美元,累計融資 4.54 億美元。GI 的敘事足夠有力也足夠簡潔:游戲數(shù)據(jù)是訓(xùn)練世界模型最好的預(yù)訓(xùn)練數(shù)據(jù)。Medal.tv 每年從 1,000 萬用戶那里收集超過 20 億條游戲片段,每一條都帶有完整的玩家操作記錄:哪一幀按了什么鍵,搖桿偏向了哪個方向。De Witte 說:“我們把這看作預(yù)訓(xùn)練的下一階段。”
![]()
圖丨 Pim de Witte(來源:Dutch News)
GI 的演示包括了這樣一個對比:同一個模型骨架,一邊能連續(xù)打 100 小時類《堡壘之夜》的射擊游戲,一邊能用 8 分鐘的街道視頻數(shù)據(jù)驅(qū)動一個四足機器人行走。
Khosla 說世界模型的關(guān)鍵飛躍在于“直覺”的涌現(xiàn),模型不是在執(zhí)行規(guī)則,而是在“理解”世界應(yīng)該如何運轉(zhuǎn)。但需要注意的是:GI 目前最大的不確定性恰恰在于這個遷移故事。從游戲到機器人的遷移曲線到底有多陡,公司自己也沒有公開的、經(jīng)過同行評審的技術(shù)論文來回答。
KRAFTON(《絕地求生》的開發(fā)商)選擇了一條更具象的路徑。這家韓國游戲巨頭在 2025 年宣布轉(zhuǎn)型為“AI-first 公司”,投入約 1,000 億韓元建設(shè)專用 GPU 集群,成立 AI 子公司 Ludo Robotics,隨后在 2026 年 3 月與韓華航空航天簽署合作備忘錄,聯(lián)合開發(fā)物理 AI 技術(shù)并計劃成立合資企業(yè)。
KRAFTON 官方新聞稿提到:“KRAFTON 在運營大規(guī)模游戲數(shù)據(jù)和基于物理的虛擬世界方面積累的經(jīng)驗,是訓(xùn)練和驗證物理 AI 軟件的核心資產(chǎn)。”這幾乎是一家游戲公司能給出的最明確的戰(zhàn)略聲明:我們的游戲能力就是 AI 能力。
虛擬世界中的物理模擬、大規(guī)模玩家行為數(shù)據(jù)、實時渲染和狀態(tài)管理,這些在過去被視為“游戲技術(shù)”的東西,現(xiàn)在被重新定義為訓(xùn)練和驗證物理 AI 的基礎(chǔ)設(shè)施。韓華航空航天 CEO 的回應(yīng)同樣值得注意:“我們與 KRAFTON 的合作將在物理 AI 和未來防務(wù)領(lǐng)域提供新的范式標(biāo)準(zhǔn)。”從游戲到國防,中間只差一個世界模型。
除了上述這些公司之外,在這條賽道上,還有兩個無法繞開的玩家:NVIDIA 和騰訊。
NVIDIA 延續(xù)著一貫的作風(fēng),它所做的不單單只是做一個世界模型,而是搭建了一層平臺。Cosmos 被定位為“物理 AI 世界基礎(chǔ)模型平臺”,不是一個單一的世界模型,而是一套構(gòu)建、訓(xùn)練和部署世界模型的基礎(chǔ)設(shè)施。
NVIDIA 將世界模型定義為“世界的數(shù)字孿生”,核心應(yīng)用鎖定在機器人訓(xùn)練上。配合 Isaac Sim(基于游戲引擎技術(shù)的機器人仿真平臺),NVIDIA 構(gòu)建了一條從游戲引擎到世界模型到物理機器人的完整工具鏈。
值得注意的是,Cosmos 的主要采用方大多是具身智能公司,而非游戲公司。游戲引擎和游戲技術(shù)正在被重新包裝為物理 AI 的訓(xùn)練基座,游戲公司積累了幾十年的資產(chǎn)(實時渲染、物理模擬、大規(guī)模并發(fā))正在獲得超出娛樂產(chǎn)業(yè)的戰(zhàn)略估值。
而騰訊作為全球營收最高的游戲公司,它同時握著三樣稀缺輸入:混元大模型體系(多模態(tài) + 視頻 + 3D 生成);AI 人才團隊以及算力基礎(chǔ)設(shè)施;以及全球游戲公司中最深的股權(quán)網(wǎng)絡(luò)(100% 控股 Riot、Supercell、持有 Epic 約 40%、KRAFTON 約 13.5%、FromSoftware 約 16%,加上天美、光子等自研工作室和《元夢之心》這樣的 UGC 平臺)。
前面提到的“入局者”中,有好幾個本身就有騰訊的身影。但騰訊的世界模型目前更偏“for human”(給開發(fā)者和創(chuàng)作者生成內(nèi)容),還沒有像 KRAFTON、GI、NVIDIA 那樣把“用世界模型訓(xùn)機器人”當(dāng)成明牌戰(zhàn)略。會不會從內(nèi)容側(cè)跨到具身側(cè),是我們需要關(guān)注的重點。
這些案例指向同一個判斷:誰掌握了讓 AI 理解物理世界的能力,誰就掌握了下一個計算范式的入口。而在所有可能的訓(xùn)練路徑中,游戲正在成為共識性的起點。
從虛擬到物理,機器不必像人
最后,讓我們回到一個看似瘋狂但邏輯自洽的設(shè)想。
當(dāng)我們談?wù)摗坝糜螒驍?shù)據(jù)訓(xùn)練機器人”時,很容易陷入一個思維定式:機器人應(yīng)該長成人形,像人一樣行動,所以需要用人類的行為數(shù)據(jù)來訓(xùn)練。但這個思維定式忽略了一個更深層的事實:
手柄、方向盤、鍵盤鼠標(biāo),是人類幾十年迭代出的“把意圖壓縮成通用動作信號”的接口。
一個游戲手柄有兩個搖桿、十幾個按鍵、兩個扳機。用這套接口,玩家可以控制一個人形角色在《艾爾登法環(huán)》里翻滾、格擋、攻擊;也可以控制一輛賽車在《GT 賽車》里過彎、加速、漂移;還可以控制一架直升機在《GTA》里起飛、懸停、降落。同一套動作空間,映射到了截然不同的物理系統(tǒng)上。
這意味著什么?意味著“人用手柄做了什么”的數(shù)據(jù),本質(zhì)上是一種與具體形態(tài)無關(guān)的意圖-動作對。一個世界模型如果能從海量游戲錄像中學(xué)會“人類意圖如何映射到環(huán)境變化”,那它學(xué)到的不是“如何操控一個特定的角色”,而是“如何在一個動態(tài)系統(tǒng)中實現(xiàn)目標(biāo)”。
這是 General Intuition 的核心賭注。也是把“游戲”和“機器人”兩個看似不相干的領(lǐng)域焊死在一起的那一環(huán)。機器人不必長成人形,不必用兩條腿走路。它只需要能把意圖轉(zhuǎn)化為動作,而這種轉(zhuǎn)化能力,可以從幾十億條“人類通過手柄控制虛擬物理系統(tǒng)”的數(shù)據(jù)中學(xué)到。
從 Kenneth Craik 腦中的“小尺度模型”,到 Ha 和 Schmidhuber 讓智能體在夢境中學(xué)習(xí)賽車,到 Google 的神經(jīng)網(wǎng)絡(luò)替代 DOOM 引擎,到 General Intuition 用游戲錄像訓(xùn)練四足機器人,這條線之所以成立,不是因為某一個環(huán)節(jié)實現(xiàn)了突破,而是因為人類在過去 80 年里做的事,一直是同一件事:基于對世界的觀察和經(jīng)驗,構(gòu)建一個內(nèi)部模型,用它來預(yù)測下一步會發(fā)生什么,然后行動。
Craik 在 1943 年就理解了這一點。他寫道:“只有這種內(nèi)部現(xiàn)實模型,這個工作模型,才能讓我們預(yù)測物理世界中尚未發(fā)生的事件,這個過程節(jié)省了時間、成本,甚至生命。”
現(xiàn)在,同樣的過程正在從碳基生命遷移到硅基系統(tǒng)。而這個遷移的練習(xí)場,因為數(shù)據(jù)的密度、交互的豐富性、物理規(guī)則的可控性和失敗代價的可逆性,是游戲。
一個享年 31 歲的蘇格蘭心理學(xué)家在 1943 年洞察到的東西,在 80 年后正在被寫成代碼、訓(xùn)練成參數(shù)、部署到機器人身上。他沒有來得及看到這一天,但他的那個“小尺度模型”,或許正在變成一個越來越大的世界。
參考資料:
1.https://arxiv.org/abs/1803.10122
2.https://dl.acm.org/doi/10.1145/3720473
3.https://arxiv.org/abs/2405.12399
4.https://techcrunch.com/2026/06/18/general-intuition-raises-320m-series-a/
5.https://naavik.co/deep-dives/hello-world-models
6.https://www.notboring.co/p/world-models
7.https://www.quantamagazine.org/world-models-an-old-idea-in-ai-mount-a-comeback-20250923/
運營/排版:何晨龍
注:封面/首圖由 AI 輔助生成
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.