網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

深度長文解讀 “世界模型” ：在虛構(gòu)與真實(shí)交接之處凝視未來

2025-10-30 18:01:27　來源: AI科技評(píng)論

廣東舉報(bào)

分享至

想讓人工智能真正理解、預(yù)測甚至重構(gòu)真實(shí)世界，我們需要一個(gè)核心引擎。

整理丨齊鋮湧

注：「世界模型」（World Model）的熱度，從年初開始持續(xù)至今。這個(gè)概念也已經(jīng)橫跨具身智能、自動(dòng)駕駛、游戲、視頻生成等領(lǐng)域，逐漸成為了 AI 領(lǐng)域下一個(gè)競爭焦點(diǎn)。

有人說它是通往 AGI 的最短路徑，有人說它是實(shí)現(xiàn)自動(dòng)駕駛的終極答案，那么世界模型究竟是什么樣的存在？

本文來自于知乎作者 xintao ，AI 科技評(píng)論經(jīng)授權(quán)后，編輯發(fā)布。

我們先從兩句名言出發(fā)，了解這個(gè)超級(jí)詞匯的起源。

一句話是來自心理學(xué)家 Kenneth Craik 1943在《解釋的本質(zhì)》中說的話：The main function of the mind is to be a model of the world or a part of it —— 心智的主要功能，是成為世界或其一部分的模型。這句話是“心智模型（Mental Model）”理論的基石，也可以說是當(dāng)前AI中討論“世界模型”的思想源頭。

另一句話是來自物理學(xué)家 Richard Feynman ，據(jù)說是在他1988年去世后，人們?cè)谒诎迳习l(fā)現(xiàn)的：What I cannot create, I do not understand. —— 我若無法創(chuàng)造，便不能理解。這句話被生成式模型廣泛地引用。

選擇它們，是因?yàn)樗鼈儯謩e代表了后面要介紹的兩大類世界模型——表征世界模型（Representation World Model）和生成世界模型（Generative World Model）。

給世界模型下一個(gè)“寬泛”的定義

首先，需要回答什么是世界模型？

雖然當(dāng)前大家討論得比較多，相關(guān)工作最近也如雨后春筍般地出來，但直到現(xiàn)在仍舊沒有一個(gè)清晰且被大家廣為接受的定義。之前大家討論比較多的是 Yann LeCun 24年在推特上的帖子。（https://x.com/ylecun/status/1759933365241921817）

簡單地理解，可以如下圖所示。當(dāng)給定現(xiàn)在的狀態(tài) S(t) 和動(dòng)作 A(t) ，預(yù)測下一個(gè)狀態(tài) S’(t+1) 。通常來說我們也會(huì)從外部世界接受輸入或者觀察 O(t) ，來更新內(nèi)部狀態(tài)。

預(yù)測的狀態(tài)可以是抽象的表征，類比我們的大腦想象未來。或者是具象的表征，比如像素 pixels ，就像視頻模型預(yù)測未來合理的新的視頻幀一樣。

除了這個(gè)寬泛的定義，我們還要給世界模型做個(gè)分類。

從最終的目的出發(fā)（也可以是狀態(tài)的不同表征方式），我們可以把世界模型劃分為兩大類：

一大類是：表征世界模型（Representation World Model）

一大類是：生成世界模型（Generative World Model）

表征世界模型：AI 如何理解和預(yù)測這個(gè)世界？

先說表征世界模型，它的目的是理解并預(yù)測世界的抽象原則，并不需要去生成逼真的像素。它的關(guān)鍵詞是理解和預(yù)測，以及抽象原則。

表征世界模型中一個(gè)典型代表，就是我們腦海中的心智模型 Mental Model ，它是我們大腦中對(duì)于外部現(xiàn)實(shí)的內(nèi)在表達(dá)，能夠從外部世界中理解并總結(jié)出概念和關(guān)系，抽象出原則，而并不會(huì)對(duì)每一處細(xì)節(jié)進(jìn)行模擬。（更多的關(guān)于我們大腦如何模擬和心智化這個(gè)世界的，推薦閱讀《智能簡史》）

其次簡單介紹下生成世界模型，它的目的是生成并模擬世界的具體表現(xiàn)。

正如費(fèi)曼這句話說的，What I cannot create, I do not understand. 當(dāng)我們能夠生成和模擬世界的具體表現(xiàn)的時(shí)候，也蘊(yùn)含著我們對(duì)于世界的理解。

生成世界模型的一個(gè)典型代表是視頻世界模型。

Sora 24年推出，它能夠生成我們世界的一個(gè)片段，在那個(gè)時(shí)間點(diǎn)，雪景街頭的三維一致性，行人來往的合理性，鏡頭在空間的穿梭，無一不讓人遐想其宣傳的 World Simulator，世界模擬器。25年 Genie 3 更新，視頻生成模型繼續(xù)往前發(fā)展，不僅有了交互，還有了記憶，讓人們更加覺得視頻視覺模型的可實(shí)現(xiàn)性。你可以在生成的視頻中控制方向，并且記住你曾經(jīng)訪問過的地方，猶如在世界中游走。

說明：這里的“生成式”（generative）指的是模型創(chuàng)造世界具體表現(xiàn)（例如像素、音頻）的能力。這有別于更廣泛的術(shù)語“生成式 AI ”（Generative AI），后者也包括像 LLMs 和 JEPA 這樣的模型，而在這里它們被歸類為表征模型。

表征世界模型的三大細(xì)分類型

表征世界模型包含三類：

1）生物大腦中的預(yù)測，比如我們?nèi)祟惡蛣?dòng)物的心智模型（Mental Model）；

2）視覺為中心的潛在空間預(yù)測，比如 V-JEPA/DINO-World ；

3）語言為中心的潛在空間預(yù)測，比如 LLM 。（當(dāng)然 LLM 是否是世界模型，最近也有很多爭論，后文會(huì)簡要說明。

（特別要說明的是，這個(gè)分類是修改自 Xun Huang 的 blog ：https://www.xunhuang.me/blogs/world_model.html。推薦大家去讀這篇 blog ，有很好的內(nèi)容。）

A1 生物大腦中的預(yù)測

第一類是生物大腦中的預(yù)測，典型代表就是我們腦海中的心智模型（Mental Model），它是我們對(duì)于外部現(xiàn)實(shí)的內(nèi)在表達(dá)。在我們大腦中進(jìn)行的模擬是抽象的，更關(guān)心概念上的結(jié)果（比如下圖中的人“我會(huì)不會(huì)摔倒？”），而不是摔倒本身的具體細(xì)節(jié)，物理過程是如何的。

如圖所示，當(dāng)我們騎自行車的時(shí)候，在我們腦海中會(huì)生成一個(gè)騎自行車的抽象場景，這是我們根據(jù)觀察 O(t) ，得到當(dāng)前的狀態(tài) S(t) 。當(dāng)我們“想象”前方有一塊石頭時(shí)，我們的大腦會(huì)模擬不同的動(dòng)作 A(t) ，帶來新的狀態(tài) S'(t+1) 。例如，我們可以假想選擇“快速騎過去”這個(gè)動(dòng)作，大腦會(huì)預(yù)測“摔倒”這個(gè)可能的未來。我們也可以選擇“推車走過去”，大腦則會(huì)預(yù)測“安全通過”的未來。

這些預(yù)測并沒有真實(shí)發(fā)生，它們完全是在大腦中進(jìn)行的模擬。

另外一個(gè)有趣的論文工作是介紹我們大腦中的直覺物理引擎（Intuitive Physics Engine, IPE）。它是一個(gè)心智模型，或者說心智模型的一部分，它允許人們模擬物理場景隨時(shí)間的演變。這篇論文有以下幾個(gè)有趣的發(fā)現(xiàn)，IPE具有以下幾個(gè)顯著的特點(diǎn)：

概率性 (Probabilistic):它不會(huì)像游戲引擎那樣產(chǎn)生一個(gè)唯一確定的結(jié)果，而是對(duì)未來可能發(fā)生的多種結(jié)果產(chǎn)生一個(gè)信念分布

有限采樣 (Limited Sampling):我們的決策通常只基于少數(shù)幾次（約2-4次）的心智模擬，而不是進(jìn)行詳盡的推演

概念近似: 為了節(jié)省計(jì)算資源，IPE 會(huì)采用一些原則性的“捷徑” 。比如，在判斷碰撞時(shí)，使用物體簡化的“身體”（如凸包）而非其復(fù)雜的視覺“形狀”；或者將物體分類為“靜態(tài)”（如地面）和“動(dòng)態(tài)”，以避免不必要的計(jì)算

右圖形象地展示了這一過程：人們通過多種感官（左側(cè)的“Perception”）來感知場景，并形成一個(gè)世界的內(nèi)部表征（中間的“Internal Representation”），這個(gè)表征是以物體為中心，并包含了關(guān)于物體位置、范圍和屬性的概率信息。直覺物理引擎利用這個(gè)表征來隨機(jī)模擬世界未來的多種可能狀態(tài)（右側(cè)的“Simulation”），這些模擬的結(jié)果最終被用于認(rèn)知系統(tǒng)進(jìn)行預(yù)測和決策。

A2 視覺為中心的潛在空間預(yù)測

當(dāng)前的這類方法遵循一個(gè)相似的范式：首先，通過自監(jiān)督學(xué)習(xí)（Self-Supervised Learning）將高維的視覺數(shù)據(jù)（如視頻幀）壓縮到一個(gè)抽象的、低維的潛在空間中；再學(xué)習(xí)基于過去的潛在特征和動(dòng)作來預(yù)測未來的潛在特征。這么做的好處是，模型可以在一個(gè)更簡潔、更具語義的抽象空間里進(jìn)行預(yù)測和推理，而不是在復(fù)雜的像素空間里直接操作。

各種不同方法最核心的區(qū)別在于：這個(gè)潛在空間是如何構(gòu)建的。

如下圖所示，不同的模型采用了不同的自監(jiān)督學(xué)習(xí)方法來構(gòu)建這個(gè)潛在空間。例如，V-JEPA 2采用了JEPA 的思路，DINO-World則基于DINO，而經(jīng)典的“World Models”論文則使用了 VAE 。在獲得潛在空間后，模型就可以在這個(gè)抽象空間中更高效地進(jìn)行預(yù)測，從而理解和預(yù)判視覺世界的動(dòng)態(tài)變化。

經(jīng)典的“World Models”論文

以經(jīng)典的“World Models”這篇論文為例，它為在世界模型中訓(xùn)練強(qiáng)化學(xué)習(xí)智能體提供了一個(gè)重要的框架。這篇論文的核心思想，是它在 Introduction 中所引用的這段話：我們腦海中對(duì)世界的印象，僅僅是一個(gè)模型。沒有人會(huì)在腦海中想象出整個(gè)世界、政府或者國家。他擁有的只是“一些被選擇的概念，以及它們之間的關(guān)系”，并用這些來表征真實(shí)的系統(tǒng)。

這正點(diǎn)明了這類世界模型的核心——它并非對(duì)真實(shí)世界像素級(jí)復(fù)刻，而是一種抽象和壓縮的表征。

“World Models” 使用一個(gè)大的無監(jiān)督模型（V+M）來解決困難的“世界理解”問題，然后在一個(gè)由該模型生成的“夢(mèng)境”中，用一個(gè)非常小的控制器（C）來學(xué)習(xí)如何行動(dòng)，從而解決 credit assignment 難題。它巧妙地將復(fù)雜的任務(wù)進(jìn)行了分解：

把從原始像素中理解世界動(dòng)態(tài)這一困難任務(wù)，交給了不需要獎(jiǎng)勵(lì)信號(hào)（non-RL）的無監(jiān)督世界模型（V+M）來完成，而后者有 dense 且很強(qiáng)的監(jiān)督學(xué)習(xí)信號(hào)

控制器 C 的任務(wù)變得簡單，它只需要在一個(gè)參數(shù)量少、特征質(zhì)量高的抽象潛在空間中進(jìn)行學(xué)習(xí)，極大地提升了訓(xùn)練效率

LeCun 的自主智能

Yann LeCun 提出了一個(gè)受生物學(xué)啟發(fā)的自主智能（Autonomous Intelligence）框架，其核心在于通過一種名為 JEPA 的無監(jiān)督學(xué)習(xí)方法來構(gòu)建世界模型。

它有六個(gè)主要模塊，這里不深入展開。

有趣的是，這六個(gè)模塊都有生物學(xué)的對(duì)應(yīng)，當(dāng)我在讀《智能簡史》的時(shí)候，很容易將它們對(duì)應(yīng)起來。下面就是我整理的一個(gè)簡單對(duì)應(yīng)。

我覺得挺有道理的，在這一點(diǎn)上，我感覺 LeCun，Sutton 是類似的，都是受到生物學(xué)的強(qiáng)烈啟發(fā)。

V-JEPA 2

V-JEPA 2 的核心思想是在特征空間中進(jìn)行掩碼預(yù)測，而不是在像素空間中進(jìn)行。這樣做的好處是，模型學(xué)習(xí)到的特征會(huì)更加抽象和魯棒。

主要分為兩個(gè)階段：

第一階段: 模型在視頻數(shù)據(jù)上使用“掩碼-預(yù)測”的方法進(jìn)行預(yù)訓(xùn)練。它會(huì)學(xué)習(xí)如何填補(bǔ)視頻中被遮蓋掉的部分，從而訓(xùn)練出一個(gè)強(qiáng)大的視覺 encoder。

第二階段: 第一階段訓(xùn)練好的 encoder 被凍結(jié)。然后，模型會(huì)訓(xùn)練一個(gè)基于動(dòng)作條件的預(yù)測器（predictor）。這個(gè)預(yù)測器會(huì)根據(jù)過去的視頻幀和特定的動(dòng)作，來預(yù)測未來的視頻幀。

DINO-World

DINO-World 的核心思想是復(fù)用一個(gè)已預(yù)訓(xùn)練好的視覺模型 DINOv2 ，從而讓模型可以將學(xué)習(xí)的重點(diǎn)完全放在理解視頻中的動(dòng)態(tài)變化上。

主要分為三個(gè)階段：

第一階段: 直接采用一個(gè)通過自監(jiān)督學(xué)習(xí)（SSL）預(yù)訓(xùn)練好的 DINOv2 編碼器

第二階段: 凍結(jié) DINOv2 編碼器，然后在大量無標(biāo)簽的視頻數(shù)據(jù)上，通過自監(jiān)督的方式訓(xùn)練一個(gè)預(yù)測器。這個(gè)預(yù)測器學(xué)習(xí)根據(jù)過去的視頻特征來預(yù)測未來的視頻特征

第三階段: 在帶有動(dòng)作條件的數(shù)據(jù)上進(jìn)行訓(xùn)練，使模型最終能夠理解動(dòng)作是如何影響未來的視頻幀

總結(jié)：可以看到以視覺為中心的潛在空間預(yù)測，以上幾個(gè)主要的工作都是一個(gè)相同的范式，不同的是采用不同的 SSL 方法學(xué)到了不同的表征空間。

A3 語言為中心的潛在空間預(yù)測

最后，我們來探討表征世界模型的第三類：以語言為中心的潛在空間預(yù)測。這里的一個(gè)核心問題是：LLM 是世界模型嗎？

從形式上來說，LLM 是符合世界模型定義的。

它的獨(dú)特之處在于，其對(duì)世界的理解和表征完全建立在海量的文本知識(shí)之上。在其自回歸（auto-regressive）的生成過程中，它可以接收上下文作為外部觀察（Observation），并把用戶的提示（prompt）視為一個(gè)動(dòng)作（Action）或新的觀察。這個(gè)輸入會(huì)促使模型轉(zhuǎn)變其內(nèi)部狀態(tài)，從而對(duì)未來做出預(yù)測，輸出新的內(nèi)容。這個(gè)過程與世界模型從當(dāng)前狀態(tài) S(t) 和動(dòng)作 A(t) 出發(fā)，預(yù)測下一個(gè)狀態(tài) S'(t+1) 的基本范式是一致的。

下面是一個(gè)前面提到過的自行車的例子，

當(dāng)我們通過文本給他兩種不同的 action 時(shí)：

如果你不減速，繼續(xù)騎過去會(huì)發(fā)生什么？
如果你下車，推著自行車過去會(huì)發(fā)生什么？

LLM 會(huì)詳細(xì)輸出這兩種選擇會(huì)導(dǎo)致的截然不同的后果，甚至?xí)敿?xì)到牽引力、動(dòng)量和重心的變化。這和上面我們?cè)?mental model 提到的人腦中的假想和推演未來相比，不是很接近嗎？

但是，Richard Sutton 最近的訪談對(duì)“LLM 是否是世界模型”這一問題提出了一些批判性的觀點(diǎn)。

Sutton 的核心論點(diǎn)是：LLMs 學(xué)習(xí)的是對(duì)話的上下文，而非現(xiàn)實(shí)世界的法則。

他認(rèn)為，一個(gè)真正的世界模型應(yīng)該具備以下能力：

預(yù)測在真實(shí)世界中“將會(huì)發(fā)生什么”
理解事件的動(dòng)態(tài)變化、后果以及因果關(guān)系
能從直接的經(jīng)驗(yàn)中學(xué)習(xí)，并根據(jù)結(jié)果來更新自己的理解

而目前的大語言模型實(shí)際上做的是：

在給定的上下文中預(yù)測“一個(gè)人會(huì)說什么”
通過模仿人類生成的文本中的模式來進(jìn)行學(xué)習(xí)
它們?nèi)狈εc外部世界的直接互動(dòng)，也沒有內(nèi)在的目標(biāo)來衡量自身行為的正確性

根據(jù) Sutton 的觀點(diǎn)，盡管 LLM 在語言回答上表現(xiàn)出色，但它們并不符合一個(gè)真正“世界模型”的標(biāo)準(zhǔn)，它們模擬的是語言的表象，而非世界運(yùn)作的內(nèi)在機(jī)理。

Sutton 說的很有道理。但從某個(gè)角度看，這正是 LLM 作為這一類世界模型的本質(zhì)。

LLM 是擁有一個(gè)零碎且不完整的 (fragmented and incomplete)的世界模型。但這個(gè)世界模型是局部的 (local)、稀疏的 (sparse)、和不連貫的 (incoherent)。以及它需要借助外部的提示 (external prompts)才能夠?qū)⑵渌槠闹R(shí)連接和組織起來。

那為什么會(huì)這樣呢？這可能是因?yàn)檎Z言本身就是對(duì)世界的一種局部、稀疏且不連貫的描述。因?yàn)?LLM 完全依賴于語言數(shù)據(jù)進(jìn)行學(xué)習(xí)，它自然就繼承了語言本身的這些局限性，導(dǎo)致其構(gòu)建的世界模型也是碎片化的。

生成世界模型的兩大細(xì)分類型

生成世界模型包含兩類：

1）基于規(guī)則的模擬，比如游戲引擎，CG 學(xué)科以及顯式 3D 中更多研究的是這類；

2）數(shù)據(jù)驅(qū)動(dòng)的生成，比如視頻生成模型。其他可能還有細(xì)分類，但大家主要關(guān)心的就是這兩大類。

B1 基于規(guī)則的模擬

第一類是基于規(guī)則的模擬。

這是一種經(jīng)過時(shí)間考驗(yàn)并取得了巨大成功的方法。這種方法長遠(yuǎn)來看依舊不可替代，有很多地方依舊會(huì)需要他們，而且他們會(huì)繼續(xù)發(fā)展。可能有點(diǎn)類似手機(jī)出來后，單反相機(jī)依舊有它的作用，而且將繼續(xù)發(fā)展。

它在許多領(lǐng)域都有著廣泛的應(yīng)用，下面的例子是摘自 GAMES101 的 PPT。

視頻游戲 (Video Games): 游戲世界中的物理交互、角色行為等都由預(yù)設(shè)的規(guī)則和引擎驅(qū)動(dòng)。
動(dòng)畫 (Animations):動(dòng)畫電影（如《瘋狂動(dòng)物城》）中的角色動(dòng)作和場景變化，也依賴于復(fù)雜的渲染和模擬規(guī)則。
設(shè)計(jì) (Design): 在室內(nèi)設(shè)計(jì)、建筑設(shè)計(jì)等領(lǐng)域，通過模擬光照、材質(zhì)等來預(yù)演最終效果。
可視化 (Visualization):在科學(xué)、工程、醫(yī)學(xué)等領(lǐng)域，用于將復(fù)雜數(shù)據(jù)轉(zhuǎn)化為直觀的視覺圖像。

以游戲引擎（Game Engine）為例，可以說明基于規(guī)則的模擬（Rule-based Simulation）的幾個(gè)核心特點(diǎn)：

自上而下 (Top-down): 它的規(guī)則是由人類自上而下、預(yù)先定義好的。
明確且固定 (Explicit and fixed): 這些規(guī)則是人類設(shè)計(jì)的、明確且固定的，例如游戲中明確定義的重力規(guī)則和碰撞規(guī)則。
確定性 (Deterministic): 系統(tǒng)的行為是確定且可預(yù)測的，在相同的輸入下總會(huì)產(chǎn)生相同的結(jié)果。
顯著簡化 (Significant simplification): 它對(duì)現(xiàn)實(shí)世界進(jìn)行了極大的簡化和抽象，只捕捉系統(tǒng)的核心邏輯，而忽略大量不相關(guān)的細(xì)節(jié)。例如，游戲引擎通常不會(huì)去追蹤場景中每一片葉子或每一根草的狀態(tài)和運(yùn)動(dòng)。

有一個(gè)概念——數(shù)字孿生非常有關(guān)聯(lián)，數(shù)字孿生的例子有英偉達(dá)的 Omniverse 。

這是基于規(guī)則的模擬在工業(yè)領(lǐng)域中的一個(gè)重要應(yīng)用。數(shù)字孿生技術(shù)可以為現(xiàn)實(shí)世界中的實(shí)體工廠創(chuàng)建一個(gè)精確的數(shù)字副本。如下圖的 youtube 視頻展示的，富士康利用 Omniverse 來構(gòu)建其機(jī)器人工廠的數(shù)字孿生。

通過這項(xiàng)技術(shù)，他們可以在這個(gè)虛擬的工廠中優(yōu)化布局，以及加速機(jī)器人訓(xùn)練。這使得在實(shí)際部署之前，就能夠在高度逼真的模擬環(huán)境中對(duì)整個(gè)生產(chǎn)流程進(jìn)行測試、驗(yàn)證和優(yōu)化。

B2數(shù)據(jù)驅(qū)動(dòng)的生成

與基于規(guī)則的模擬相反，數(shù)據(jù)驅(qū)動(dòng)的生成方法具有以下特點(diǎn)：

自下而上 (Bottom-up):它是從數(shù)據(jù)中自下而上地學(xué)習(xí)并涌現(xiàn)出模式

無預(yù)設(shè)規(guī)則 (No predefined rules):它不依賴任何預(yù)設(shè)的規(guī)則，而是通過學(xué)習(xí)海量數(shù)據(jù)來掌握世界的規(guī)律。例如，它并不懂牛頓運(yùn)動(dòng)定律，但在看了一百萬個(gè)蘋果下落的視頻后，它就“知道”了蘋果是會(huì)往下掉的

概率性與涌現(xiàn)性 (Probabilistic and emergent):它的行為是概率性的，并且會(huì)涌現(xiàn)出復(fù)雜的、未被明確編程的行為

正如 OpenAI 關(guān)于 Sora 的描述中所說，視頻生成模型正在成為“世界模擬器”（world simulators）。

視頻生成，特別是可交互的生成式視頻，正在解鎖視頻世界模型的無限可能性。

從 Genie 2 到 Genie 3 ，從交互到記憶，我們可以看到模型不僅能生成高質(zhì)量的視頻，更在逐步實(shí)現(xiàn)與生成世界的交互。用戶不再僅僅是旁觀者，而是可以成為虛擬世界中的參與者。

可交互生成式視頻（Interactive Generative Video, IGV）

我們的 Survey 工作 A Survey of Interactive Generative Video 也較早思考了可交互生成式視頻的五大構(gòu)成部分，可交互生成式視頻是一大類主要的視頻世界模型。而 IGV 所展示的模塊也正是視頻世界模型的必要模塊。

生成（Generation）：能夠以流式、實(shí)時(shí)和多模態(tài)的方式處理輸入，并輸出多模態(tài)

控制 (Control):包括對(duì)世界中的導(dǎo)航控制和交互控制

動(dòng)態(tài) (Dynamics):模擬物理規(guī)律并支持對(duì)物理規(guī)律的調(diào)整

記憶 (Memory):擁有靜態(tài)記憶和動(dòng)態(tài)記憶

智能 (Intelligence):具備推理和自我演化的能力，是系統(tǒng)更高階的特性

做個(gè)總結(jié)

最后，對(duì)世界模型的分類做一個(gè)總結(jié)。本文主要介紹了下面這張圖。

還有兩個(gè)重要的補(bǔ)充：上面內(nèi)容是為了分類，但實(shí)際上很多內(nèi)容是融合與交叉的。

生成世界模型是需要表征世界模型作為基礎(chǔ)，無論是顯式地包含或者隱式的包含。所以 Video World Model 和 V-JEPA/DINO-World ，以及 LLM 作為世界模型并不是爭鋒相對(duì)的，他們可以是相輔相成的

在生成世界模型內(nèi)部的分類中，基于規(guī)則和數(shù)據(jù)驅(qū)動(dòng)這兩種方法也不是水火不容的，它們?cè)诙唐趦?nèi)有結(jié)合的方案，這一類并沒有列在這里。

【參考】

https://www.xunhuang.me/blogs/world_model.html

Ha, David, and Jürgen Schmidhuber. "World models."

Intuitive physics as probabilistic inference: https://cicl.stanford.edu/papers/smith2023probabilistic.pdf

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

Back to the Features: DINO as a Foundation for Video World Models

A path towards autonomous machine intelligence

A Survey of Interactive Generative Video

https://openai.com/index/sora/

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.