亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

深度長文解讀 “世界模型” :在虛構(gòu)與真實(shí)交接之處凝視未來

0
分享至



想讓人工智能真正理解、預(yù)測甚至重構(gòu)真實(shí)世界,我們需要一個(gè)核心引擎。

整理丨齊鋮湧

注:「世界模型」(World Model)的熱度,從年初開始持續(xù)至今。這個(gè)概念也已經(jīng)橫跨具身智能、自動(dòng)駕駛、游戲、視頻生成等領(lǐng)域,逐漸成為了 AI 領(lǐng)域下一個(gè)競爭焦點(diǎn)。

有人說它是通往 AGI 的最短路徑,有人說它是實(shí)現(xiàn)自動(dòng)駕駛的終極答案,那么世界模型究竟是什么樣的存在?

本文來自于知乎作者 xintao ,AI 科技評(píng)論經(jīng)授權(quán)后,編輯發(fā)布。

我們先從兩句名言出發(fā),了解這個(gè)超級(jí)詞匯的起源。


一句話是來自心理學(xué)家 Kenneth Craik 1943在《解釋的本質(zhì)》中說的話:The main function of the mind is to be a model of the world or a part of it —— 心智的主要功能,是成為世界或其一部分的模型。這句話是“心智模型(Mental Model)”理論的基石,也可以說是當(dāng)前AI中討論“世界模型”的思想源頭。

另一句話是來自物理學(xué)家 Richard Feynman ,據(jù)說是在他1988年去世后,人們?cè)谒诎迳习l(fā)現(xiàn)的:What I cannot create, I do not understand. —— 我若無法創(chuàng)造,便不能理解。這句話被生成式模型廣泛地引用。

選擇它們,是因?yàn)樗鼈儯謩e代表了后面要介紹的兩大類世界模型——表征世界模型(Representation World Model)和生成世界模型(Generative World Model)。

01

給世界模型下一個(gè)“寬泛”的定義

首先,需要回答什么是世界模型?

雖然當(dāng)前大家討論得比較多,相關(guān)工作最近也如雨后春筍般地出來,但直到現(xiàn)在仍舊沒有一個(gè)清晰且被大家廣為接受的定義。之前大家討論比較多的是 Yann LeCun 24年在推特上的帖子。(https://x.com/ylecun/status/1759933365241921817)


簡單地理解,可以如下圖所示。當(dāng)給定現(xiàn)在的狀態(tài) S(t) 和動(dòng)作 A(t) ,預(yù)測下一個(gè)狀態(tài) S’(t+1) 。通常來說我們也會(huì)從外部世界接受輸入或者觀察 O(t) ,來更新內(nèi)部狀態(tài)。


預(yù)測的狀態(tài)可以是抽象的表征,類比我們的大腦想象未來。或者是具象的表征,比如像素 pixels ,就像視頻模型預(yù)測未來合理的新的視頻幀一樣。

除了這個(gè)寬泛的定義,我們還要給世界模型做個(gè)分類。

從最終的目的出發(fā)(也可以是狀態(tài)的不同表征方式),我們可以把世界模型劃分為兩大類:

一大類是:表征世界模型(Representation World Model)

一大類是:生成世界模型(Generative World Model)


02

表征世界模型:AI 如何理解和預(yù)測這個(gè)世界?

先說表征世界模型,它的目的是理解并預(yù)測世界的抽象原則,并不需要去生成逼真的像素。它的關(guān)鍵詞是理解和預(yù)測,以及抽象原則。

表征世界模型中一個(gè)典型代表,就是我們腦海中的心智模型 Mental Model ,它是我們大腦中對(duì)于外部現(xiàn)實(shí)的內(nèi)在表達(dá),能夠從外部世界中理解并總結(jié)出概念和關(guān)系,抽象出原則,而并不會(huì)對(duì)每一處細(xì)節(jié)進(jìn)行模擬。(更多的關(guān)于我們大腦如何模擬和心智化這個(gè)世界的,推薦閱讀《智能簡史》)


其次簡單介紹下生成世界模型,它的目的是生成并模擬世界的具體表現(xiàn)。

正如費(fèi)曼這句話說的,What I cannot create, I do not understand. 當(dāng)我們能夠生成和模擬世界的具體表現(xiàn)的時(shí)候,也蘊(yùn)含著我們對(duì)于世界的理解。

生成世界模型的一個(gè)典型代表是視頻世界模型。

Sora 24年推出,它能夠生成我們世界的一個(gè)片段,在那個(gè)時(shí)間點(diǎn),雪景街頭的三維一致性,行人來往的合理性,鏡頭在空間的穿梭,無一不讓人遐想其宣傳的 World Simulator,世界模擬器。25年 Genie 3 更新,視頻生成模型繼續(xù)往前發(fā)展,不僅有了交互,還有了記憶,讓人們更加覺得視頻視覺模型的可實(shí)現(xiàn)性。你可以在生成的視頻中控制方向,并且記住你曾經(jīng)訪問過的地方,猶如在世界中游走。

說明:這里的“生成式”(generative)指的是模型創(chuàng)造世界具體表現(xiàn)(例如像素、音頻)的能力。這有別于更廣泛的術(shù)語“生成式 AI ”(Generative AI),后者也包括像 LLMs 和 JEPA 這樣的模型,而在這里它們被歸類為表征模型。

03

表征世界模型的三大細(xì)分類型

表征世界模型包含三類:

1)生物大腦中的預(yù)測,比如我們?nèi)祟惡蛣?dòng)物的心智模型(Mental Model);

2)視覺為中心的潛在空間預(yù)測,比如 V-JEPA/DINO-World ;

3)語言為中心的潛在空間預(yù)測,比如 LLM 。(當(dāng)然 LLM 是否是世界模型,最近也有很多爭論,后文會(huì)簡要說明。

(特別要說明的是,這個(gè)分類是修改自 Xun Huang 的 blog :https://www.xunhuang.me/blogs/world_model.html。推薦大家去讀這篇 blog ,有很好的內(nèi)容。)


A1 生物大腦中的預(yù)測

第一類是生物大腦中的預(yù)測,典型代表就是我們腦海中的心智模型(Mental Model),它是我們對(duì)于外部現(xiàn)實(shí)的內(nèi)在表達(dá)。在我們大腦中進(jìn)行的模擬是抽象的,更關(guān)心概念上的結(jié)果(比如下圖中的人“我會(huì)不會(huì)摔倒?”),而不是摔倒本身的具體細(xì)節(jié),物理過程是如何的。

如圖所示,當(dāng)我們騎自行車的時(shí)候,在我們腦海中會(huì)生成一個(gè)騎自行車的抽象場景,這是我們根據(jù)觀察 O(t) ,得到當(dāng)前的狀態(tài) S(t) 。當(dāng)我們“想象”前方有一塊石頭時(shí),我們的大腦會(huì)模擬不同的動(dòng)作 A(t) ,帶來新的狀態(tài) S'(t+1) 。例如,我們可以假想選擇“快速騎過去”這個(gè)動(dòng)作,大腦會(huì)預(yù)測“摔倒”這個(gè)可能的未來。我們也可以選擇“推車走過去”,大腦則會(huì)預(yù)測“安全通過”的未來。

這些預(yù)測并沒有真實(shí)發(fā)生,它們完全是在大腦中進(jìn)行的模擬。


另外一個(gè)有趣的論文工作是介紹我們大腦中的直覺物理引擎(Intuitive Physics Engine, IPE)。它是一個(gè)心智模型,或者說心智模型的一部分,它允許人們模擬物理場景隨時(shí)間的演變 。這篇論文有以下幾個(gè)有趣的發(fā)現(xiàn),IPE具有以下幾個(gè)顯著的特點(diǎn):

概率性 (Probabilistic):它不會(huì)像游戲引擎那樣產(chǎn)生一個(gè)唯一確定的結(jié)果,而是對(duì)未來可能發(fā)生的多種結(jié)果產(chǎn)生一個(gè)信念分布

有限采樣 (Limited Sampling):我們的決策通常只基于少數(shù)幾次(約2-4次)的心智模擬,而不是進(jìn)行詳盡的推演

概念近似: 為了節(jié)省計(jì)算資源,IPE 會(huì)采用一些原則性的“捷徑” 。比如,在判斷碰撞時(shí),使用物體簡化的“身體”(如凸包)而非其復(fù)雜的視覺“形狀”;或者將物體分類為“靜態(tài)”(如地面)和“動(dòng)態(tài)”,以避免不必要的計(jì)算

右圖形象地展示了這一過程:人們通過多種感官(左側(cè)的“Perception”)來感知場景,并形成一個(gè)世界的內(nèi)部表征(中間的“Internal Representation”),這個(gè)表征是以物體為中心,并包含了關(guān)于物體位置、范圍和屬性的概率信息。直覺物理引擎利用這個(gè)表征來隨機(jī)模擬世界未來的多種可能狀態(tài)(右側(cè)的“Simulation”),這些模擬的結(jié)果最終被用于認(rèn)知系統(tǒng)進(jìn)行預(yù)測和決策 。


A2 視覺為中心的潛在空間預(yù)測

當(dāng)前的這類方法遵循一個(gè)相似的范式:首先,通過自監(jiān)督學(xué)習(xí)(Self-Supervised Learning)將高維的視覺數(shù)據(jù)(如視頻幀)壓縮到一個(gè)抽象的、低維的潛在空間中;再學(xué)習(xí)基于過去的潛在特征和動(dòng)作來預(yù)測未來的潛在特征。這么做的好處是,模型可以在一個(gè)更簡潔、更具語義的抽象空間里進(jìn)行預(yù)測和推理,而不是在復(fù)雜的像素空間里直接操作。

各種不同方法最核心的區(qū)別在于:這個(gè)潛在空間是如何構(gòu)建的。

如下圖所示,不同的模型采用了不同的自監(jiān)督學(xué)習(xí)方法來構(gòu)建這個(gè)潛在空間。例如,V-JEPA 2采用了JEPA 的思路,DINO-World則基于DINO,而經(jīng)典的“World Models”論文則使用了 VAE 。在獲得潛在空間后,模型就可以在這個(gè)抽象空間中更高效地進(jìn)行預(yù)測,從而理解和預(yù)判視覺世界的動(dòng)態(tài)變化。


經(jīng)典的“World Models”論文

以經(jīng)典的“World Models”這篇論文為例,它為在世界模型中訓(xùn)練強(qiáng)化學(xué)習(xí)智能體提供了一個(gè)重要的框架。這篇論文的核心思想,是它在 Introduction 中所引用的這段話:我們腦海中對(duì)世界的印象,僅僅是一個(gè)模型。沒有人會(huì)在腦海中想象出整個(gè)世界、政府或者國家。他擁有的只是“一些被選擇的概念,以及它們之間的關(guān)系”,并用這些來表征真實(shí)的系統(tǒng)。

這正點(diǎn)明了這類世界模型的核心——它并非對(duì)真實(shí)世界像素級(jí)復(fù)刻,而是一種抽象和壓縮的表征。


“World Models” 使用一個(gè)大的無監(jiān)督模型(V+M)來解決困難的“世界理解”問題,然后在一個(gè)由該模型生成的“夢(mèng)境”中,用一個(gè)非常小的控制器(C)來學(xué)習(xí)如何行動(dòng),從而解決 credit assignment 難題。 它巧妙地將復(fù)雜的任務(wù)進(jìn)行了分解:

把從原始像素中理解世界動(dòng)態(tài)這一困難任務(wù),交給了不需要獎(jiǎng)勵(lì)信號(hào)(non-RL)的無監(jiān)督世界模型(V+M)來完成,而后者有 dense 且很強(qiáng)的監(jiān)督學(xué)習(xí)信號(hào)

控制器 C 的任務(wù)變得簡單,它只需要在一個(gè)參數(shù)量少、特征質(zhì)量高的抽象潛在空間中進(jìn)行學(xué)習(xí),極大地提升了訓(xùn)練效率


LeCun 的自主智能

Yann LeCun 提出了一個(gè)受生物學(xué)啟發(fā)的自主智能(Autonomous Intelligence)框架,其核心在于通過一種名為 JEPA 的無監(jiān)督學(xué)習(xí)方法來構(gòu)建世界模型。

它有六個(gè)主要模塊,這里不深入展開。


有趣的是,這六個(gè)模塊都有生物學(xué)的對(duì)應(yīng),當(dāng)我在讀《智能簡史》的時(shí)候,很容易將它們對(duì)應(yīng)起來。下面就是我整理的一個(gè)簡單對(duì)應(yīng)。

我覺得挺有道理的,在這一點(diǎn)上,我感覺 LeCun,Sutton 是類似的,都是受到生物學(xué)的強(qiáng)烈啟發(fā)。


V-JEPA 2

V-JEPA 2 的核心思想是在特征空間中進(jìn)行掩碼預(yù)測,而不是在像素空間中進(jìn)行。這樣做的好處是,模型學(xué)習(xí)到的特征會(huì)更加抽象和魯棒。

主要分為兩個(gè)階段:

第一階段: 模型在視頻數(shù)據(jù)上使用“掩碼-預(yù)測”的方法進(jìn)行預(yù)訓(xùn)練。它會(huì)學(xué)習(xí)如何填補(bǔ)視頻中被遮蓋掉的部分,從而訓(xùn)練出一個(gè)強(qiáng)大的視覺 encoder。

第二階段: 第一階段訓(xùn)練好的 encoder 被凍結(jié)。然后,模型會(huì)訓(xùn)練一個(gè)基于動(dòng)作條件的預(yù)測器(predictor)。這個(gè)預(yù)測器會(huì)根據(jù)過去的視頻幀和特定的動(dòng)作,來預(yù)測未來的視頻幀。


DINO-World

DINO-World 的核心思想是復(fù)用一個(gè)已預(yù)訓(xùn)練好的視覺模型 DINOv2 ,從而讓模型可以將學(xué)習(xí)的重點(diǎn)完全放在理解視頻中的動(dòng)態(tài)變化上。

主要分為三個(gè)階段:

第一階段: 直接采用一個(gè)通過自監(jiān)督學(xué)習(xí)(SSL)預(yù)訓(xùn)練好的 DINOv2 編碼器

第二階段: 凍結(jié) DINOv2 編碼器,然后在大量無標(biāo)簽的視頻數(shù)據(jù)上,通過自監(jiān)督的方式訓(xùn)練一個(gè)預(yù)測器。這個(gè)預(yù)測器學(xué)習(xí)根據(jù)過去的視頻特征來預(yù)測未來的視頻特征

第三階段: 在帶有動(dòng)作條件的數(shù)據(jù)上進(jìn)行訓(xùn)練,使模型最終能夠理解動(dòng)作是如何影響未來的視頻幀

總結(jié):可以看到以視覺為中心的潛在空間預(yù)測,以上幾個(gè)主要的工作都是一個(gè)相同的范式,不同的是采用不同的 SSL 方法學(xué)到了不同的表征空間。


A3 語言為中心的潛在空間預(yù)測

最后,我們來探討表征世界模型的第三類:以語言為中心的潛在空間預(yù)測。這里的一個(gè)核心問題是:LLM 是世界模型嗎?

從形式上來說,LLM 是符合世界模型定義的。

它的獨(dú)特之處在于,其對(duì)世界的理解和表征完全建立在海量的文本知識(shí)之上。在其自回歸(auto-regressive)的生成過程中,它可以接收上下文作為外部觀察(Observation),并把用戶的提示(prompt)視為一個(gè)動(dòng)作(Action)或新的觀察。這個(gè)輸入會(huì)促使模型轉(zhuǎn)變其內(nèi)部狀態(tài),從而對(duì)未來做出預(yù)測,輸出新的內(nèi)容。這個(gè)過程與世界模型從當(dāng)前狀態(tài) S(t) 和動(dòng)作 A(t) 出發(fā),預(yù)測下一個(gè)狀態(tài) S'(t+1) 的基本范式是一致的。


下面是一個(gè)前面提到過的自行車的例子,

當(dāng)我們通過文本給他兩種不同的 action 時(shí):

  • 如果你不減速,繼續(xù)騎過去會(huì)發(fā)生什么?

  • 如果你下車,推著自行車過去會(huì)發(fā)生什么?

LLM 會(huì)詳細(xì)輸出這兩種選擇會(huì)導(dǎo)致的截然不同的后果,甚至?xí)敿?xì)到牽引力、動(dòng)量和重心的變化。這和上面我們?cè)?mental model 提到的人腦中的假想和推演未來相比,不是很接近嗎?


但是,Richard Sutton 最近的訪談對(duì)“LLM 是否是世界模型”這一問題提出了一些批判性的觀點(diǎn)。

Sutton 的核心論點(diǎn)是:LLMs 學(xué)習(xí)的是對(duì)話的上下文,而非現(xiàn)實(shí)世界的法則。

他認(rèn)為,一個(gè)真正的世界模型應(yīng)該具備以下能力:

  • 預(yù)測在真實(shí)世界中“將會(huì)發(fā)生什么”

  • 理解事件的動(dòng)態(tài)變化、后果以及因果關(guān)系

  • 能從直接的經(jīng)驗(yàn)中學(xué)習(xí),并根據(jù)結(jié)果來更新自己的理解

而目前的大語言模型實(shí)際上做的是:

  • 在給定的上下文中預(yù)測“一個(gè)人會(huì)說什么”

  • 通過模仿人類生成的文本中的模式來進(jìn)行學(xué)習(xí)

  • 它們?nèi)狈εc外部世界的直接互動(dòng),也沒有內(nèi)在的目標(biāo)來衡量自身行為的正確性

根據(jù) Sutton 的觀點(diǎn),盡管 LLM 在語言回答上表現(xiàn)出色,但它們并不符合一個(gè)真正“世界模型”的標(biāo)準(zhǔn),它們模擬的是語言的表象,而非世界運(yùn)作的內(nèi)在機(jī)理。


Sutton 說的很有道理。但從某個(gè)角度看,這正是 LLM 作為這一類世界模型的本質(zhì)。

LLM 是擁有一個(gè)零碎且不完整的 (fragmented and incomplete)的世界模型。但這個(gè)世界模型是局部的 (local)、稀疏的 (sparse)、和不連貫的 (incoherent)。以及它需要借助外部的提示 (external prompts)才能夠?qū)⑵渌槠闹R(shí)連接和組織起來。

那為什么會(huì)這樣呢? 這可能是因?yàn)檎Z言本身就是對(duì)世界的一種局部、稀疏且不連貫的描述。因?yàn)?LLM 完全依賴于語言數(shù)據(jù)進(jìn)行學(xué)習(xí),它自然就繼承了語言本身的這些局限性,導(dǎo)致其構(gòu)建的世界模型也是碎片化的。


04

生成世界模型的兩大細(xì)分類型

生成世界模型包含兩類:

1)基于規(guī)則的模擬,比如游戲引擎,CG 學(xué)科以及顯式 3D 中更多研究的是這類;

2)數(shù)據(jù)驅(qū)動(dòng)的生成,比如視頻生成模型。其他可能還有細(xì)分類,但大家主要關(guān)心的就是這兩大類。



B1 基于規(guī)則的模擬

第一類是基于規(guī)則的模擬。

這是一種經(jīng)過時(shí)間考驗(yàn)并取得了巨大成功的方法。這種方法長遠(yuǎn)來看依舊不可替代,有很多地方依舊會(huì)需要他們,而且他們會(huì)繼續(xù)發(fā)展。可能有點(diǎn)類似手機(jī)出來后,單反相機(jī)依舊有它的作用,而且將繼續(xù)發(fā)展。

它在許多領(lǐng)域都有著廣泛的應(yīng)用,下面的例子是摘自 GAMES101 的 PPT。

  • 視頻游戲 (Video Games): 游戲世界中的物理交互、角色行為等都由預(yù)設(shè)的規(guī)則和引擎驅(qū)動(dòng)。

  • 動(dòng)畫 (Animations):動(dòng)畫電影(如《瘋狂動(dòng)物城》)中的角色動(dòng)作和場景變化,也依賴于復(fù)雜的渲染和模擬規(guī)則。

  • 設(shè)計(jì) (Design): 在室內(nèi)設(shè)計(jì)、建筑設(shè)計(jì)等領(lǐng)域,通過模擬光照、材質(zhì)等來預(yù)演最終效果。

  • 可視化 (Visualization):在科學(xué)、工程、醫(yī)學(xué)等領(lǐng)域,用于將復(fù)雜數(shù)據(jù)轉(zhuǎn)化為直觀的視覺圖像。


以游戲引擎(Game Engine)為例,可以說明基于規(guī)則的模擬(Rule-based Simulation) 的幾個(gè)核心特點(diǎn):

  • 自上而下 (Top-down): 它的規(guī)則是由人類自上而下、預(yù)先定義好的。

  • 明確且固定 (Explicit and fixed): 這些規(guī)則是人類設(shè)計(jì)的、明確且固定的,例如游戲中明確定義的重力規(guī)則和碰撞規(guī)則。

  • 確定性 (Deterministic): 系統(tǒng)的行為是確定且可預(yù)測的,在相同的輸入下總會(huì)產(chǎn)生相同的結(jié)果。

  • 顯著簡化 (Significant simplification): 它對(duì)現(xiàn)實(shí)世界進(jìn)行了極大的簡化和抽象,只捕捉系統(tǒng)的核心邏輯,而忽略大量不相關(guān)的細(xì)節(jié)。例如,游戲引擎通常不會(huì)去追蹤場景中每一片葉子或每一根草的狀態(tài)和運(yùn)動(dòng)。


有一個(gè)概念——數(shù)字孿生非常有關(guān)聯(lián),數(shù)字孿生的例子有英偉達(dá)的 Omniverse 。

這是基于規(guī)則的模擬在工業(yè)領(lǐng)域中的一個(gè)重要應(yīng)用。數(shù)字孿生技術(shù)可以為現(xiàn)實(shí)世界中的實(shí)體工廠創(chuàng)建一個(gè)精確的數(shù)字副本。如下圖的 youtube 視頻展示的,富士康利用 Omniverse 來構(gòu)建其機(jī)器人工廠的數(shù)字孿生。

通過這項(xiàng)技術(shù),他們可以在這個(gè)虛擬的工廠中優(yōu)化布局,以及加速機(jī)器人訓(xùn)練。這使得在實(shí)際部署之前,就能夠在高度逼真的模擬環(huán)境中對(duì)整個(gè)生產(chǎn)流程進(jìn)行測試、驗(yàn)證和優(yōu)化。


B2數(shù)據(jù)驅(qū)動(dòng)的生成

與基于規(guī)則的模擬相反,數(shù)據(jù)驅(qū)動(dòng)的生成方法具有以下特點(diǎn):

自下而上 (Bottom-up):它是從數(shù)據(jù)中自下而上地學(xué)習(xí)并涌現(xiàn)出模式

無預(yù)設(shè)規(guī)則 (No predefined rules):它不依賴任何預(yù)設(shè)的規(guī)則,而是通過學(xué)習(xí)海量數(shù)據(jù)來掌握世界的規(guī)律 。例如,它并不懂牛頓運(yùn)動(dòng)定律,但在看了一百萬個(gè)蘋果下落的視頻后,它就“知道”了蘋果是會(huì)往下掉的

概率性與涌現(xiàn)性 (Probabilistic and emergent):它的行為是概率性的,并且會(huì)涌現(xiàn)出復(fù)雜的、未被明確編程的行為

正如 OpenAI 關(guān)于 Sora 的描述中所說,視頻生成模型正在成為“世界模擬器”(world simulators)。


視頻生成,特別是可交互的生成式視頻,正在解鎖視頻世界模型的無限可能性。

從 Genie 2 到 Genie 3 ,從交互到記憶,我們可以看到模型不僅能生成高質(zhì)量的視頻,更在逐步實(shí)現(xiàn)與生成世界的交互。用戶不再僅僅是旁觀者,而是可以成為虛擬世界中的參與者。


可交互生成式視頻(Interactive Generative Video, IGV)

我們的 Survey 工作 A Survey of Interactive Generative Video 也較早思考了可交互生成式視頻的五大構(gòu)成部分,可交互生成式視頻是一大類主要的視頻世界模型。而 IGV 所展示的模塊也正是視頻世界模型的必要模塊。

生成(Generation):能夠以流式、實(shí)時(shí)和多模態(tài)的方式處理輸入,并輸出多模態(tài)

控制 (Control):包括對(duì)世界中的導(dǎo)航控制和交互控制

動(dòng)態(tài) (Dynamics):模擬物理規(guī)律并支持對(duì)物理規(guī)律的調(diào)整

記憶 (Memory):擁有靜態(tài)記憶和動(dòng)態(tài)記憶

智能 (Intelligence):具備推理和自我演化的能力,是系統(tǒng)更高階的特性


05

做個(gè)總結(jié)

最后,對(duì)世界模型的分類做一個(gè)總結(jié)。本文主要介紹了下面這張圖。


還有兩個(gè)重要的補(bǔ)充:上面內(nèi)容是為了分類,但實(shí)際上很多內(nèi)容是融合與交叉的。

生成世界模型是需要表征世界模型作為基礎(chǔ),無論是顯式地包含或者隱式的包含。所以 Video World Model 和 V-JEPA/DINO-World ,以及 LLM 作為世界模型并不是爭鋒相對(duì)的,他們可以是相輔相成的

在生成世界模型內(nèi)部的分類中,基于規(guī)則和數(shù)據(jù)驅(qū)動(dòng)這兩種方法也不是水火不容的,它們?cè)诙唐趦?nèi)有結(jié)合的方案,這一類并沒有列在這里。

【參考】

https://www.xunhuang.me/blogs/world_model.html


Ha, David, and Jürgen Schmidhuber. "World models."

Intuitive physics as probabilistic inference: https://cicl.stanford.edu/papers/smith2023probabilistic.pdf

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

Back to the Features: DINO as a Foundation for Video World Models

A path towards autonomous machine intelligence

A Survey of Interactive Generative Video

https://openai.com/index/sora/

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
太夸張!臺(tái)積電5nm一季度利潤,比中芯國際年利潤還多400億!

太夸張!臺(tái)積電5nm一季度利潤,比中芯國際年利潤還多400億!

互聯(lián)網(wǎng).亂侃秀
2026-04-18 11:34:41
你見過哪些結(jié)婚作死行為?網(wǎng)友:這種親戚以后就別來往了

你見過哪些結(jié)婚作死行為?網(wǎng)友:這種親戚以后就別來往了

帶你感受人間冷暖
2026-04-01 00:15:03
王立群教授:用權(quán)力泡女人,女人在你面前服服帖帖,用金錢泡女人,女人是滿臉不服氣,甚至討價(jià)還價(jià)...

王立群教授:用權(quán)力泡女人,女人在你面前服服帖帖,用金錢泡女人,女人是滿臉不服氣,甚至討價(jià)還價(jià)...

深度知局
2026-04-08 07:41:14
59歲王志文已準(zhǔn)備好了后事,一切從簡,骨灰回歸自然,遺憾公開

59歲王志文已準(zhǔn)備好了后事,一切從簡,骨灰回歸自然,遺憾公開

孤芳自賞的小李
2026-04-17 19:16:25
瓦爾·基爾默"復(fù)活"出演:AI演員時(shí)代真的來了嗎

瓦爾·基爾默"復(fù)活"出演:AI演員時(shí)代真的來了嗎

報(bào)錯(cuò)免疫體
2026-04-17 21:31:57
吳彥祖女兒高調(diào)亮相,太漂亮了吧,恐怕是娛樂圈顏值最高的星二代了!

吳彥祖女兒高調(diào)亮相,太漂亮了吧,恐怕是娛樂圈顏值最高的星二代了!

手工制作阿殲
2026-04-17 09:52:59
徐帆回應(yīng)離婚5個(gè)月,馮小剛狀態(tài)曝光,他的“小心思”再藏不住了

徐帆回應(yīng)離婚5個(gè)月,馮小剛狀態(tài)曝光,他的“小心思”再藏不住了

青橘罐頭
2026-04-17 17:08:26
真拼!鄺兆鐳踢中超高光時(shí)刻:5秒讓對(duì)手摔2次,最后拉傷3次倒地

真拼!鄺兆鐳踢中超高光時(shí)刻:5秒讓對(duì)手摔2次,最后拉傷3次倒地

足球大腕
2026-04-18 11:12:31
美軍司令部:發(fā)動(dòng)打擊

美軍司令部:發(fā)動(dòng)打擊

陸棄
2026-04-17 08:45:03
65歲東北老兩口定居廈門半年后,哭著說:這哪是養(yǎng)老,分明是遭罪

65歲東北老兩口定居廈門半年后,哭著說:這哪是養(yǎng)老,分明是遭罪

今日搞笑分享
2026-04-18 00:02:50
藍(lán)綠新北市長參選人上淡江大橋,侯友宜:李四川的奉獻(xiàn)大家有目共睹

藍(lán)綠新北市長參選人上淡江大橋,侯友宜:李四川的奉獻(xiàn)大家有目共睹

海峽導(dǎo)報(bào)社
2026-04-17 22:28:05
再次反轉(zhuǎn)!美伊都否認(rèn)了

再次反轉(zhuǎn)!美伊都否認(rèn)了

陸棄
2026-04-16 09:41:04
中國駐俄領(lǐng)館:俄羅斯一起交通事故致中國公民1死10傷

中國駐俄領(lǐng)館:俄羅斯一起交通事故致中國公民1死10傷

界面新聞
2026-04-18 18:15:00
章澤天穿最新款出席晚宴,網(wǎng)友這才是她的賽道,不要和別人搶飯碗

章澤天穿最新款出席晚宴,網(wǎng)友這才是她的賽道,不要和別人搶飯碗

動(dòng)物奇奇怪怪
2026-04-18 15:45:11
阿里開源"小鋼炮":30億參數(shù)干翻270億

阿里開源"小鋼炮":30億參數(shù)干翻270億

我是一個(gè)粉刷匠2
2026-04-16 22:48:49
劉亦菲.竟也有這么洶涌的照片,太奔放了微信朋友圈

劉亦菲.竟也有這么洶涌的照片,太奔放了微信朋友圈

草莓解說體育
2026-04-18 12:17:27
1953年陳賡向周總理撥通了緊急電話:總理,高崗現(xiàn)在有點(diǎn)不對(duì)勁

1953年陳賡向周總理撥通了緊急電話:總理,高崗現(xiàn)在有點(diǎn)不對(duì)勁

輝輝歷史記
2026-04-18 04:17:21
退休以后,提醒大家:盡量別讓任何人知道你的狀態(tài),尤其這5件事

退休以后,提醒大家:盡量別讓任何人知道你的狀態(tài),尤其這5件事

小談食刻美食
2026-03-28 09:42:18
突發(fā)!全球巨震!霍爾木茲海峽完全開放

突發(fā)!全球巨震!霍爾木茲海峽完全開放

新浪財(cái)經(jīng)
2026-04-17 21:18:35
瘋狂小楊哥最新照片曝光,滿臉憔悴,神采不再

瘋狂小楊哥最新照片曝光,滿臉憔悴,神采不再

微微熱評(píng)
2026-04-17 12:35:11
2026-04-19 00:08:49
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7198文章數(shù) 20744關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

體育要聞

時(shí)隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財(cái)經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價(jià)14.48萬元起

態(tài)度原創(chuàng)

藝術(shù)
家居
旅游
房產(chǎn)
公開課

藝術(shù)要聞

耗資600億,貴陽人的“上海外灘”,現(xiàn)在去看,荒得嚇人

家居要聞

法式線條 時(shí)光靜淌

旅游要聞

花開如雪 暗香浮動(dòng)|濟(jì)寧戴莊流蘇花迎來最美花期 引市民打卡

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!海口樓市,突然殺入神秘房企!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版