網易首頁 > 網易科技 > 網易科技 > 正文

世界模型到底是什么？和智源王仲遠深聊3小時后，我們拆解了五大疑惑

2026-06-17 14:38:07　來源: 態℃

北京舉報

分享至

出品| 網易科技《態度》欄目

作者| 袁寧楊霞清

編輯| 丁廣勝

“世界模型”當下最吊詭的地方：它前所未有的熱，卻也前所未有的模糊。

正是在這個時間點，智源研究院把“世界模型”推到了今年智源大會的核心位置。

6月12日，2026智源大會上，智源研究院宣布了兩項與世界模型相關的最新進展：悟界·Physis-v0.1和悟界·RoboBrain Orca。前者指向通用物理世界基座模型，試圖讓AI 從“生成畫面”走向“預測物理狀態”；后者面向具身智能，希望讓機器人在行動之前，先學會感知、理解和推演世界。

大會前，網易科技與其他同行一起，與智源研究院院長王仲遠等進行了一場近3小時的交流，主題是拆解和探討當下最熱的“世界模型”。

我們試圖弄清楚：世界模型到底是什么？它是人工智能的一次重大范式變革嗎？世界模型現在到了什么階段？卡點在哪里？智源研究院在世界模型路線中如何押注？中美在世界模型競爭中有差距嗎？

1、定義之惑：到底什么是“世界模型”？

王仲遠認為，世界模擬器并不等于世界模型，視頻生成更不等于世界模型。

原因很簡單：視頻模型可以生成看起來逼真的畫面，但不一定真正理解物理規律。

它可以生成一頭在天上飛的豬，也可以生成物體憑空消失、流體運動違反物理規律、重力邏輯不成立的片段。這樣的模型在影視、游戲、自動駕駛數據生成等場景中有價值，但如果把它直接用于機器人、工業控制或真實世界決策，就可能帶來風險。

“如果機器人裝上這樣的大腦，可能會誤以為自己是鋼鐵俠。”王仲遠打了一個形象的比方。

王仲遠給出“世界模型”的定義：面向真實物理世界的下一代基座模型。核心是從“預測下一個詞”（Next Token Prediction）變成“預測下一個物理狀態”（Next Physical State Prediction）。

當下，世界模型還處于早期階段，路線尚未收斂。王仲遠將當前“世界模型”的技術路線梳理為至少五條：

第一類是以語言為中心的世界模型。

包含大語言模型、VLM、VLA都是歸類為以語言為中心。世界模型的核心就是能夠讓人工智能進入物理世界，感知、理解、推理，跟物理世界交互，語言也有總結很多世界的知識，只是以文字的方式表達，VLM、VLA是把其它模態、其它能力映射到語言空間，所以以語言為中心也是屬于一類世界模型。

第二類是以像素為中心的世界模型。

目前最廣為人知、也最容易被誤用的路線。OpenAI當年發布Sora的時候使用了“World Simulator”。它們預測的是下一個畫面幀，因此更接近“世界模擬器”。這類模型能夠生成連貫視頻，但其短板在于：它可能學到的是影視作品中的視覺相關性，而不是真實物理世界的因果規律。

第三類是以三維結構為中心的世界模型。

以李飛飛為代表的空間智能方向，本質上瞄準的是數字世界的構建。這類路線關注3D重建、空間生成和可交互環境。李飛飛提出的“空間智能”，以及 World Labs 發布的 Marble，嘗試從單張圖片生成可交互、持久化的3D環境。王仲遠指出，這更像是元宇宙和游戲場景的延伸，解決的是“數字空間”的問題，而非“物理空間”的問題。

第四類是以視覺表征為軸心的世界模型。

此路線是Yann LeCun（楊立昆）長期強調的方向。從 I-JEPA、V-JEPA 到 V-JEPA-2，這條路線主張模型不必生成完整畫面，而是在 latent space，即隱空間中預測世界的抽象狀態。

王仲遠認同這一路線對大語言模型局限性的判斷：僅靠語言模型，確實無法解決真實物理世界中的復雜問題。但他并不完全贊同“語言不重要”。在他看來，未來的世界模型不能只依賴隱式表征，也不能完全繞開語言，因為語言仍然是推理、規劃和表達的重要接口。

王仲遠認為，智源研究院的世界模型路線其實正在探索第五條路線,也就是第一條和第四條的融合。以語言為中心的分類和以視覺表征為中心的分類可能的融合，也叫做潛空間表征，同一個潛空間能夠Decode不同的模態。智源依然延續的悟界·Emu3.5模型訓練的思想，就是將各種文字圖像視頻模態全部壓縮，原生統一訓練，壓縮在同一個語義空間，希望有更多的模態被壓縮進來，通過統一潛空間表征各種真實物理世界的狀態，Decode成為Action、畫面或者其它真實物理世界需要的狀態。智源認為將來統一的潛空間建模不僅僅是視覺空間，而是全模態潛空間，很有可能是世界模型真正下一個可能的路徑。

“世界模型最終要解決的是看到、感知、理解真實世界，進行推理規劃和決策。”王仲遠說。它不應只是一個仿真器，而應是一個能夠輔助人類和智能體理解物理世界、預測未來狀態、做出行動決策的基座模型。

2、世界模型VS大語言模型：AI的重大范式變革

如果說大語言模型的核心范式是Next Token Prediction（預測下一個詞），那么智源認為，世界模型的核心范式將是Next Physical Prediction（預測下一個物理狀態）。

“我們認為這是人工智能的一次重大范式變革。” 王仲遠表示。

在王仲遠看來，過去幾年AI 的主線非常清晰：先是語言模型，讓機器理解和生成文本；然后是多模態模型，讓機器能夠處理圖像、視頻、聲音等更多信息；再往后，AI 必須進入物理世界，與硬件、機器人、工業系統、科學實驗和生命系統發生關系。

也就是說，AI 不能永遠停留在屏幕里。

大語言模型已經在寫作、總結、問答、編程等數字世界任務中展現出巨大價值，但真實的人類社會并不只由文字、代碼和網頁構成。工廠、物流、酒店、醫院、實驗室、道路、家庭，這些才是更復雜、更高價值、也更難建模的物理世界。

王仲遠將這一過程概括為：大語言模型、多模態、世界模型，最終通往物理AGI。

所謂物理AGI，并不是指一個抽象的聊天機器人，而是能夠在真實世界中感知環境、理解狀態、推演后果、做出決策，并通過實體或工具執行動作的智能系統。

這也是智源過去幾年布局的主線。

2021年，智源發布悟道大模型，參與開啟了中國大模型時代。隨后，智源將重點轉向多模態，推出悟界系列大模型。2024年6月的智源大會上，智源已經在人工智能發展路徑預判中明確提出：AI 將從原生統一多模態，進入物理世界與硬件結合，再進入微觀世界 AI for Science，最終通向物理 AGI。

也就是說，世界模型并不是智源在2026年突然長出來的方向，而是其技術路線中的一個階段性結果。

王仲遠在接受采訪時提到，智源研究院一直按照自己對AI 技術路徑的判斷推進研究：語言大模型、多模態大模型、具身智能，再到世界模型，是連續演進的。

這一脈絡在Emu 系列中已經有所體現。

2024年，智源發布悟界·Emu3。2025年，智源發布悟界·Emu3.5。按照智源的說法，悟界·Emu3和悟界·Emu3.5是其多模態世界模型探索的重要節點，實現了圖像、文本、視頻的原生統一。王仲遠認為，悟界·Emu系列本質上是智源對世界模型的早期探索，是“多模態世界模型基座”的雛形。

但他也承認，悟界·Emu3.5時代的多模態世界模型還遠遠不夠。

當時融合的主要是文字、圖像和視頻，甚至連聲音和動作都沒有完全融合。真正進入物理世界后，模型必須理解動作，理解狀態，理解時間、空間和物理規律，還要能夠判斷一個動作會導致什么后果。

比如，一瓶蓋著蓋子的水和一瓶沒蓋蓋子的水，如果即將從桌邊跌落，人類會自然預判兩者后果不同：前者可能只是摔落，后者可能還會灑水、造成滑倒或損壞物品。但要讓模型真正學會這種物理常識，并不容易。

這正是世界模型相較多模態模型的關鍵區別。

多模態模型解決的是不同信息形式之間的統一理解和生成；世界模型要進一步解決的是：在真實物理世界中，狀態如何變化，動作如何產生后果，因果鏈條如何被推演，長期狀態如何保持一致。

王仲遠認為，語言模型時代的能力激發方式是Prompt；世界模型時代，能力激發方式可能是 State。

語言模型時代，模型更多是被動觀察和響應；世界模型時代，模型必須具備主動交互能力。語言模型時代，模型可以是單模態或多模態；世界模型時代，模型必須走向全模態。

因此，世界模型并不是對大語言模型的簡單替代，而是一次更大的范式擴展：從數字符號預測，走向物理狀態預測；從回答問題，走向理解世界；從生成內容，走向規劃行動。

世界模型有哪些應用場景？和具身智能什么關系？

“VLA是當下，世界模型是未來。”王仲遠認為，具身智能是當下最大的應用場景，但世界模型遠不止于此：

世界模型還可以應用于以下場景：

它可以替代傳統物理仿真引擎（超越人類手工寫的物理公式）；

它可以用于科學發現，甚至幫人類發現未知的物理規律；

它可以服務工業、物流、醫療……任何“在真實物理世界中干活”的場景。

以及現在火熱的具身模型還很“笨”——一個場景一個任務地訓練，換個環境就不會了。缺乏物理常識，缺乏泛化能力。

這正是世界模型要解決的：做一個通用的物理世界基座模型，像大語言模型一樣，能適應不同場景，做出合理決策。

智源想做的，正是在這個范式尚未完全收斂的時候，提出自己的定義、分類和路線判斷。

3、智源的路線：悟界·Physis 做物理底座，悟界·RoboBrain Orca做具身大腦

今年，智源在世界模型方向最重要的兩個布局，是發布了悟界·Physis-v0.1 和悟界·RoboBrain Orca。

它們都指向物理世界，但側重點不同。悟界·Physis更像是一條通用物理世界基座模型路線，目標是學習真實物理世界中的狀態變化規律；悟界·RoboBrain Orca則更聚焦具身智能，目標是讓機器人像人一樣理解世界、預測世界、改變世界。

一個偏底座，一個偏大腦；一個更強調物理狀態建模，一個更強調具身交互閉環。

首先是悟界·Physis。

它的核心范式是Next Physical State Prediction，即預測下一個物理狀態。與許多視頻生成模型不同，Physis 的目標不是生成更漂亮的視頻，而是學習真實物理世界中的狀態變化規律。

智源對悟界·Physis 的定位是：全球首個通用世界基座模型，以預測下一個物理狀態的范式，探索真實物理世界AI 底層引擎。

這里的關鍵變化在于，它不以像素或幀為核心，而以“物理狀態”為核心。

比如，一個瓶子倒下去之后，它的狀態變化不僅包括畫面里的像素變化，還包括瓶子的姿態、速度、碰撞、接觸關系、液體是否流出、桌面是否吸水、周邊物體是否被帶倒。

一個模型如果只生成“看起來像瓶子倒了”的視頻，并不等于它理解了這個過程。真正的世界模型需要知道：瓶蓋是否擰緊、水量是多少、地面材質是什么、受力方向如何、撞擊會傳導到哪里。

悟界·Physis 嘗試將視頻、RGB-D、3D點云、力觸反饋等全模態信息，壓縮和統一到隱空間中。也就是說，模型并不是簡單預測下一幀畫面，而是在latent space 中學習狀態的演化。

據介紹，悟界·Physis具備四類核心能力：物理一致性，動作因果性，長程可推演性，通用泛化性。

而悟界·Physis 的潛在應用場景則包括嚴肅工業、具身智能、物理仿真、科學研究等真實物理場景。

如果說悟界·Physis 更像“物理底座”，那么悟界·RoboBrain Orca 更接近“機器人大腦”。

智源對悟界·RoboBrain Orca 的定義是：以下一個物理狀態預測為核心的具身大腦，具備統一表征、因果推演、模態解碼三大核心能力。

過去兩年，VLA 幾乎是機器人“大腦”的主流敘事。機器人通過視覺觀察環境，通過語言理解人類指令，再把理解轉化為動作輸出。它已經推動機器人在分揀、抓取、包裝、酒店服務等特定場景中落地。

但VLA 的短板也很明顯：泛化不夠、長程任務不穩、復雜場景中的物理理解不足，且在真實機器人上部署時還會遇到延遲、算力和響應頻率問題。

王仲遠說得很直接：“VLA 是當下，世界模型是未來。”

VLA 能讓機器人聽懂指令、看到環境、做出動作，但它對世界變化的預測能力還不夠。

機器人不能只是執行，它還要能在行動前想一想：這個動作之后會發生什么？

悟界·RoboBrain Orca要解決的，就是具身智能里更底層的問題。

它試圖讓機器人像人類一樣，不僅執行指令，還能感知環境、理解狀態、預判后果、規劃動作，并在執行后根據反饋繼續調整。

從技術范式上看，悟界·RoboBrain Orca試圖從 Next Token、Next Frame、Next Action Prediction，升級到 Next Physical State 世界狀態預測。它將語言、視覺、動作等信息統一到狀態表征中，使模型能夠同時生成語言思考、視覺預測和動作決策。

也就是說，悟界·RoboBrain Orca想實現的是“想、看、動”三位一體。

它既能用語言進行推理，也能預測視覺場景如何變化，還能輸出行動決策。這使其更適合復雜環境中的動態決策和長期任務規劃。

比如，一個機器人面對復雜房間，要決定關哪扇門、拿哪個物體、繞過哪張桌子。它不應該只是被動執行指令，而應該在內部模擬不同選擇導致的未來狀態，再做決策。

如果它要端一杯水給人，它需要知道杯子有沒有蓋子，水會不會灑，路線中是否有障礙，機械臂抓握是否穩定，失敗后如何調整。

“世界模型是一個長期過程，我們應該先解決最深層次的問題。”他說。

4、世界模型卡點在哪？還在大語言模型的2012年

如果用大語言模型的發展階段類比，今天的世界模型走到哪里了？

王仲遠的判斷是：世界模型還處在大語言模型的2012年（即深度學習階段），處于非常早期的階段。

他進一步展開了這個時間線的推演：2006年，Hinton 提出深度信念網絡，深度學習理念開始萌芽；2012年，AlexNet 在 ImageNet 上大放異彩，深度學習進入產業化視野；但直到2018年，Transformer 和大規模預訓練才真正成熟；2022年底，ChatGPT 橫空出世，大語言模型迎來爆發。從理念萌芽到改變世界的產品，走了將近二十年。

世界模型是否也需要這樣漫長的周期？王仲遠認為可能不需要——“隨著人工智能越來越強，演化速度越來越快，可能三年五年就有足夠多的數據累積。”但同時他也強調，“世界模型的周期”可能是三年甚至更長時間”。世界模型是一個十年維度的命題，它的短期價值體現在技術驗證而非商業兌現。

也就是說，方向已經開始顯現，大家已經意識到它的重要性，但技術路線尚未收斂，數據遠遠不足，評測標準也不清晰，還沒有出現一個像GPT-3.5或 ChatGPT 那樣讓行業形成共識的產品。

在王仲遠看來，世界模型目前面臨著以下難點。

第一個卡點，怎么把物理規律教給模型。

人類看到一瓶水快要跌落，會天然預判接下來會發生什么。瓶子是蓋著的還是沒蓋著的，里面有多少水，桌面是什么材質，落地后會不會碎，這些都會影響我們的動作選擇。

但模型并不會天然擁有這些物理直覺。

視頻生成模型可以生成一段“水杯倒下”的畫面，但這段畫面是否真的符合物理規律，是另一回事。

第二個難點，是長時間序列一致性。

很多視頻生成模型已經可以從5秒、10秒延長到更久，但看起來更長，并不等于真正理解了時間。

王仲遠舉了一個例子：如果給一個瓶子里加水，旁邊放一個時鐘，模型進行狀態預測。鏡頭移開又移回來，時鐘是不是真的經過了10秒或20秒？水位、動作和環境是否保持一致？

今天的很多視頻模型可以生成看似連續的長視頻，但不一定符合真實物理世界的時間規律。

第三個難點，怎么把Action 教給模型。