出品| 網易科技《態度》欄目
作者| 袁寧 楊霞清
編輯| 丁廣勝
“世界模型”當下最吊詭的地方:它前所未有的熱,卻也前所未有的模糊。
正是在這個時間點,智源研究院把“世界模型”推到了今年智源大會的核心位置。
6月12日,2026智源大會上,智源研究院宣布了兩項與世界模型相關的最新進展:悟界·Physis-v0.1和悟界·RoboBrain Orca。前者指向通用物理世界基座模型,試圖讓AI 從“生成畫面”走向“預測物理狀態”;后者面向具身智能,希望讓機器人在行動之前,先學會感知、理解和推演世界。
大會前,網易科技與其他同行一起,與智源研究院院長王仲遠等進行了一場近3小時的交流,主題是拆解和探討當下最熱的“世界模型”。
我們試圖弄清楚:世界模型到底是什么?它是人工智能的一次重大范式變革嗎?世界模型現在到了什么階段?卡點在哪里?智源研究院在世界模型路線中如何押注?中美在世界模型競爭中有差距嗎?
1、定義之惑:到底什么是“世界模型”?王仲遠認為,世界模擬器并不等于世界模型,視頻生成更不等于世界模型。
原因很簡單:視頻模型可以生成看起來逼真的畫面,但不一定真正理解物理規律。
它可以生成一頭在天上飛的豬,也可以生成物體憑空消失、流體運動違反物理規律、重力邏輯不成立的片段。這樣的模型在影視、游戲、自動駕駛數據生成等場景中有價值,但如果把它直接用于機器人、工業控制或真實世界決策,就可能帶來風險。
“如果機器人裝上這樣的大腦,可能會誤以為自己是鋼鐵俠。”王仲遠打了一個形象的比方。
王仲遠給出“世界模型”的定義:面向真實物理世界的下一代基座模型。核心是從“預測下一個詞”(Next Token Prediction)變成“預測下一個物理狀態”(Next Physical State Prediction)。
當下,世界模型還處于早期階段,路線尚未收斂。王仲遠將當前“世界模型”的技術路線梳理為至少五條:
第一類是以語言為中心的世界模型。
包含大語言模型、VLM、VLA都是歸類為以語言為中心。世界模型的核心就是能夠讓人工智能進入物理世界,感知、理解、推理,跟物理世界交互,語言也有總結很多世界的知識,只是以文字的方式表達,VLM、VLA是把其它模態、其它能力映射到語言空間,所以以語言為中心也是屬于一類世界模型。
第二類是以像素為中心的世界模型。
目前最廣為人知、也最容易被誤用的路線。OpenAI當年發布Sora的時候使用了“World Simulator”。它們預測的是下一個畫面幀,因此更接近“世界模擬器”。這類模型能夠生成連貫視頻,但其短板在于:它可能學到的是影視作品中的視覺相關性,而不是真實物理世界的因果規律。
第三類是以三維結構為中心的世界模型。
以李飛飛為代表的空間智能方向,本質上瞄準的是數字世界的構建。這類路線關注3D重建、空間生成和可交互環境。李飛飛提出的“空間智能”,以及 World Labs 發布的 Marble,嘗試從單張圖片生成可交互、持久化的3D環境。王仲遠指出,這更像是元宇宙和游戲場景的延伸,解決的是“數字空間”的問題,而非“物理空間”的問題。
第四類是以視覺表征為軸心的世界模型。
此路線是Yann LeCun(楊立昆) 長期強調的方向。從 I-JEPA、V-JEPA 到 V-JEPA-2,這條路線主張模型不必生成完整畫面,而是在 latent space,即隱空間中預測世界的抽象狀態。
王仲遠認同這一路線對大語言模型局限性的判斷:僅靠語言模型,確實無法解決真實物理世界中的復雜問題。但他并不完全贊同“語言不重要”。在他看來,未來的世界模型不能只依賴隱式表征,也不能完全繞開語言,因為語言仍然是推理、規劃和表達的重要接口。
王仲遠認為,智源研究院的世界模型路線其實正在探索第五條路線,也就是第一條和第四條的融合。以語言為中心的分類和以視覺表征為中心的分類可能的融合,也叫做潛空間表征,同一個潛空間能夠Decode不同的模態。智源依然延續的悟界·Emu3.5模型訓練的思想,就是將各種文字圖像視頻模態全部壓縮,原生統一訓練,壓縮在同一個語義空間,希望有更多的模態被壓縮進來,通過統一潛空間表征各種真實物理世界的狀態,Decode成為Action、畫面或者其它真實物理世界需要的狀態。智源認為將來統一的潛空間建模不僅僅是視覺空間,而是全模態潛空間,很有可能是世界模型真正下一個可能的路徑。
“世界模型最終要解決的是看到、感知、理解真實世界,進行推理規劃和決策。”王仲遠說。它不應只是一個仿真器,而應是一個能夠輔助人類和智能體理解物理世界、預測未來狀態、做出行動決策的基座模型。
2、世界模型VS大語言模型:AI的重大范式變革如果說大語言模型的核心范式是Next Token Prediction(預測下一個詞),那么智源認為,世界模型的核心范式將是Next Physical Prediction(預測下一個物理狀態)。
“我們認為這是人工智能的一次重大范式變革。” 王仲遠表示。
在王仲遠看來,過去幾年AI 的主線非常清晰:先是語言模型,讓機器理解和生成文本;然后是多模態模型,讓機器能夠處理圖像、視頻、聲音等更多信息;再往后,AI 必須進入物理世界,與硬件、機器人、工業系統、科學實驗和生命系統發生關系。
也就是說,AI 不能永遠停留在屏幕里。
大語言模型已經在寫作、總結、問答、編程等數字世界任務中展現出巨大價值,但真實的人類社會并不只由文字、代碼和網頁構成。工廠、物流、酒店、醫院、實驗室、道路、家庭,這些才是更復雜、更高價值、也更難建模的物理世界。
王仲遠將這一過程概括為:大語言模型、多模態、世界模型,最終通往物理AGI。
所謂物理AGI,并不是指一個抽象的聊天機器人,而是能夠在真實世界中感知環境、理解狀態、推演后果、做出決策,并通過實體或工具執行動作的智能系統。
這也是智源過去幾年布局的主線。
2021年,智源發布悟道大模型,參與開啟了中國大模型時代。隨后,智源將重點轉向多模態,推出悟界系列大模型。2024年6月的智源大會上,智源已經在人工智能發展路徑預判中明確提出:AI 將從原生統一多模態,進入物理世界與硬件結合,再進入微觀世界 AI for Science,最終通向物理 AGI。
也就是說,世界模型并不是智源在2026年突然長出來的方向,而是其技術路線中的一個階段性結果。
王仲遠在接受采訪時提到,智源研究院一直按照自己對AI 技術路徑的判斷推進研究:語言大模型、多模態大模型、具身智能,再到世界模型,是連續演進的。
這一脈絡在Emu 系列中已經有所體現。
2024年,智源發布悟界·Emu3。2025年,智源發布悟界·Emu3.5。按照智源的說法,悟界·Emu3和 悟界·Emu3.5是其多模態世界模型探索的重要節點,實現了圖像、文本、視頻的原生統一。王仲遠認為,悟界·Emu系列本質上是智源對世界模型的早期探索,是“多模態世界模型基座”的雛形。
但他也承認,悟界·Emu3.5時代的多模態世界模型還遠遠不夠。
當時融合的主要是文字、圖像和視頻,甚至連聲音和動作都沒有完全融合。真正進入物理世界后,模型必須理解動作,理解狀態,理解時間、空間和物理規律,還要能夠判斷一個動作會導致什么后果。
比如,一瓶蓋著蓋子的水和一瓶沒蓋蓋子的水,如果即將從桌邊跌落,人類會自然預判兩者后果不同:前者可能只是摔落,后者可能還會灑水、造成滑倒或損壞物品。但要讓模型真正學會這種物理常識,并不容易。
這正是世界模型相較多模態模型的關鍵區別。
多模態模型解決的是不同信息形式之間的統一理解和生成;世界模型要進一步解決的是:在真實物理世界中,狀態如何變化,動作如何產生后果,因果鏈條如何被推演,長期狀態如何保持一致。
王仲遠認為,語言模型時代的能力激發方式是Prompt;世界模型時代,能力激發方式可能是 State。
語言模型時代,模型更多是被動觀察和響應;世界模型時代,模型必須具備主動交互能力。語言模型時代,模型可以是單模態或多模態;世界模型時代,模型必須走向全模態。
因此,世界模型并不是對大語言模型的簡單替代,而是一次更大的范式擴展:從數字符號預測,走向物理狀態預測;從回答問題,走向理解世界;從生成內容,走向規劃行動。
世界模型有哪些應用場景?和具身智能什么關系?
“VLA是當下,世界模型是未來。”王仲遠認為,具身智能是當下最大的應用場景,但世界模型遠不止于此:
世界模型還可以應用于以下場景:
它可以替代傳統物理仿真引擎(超越人類手工寫的物理公式);
它可以用于科學發現,甚至幫人類發現未知的物理規律;
它可以服務工業、物流、醫療……任何“在真實物理世界中干活”的場景。
以及現在火熱的具身模型還很“笨”——一個場景一個任務地訓練,換個環境就不會了。缺乏物理常識,缺乏泛化能力。
這正是世界模型要解決的:做一個通用的物理世界基座模型,像大語言模型一樣,能適應不同場景,做出合理決策。
智源想做的,正是在這個范式尚未完全收斂的時候,提出自己的定義、分類和路線判斷。
3、智源的路線:悟界·Physis 做物理底座,悟界·RoboBrain Orca做具身大腦
今年,智源在世界模型方向最重要的兩個布局,是發布了悟界·Physis-v0.1 和悟界·RoboBrain Orca。
它們都指向物理世界,但側重點不同。悟界·Physis更像是一條通用物理世界基座模型路線,目標是學習真實物理世界中的狀態變化規律;悟界·RoboBrain Orca則更聚焦具身智能,目標是讓機器人像人一樣理解世界、預測世界、改變世界。
一個偏底座,一個偏大腦;一個更強調物理狀態建模,一個更強調具身交互閉環。
首先是悟界·Physis。
它的核心范式是Next Physical State Prediction,即預測下一個物理狀態。與許多視頻生成模型不同,Physis 的目標不是生成更漂亮的視頻,而是學習真實物理世界中的狀態變化規律。
智源對悟界·Physis 的定位是:全球首個通用世界基座模型,以預測下一個物理狀態的范式,探索真實物理世界AI 底層引擎。
這里的關鍵變化在于,它不以像素或幀為核心,而以“物理狀態”為核心。
比如,一個瓶子倒下去之后,它的狀態變化不僅包括畫面里的像素變化,還包括瓶子的姿態、速度、碰撞、接觸關系、液體是否流出、桌面是否吸水、周邊物體是否被帶倒。
一個模型如果只生成“看起來像瓶子倒了”的視頻,并不等于它理解了這個過程。真正的世界模型需要知道:瓶蓋是否擰緊、水量是多少、地面材質是什么、受力方向如何、撞擊會傳導到哪里。
悟界·Physis 嘗試將視頻、RGB-D、3D點云、力觸反饋等全模態信息,壓縮和統一到隱空間中。也就是說,模型并不是簡單預測下一幀畫面,而是在latent space 中學習狀態的演化。
據介紹,悟界·Physis具備四類核心能力:物理一致性,動作因果性,長程可推演性,通用泛化性。
而悟界·Physis 的潛在應用場景則包括嚴肅工業、具身智能、物理仿真、科學研究等真實物理場景。
如果說悟界·Physis 更像“物理底座”,那么悟界·RoboBrain Orca 更接近“機器人大腦”。
智源對悟界·RoboBrain Orca 的定義是:以下一個物理狀態預測為核心的具身大腦,具備統一表征、因果推演、模態解碼三大核心能力。
過去兩年,VLA 幾乎是機器人“大腦”的主流敘事。機器人通過視覺觀察環境,通過語言理解人類指令,再把理解轉化為動作輸出。它已經推動機器人在分揀、抓取、包裝、酒店服務等特定場景中落地。
但VLA 的短板也很明顯:泛化不夠、長程任務不穩、復雜場景中的物理理解不足,且在真實機器人上部署時還會遇到延遲、算力和響應頻率問題。
王仲遠說得很直接:“VLA 是當下,世界模型是未來。”
VLA 能讓機器人聽懂指令、看到環境、做出動作,但它對世界變化的預測能力還不夠。
機器人不能只是執行,它還要能在行動前想一想:這個動作之后會發生什么?
悟界·RoboBrain Orca要解決的,就是具身智能里更底層的問題。
它試圖讓機器人像人類一樣,不僅執行指令,還能感知環境、理解狀態、預判后果、規劃動作,并在執行后根據反饋繼續調整。
從技術范式上看,悟界·RoboBrain Orca試圖從 Next Token、Next Frame、Next Action Prediction,升級到 Next Physical State 世界狀態預測。它將語言、視覺、動作等信息統一到狀態表征中,使模型能夠同時生成語言思考、視覺預測和動作決策。
也就是說,悟界·RoboBrain Orca想實現的是“想、看、動”三位一體。
它既能用語言進行推理,也能預測視覺場景如何變化,還能輸出行動決策。這使其更適合復雜環境中的動態決策和長期任務規劃。
比如,一個機器人面對復雜房間,要決定關哪扇門、拿哪個物體、繞過哪張桌子。它不應該只是被動執行指令,而應該在內部模擬不同選擇導致的未來狀態,再做決策。
如果它要端一杯水給人,它需要知道杯子有沒有蓋子,水會不會灑,路線中是否有障礙,機械臂抓握是否穩定,失敗后如何調整。
“世界模型是一個長期過程,我們應該先解決最深層次的問題。”他說。
4、世界模型卡點在哪?還在大語言模型的2012年
如果用大語言模型的發展階段類比,今天的世界模型走到哪里了?
王仲遠的判斷是:世界模型還處在大語言模型的2012年(即深度學習階段),處于非常早期的階段。
他進一步展開了這個時間線的推演:2006年,Hinton 提出深度信念網絡,深度學習理念開始萌芽;2012年,AlexNet 在 ImageNet 上大放異彩,深度學習進入產業化視野;但直到2018年,Transformer 和大規模預訓練才真正成熟;2022年底,ChatGPT 橫空出世,大語言模型迎來爆發。從理念萌芽到改變世界的產品,走了將近二十年。
世界模型是否也需要這樣漫長的周期?王仲遠認為可能不需要——“隨著人工智能越來越強,演化速度越來越快,可能三年五年就有足夠多的數據累積。”但同時他也強調,“世界模型的周期”可能是三年甚至更長時間”。世界模型是一個十年維度的命題,它的短期價值體現在技術驗證而非商業兌現。
也就是說,方向已經開始顯現,大家已經意識到它的重要性,但技術路線尚未收斂,數據遠遠不足,評測標準也不清晰,還沒有出現一個像GPT-3.5或 ChatGPT 那樣讓行業形成共識的產品。
在王仲遠看來,世界模型目前面臨著以下難點。
第一個卡點,怎么把物理規律教給模型。
人類看到一瓶水快要跌落,會天然預判接下來會發生什么。瓶子是蓋著的還是沒蓋著的,里面有多少水,桌面是什么材質,落地后會不會碎,這些都會影響我們的動作選擇。
但模型并不會天然擁有這些物理直覺。
視頻生成模型可以生成一段“水杯倒下”的畫面,但這段畫面是否真的符合物理規律,是另一回事。
第二個難點,是長時間序列一致性。
很多視頻生成模型已經可以從5秒、10秒延長到更久,但看起來更長,并不等于真正理解了時間。
王仲遠舉了一個例子:如果給一個瓶子里加水,旁邊放一個時鐘,模型進行狀態預測。鏡頭移開又移回來,時鐘是不是真的經過了10秒或20秒?水位、動作和環境是否保持一致?
今天的很多視頻模型可以生成看似連續的長視頻,但不一定符合真實物理世界的時間規律。
第三個難點,怎么把Action 教給模型。
世界模型必須理解動作和后果之間的因果關系。機器人推一下、夾一下、擰一下、倒一下,都會帶來不同的狀態變化。
如果沒有動作數據,沒有交互反饋,模型很難真正知道“我做了什么”和“世界發生了什么變化”之間的關系。
第四個難點,是數據的匱乏。
今天的世界模型,最大的現實問題之一仍然是數據的匱乏。大語言模型之所以爆發,一個關鍵原因是互聯網文本足夠多。圖像和視頻模型也受益于海量互聯網視覺數據。
但世界模型需要的數據復雜得多。它需要真實物理世界中的多模態數據:視覺、聲音、動作、時間、空間、物體狀態、機器人軌跡、人類指令、執行反饋、成敗結果。
更重要的是,這些數據必須能反映真實因果關系,而不是只呈現表面畫面。
這類數據目前遠遠不夠。
但王仲遠表示,世界模型不可能等到“數據完全 Ready”之后再做。
具身智能和真實物理場景的落地,本身也會形成數據閉環。比如工廠分揀、酒店服務、倉儲搬運等場景,雖然一開始只是解決具體問題,但落地過程中采集到的數據,反過來會幫助未來世界模型訓練。
也就是說,世界模型的發展不是先有完美數據、再有完美模型,而是模型、場景和數據共同迭代。
這也是智源為什么愿意在世界模型還不成熟時提前投入。“我們看到了一些可能的方向,但仍需要全世界一同努力。”他說。
5、結語:世界模型,中美在同一起跑線
在大語言模型領域,業界普遍的認同是中國和美國的差距在6-12個月。
當問到世界模型中美的差距時,王仲遠給出了出人意料的答案:“沒有差距,中美在同一起跑線上。因為方向都剛剛開始”。
從行業競爭來看,短期內呈現“百花齊放” 的狀態,各類技術路線持續并存:視頻生成團隊、3D 數字場景團隊、傳統大模型廠商、車企、具身智能企業都會入局。大家的研發目標、技術路徑各不相同,短時間內難以形成統一標準。長期來看,能否打造出通用世界基座模型,將是決定勝負的關鍵。
世界模型不是一場短暫的風口,而是人工智能發展的必經之路。
