![]()
作者團隊來自南洋理工大學 MARS Lab、加州大學伯克利分校、斯坦福大學、哈佛大學、普林斯頓大學、ETH Zurich、牛津大學、東京大學、Microsoft 等機構的研究者。團隊長期關注機器人學習、具身智能、世界模型、多模態基礎模型與機器人策略學習。
世界模型正在成為機器人學習中繞不開的議題。
過去幾年,機器人策略學習的主線之一,是從傳統的任務特定策略,轉向更通用的 Vision-Language-Action (VLA) 模型。通過大規模視覺語言模型和機器人軌跡數據,VLA 模型能夠將視覺觀測、語言指令和動作輸出統一起來,在跨任務、跨場景泛化上展現出潛力。
但機器人控制并不只是「看圖回答動作」。在真實物理環境中,策略模型需要面對接觸、遮擋、長時序依賴、錯誤累積和多步規劃等問題。一個只根據當前觀測直接輸出動作的模型,往往缺少對未來狀態變化的顯式預判。
這使得世界模型重新成為機器人學習中的核心方向:機器人不僅要知道「現在是什么」,還要能預測「如果執行某個動作,世界接下來會如何演化」。
近日,來自南洋理工大學 MARS Lab 的研究者,聯合加州大學伯克利分校、斯坦福大學、哈佛大學、普林斯頓大學、ETH Zurich、牛津大學、東京大學、Microsoft 等機構,發布綜述論文《World Model for Robot Learning: A Comprehensive Survey》,系統梳理了世界模型在機器人學習中的定義、架構范式、應用場景、評測基準與未來挑戰。論文共 43 頁,并配套持續更新維護的 GitHub 資源庫。
![]()
- 論文標題:World Model for Robot Learning: A Comprehensive Survey
- 論文鏈接:
- https://arxiv.org/abs/2605.00080
- 項目主頁:
- https://ntumars.github.io/wm-robot-survey/
- GitHub:
- https://github.com/NTUMARS/Awesome-World-Model-for-Robotics-Policy
![]()
圖 1:論文整體框架圖
機器人世界模型:
重點不是生成,而是可用于決策的預測
在機器學習和認知科學語境中,world model 并不是一個新概念。它通常指能夠刻畫環境狀態如何隨時間和動作發生變化的預測模型。
但在機器人學習中,作者強調需要對這一概念作更嚴格的界定。機器人世界模型不應只是一個能生成未來畫面的模型,而應是能夠描述「智能體——環境」動態演化的模型。換言之,它需要回答的是:在當前狀態下,如果機器人執行某個動作,未來狀態會如何改變。
這一點也區分了機器人世界模型和一般視頻生成模型。后者可以生成視覺上合理的視頻,但未必具備動作一致性。例如,模型可能生成一段看似自然的物體移動視頻,卻無法準確反映機器人夾爪動作、接觸關系和受力變化。對于機器人控制來說,這樣的預測價值有限。
因此,論文將機器人世界模型的核心能力概括為三類:
第一,foresight,即在執行前預測動作后果;
第二,imagination-driven planning,即通過想象 rollout 比較候選行為;
第三,data amplification,即通過合成軌跡或演示數據改善策略學習。
這也解釋了為什么世界模型與機器人學習的結合正在加速。VLA 策略提供了從視覺和語言到動作的接口,而世界模型補充了對未來物理變化的預測結構。二者結合后,機器人策略不再只是反應式映射,而是有機會引入更強的前瞻性和規劃能力。
世界模型如何接入機器人策略?
論文首先討論的是世界模型與機器人策略的結合方式。作者將現有方法按架構劃分為多類,從早期解耦式方法,到單骨干網絡、MoE / MoT 架構、統一 VLA,再到 latent-space world modeling。
![]()
圖 2:時間線發展圖
早期路線通常采用「預測未來,再恢復動作」的兩階段框架。模型先利用視頻生成或未來觀測預測模塊,生成任務相關的未來狀態;隨后,一個逆動力學模型根據當前觀測和預測未來,推斷機器人應執行的動作。UniPi、VidMan、Vidar、Gen2Act 等工作可以歸入這一類。
這類方法的優勢在于模塊清晰。世界模型負責預測「將會發生什么」,策略模塊負責把預測結果轉化為動作。但問題也很明顯:兩個模塊之間存在接口誤差,生成的視頻或 latent 表征如果與真實動作后果不一致,就會影響后續控制。
隨后,研究開始轉向更緊耦合的方案。一類方法使用單一生成骨干同時建模未來視覺狀態和動作序列,將視頻預測與動作生成放進同一個擴散或流匹配過程。UVA、UWA、VideoVLA、Cosmos Policy 等方法都體現了這一趨勢。它們不再把世界模型當作外部模塊,而是試圖讓預測和控制在同一個模型內部共同發生。
另一類方法采用 MoE / MoT 或多分支專家結構。視頻專家、動作專家和語言理解模塊保持一定程度的參數獨立,但通過共享注意力、交叉注意力或層間交互實現信息融合。Motus、LingBot-VA、BagelVLA 等方法都屬于這一方向。相比完全共享骨干,這種設計保留了不同模態的專門能力,同時讓視頻預測中的時序和物理先驗影響動作生成。
![]()
圖 3:IDM、Single-Backbone、MoT 三種方式的對比
統一 VLA 則代表了另一條路線。它們不一定顯式調用外部視頻世界模型,而是通過未來圖像預測、視覺 foresight、結構化世界知識或 latent 動態建模,把預測目標內化到 VLA 訓練過程之中。GR-1、WorldVLA、DreamVLA、UniVLA、CoWVLA 等方法都在不同層面體現了這種趨勢。
值得注意的是,論文并沒有簡單判斷哪一路線已經勝出。相反,作者指出,當前機器人世界模型仍處在快速演化階段。解耦模塊、統一生成骨干、專家混合結構和 latent 表征各有優劣,最終效果取決于數據規模、控制頻率、任務復雜度、推理成本以及模型是否真正捕捉到動作條件下的物理變化。
從策略模塊到可交互模擬器
世界模型的第二類重要用途,是作為機器人學習中的模擬器。
傳統機器人強化學習面臨一個長期瓶頸:真實交互成本高、采樣效率低、復位困難,而且存在硬件安全風險。如果可以用學習到的世界模型替代真實環境進行 rollout,策略就可以在虛擬交互中獲得訓練信號。
論文將這一方向稱為World Model as Simulator。在這一范式中,世界模型接收當前觀測、任務指令和候選動作,預測下一步觀測、獎勵或終止信號。策略模型可以在這個學習到的環境中進行強化學習后訓練,也可以在測試階段用世界模型評估多個候選動作。
![]()
圖 4:世界模型作為 RL 模擬器和動作驗證器
這一路線的關鍵價值,是把世界模型從「輔助預測器」推進到「訓練環境」。例如,部分方法嘗試用世界模型生成 imagined transitions,用于 VLA 的 RL post-training;也有方法利用預測 rollout 對候選動作進行排序,在執行前判斷哪一組動作更可能成功。
不過,作為模擬器的世界模型也面臨更高要求。用于開放式視頻生成時,模型只需在視覺上保持合理;但用于策略訓練時,模型錯誤會直接影響策略優化方向。一個略微偏差的動力學預測,可能在多步 rollout 中被放大,導致策略學到錯誤行為。因此,長期穩定性、動作敏感性和獎勵一致性,是這一方向繞不開的問題。
視頻生成模型能否成為機器人世界模型?
近年來,大規模視頻生成模型的發展,為機器人世界模型提供了新的基礎設施。視頻模型天然學習時序變化、運動連續性和空間結構,因此被認為可能為機器人控制提供有價值的先驗。
但論文強調,機器人視頻世界模型不能直接等同于通用視頻生成。對于機器人學習而言,最重要的并不是畫面質量,而是動作可控性和物理一致性。
一個真正有用的機器人視頻世界模型,需要在給定語言指令、當前觀測和動作序列時,生成與動作后果一致的未來狀態。它還需要處理物體遮擋、接觸變化、工具使用、場景幾何和長時序任務等問題。
論文將機器人視頻世界模型的發展概括為幾個階段:
從最初的 imagination-based generation,即生成未來視頻作為策略學習的輔助;
到 action-controllable world model,即顯式建模動作對未來視覺狀態的影響;
再到 structure-aware world model,即引入深度、3D、對象、軌跡、場景結構等中間表示;
最終走向 foundation-scale world model,即具備更大數據規模、更強泛化能力和多任務適應性的基礎世界模型。
![]()
圖 5:機器人視頻世界模型相關分類
評測標準正在發生變化
論文的另一個重點是評測。對于世界模型,單純評估視頻清晰度或生成質量已經不夠。
在機器人場景中,評測應關注模型是否能改善真實任務表現。例如,它能否提升策略成功率?能否正確排序候選動作?能否預測失敗軌跡?能否在長時序任務中保持因果一致?能否幫助策略減少真實交互樣本?
因此,作者認為未來的 benchmark 需要從 open-loop visual fidelity 轉向 closed-loop task utility。也就是說,世界模型的好壞不應只由「生成得像不像」決定,而應由「是否幫助機器人做得更好」來決定。
![]()
圖 6:機器人與世界模型數據集
論文整理了多個機器人學習 benchmark 和數據集,包括 LIBERO、RoboTwin、CALVIN、SIMPLER 等,并對不同世界模型策略在這些環境中的表現進行了歸類比較。這些結果顯示,當前最有效的方法并不集中在單一架構上;不同任務下,解耦式、統一式、專家混合式和 latent-space 方法都可能表現出競爭力。
未來挑戰:動作一致性、效率和物理 grounding
盡管世界模型在機器人學習中展現出潛力,但論文也指出,距離可靠部署仍有多項關鍵挑戰。
首先是動作條件下的因果一致性。模型不能只根據歷史觀測「腦補」未來,而必須準確反映動作帶來的狀態變化。對于閉環控制來說,這是世界模型是否真正有用的基礎。
其次是推理效率。許多視頻擴散模型計算成本較高,難以滿足機器人實時控制需求。因此,越來越多方法開始探索 latent-space prediction、訓練時使用世界模型、測試時跳過顯式視頻生成等方案。
第三是物理 grounding。真實機器人交互依賴摩擦、力、觸覺、物體材質和接觸穩定性,僅靠視覺預測往往不足。未來世界模型可能需要融合本體感覺、力覺、觸覺和結構化幾何表示。
此外,論文也提到,神經世界模型并不必然取代傳統規劃和控制方法。相反,符號表示、對象關系、因果結構和經典控制仍可能為長時序任務提供更穩定的抽象層。如何把神經預測能力與結構化規劃結合起來,將是機器人世界模型的重要方向。
結語
這篇綜述的價值在于,它沒有把世界模型簡單視為視頻生成模型在機器人領域的遷移,而是從機器人學習本身出發,重新梳理了世界模型應該承擔的功能:輔助策略生成、充當學習模擬器、支持評估與規劃、生成訓練數據,并最終服務于真實可執行的機器人行為。
對機器人學習而言,世界模型的核心問題不是「能不能想象未來」,而是「想象出的未來能否用于控制」。
當機器人能夠在行動前預測后果、在執行中校正計劃、在訓練中利用虛擬交互改進策略,世界模型才真正從生成模型走向具身智能系統的核心組件。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.