網易首頁 > 網易號 > 正文申請入駐

機器人為什么需要世界模型？世界頂尖機構聯合綜述震撼發布

2026-05-18 12:18:55　來源: 機器之心Pro

天津舉報

分享至

作者團隊來自南洋理工大學 MARS Lab、加州大學伯克利分校、斯坦福大學、哈佛大學、普林斯頓大學、ETH Zurich、牛津大學、東京大學、Microsoft 等機構的研究者。團隊長期關注機器人學習、具身智能、世界模型、多模態基礎模型與機器人策略學習。

世界模型正在成為機器人學習中繞不開的議題。

過去幾年，機器人策略學習的主線之一，是從傳統的任務特定策略，轉向更通用的 Vision-Language-Action (VLA) 模型。通過大規模視覺語言模型和機器人軌跡數據，VLA 模型能夠將視覺觀測、語言指令和動作輸出統一起來，在跨任務、跨場景泛化上展現出潛力。

但機器人控制并不只是「看圖回答動作」。在真實物理環境中，策略模型需要面對接觸、遮擋、長時序依賴、錯誤累積和多步規劃等問題。一個只根據當前觀測直接輸出動作的模型，往往缺少對未來狀態變化的顯式預判。

這使得世界模型重新成為機器人學習中的核心方向：機器人不僅要知道「現在是什么」，還要能預測「如果執行某個動作，世界接下來會如何演化」。

近日，來自南洋理工大學 MARS Lab 的研究者，聯合加州大學伯克利分校、斯坦福大學、哈佛大學、普林斯頓大學、ETH Zurich、牛津大學、東京大學、Microsoft 等機構，發布綜述論文《World Model for Robot Learning: A Comprehensive Survey》，系統梳理了世界模型在機器人學習中的定義、架構范式、應用場景、評測基準與未來挑戰。論文共 43 頁，并配套持續更新維護的 GitHub 資源庫。

論文標題：World Model for Robot Learning: A Comprehensive Survey
論文鏈接：
https://arxiv.org/abs/2605.00080
項目主頁：
https://ntumars.github.io/wm-robot-survey/
GitHub：
https://github.com/NTUMARS/Awesome-World-Model-for-Robotics-Policy

圖 1：論文整體框架圖

機器人世界模型：

重點不是生成，而是可用于決策的預測

在機器學習和認知科學語境中，world model 并不是一個新概念。它通常指能夠刻畫環境狀態如何隨時間和動作發生變化的預測模型。

但在機器人學習中，作者強調需要對這一概念作更嚴格的界定。機器人世界模型不應只是一個能生成未來畫面的模型，而應是能夠描述「智能體——環境」動態演化的模型。換言之，它需要回答的是：在當前狀態下，如果機器人執行某個動作，未來狀態會如何改變。

這一點也區分了機器人世界模型和一般視頻生成模型。后者可以生成視覺上合理的視頻，但未必具備動作一致性。例如，模型可能生成一段看似自然的物體移動視頻，卻無法準確反映機器人夾爪動作、接觸關系和受力變化。對于機器人控制來說，這樣的預測價值有限。

因此，論文將機器人世界模型的核心能力概括為三類：

第一，foresight，即在執行前預測動作后果；

第二，imagination-driven planning，即通過想象 rollout 比較候選行為；

第三，data amplification，即通過合成軌跡或演示數據改善策略學習。

這也解釋了為什么世界模型與機器人學習的結合正在加速。VLA 策略提供了從視覺和語言到動作的接口，而世界模型補充了對未來物理變化的預測結構。二者結合后，機器人策略不再只是反應式映射，而是有機會引入更強的前瞻性和規劃能力。

世界模型如何接入機器人策略？

論文首先討論的是世界模型與機器人策略的結合方式。作者將現有方法按架構劃分為多類，從早期解耦式方法，到單骨干網絡、MoE / MoT 架構、統一 VLA，再到 latent-space world modeling。

圖 2：時間線發展圖

早期路線通常采用「預測未來，再恢復動作」的兩階段框架。模型先利用視頻生成或未來觀測預測模塊，生成任務相關的未來狀態；隨后，一個逆動力學模型根據當前觀測和預測未來，推斷機器人應執行的動作。UniPi、VidMan、Vidar、Gen2Act 等工作可以歸入這一類。

這類方法的優勢在于模塊清晰。世界模型負責預測「將會發生什么」，策略模塊負責把預測結果轉化為動作。但問題也很明顯：兩個模塊之間存在接口誤差，生成的視頻或 latent 表征如果與真實動作后果不一致，就會影響后續控制。

隨后，研究開始轉向更緊耦合的方案。一類方法使用單一生成骨干同時建模未來視覺狀態和動作序列，將視頻預測與動作生成放進同一個擴散或流匹配過程。UVA、UWA、VideoVLA、Cosmos Policy 等方法都體現了這一趨勢。它們不再把世界模型當作外部模塊，而是試圖讓預測和控制在同一個模型內部共同發生。

另一類方法采用 MoE / MoT 或多分支專家結構。視頻專家、動作專家和語言理解模塊保持一定程度的參數獨立，但通過共享注意力、交叉注意力或層間交互實現信息融合。Motus、LingBot-VA、BagelVLA 等方法都屬于這一方向。相比完全共享骨干，這種設計保留了不同模態的專門能力，同時讓視頻預測中的時序和物理先驗影響動作生成。

圖 3：IDM、Single-Backbone、MoT 三種方式的對比

統一 VLA 則代表了另一條路線。它們不一定顯式調用外部視頻世界模型，而是通過未來圖像預測、視覺 foresight、結構化世界知識或 latent 動態建模，把預測目標內化到 VLA 訓練過程之中。GR-1、WorldVLA、DreamVLA、UniVLA、CoWVLA 等方法都在不同層面體現了這種趨勢。

值得注意的是，論文并沒有簡單判斷哪一路線已經勝出。相反，作者指出，當前機器人世界模型仍處在快速演化階段。解耦模塊、統一生成骨干、專家混合結構和 latent 表征各有優劣，最終效果取決于數據規模、控制頻率、任務復雜度、推理成本以及模型是否真正捕捉到動作條件下的物理變化。

從策略模塊到可交互模擬器

世界模型的第二類重要用途，是作為機器人學習中的模擬器。

傳統機器人強化學習面臨一個長期瓶頸：真實交互成本高、采樣效率低、復位困難，而且存在硬件安全風險。如果可以用學習到的世界模型替代真實環境進行 rollout，策略就可以在虛擬交互中獲得訓練信號。

論文將這一方向稱為World Model as Simulator。在這一范式中，世界模型接收當前觀測、任務指令和候選動作，預測下一步觀測、獎勵或終止信號。策略模型可以在這個學習到的環境中進行強化學習后訓練，也可以在測試階段用世界模型評估多個候選動作。

圖 4：世界模型作為 RL 模擬器和動作驗證器

這一路線的關鍵價值，是把世界模型從「輔助預測器」推進到「訓練環境」。例如，部分方法嘗試用世界模型生成 imagined transitions，用于 VLA 的 RL post-training；也有方法利用預測 rollout 對候選動作進行排序，在執行前判斷哪一組動作更可能成功。

不過，作為模擬器的世界模型也面臨更高要求。用于開放式視頻生成時，模型只需在視覺上保持合理；但用于策略訓練時，模型錯誤會直接影響策略優化方向。一個略微偏差的動力學預測，可能在多步 rollout 中被放大，導致策略學到錯誤行為。因此，長期穩定性、動作敏感性和獎勵一致性，是這一方向繞不開的問題。

視頻生成模型能否成為機器人世界模型？

近年來，大規模視頻生成模型的發展，為機器人世界模型提供了新的基礎設施。視頻模型天然學習時序變化、運動連續性和空間結構，因此被認為可能為機器人控制提供有價值的先驗。

但論文強調，機器人視頻世界模型不能直接等同于通用視頻生成。對于機器人學習而言，最重要的并不是畫面質量，而是動作可控性和物理一致性。

一個真正有用的機器人視頻世界模型，需要在給定語言指令、當前觀測和動作序列時，生成與動作后果一致的未來狀態。它還需要處理物體遮擋、接觸變化、工具使用、場景幾何和長時序任務等問題。

論文將機器人視頻世界模型的發展概括為幾個階段：

從最初的 imagination-based generation，即生成未來視頻作為策略學習的輔助；

到 action-controllable world model，即顯式建模動作對未來視覺狀態的影響；

再到 structure-aware world model，即引入深度、3D、對象、軌跡、場景結構等中間表示；

最終走向 foundation-scale world model，即具備更大數據規模、更強泛化能力和多任務適應性的基礎世界模型。

圖 5：機器人視頻世界模型相關分類

評測標準正在發生變化

論文的另一個重點是評測。對于世界模型，單純評估視頻清晰度或生成質量已經不夠。

在機器人場景中，評測應關注模型是否能改善真實任務表現。例如，它能否提升策略成功率？能否正確排序候選動作？能否預測失敗軌跡？能否在長時序任務中保持因果一致？能否幫助策略減少真實交互樣本？

因此，作者認為未來的 benchmark 需要從 open-loop visual fidelity 轉向 closed-loop task utility。也就是說，世界模型的好壞不應只由「生成得像不像」決定，而應由「是否幫助機器人做得更好」來決定。

圖 6：機器人與世界模型數據集

論文整理了多個機器人學習 benchmark 和數據集，包括 LIBERO、RoboTwin、CALVIN、SIMPLER 等，并對不同世界模型策略在這些環境中的表現進行了歸類比較。這些結果顯示，當前最有效的方法并不集中在單一架構上；不同任務下，解耦式、統一式、專家混合式和 latent-space 方法都可能表現出競爭力。

未來挑戰：動作一致性、效率和物理 grounding

盡管世界模型在機器人學習中展現出潛力，但論文也指出，距離可靠部署仍有多項關鍵挑戰。

首先是動作條件下的因果一致性。模型不能只根據歷史觀測「腦補」未來，而必須準確反映動作帶來的狀態變化。對于閉環控制來說，這是世界模型是否真正有用的基礎。

其次是推理效率。許多視頻擴散模型計算成本較高，難以滿足機器人實時控制需求。因此，越來越多方法開始探索 latent-space prediction、訓練時使用世界模型、測試時跳過顯式視頻生成等方案。

第三是物理 grounding。真實機器人交互依賴摩擦、力、觸覺、物體材質和接觸穩定性，僅靠視覺預測往往不足。未來世界模型可能需要融合本體感覺、力覺、觸覺和結構化幾何表示。

此外，論文也提到，神經世界模型并不必然取代傳統規劃和控制方法。相反，符號表示、對象關系、因果結構和經典控制仍可能為長時序任務提供更穩定的抽象層。如何把神經預測能力與結構化規劃結合起來，將是機器人世界模型的重要方向。

結語

這篇綜述的價值在于，它沒有把世界模型簡單視為視頻生成模型在機器人領域的遷移，而是從機器人學習本身出發，重新梳理了世界模型應該承擔的功能：輔助策略生成、充當學習模擬器、支持評估與規劃、生成訓練數據，并最終服務于真實可執行的機器人行為。

對機器人學習而言，世界模型的核心問題不是「能不能想象未來」，而是「想象出的未來能否用于控制」。

當機器人能夠在行動前預測后果、在執行中校正計劃、在訓練中利用虛擬交互改進策略，世界模型才真正從生成模型走向具身智能系統的核心組件。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.