網易首頁 > 網易號 > 正文申請入駐

世界模型==VQA？機器人不用想象畫面，預測語義就夠了

2025-10-28 10:14:22　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：張倩

對于機器人來說，世界模型真的有必要想象出精確的未來畫面嗎？在一篇新論文中，來自華盛頓大學、索尼 AI 的研究者提出了這個疑問。

眾所周知，世界模型是一種讓 AI「想象未來」的學習方法。它可以從大量數據中學習世界的運行規(guī)律，然后根據當前狀態(tài)預測未來可能發(fā)生的事情。這種能力非常關鍵，因為如果 AI 能對未來做出合理預測，就能提前規(guī)劃出更聰明、更穩(wěn)健的行動策略。

在實踐中，世界模型的實現形式多種多樣，從小規(guī)模的基于狀態(tài)的動力學模型，到大型的基于動作條件的視頻預測模型都有。但無論形式如何，大多數模型都會嘗試「還原未來的畫面」。這種方法雖然常常能生成逼真的圖像，但卻不一定適合用來做決策。原因在于：圖像看起來再真實，也可能漏掉一些真正關鍵的語義細節(jié) —— 比如兩個物體是否真的發(fā)生了接觸。

過去有一些方法嘗試只建模「與任務相關」的信息，但這類方法往往需要額外的假設，比如必須知道獎勵函數或任務中某些已知因素。這讓它們在實際使用中變得不太靈活。

如果像素信息并非規(guī)劃所必需，那么做出行動決策所真正需要的是什么？

這篇論文提出：能夠預測關于未來結果的語義信息就足夠了。世界模型不應再專注于預測原始的視覺幀，而應捕捉與任務相關的對象及其交互信息，例如：「機械臂是否更靠近目標物體？」「紅色方塊是否傾倒？」「藍色球是否被拾起？」

論文將這種信息建模為一個關于未來的視覺問答（VQA）問題，利用這樣一個事實：任何目標結果都可以用一系列「是 / 否」問題來表達。換言之，世界建模問題可以被重新定義為一個關于未來結果的 VQA 問題。

目前已有一類模型具備完善的視覺問答工具體系，即視覺語言模型（VLM）。在世界建模任務中，VLM 具有兩大優(yōu)勢：

一是，它們通過大規(guī)模預訓練獲得了強大的視覺問答能力與廣泛的泛化能力；
二是，它們編碼了關于任務與場景語義特征的先驗知識。

這些優(yōu)勢使得前沿的 VLM 能夠提出與任務相關的問題，并在給定靜態(tài)觀測時給出可靠的答案。然而，它們缺乏對未來結果的預測能力，這限制了它們在決策任務中的直接應用。

為此，新論文提出了「語義世界模型（Semantic World Model, SWM）」的概念。SVM 是一種具備泛化能力的世界模型，它以動作條件的視覺語言模型形式存在，能夠回答關于未來動作語義效果的問題。

論文標題：SEMANTIC WORLD MODELS
論文鏈接：https://arxiv.org/pdf/2510.19818
項目鏈接：https://weirdlabuw.github.io/swm/

與傳統(tǒng)預測未來幀的世界模型不同，SWM 在給定當前觀測（圖像表示）與動作序列的情況下，回答關于未來的自然語言問題。

如圖 1 所示，模型輸入包括：當前觀測、一系列擬執(zhí)行的動作，以及一個關于未來的自然語言提問。模型通過理解這些動作在環(huán)境中將帶來的后果，生成相應的文本回答。

由于 SWM 本質上是一個與任務無關的世界模型，它可以在對通用序列數據質量要求極低的情況下進行訓練，這些數據包括游戲數據和非最優(yōu)數據。訓練數據可以很容易地從任何（專家或非專家）數據語料庫中獲取，其格式為當前觀測結果、行動、（關于未來的）問題以及預期答案。

通過 SWM 來推理未來結果，AI 就能夠在動作空間中進行靈活的、開放世界的多任務規(guī)劃。

當任務以自然語言描述時，系統(tǒng)可以有兩種方式理解目標：要么利用預訓練好的 VLM 自動解析任務意圖，要么由人類將任務拆解成一組文本化的「問題 — 期望答案」對。在得到這組問答之后，SWM 就可以用來規(guī)劃動作，使得未來得到這些期望答案的可能性最大化。

給定自然語言形式的任務說明，人們既可以利用預訓練的 VLM，也可以手動將任務說明分解為一組問題以及文本形式的預期答案。有了這個問答集，SWM 就可以被用來規(guī)劃動作，從而極有可能在未來得出這些問題的預期答案。

盡管有大量技術可用于這種規(guī)劃，但本研究表明，它與零階基于采樣的方法以及一階梯度規(guī)劃方法都兼容，這些方法會針對預期似然目標進行優(yōu)化。研究表明，這些規(guī)劃方法在計算上是可行的，相比常規(guī)的動作選擇方法，能在測試時帶來顯著改進。此外，它還展示了此類規(guī)劃方法對多步驟長程問題的可擴展性。

在實驗方面，SWM 在兩個常用的多任務仿真環(huán)境 ——Language Table（LangTable）與 OGBench—— 上進行了評估。結果表明：SWM 能夠準確回答關于未來結果的問題，并能泛化到新場景中。SWM 可以與基于采樣的標準規(guī)劃技術以及基于梯度的改進技術相結合，通過測試時優(yōu)化實現顯著的策略改進，從而解決各種機器人任務。

綜上所述，SWM 代表了一類新型的世界模型，它利用 VLM 的豐富預訓練知識，實現了可落地、靈活且可擴展的機器人控制。

語義世界模型概覽

下圖 2 展示了語義世界模型的概況。SWM 是一種視覺語言模型，經過調整后能夠回答與未來相關的問題，這些問題由用于調整模型的動作所決定。通過一系列問題和期望的答案，其預測可以轉化為規(guī)劃信號，并迭代優(yōu)化動作序列。

數據集生成

為了訓練一個能夠回答關于未來問題的世界模型，本文生成了一個狀態(tài) - 動作 - 問題 - 答案（SAQA）數據集。圖 3 展示了該數據集中一個單獨的狀態(tài)與多個問題和答案的配對情況。

架構概覽

SWM 是一個能夠在給定動作條件下回答關于未來事件問題的模型。具備這種能力的模型本質上是一種帶有動作條件的視覺問答模型。因此，從大型預訓練視覺語言模型（VLM）出發(fā)，將其泛化能力遷移到機器人任務中是很自然的做法。這種 SWM 架構基于開源的視覺語言模型 PaliGemma。

該模型包含三個核心預訓練組件：一個基于 Transformer 的自回歸語言模型（其 token 嵌入大小為 d_tok)、一個視覺編碼器 v_?（其特征大小為 d_img）以及一個投影矩陣。PaliGemma 架構建立在兩個單獨訓練的組件之上：Gemma 大語言模型和 SigLIP 圖像編碼器 V_sc。W 用于從 Z_sc 投影到 Z_LLM，其中 Z_sc 是 v_? 的特征空間，Z_LLM 是大語言模型的輸入 token 嵌入空間。本文使用 PaliGemma 的 30 億參數檢查點作為基礎模型。

為了讓基礎模型能夠就「某一特定未來（由行動產生）」回答問題，模型必須以這些行動為條件。為此，作者引入一個新的投影矩陣，它將單個動作映射到與 W 投影矩陣類似的潛空間 Z_LLM 中。

給定數據集 D_SAQA 中的一個元組 (S_i, a_{i:j}, Q_{S_j}, A_{S_j})，輸入序列通過將圖像嵌入、動作嵌入和問題 token 嵌入拼接而成：

隨后，模型以端到端方式微調，通過優(yōu)化標準交叉熵損失來預測目標答案 A_{S_j}。

這種訓練過程使模型能夠在語言空間中捕捉環(huán)境的動態(tài)，從而在無需顯式生成像素級表征的情況下回答有關未來狀態(tài)的問題。

實驗結果

SWM 是否是一個有效的決策世界模型？

首先，作者通過在 LangTable 和 OGBench 任務上將基于采樣的規(guī)劃方法 MPPI 應用于 SWM 模型，對 SWM 的規(guī)劃能力進行評估。

如表 2 所示，可以直接在語義世界模型之上使用基于采樣的規(guī)劃方法進行規(guī)劃，在兩個環(huán)境中的到達和方塊分離任務上都取得了接近完美的成功率。

然而，對于大型模型而言，基于采樣的規(guī)劃方法計算成本高昂，在需要更多樣本的更具挑戰(zhàn)性的任務上運行 MPPI 并不可行。因此，對于更復雜的任務，考慮這樣一種場景：由一個基礎策略生成候選軌跡，再利用 SWM 和基于梯度的優(yōu)化對其進行細化。如圖 5 所示，該方法能夠對候選軌跡進行細化，并相比基礎策略取得顯著提升。在 LangTable 上，SWM 相比基礎策略的平均性能從 14.4% 提升至 81.6%；在 OGBench 上，從 45.33% 提升至 76%。SWM 在所有任務上也均優(yōu)于 AVD 和 IDQL 基線，展示了其在規(guī)劃方面的有效性。

SWM 還通過先選擇子目標，再圍繞該子目標進行規(guī)劃，展現出處理更長程任務的能力。如表 1 所示，在多步任務上，SWM 的平均策略改進幅度達 52.0%，優(yōu)于 AVD 基線。

次優(yōu)數據是否能提高建模性能？

從表 3 可以看出，混入次優(yōu)數據比僅使用專家數據進行訓練能提高準確率。SWM 僅通過次優(yōu)數據訓練也能達到中等水平的性能，這表明次優(yōu)數據在訓練語義世界模型方面是多么有效。

SWM 是否保留了基礎 VLM 的泛化能力？

為了衡量 VLM 預訓練對泛化能力的影響，作者在組合式和場景分布外環(huán)境中對 SWM 進行了評估，相關環(huán)境如圖 6 所示。

為了衡量語義組合泛化能力，在 LangTable 環(huán)境中引入了一個新的彩色方塊，并修改了現有的方塊顏色 - 形狀組合。表 4 顯示，在這些條件下，與基礎策略相比，SWM 平均提高了 20.0%。這一性能表明，SWM 能夠保留部分預訓練知識，從而實現組合泛化。

為了測試對背景變化的魯棒性，作者將 OGBench 的背景顏色改為一種新的組合。與基礎策略相比，SWM 的性能再次提升了 20%，并且能夠泛化到這些條件，而 AVD 方法則無法做到這一點。

模型的內部表征是否關注與任務相關的信息？

為了理解模型所學的表征，作者從模型的一個中間層可視化了從語言 token 到圖像 patch 的注意力圖。如圖 7 所示，模型會根據語言提示正確關注圖像中與任務相關的位置。例如，當被問到「紅色的月亮是否在接觸藍色的立方體？」時，與這些物體對應的圖像 patch 上的注意力得分更高。盡管從未在涉及兩個以上物體的問題上進行過微調，但研究發(fā)現，當被問及此類問題時，該模型能夠正確關注三個物體。這表明該模型繼承了預訓練 VLM 的泛化能力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.