把 GPT-4o 拉下神壇！星源智聯(lián)合北大推出 RoboAgent，讓 3B VLM 在未知場景跑出 94% 成功率

2026-06-01 16:10:23　來源: InfoQ

北京舉報

分享至

作者 | 華衛(wèi)

“把圓餐桌上的臟杯子放進洗碗機。”這句指令對 3 歲小孩都簡單，但對 AI 機器人，是一場嚴峻的挑戰(zhàn)。

它要先搞懂哪個是“圓餐桌”（木質(zhì)的還是玻璃的？），然后判斷杯子可能在桌上、柜子里還是水槽邊。走到一半發(fā)現(xiàn)視野里根本沒有杯子，它懵了：我該往哪兒找？剛才的計劃還作數(shù)嗎？更麻煩的是，就算找到了杯子，洗碗機的門可能是關(guān)著的——它得先開門，再放進去，再關(guān)門……

這不是段子，而是具身任務(wù)規(guī)劃（Embodied Task Planning, ETP）的真實困境。現(xiàn)在的視覺 - 語言模型（VLM）通過大規(guī)模預(yù)訓(xùn)練展示了卓越的多模態(tài)理解能力，但一旦被扔進真實的家庭環(huán)境，需要多輪交互、長程推理、擴展上下文分析，它們就像理論優(yōu)異的學(xué)生第一次下廚房：理論全能，實操抓瞎。

如何解決這一難題？北京大學(xué)副教授穆亞東及北京大學(xué)與星源智團隊共同提出了 RoboAgent 方案。該方案采用能力驅(qū)動的具身路徑規(guī)劃，將復(fù)雜的規(guī)劃任務(wù)分解為一系列更簡單的視覺語言問題；同時，設(shè)計了一個多階段訓(xùn)練路徑，利用中繼監(jiān)督（intermediate supervision）與多樣化數(shù)據(jù)來源，系統(tǒng)性地優(yōu)化 VLM 的規(guī)劃能力。

值得一提的是，該核心方案相關(guān)論文《RoboAgent: Chaining Basic Capabilities for Embodied Task Planning 》成功入選全球計算機視覺頂會 CVPR 2026。本屆 CVPR 投稿量高達 16092 篇，錄用率僅為 25.42%，該論文入選亦彰顯了團隊在具身智能領(lǐng)域前沿創(chuàng)新的硬核實力。

1 為什么 VLM 自己搞不定？

傳統(tǒng)做法要么讓 VLM 直接輸出動作序列，要么加一段“思維鏈”（CoT）推理。但在 ALFWorld 這類需要探索 + 操作的仿真環(huán)境里，問題層層疊加：模型要先理解模糊指令（比如“那個圓圓的、放在廚房島上的東西”），推測目標可能藏在哪里，導(dǎo)航過去，識別物體，最后執(zhí)行抓取、放置等動作。任何一個子任務(wù)出錯，整個任務(wù)就崩了。

更棘手的是，獎勵信號極其稀疏——可能走了 20 步才判斷成敗。用純強化學(xué)習（RL）訓(xùn)練，模型往往在無效探索中耗光步數(shù)。而單純模仿專家軌跡，又無法泛化到?jīng)]見過的新場景。

RoboAgent 的核心洞察是：把“規(guī)劃”拆成一系列更小的、VLM 本來就擅長的視覺 - 語言子問題。具體來說，RoboAgent 定義了 5 個能力模塊：

EG（探索引導(dǎo)）：給定目標物體，根據(jù)常識推斷最可能的位置，預(yù)測最有可能的探索方向以找到該物體。OG（物體定位）：做開放詞匯檢測（即模型能夠根據(jù)自然語言描述，在圖像或場景中定位出訓(xùn)練階段從未見過的物體或概念），判斷當前視野里有沒有目標物體。SD（場景描述）：用文字描述目標物體的當前狀態(tài)。AD（動作解碼）：把導(dǎo)航或操作指令轉(zhuǎn)成具體原子動作（atomic actions）。ES（經(jīng)驗總結(jié)）：總結(jié)由 AD 生成的動作序列的交互結(jié)果，并在發(fā)生錯誤時分析失敗原因。

圖注：Scheduler 調(diào)度五類基礎(chǔ)能力，形成可監(jiān)督的能力鏈

所有模塊由同一個 VLM 實現(xiàn)，不依賴任何外部工具，端到端可訓(xùn)練。

2 三階段訓(xùn)練：從模仿到自我糾錯，再到專家引導(dǎo)

光有架構(gòu)不夠，怎么訓(xùn)練這個 VLM 讓它學(xué)會“調(diào)用能力”？團隊設(shè)計了一套三階段路徑規(guī)劃（planning pipeline），充分利用模擬器的內(nèi)部特權(quán)信息（物體位置、實例分割、動作成敗反饋）——這些信息在實際推理時不可用，但訓(xùn)練時能提供高質(zhì)量監(jiān)督。

階段一：使用專家軌跡進行訓(xùn)練

把 ALFRED 數(shù)據(jù)集里的專家軌跡拆成探索子目標和操作子目標，轉(zhuǎn)換成能力調(diào)用序列，并自動生成思維鏈。用這些數(shù)據(jù)做有監(jiān)督微調(diào)，共生成 640k 個訓(xùn)練樣本。

階段二：使用模型生成的數(shù)據(jù)進行訓(xùn)練

讓階段一的模型在實際訓(xùn)練任務(wù)上跑一遍，收集它生成的軌跡（無論成功或失敗）。然后利用模擬器內(nèi)部信息，為每個能力調(diào)用構(gòu)建糾正性監(jiān)督：比如模型說“去柜子找叉子”，但模擬器顯示叉子其實在抽屜里，就糾正它的輸出。這一步生成 690k 個樣本，讓模型學(xué)會從錯誤中修正。

階段三：使用專家策略進行訓(xùn)練

調(diào)度員的輸出是“調(diào)用哪些能力”，很難直接給獎勵。團隊提出 EIPO（Expert-Induced Policy Optimization）算法：用專家調(diào)度員（知道所有子目標的完成順序）來計算每個狀態(tài) - 動作對下的專家優(yōu)勢函數(shù)，然后像 PPO/GRPO 那樣做策略優(yōu)化。因為專家優(yōu)勢可以直接從任務(wù)結(jié)構(gòu)算出，避免了傳統(tǒng) RL 的方差問題，訓(xùn)練更穩(wěn)更快。這一步額外合成了 25k 條帶錯誤恢復(fù)的軌跡。

3 實驗結(jié)果：3B 模型性能超過 7B 和 GPT-4o

團隊在多個基準上做了嚴格測試。訓(xùn)練只用 ALFRED 的訓(xùn)練集（6.4k 任務(wù)），但評估在 ALFWorld（視覺 + 文本）、EB-ALFRED，甚至跨模擬器的 EB-Habitat 和 LoTa-WAH 上——全是未見過的新場景、新指令。所有結(jié)果來自同一個微調(diào)后的 Qwen2.5-VL-3B 模型。

圖注：RoboAgent 在主要 benchmark 上的代表性結(jié)果

表 1（EB-ALFRED）：RoboAgent 平均成功率 67.0%，超過所有微調(diào)類方法（如 REBP 的 35.6%、WAP 的 62.7%），甚至在 Visual 分項達到 78%，超過了 GPT-4o 的 46%。

表 2（ALFWorld 視覺）：RoboAgent 平均 77.6%，大幅領(lǐng)先此前最好的 SEEA-R1（36.0%）和 GPT-4o（24.0%）。尤其在 Pick、Clean 等類別上優(yōu)勢明顯。這得益于 EG/OG 帶來的顯式探索，讓模型學(xué)會優(yōu)先檢查最可能有物體的容器（如“杯子”大概率在“櫥柜”而非“馬桶”上），而非盲目亂走。

表 3（ALFWorld 文本）：RoboAgent 在未見過的場景成功率達 94.0%，超過當前最頂級的 LLM 方案（DynaMind 89.1%），且用的是更小的 3B VLM——說明能力驅(qū)動的范式具備模態(tài)無關(guān)的泛化力，圖像能力可以無縫遷移到文本輸入。

4 結(jié)語

現(xiàn)代 VLM 本身具備處理具身推理的所有能力，缺的只是合適的調(diào)用機制。RoboAgent 提供了這樣一套機制：不依賴外部工具，單一模型，端到端訓(xùn)練。它通過 VLM 同時擔任調(diào)度器和五種特定能力，將復(fù)雜的規(guī)劃過程分解為一系列基礎(chǔ)的視覺語言理解問題。

未來，隨著能力模塊的動態(tài)擴展和訓(xùn)練數(shù)據(jù)的規(guī)模化，這類“能力驅(qū)動”的架構(gòu)很可能成為長程機器人規(guī)劃的標配。畢竟，再聰明的 AI，也得學(xué)會分工協(xié)作。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.