无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

把 GPT-4o 拉下神壇!星源智聯合北大推出 RoboAgent,讓 3B VLM 在未知場景跑出 94% 成功率

0
分享至


作者 | 華衛

“把圓餐桌上的臟杯子放進洗碗機。”這句指令對 3 歲小孩都簡單,但對 AI 機器人,是一場嚴峻的挑戰。

它要先搞懂哪個是“圓餐桌”(木質的還是玻璃的?),然后判斷杯子可能在桌上、柜子里還是水槽邊。走到一半發現視野里根本沒有杯子,它懵了:我該往哪兒找?剛才的計劃還作數嗎?更麻煩的是,就算找到了杯子,洗碗機的門可能是關著的——它得先開門,再放進去,再關門……

這不是段子,而是具身任務規劃(Embodied Task Planning, ETP) 的真實困境。現在的視覺 - 語言模型(VLM)通過大規模預訓練展示了卓越的多模態理解能力,但一旦被扔進真實的家庭環境,需要多輪交互、長程推理、擴展上下文分析,它們就像理論優異的學生第一次下廚房:理論全能,實操抓瞎。

如何解決這一難題?北京大學副教授穆亞東及北京大學與星源智團隊共同提出了 RoboAgent 方案。該方案采用能力驅動的具身路徑規劃,將復雜的規劃任務分解為一系列更簡單的視覺語言問題;同時,設計了一個多階段訓練路徑,利用中繼監督(intermediate supervision)與多樣化數據來源,系統性地優化 VLM 的規劃能力。

值得一提的是,該核心方案相關論文《RoboAgent: Chaining Basic Capabilities for Embodied Task Planning 》成功入選全球計算機視覺頂會 CVPR 2026。本屆 CVPR 投稿量高達 16092 篇,錄用率僅為 25.42%,該論文入選亦彰顯了團隊在具身智能領域前沿創新的硬核實力。


為什么 VLM 自己搞不定?

傳統做法要么讓 VLM 直接輸出動作序列,要么加一段“思維鏈”(CoT)推理。但在 ALFWorld 這類需要探索 + 操作的仿真環境里,問題層層疊加:模型要先理解模糊指令(比如“那個圓圓的、放在廚房島上的東西”),推測目標可能藏在哪里,導航過去,識別物體,最后執行抓取、放置等動作。任何一個子任務出錯,整個任務就崩了。

更棘手的是,獎勵信號極其稀疏——可能走了 20 步才判斷成敗。用純強化學習(RL)訓練,模型往往在無效探索中耗光步數。而單純模仿專家軌跡,又無法泛化到沒見過的新場景。

RoboAgent 的核心洞察是:把“規劃”拆成一系列更小的、VLM 本來就擅長的視覺 - 語言子問題。 具體來說,RoboAgent 定義了 5 個能力模塊:

  • EG(探索引導):給定目標物體,根據常識推斷最可能的位置,預測最有可能的探索方向以找到該物體。OG(物體定位):做開放詞匯檢測(即模型能夠根據自然語言描述,在圖像或場景中定位出訓練階段從未見過的物體或概念),判斷當前視野里有沒有目標物體。SD(場景描述):用文字描述目標物體的當前狀態。AD(動作解碼):把導航或操作指令轉成具體原子動作(atomic actions)。ES(經驗總結):總結由 AD 生成的動作序列的交互結果,并在發生錯誤時分析失敗原因。


圖注:Scheduler 調度五類基礎能力,形成可監督的能力鏈

所有模塊由同一個 VLM 實現,不依賴任何外部工具,端到端可訓練。

三階段訓練:從模仿到自我糾錯,再到專家引導

光有架構不夠,怎么訓練這個 VLM 讓它學會“調用能力”?團隊設計了一套三階段路徑規劃(planning pipeline),充分利用模擬器的內部特權信息(物體位置、實例分割、動作成敗反饋)——這些信息在實際推理時不可用,但訓練時能提供高質量監督。


階段一:使用專家軌跡進行訓練

把 ALFRED 數據集里的專家軌跡拆成探索子目標和操作子目標,轉換成能力調用序列,并自動生成思維鏈。用這些數據做有監督微調,共生成 640k 個訓練樣本。

階段二:使用模型生成的數據進行訓練

讓階段一的模型在實際訓練任務上跑一遍,收集它生成的軌跡(無論成功或失敗)。然后利用模擬器內部信息,為每個能力調用構建糾正性監督:比如模型說“去柜子找叉子”,但模擬器顯示叉子其實在抽屜里,就糾正它的輸出。這一步生成 690k 個樣本,讓模型學會從錯誤中修正。

階段三:使用專家策略進行訓練

調度員的輸出是“調用哪些能力”,很難直接給獎勵。團隊提出 EIPO(Expert-Induced Policy Optimization) 算法:用專家調度員(知道所有子目標的完成順序)來計算每個狀態 - 動作對下的專家優勢函數,然后像 PPO/GRPO 那樣做策略優化。因為專家優勢可以直接從任務結構算出,避免了傳統 RL 的方差問題,訓練更穩更快。這一步額外合成了 25k 條帶錯誤恢復的軌跡。

實驗結果:3B 模型性能超過 7B 和 GPT-4o

團隊在多個基準上做了嚴格測試。訓練只用 ALFRED 的訓練集(6.4k 任務),但評估在 ALFWorld(視覺 + 文本)、EB-ALFRED,甚至跨模擬器的 EB-Habitat 和 LoTa-WAH 上——全是未見過的新場景、新指令。所有結果來自同一個微調后的 Qwen2.5-VL-3B 模型。


圖注:RoboAgent 在主要 benchmark 上的代表性結果


表 1(EB-ALFRED):RoboAgent 平均成功率 67.0%,超過所有微調類方法(如 REBP 的 35.6%、WAP 的 62.7%),甚至在 Visual 分項達到 78%,超過了 GPT-4o 的 46%。


表 2(ALFWorld 視覺):RoboAgent 平均 77.6%,大幅領先此前最好的 SEEA-R1(36.0%)和 GPT-4o(24.0%)。尤其在 Pick、Clean 等類別上優勢明顯。這得益于 EG/OG 帶來的顯式探索,讓模型學會優先檢查最可能有物體的容器(如“杯子”大概率在“櫥柜”而非“馬桶”上),而非盲目亂走。


表 3(ALFWorld 文本):RoboAgent 在未見過的場景成功率達 94.0%,超過當前最頂級的 LLM 方案(DynaMind 89.1%),且用的是更小的 3B VLM——說明能力驅動的范式具備模態無關的泛化力,圖像能力可以無縫遷移到文本輸入。

結 語

現代 VLM 本身具備處理具身推理的所有能力,缺的只是合適的調用機制。RoboAgent 提供了這樣一套機制:不依賴外部工具,單一模型,端到端訓練。它通過 VLM 同時擔任調度器和五種特定能力,將復雜的規劃過程分解為一系列基礎的視覺語言理解問題 。

未來,隨著能力模塊的動態擴展和訓練數據的規模化,這類“能力驅動”的架構很可能成為長程機器人規劃的標配。畢竟,再聰明的 AI,也得學會分工協作。

會議推薦

企業級 Agent 落地,繞不開 4 個真實的工程問題!如何在 Agent 安全性和可用性之間找到平衡點?Agent 需要什么樣的記憶系統才能真正理解上下文?如何通過算法壓榨實現智力增量與成本控制的極致平衡?多 Agent 協作,如何做到可觀測、可治理、可控制?6.26-27 AICon 上海站,國內頭部公司的 Agent 實踐,一次說透。

今日薦文

你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
突發!長鑫存儲簽200億大單!

突發!長鑫存儲簽200億大單!

中國半導體論壇
2026-06-30 13:26:50
博主稱車載螺紋接口是華為口,已申請專利,小米被迫使用,未來政策收緊,還要交專利費!網友:節奏帶得飛起

博主稱車載螺紋接口是華為口,已申請專利,小米被迫使用,未來政策收緊,還要交專利費!網友:節奏帶得飛起

大白聊IT
2026-06-29 17:52:55
韓紅基金會高管年薪近60萬,韓紅號稱捐資8000萬去向成謎

韓紅基金會高管年薪近60萬,韓紅號稱捐資8000萬去向成謎

八桂知事
2026-06-27 16:28:49
莫蘭特1換2交易評級:開拓者低價撿漏有隱患評B- 灰熊徹底重建評B

莫蘭特1換2交易評級:開拓者低價撿漏有隱患評B- 灰熊徹底重建評B

羅說NBA
2026-06-30 06:31:30
1962年中國打贏就走,結果給印度留了一道千年難題

1962年中國打贏就走,結果給印度留了一道千年難題

遠方風林
2026-06-14 00:29:33
一擲千金的“大哥”越來越少!女主播群體從深圳遷到惠州路邊帳篷

一擲千金的“大哥”越來越少!女主播群體從深圳遷到惠州路邊帳篷

火山詩話
2026-06-29 04:37:21
絕經后性生活怎么辦?頻率多少合適?

絕經后性生活怎么辦?頻率多少合適?

喵咪文化
2026-06-30 06:44:07
中國“撿錢”時代或將來臨:如果手中只有10萬,試試死啃這兩條線

中國“撿錢”時代或將來臨:如果手中只有10萬,試試死啃這兩條線

笑熬漿糊111
2026-06-30 04:00:10
法國隊主帥德尚在母親去世后回國,諷刺雜志一幅漫畫引發激烈批評

法國隊主帥德尚在母親去世后回國,諷刺雜志一幅漫畫引發激烈批評

夢仙境aa
2026-06-30 09:31:38
上海球迷穿日本隊球衣慶祝!上海市足協:足球無國界 球迷有祖國

上海球迷穿日本隊球衣慶祝!上海市足協:足球無國界 球迷有祖國

念洲
2026-06-29 06:50:42
霸權翻車!伊朗再次重創美軍,特朗普火速認慫!

霸權翻車!伊朗再次重創美軍,特朗普火速認慫!

大嘴說天下
2026-06-29 22:30:03
小卡快船生涯即將結束!!多支球隊送上頂薪!!

小卡快船生涯即將結束!!多支球隊送上頂薪!!

柚子說球
2026-06-30 12:52:46
丘吉爾曾言:如果不是被原子彈炸過,日本這個國家可能就不存在了

丘吉爾曾言:如果不是被原子彈炸過,日本這個國家可能就不存在了

掠影后有感
2026-06-30 09:40:38
日本球迷又開始撿垃圾了,這戲碼上演了快30年了,真的不覺得煩嗎

日本球迷又開始撿垃圾了,這戲碼上演了快30年了,真的不覺得煩嗎

西樓知趣雜談
2026-06-18 17:32:47
今晚開始!央一央八愛奇藝等4部王炸劇來襲!眾星云集,先追哪部

今晚開始!央一央八愛奇藝等4部王炸劇來襲!眾星云集,先追哪部

小椰的奶奶
2026-06-30 01:19:29
陜西砍“孤獨樹”,讓皖陜兩地管理水平高低立判,網友發帖引熱議

陜西砍“孤獨樹”,讓皖陜兩地管理水平高低立判,網友發帖引熱議

火山詩話
2026-06-30 05:30:50
當全世界都忙著吵架時,中國把整整5萬億元,悄悄埋進了地底深處

當全世界都忙著吵架時,中國把整整5萬億元,悄悄埋進了地底深處

科技故事聚焦
2026-06-30 09:54:30
越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

觀史搜尋著
2026-05-21 05:41:15
迭戈-弗蘭:C羅原地不動就等著門前搶點,他拖累了葡萄牙全隊

迭戈-弗蘭:C羅原地不動就等著門前搶點,他拖累了葡萄牙全隊

懂球帝
2026-06-29 22:12:06
徐達晚年喜得貴子,劉伯溫剛抱起嬰兒臉色就變了:此子不除,徐家百年基業將毀于一旦

徐達晚年喜得貴子,劉伯溫剛抱起嬰兒臉色就變了:此子不除,徐家百年基業將毀于一旦

小影的娛樂
2026-06-30 04:20:48
2026-06-30 14:16:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
1586文章數 160關注度
往期回顧 全部

科技要聞

DeepSeek V4正式版要來 高峰期API價格翻倍

頭條要聞

荷蘭隊連續3屆倒在點球大戰 此前9次點球大戰只贏兩場

頭條要聞

荷蘭隊連續3屆倒在點球大戰 此前9次點球大戰只贏兩場

體育要聞

德國足球,臉都不要了

娛樂要聞

韓紅稱要退出公益,多位名人挽留

財經要聞

韓國萬億"芯"基建:存儲能否成AI時代油田

汽車要聞

誰懂啊家人們!爹味和班味一點都沒,這臺底盤最硬國產大獵裝太上頭!

態度原創

旅游
親子
游戲
家居
公開課

旅游要聞

自貢富順:白日繁華鋪錦繡 夜色燈火暖人心

親子要聞

玩具故事-哪位同學拼對了呀

任天堂官方暖心提醒:Switch會員明日漲價!

家居要聞

傳奇筑 日常詩

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版