无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

GuidedVLA給動作解碼器裝上可控可解釋的注意力專家

0
分享至





具身智能要想真正走進復雜真實場景,VLA(Vision-Language-Action,視覺 - 語言 - 動作)模型只會「看圖聽話再出動作」還不夠。更關鍵的問題是:當機器人伸手之前,它到底看向了哪里?

如果模型真的盯住了目標物,理解了當前操作階段,也掌握了空間幾何,動作自然更穩。但在很多端到端訓練的 VLA 中,動作解碼器仍然像一個黑箱。它可能在關注杯子,也可能在關注背景紋理、相機偽影、光照變化,甚至只是記住了訓練場景里的擺放習慣。

一換場景,就容易「看錯重點」。

針對這一問題,復旦大學可信具身智能研究院、上海交通大學、香港大學 OpenDriveLab 等機構提出了 GuidedVLA。它的核心思路非常直接:不要再讓動作解碼器自己在黑箱里「悟」該看什么,而是顯式指定不同 attention head 的職責,讓它們分別學習物體定位、空間幾何和任務階段。

說白了,GuidedVLA 給 VLA 的動作解碼器寫了一張「注意力分工表」。

這讓機器人動作生成不只是更強,也變得更可控、更可解釋:哪個頭看物體,哪個頭看深度,哪個頭判斷任務走到哪一步,都有明確分工。

目前,該工作已被 RSS 2026 接收,代碼、模型和數據集均已開源。



  • 論文標題:GuidedVLA: Specifying Task-Relevant Factors via Plug-and-Play Action Attention Specialization
  • 論文鏈接:https://arxiv.org/abs/2605.12369
  • 項目主頁:https://guidedvla.github.io/project_page/



視頻鏈接:https://mp.weixin.qq.com/s/7SD3ulzXL2Xg6izWhs7Eng?click_id=123

GuidedVLA 真機與仿真演示:研究團隊把可控、可解釋的注意力頭專門化機制接入 π0 基座,在多類操作任務中驗證了其泛化能力。

01 機器人失敗時,它到底看錯了什么?

當前 VLA 模型的主流路線,是把動作作為一種特殊模態接入視覺語言模型。模型接收圖像觀測和語言指令,再輸出機器人動作。

這條路線很強,也足夠簡潔。

但它有一個隱含前提:動作解碼器能夠自動學會哪些視覺和語言特征與任務真正相關。

現實并不總是這樣。

論文觀察到,在缺少顯式引導時,VLA 的 action decoder 容易過擬合偽相關(spurious correlations)。比如背景紋理、偶然的相機偽影、環境噪聲,都可能被模型當成決策線索。某些 cross-attention head 偶爾會看向正確區域,但這種行為高度隨機,會隨著場景和 head 改變。

這就像一個學生做題時,偶爾能抓住關鍵詞,但并沒有形成穩定的方法論。

研究團隊在 LIBERO-Plus layout 擾動設定下量化了這一問題。π0 基線的物體注意力正確率僅為26.5%;技能識別方面,linear probe 準確率也只有48.4%

這組數字說明,VLA 的大腦里不缺視覺語言知識,真正不穩定的是動作解碼這最后一環。

GuidedVLA 的科研問題也由此展開:如果動作解碼器總是在隱式學習,能不能直接告訴它該看什么?

02 給動作解碼器一張「注意力分工表」



GuidedVLA 的核心洞見,是把 action decoder 從一個「單體黑箱」拆成一組功能專家。

Transformer 的多頭注意力天然包含多個 attention head。過去,這些 head 的功能大多由端到端訓練自己形成,研究者很難控制它們具體學到什么。GuidedVLA 則反過來做:人為指定部分 head 的任務,用不同輔助信號監督它們捕捉不同的任務相關因子。

這套分工主要包含三類注意力專家。

Object Head:負責看對目標物

它監督注意力圖集中到任務相關物體區域,比如要抓的物體、要放的位置,同時抑制干擾物和背景區域。對于雜亂桌面、小目標或透明物體,這一步尤其關鍵。機器人很多時候不是不會抓,而是從第一眼就沒有穩定地看對目標。

Skill Head:負責知道現在做到哪一步

很多機器人任務不是單步操作,而是長程序列。比如先抓取、再移動、再放置;先掃垃圾、再倒入托盤。如果模型不清楚當前處在哪個階段,就可能提前跳步,或者在最后一步突然失敗。Skill Head 通過技能階段監督,讓動作解碼器顯式感知任務進度。

Depth Head:負責看懂 3D 幾何

有些失敗并不是語義錯了,而是幾何不準。按鈴、插入、套疊、對齊高度,都需要更可靠的空間信息。Depth Head 不通過額外 loss 監督,而是結構性地接入凍結深度編碼器的特征,讓特定 head 只 attend 到深度 keys/values 上,從而補上標準 2D 視覺編碼器缺少的幾何感。

三類 head 對應機器人操作中的三個基礎問題:

  • 目標是誰?
  • 當前該做哪一步?
  • 空間位置準不準?

這正是 GuidedVLA 可解釋性的來源:把動作決策拆成了可以指定、可以觀察、可以驗證的注意力分工。

03 為什么它能即插即用?

直接改造一個已經預訓練好的 VLA,很容易帶來另一個問題:新監督還沒學好,原來的能力先被破壞了。

GuidedVLA 借鑒了 ControlNet 式殘差適配器來避免這一點。它保留原始主干注意力分支,同時新增一個 factor-specific 的控制分支。這個控制分支通過 zero-initialized projection 再與主分支融合。

由于 ZeroConv 在訓練開始時初始化為 0,控制分支一開始不會干擾原模型行為;隨著訓練推進,它再逐步把 object、skill、depth 等任務相關偏置注入動作解碼器。

換句話說,它不是推倒重訓,而是在 π0 這樣的基座模型上加一個可插拔控制層。

先保住原來的能力,再把該看的重點加進去。

為了讓這套機制可擴展,團隊還設計了自動因子標注流水線。物體掩碼由 Qwen3-VL 給出前景點提示,再用 SAM2 在視頻段中傳播掩碼,最后進行人工核驗;技能標簽由 Qwen3-VL 按預定義技能表生成階段標簽,并轉換為軟目標;深度頭則直接使用凍結深度編碼器特征,不需要人工深度標注。

效率提升也很明顯:92% 的 episode 無需人工修正。標注 50 個 episode 時,自動流水線約需4 分鐘,純人工則約需43.5 分鐘

也就是說,GuidedVLA 并不是用高昂人工成本換來可解釋性,而是把「顯式引導」做成了一套可以規模化的訓練接口。

04 GuidedVLA 在泛化測試上真的能看對重點,提升穩定性嗎?

GuidedVLA 真正要證明的是:這種可控、可解釋的分工,能否在分布偏移和真實機器人上帶來穩定收益。

首先是 LIBERO-Plus。這個基準專門評估機器人策略在分布偏移下的魯棒性,包含相機視角、機器人初態、語言變化、光照、背景、噪聲和布局 7 類擾動。

在總分上,π0 為68.2,加入 object head 后達到73.4,加入 skill head 后為72.5,加入 depth head 后為71.7。三類 head 全部加入后,GuidedVLA 達到75.4,超過 DreamVLA 的69.9、OpenVLA-OFT 的69.6、RIPT-VLA 的68.4等對比方法。



LIBERO-Plus 結果表:GuidedVLA 在 7 類擾動維度和 4 類任務上整體表現更強,三類注意力專家疊加后平均成功率達到 75.4。

更有意思的是,不同 head 的優勢和它們的職責高度吻合:object head 在 Object 套件上單頭最強,skill head 在 Goal 套件上單頭最強,depth head 在 Spatial 套件上單頭最強。

這證明了三類注意力專家真的在各自擅長的問題上發揮作用。



RoboTwin 2.0 結果:GuidedVLA 在 8 個隨機化、未見設定的操作任務中,將 π0 平均成功率從 77.38% 提升到 90.63%。

在 RoboTwin 2.0 上,這種分工也非常直觀。Click Bell 需要精確控制 Z 軸,depth head 將成功率從35%提升到63%;Beat Hammer Block 需要高度對齊,成功率從78%提升到96%;Lift Pot 涉及嚴格的抓取、穩定、抬起序列,skill head 取得單頭最佳結果。

一個負責看準,一個負責排步驟,一個負責補幾何。

這就是「注意力專家」的價值。

05 到真機上,還能扛住干擾物和光照變化嗎?

真實機器人實驗覆蓋兩個雙臂平臺:ALOHA AgileX 和 PSI-Bot RealMan。前者包括水果蔬菜分揀、疊碗放架、清潔桌面等家庭任務;后者包括燒杯放入加熱套、套疊燒杯、將燒杯放上加熱裝置等實驗室操作任務。

每個任務和模型進行 20 次試驗。團隊設置了三類泛化條件:物體位置變化的 In-Domain 設定、加入干擾物和雜亂場景的 Scene 設定,以及光強 / 色溫變化的 Lighting 設定。

結果顯示,GuidedVLA 在三類設定下都穩定優于 Base Policy:

  • In-Domain:從55.8%提升到75.8%
  • Scene:從44.2%提升到67.5%
  • Lighting:從57.5%提升到79.2%



視頻鏈接:https://mp.weixin.qq.com/s/7SD3ulzXL2Xg6izWhs7Eng?click_id=123

真機任務示例:疊碗放架。長程操作中,Skill Head 幫助模型維持階段感,避免中途跳步。

真機任務示例:燒杯放入加熱套。透明剛性物體和緊幾何約束更考驗目標定位與空間幾何。

06 可解釋性驗證:因子質量越高成功率越高



因子質量與任務成功率的關系:Object、Skill、Depth 三類因子質量越高,整體成功率越高。

GuidedVLA 進一步回答了一個更有趣的問題:這些因子質量真的和任務成功率相關嗎?

團隊沒有只做「有無注意力頭」的二元對比,而是連續調節三類因子質量,觀察成功率變化。

Object Head 方面,隨著落在物體區域內的注意力比例從 0.25 增加到 1.0,成功率從61.3%提升到77.4%。這說明動作 token 是否真正看向目標物,會直接影響操作表現。

Skill Head 方面,隨著技能識別準確率提高,成功率從66.2%提升到77.7%。模型越清楚當前任務階段,越不容易在長程任務中跳步或亂序。

Depth Head 方面,當真實深度特征比例從 0 增加到 1.0,成功率從15.0%提升到74.2%。對于精細操作,明確的 3D 幾何線索是任務能否成功的關鍵條件之一。



三類注意力專家的可視化結果:Object Head 聚焦目標區域,Depth Head 編碼 3D 結構,Skill Head 跟蹤任務階段變化。

更進一步,論文還驗證了「分工」本身的重要性。一個自然想法是:既然 object、skill、depth 都有用,能不能讓所有 head 一起學習所有因子?

答案是否定的。

專門化分工優于「一鍋燴」式混合訓練。在 Spatial、Goal、Long 以及總體分數上,GuidedVLA 都明顯領先 mixture 方案。

當所有 head 混合學習所有目標時,不同因子的特征會糾纏在一起,性能反而下降。t-SNE 可視化顯示,GuidedVLA 中專門化的 object、depth、skill head 形成了更清晰的分簇;而 mixture 方案中,不同 head 的表征明顯重疊。



左:GuidedVLA 的專門化注意力頭形成更清晰的特征分簇;右:Mixture 方案中,不同 head 的表示明顯重疊,因子之間更容易糾纏。

這說明 GuidedVLA 的關鍵不只是「多加監督」,而是「讓不同監督進入不同專家」。

可控,來自可指定。

可解釋,來自可分工。

總結

GuidedVLA 最值得關注的地方,是它把動作解碼器中最黑箱的一部分,變成了可以被人為指定、觀察和驗證的結構。

過去,VLA 輸出一個動作,研究者很難判斷它到底看對了目標物、理解了任務階段,還是只是依賴某個視覺捷徑。GuidedVLA 則把這個過程拆成 object、skill、depth 三類注意力專家,讓動作決策出現了更清晰的內部分工。

當然,這項工作仍然依賴預定義因子。如何自動發現任務相關因子,尤其是在連續任務中自動發現技能結構,仍是未來需要進一步探索的問題。

但它給出了一條很務實的路線:讓 VLA 不只是變大,也要變得更可控、更可解釋。

讓每一次操控,都有跡可循。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
老胡這次徹底刷新了壞的下限!

老胡這次徹底刷新了壞的下限!

胖胖說他不胖
2026-06-08 11:50:14
調整!NBA總決賽g5敲定,徹底為巴西讓路,央視最新直播計劃

調整!NBA總決賽g5敲定,徹底為巴西讓路,央視最新直播計劃

等等talk
2026-06-13 08:33:13
大量蘋果“無頭騎士”流入閑魚!頂配32G+1TB組合,二手賣半價

大量蘋果“無頭騎士”流入閑魚!頂配32G+1TB組合,二手賣半價

閑搞機
2026-06-13 11:07:02
這下要排隊買奇瑞了!新車配固態電池,續航1500km,號稱永不自燃

這下要排隊買奇瑞了!新車配固態電池,續航1500km,號稱永不自燃

音樂時光的娛樂
2026-06-13 13:09:30
她曾是央視才女,通過唐嫣介紹,嫁大4歲圈外人,如今住上海別墅

她曾是央視才女,通過唐嫣介紹,嫁大4歲圈外人,如今住上海別墅

白面書誏
2026-06-13 16:14:11
膝蓋疼就只能躺著?大錯!這4個動作比吃藥還管用,越動越好得快

膝蓋疼就只能躺著?大錯!這4個動作比吃藥還管用,越動越好得快

徐孟醫生說疼痛
2026-06-12 07:00:20
大批私家車主,收到警示短信,立即注銷網約車賬戶!

大批私家車主,收到警示短信,立即注銷網約車賬戶!

網約車焦點
2026-06-12 11:28:22
2027年起小中高學制,將由633調整為532?多地教委明確回應了!

2027年起小中高學制,將由633調整為532?多地教委明確回應了!

今朝牛馬
2026-06-12 17:30:23
小米那些年失敗的項目。

小米那些年失敗的項目。

荊楚寰宇文樞
2026-06-12 22:56:31
買車位后反悔,稱車位歸全體業主,松江法院:駁回

買車位后反悔,稱車位歸全體業主,松江法院:駁回

新浪財經
2026-06-12 20:03:47
絲瓜再次被點名!研究發現:吃得越多,高血壓患者病情或好轉?

絲瓜再次被點名!研究發現:吃得越多,高血壓患者病情或好轉?

任醫生聊健康
2026-06-12 15:01:51
德比斯曇花六現,最后一圈反超75號,賽后75號佩服的豎起大拇指

德比斯曇花六現,最后一圈反超75號,賽后75號佩服的豎起大拇指

童叔不飆車
2026-06-14 00:26:04
竇驍醒悟了?5000萬換不來豪門入場券,原來何超蓮的算盤打得更精

竇驍醒悟了?5000萬換不來豪門入場券,原來何超蓮的算盤打得更精

深析古今
2026-06-13 16:31:28
300433,以并購切入空芯光纖賽道

300433,以并購切入空芯光纖賽道

新浪財經
2026-06-13 22:36:51
情懷喂了狗!天涯社區重啟收費1999元陷入爭議,網友:吃相難看啊

情懷喂了狗!天涯社區重啟收費1999元陷入爭議,網友:吃相難看啊

火山詩話
2026-06-13 05:54:20
詹姆斯攤牌了:別再討論我的歷史地位!

詹姆斯攤牌了:別再討論我的歷史地位!

熱搜摘要官
2026-06-14 01:03:11
什么是知識的詛咒?網友:但凡被知識污染一點也想不出淡硫酸這詞

什么是知識的詛咒?網友:但凡被知識污染一點也想不出淡硫酸這詞

另子維愛讀史
2026-06-13 23:39:37
在荷蘭上班的華人感慨:不要信媒體,荷蘭已經相當于我國二線城市

在荷蘭上班的華人感慨:不要信媒體,荷蘭已經相當于我國二線城市

離離言幾許
2026-06-11 00:12:29
制裁菲防長不到24小時,菲內部分裂:軍方公開站隊,選擇抵抗中國

制裁菲防長不到24小時,菲內部分裂:軍方公開站隊,選擇抵抗中國

云上烏托邦
2026-06-13 20:16:30
WTT13日戰報:國乒1勝2負,陳熠出局陳垣宇逆轉

WTT13日戰報:國乒1勝2負,陳熠出局陳垣宇逆轉

趙或是個熱血青年
2026-06-14 01:54:24
2026-06-14 05:23:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13246文章數 142669關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

特朗普:美伊協議計劃周日簽署 霍爾木茲海峽立即開放

頭條要聞

特朗普:美伊協議計劃周日簽署 霍爾木茲海峽立即開放

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

藝術
房產
手機
公開課
軍事航空

藝術要聞

廣州再建一座“小蠻腰”?190米,頂著個球,2027年見!

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

手機要聞

比華為三折疊還稀缺!iPhone Ultra國行備貨量不足:博主直言搶到賺到

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊外長披露伊美諒解備忘錄草案部分內容

無障礙瀏覽 進入關懷版