網易首頁 > 網易號 > 正文申請入駐

GuidedVLA給動作解碼器裝上可控可解釋的注意力專家

2026-06-12 19:04:46　來源: 機器之心Pro

天津舉報

分享至

具身智能要想真正走進復雜真實場景，VLA（Vision-Language-Action，視覺 - 語言 - 動作）模型只會「看圖聽話再出動作」還不夠。更關鍵的問題是：當機器人伸手之前，它到底看向了哪里？

如果模型真的盯住了目標物，理解了當前操作階段，也掌握了空間幾何，動作自然更穩。但在很多端到端訓練的 VLA 中，動作解碼器仍然像一個黑箱。它可能在關注杯子，也可能在關注背景紋理、相機偽影、光照變化，甚至只是記住了訓練場景里的擺放習慣。

一換場景，就容易「看錯重點」。

針對這一問題，復旦大學可信具身智能研究院、上海交通大學、香港大學 OpenDriveLab 等機構提出了 GuidedVLA。它的核心思路非常直接：不要再讓動作解碼器自己在黑箱里「悟」該看什么，而是顯式指定不同 attention head 的職責，讓它們分別學習物體定位、空間幾何和任務階段。

說白了，GuidedVLA 給 VLA 的動作解碼器寫了一張「注意力分工表」。

這讓機器人動作生成不只是更強，也變得更可控、更可解釋：哪個頭看物體，哪個頭看深度，哪個頭判斷任務走到哪一步，都有明確分工。

目前，該工作已被 RSS 2026 接收，代碼、模型和數據集均已開源。

論文標題：GuidedVLA: Specifying Task-Relevant Factors via Plug-and-Play Action Attention Specialization
論文鏈接：https://arxiv.org/abs/2605.12369
項目主頁：https://guidedvla.github.io/project_page/

視頻鏈接：https://mp.weixin.qq.com/s/7SD3ulzXL2Xg6izWhs7Eng?click_id=123

GuidedVLA 真機與仿真演示：研究團隊把可控、可解釋的注意力頭專門化機制接入 π0 基座，在多類操作任務中驗證了其泛化能力。

01 機器人失敗時，它到底看錯了什么？

當前 VLA 模型的主流路線，是把動作作為一種特殊模態接入視覺語言模型。模型接收圖像觀測和語言指令，再輸出機器人動作。

這條路線很強，也足夠簡潔。

但它有一個隱含前提：動作解碼器能夠自動學會哪些視覺和語言特征與任務真正相關。

現實并不總是這樣。

論文觀察到，在缺少顯式引導時，VLA 的 action decoder 容易過擬合偽相關（spurious correlations）。比如背景紋理、偶然的相機偽影、環境噪聲，都可能被模型當成決策線索。某些 cross-attention head 偶爾會看向正確區域，但這種行為高度隨機，會隨著場景和 head 改變。

這就像一個學生做題時，偶爾能抓住關鍵詞，但并沒有形成穩定的方法論。

研究團隊在 LIBERO-Plus layout 擾動設定下量化了這一問題。π0 基線的物體注意力正確率僅為26.5%；技能識別方面，linear probe 準確率也只有48.4%。

這組數字說明，VLA 的大腦里不缺視覺語言知識，真正不穩定的是動作解碼這最后一環。

GuidedVLA 的科研問題也由此展開：如果動作解碼器總是在隱式學習，能不能直接告訴它該看什么？

02 給動作解碼器一張「注意力分工表」

GuidedVLA 的核心洞見，是把 action decoder 從一個「單體黑箱」拆成一組功能專家。

Transformer 的多頭注意力天然包含多個 attention head。過去，這些 head 的功能大多由端到端訓練自己形成，研究者很難控制它們具體學到什么。GuidedVLA 則反過來做：人為指定部分 head 的任務，用不同輔助信號監督它們捕捉不同的任務相關因子。

這套分工主要包含三類注意力專家。

Object Head：負責看對目標物。

它監督注意力圖集中到任務相關物體區域，比如要抓的物體、要放的位置，同時抑制干擾物和背景區域。對于雜亂桌面、小目標或透明物體，這一步尤其關鍵。機器人很多時候不是不會抓，而是從第一眼就沒有穩定地看對目標。

Skill Head：負責知道現在做到哪一步。

很多機器人任務不是單步操作，而是長程序列。比如先抓取、再移動、再放置；先掃垃圾、再倒入托盤。如果模型不清楚當前處在哪個階段，就可能提前跳步，或者在最后一步突然失敗。Skill Head 通過技能階段監督，讓動作解碼器顯式感知任務進度。

Depth Head：負責看懂 3D 幾何。

有些失敗并不是語義錯了，而是幾何不準。按鈴、插入、套疊、對齊高度，都需要更可靠的空間信息。Depth Head 不通過額外 loss 監督，而是結構性地接入凍結深度編碼器的特征，讓特定 head 只 attend 到深度 keys/values 上，從而補上標準 2D 視覺編碼器缺少的幾何感。

三類 head 對應機器人操作中的三個基礎問題：

目標是誰？
當前該做哪一步？
空間位置準不準？

這正是 GuidedVLA 可解釋性的來源：把動作決策拆成了可以指定、可以觀察、可以驗證的注意力分工。

03 為什么它能即插即用？

直接改造一個已經預訓練好的 VLA，很容易帶來另一個問題：新監督還沒學好，原來的能力先被破壞了。

GuidedVLA 借鑒了 ControlNet 式殘差適配器來避免這一點。它保留原始主干注意力分支，同時新增一個 factor-specific 的控制分支。這個控制分支通過 zero-initialized projection 再與主分支融合。

由于 ZeroConv 在訓練開始時初始化為 0，控制分支一開始不會干擾原模型行為；隨著訓練推進，它再逐步把 object、skill、depth 等任務相關偏置注入動作解碼器。

換句話說，它不是推倒重訓，而是在 π0 這樣的基座模型上加一個可插拔控制層。

先保住原來的能力，再把該看的重點加進去。

為了讓這套機制可擴展，團隊還設計了自動因子標注流水線。物體掩碼由 Qwen3-VL 給出前景點提示，再用 SAM2 在視頻段中傳播掩碼，最后進行人工核驗；技能標簽由 Qwen3-VL 按預定義技能表生成階段標簽，并轉換為軟目標；深度頭則直接使用凍結深度編碼器特征，不需要人工深度標注。

效率提升也很明顯：92% 的 episode 無需人工修正。標注 50 個 episode 時，自動流水線約需4 分鐘，純人工則約需43.5 分鐘。

也就是說，GuidedVLA 并不是用高昂人工成本換來可解釋性，而是把「顯式引導」做成了一套可以規模化的訓練接口。

04 GuidedVLA 在泛化測試上真的能看對重點，提升穩定性嗎？

GuidedVLA 真正要證明的是：這種可控、可解釋的分工，能否在分布偏移和真實機器人上帶來穩定收益。

首先是 LIBERO-Plus。這個基準專門評估機器人策略在分布偏移下的魯棒性，包含相機視角、機器人初態、語言變化、光照、背景、噪聲和布局 7 類擾動。

在總分上，π0 為68.2，加入 object head 后達到73.4，加入 skill head 后為72.5，加入 depth head 后為71.7。三類 head 全部加入后，GuidedVLA 達到75.4，超過 DreamVLA 的69.9、OpenVLA-OFT 的69.6、RIPT-VLA 的68.4等對比方法。

LIBERO-Plus 結果表：GuidedVLA 在 7 類擾動維度和 4 類任務上整體表現更強，三類注意力專家疊加后平均成功率達到 75.4。

更有意思的是，不同 head 的優勢和它們的職責高度吻合：object head 在 Object 套件上單頭最強，skill head 在 Goal 套件上單頭最強，depth head 在 Spatial 套件上單頭最強。

這證明了三類注意力專家真的在各自擅長的問題上發揮作用。

RoboTwin 2.0 結果：GuidedVLA 在 8 個隨機化、未見設定的操作任務中，將 π0 平均成功率從 77.38% 提升到 90.63%。

在 RoboTwin 2.0 上，這種分工也非常直觀。Click Bell 需要精確控制 Z 軸，depth head 將成功率從35%提升到63%；Beat Hammer Block 需要高度對齊，成功率從78%提升到96%；Lift Pot 涉及嚴格的抓取、穩定、抬起序列，skill head 取得單頭最佳結果。

一個負責看準，一個負責排步驟，一個負責補幾何。

這就是「注意力專家」的價值。

05 到真機上，還能扛住干擾物和光照變化嗎？

真實機器人實驗覆蓋兩個雙臂平臺：ALOHA AgileX 和 PSI-Bot RealMan。前者包括水果蔬菜分揀、疊碗放架、清潔桌面等家庭任務；后者包括燒杯放入加熱套、套疊燒杯、將燒杯放上加熱裝置等實驗室操作任務。

每個任務和模型進行 20 次試驗。團隊設置了三類泛化條件：物體位置變化的 In-Domain 設定、加入干擾物和雜亂場景的 Scene 設定，以及光強 / 色溫變化的 Lighting 設定。

結果顯示，GuidedVLA 在三類設定下都穩定優于 Base Policy：

In-Domain：從55.8%提升到75.8%
Scene：從44.2%提升到67.5%
Lighting：從57.5%提升到79.2%

視頻鏈接：https://mp.weixin.qq.com/s/7SD3ulzXL2Xg6izWhs7Eng?click_id=123

真機任務示例：疊碗放架。長程操作中，Skill Head 幫助模型維持階段感，避免中途跳步。

真機任務示例：燒杯放入加熱套。透明剛性物體和緊幾何約束更考驗目標定位與空間幾何。

06 可解釋性驗證：因子質量越高成功率越高

因子質量與任務成功率的關系：Object、Skill、Depth 三類因子質量越高，整體成功率越高。

GuidedVLA 進一步回答了一個更有趣的問題：這些因子質量真的和任務成功率相關嗎？

團隊沒有只做「有無注意力頭」的二元對比，而是連續調節三類因子質量，觀察成功率變化。

Object Head 方面，隨著落在物體區域內的注意力比例從 0.25 增加到 1.0，成功率從61.3%提升到77.4%。這說明動作 token 是否真正看向目標物，會直接影響操作表現。

Skill Head 方面，隨著技能識別準確率提高，成功率從66.2%提升到77.7%。模型越清楚當前任務階段，越不容易在長程任務中跳步或亂序。

Depth Head 方面，當真實深度特征比例從 0 增加到 1.0，成功率從15.0%提升到74.2%。對于精細操作，明確的 3D 幾何線索是任務能否成功的關鍵條件之一。

三類注意力專家的可視化結果：Object Head 聚焦目標區域，Depth Head 編碼 3D 結構，Skill Head 跟蹤任務階段變化。

更進一步，論文還驗證了「分工」本身的重要性。一個自然想法是：既然 object、skill、depth 都有用，能不能讓所有 head 一起學習所有因子？

答案是否定的。

專門化分工優于「一鍋燴」式混合訓練。在 Spatial、Goal、Long 以及總體分數上，GuidedVLA 都明顯領先 mixture 方案。

當所有 head 混合學習所有目標時，不同因子的特征會糾纏在一起，性能反而下降。t-SNE 可視化顯示，GuidedVLA 中專門化的 object、depth、skill head 形成了更清晰的分簇；而 mixture 方案中，不同 head 的表征明顯重疊。

左：GuidedVLA 的專門化注意力頭形成更清晰的特征分簇；右：Mixture 方案中，不同 head 的表示明顯重疊，因子之間更容易糾纏。

這說明 GuidedVLA 的關鍵不只是「多加監督」，而是「讓不同監督進入不同專家」。

可控，來自可指定。

可解釋，來自可分工。

總結

GuidedVLA 最值得關注的地方，是它把動作解碼器中最黑箱的一部分，變成了可以被人為指定、觀察和驗證的結構。

過去，VLA 輸出一個動作，研究者很難判斷它到底看對了目標物、理解了任務階段，還是只是依賴某個視覺捷徑。GuidedVLA 則把這個過程拆成 object、skill、depth 三類注意力專家，讓動作決策出現了更清晰的內部分工。

當然，這項工作仍然依賴預定義因子。如何自動發現任務相關因子，尤其是在連續任務中自動發現技能結構，仍是未來需要進一步探索的問題。

但它給出了一條很務實的路線：讓 VLA 不只是變大，也要變得更可控、更可解釋。

讓每一次操控，都有跡可循。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.