網易首頁 > 網易號 > 正文 申請入駐

與普遍預期相反!清華、阿里Qwen團隊聯合研究,系統性揭示VLM如何影響VLA性能

0
分享至

大數據文摘受權轉載自頭部科技

文丨譚梓馨

視覺-語言-動作(VLA)模型最近已成為具身智能領域的研究焦點,VLA模型利用視覺-語言模型(VLM)中豐富的知識作為先驗,有助于增強機器人策略的泛化能力。

現有的大多數VLA方法都側重于開發更先進的網絡架構、整合額外的訓練范式或模態,以及優化動作解碼方案。

然而,對于VLA核心的一個基本問題,目前的關注卻十分有限:底層VLM的選擇及其特定能力如何影響VLA策略的性能?


針對這個課題, 清華、阿里Qwen團隊在日前聯合發表的一篇論文中提出了VLM4VLA,這是一個統一的訓練和評估框架,旨在系統地研究VLM模型對VLA模型性能的影響。

研究發現,在具身操作任務中,對VLM的性能要求與其視覺問答(VQA)能力并不完全一致。


與普遍預期相反,在通用VQA基準測試中表現良好的VLM,在應用于VLA時并不一定表現得更好。此外,在多個輔助的具身問答(Embodied-QA)任務上,對其中大多數任務進行微調反而會導致最終VLA的性能下降。

評估框架設計

研究人員首先構建了通用的VLM4VLA流水線,可將通用VLM轉換為VLA策略,這是一個精心設計的網絡插件,僅引入不到1%的新參數


基于VLM4VLA流水線,這項研究在三個常用基準的多個下游任務上進行了大規模實證研究,共評估了24個不同的、零樣本或經過微調的VLM,主要從三個維度考察VLM的能力:通用能力、具身特定能力、模態級分析。

初步研究發現,雖然VLM初始化相比從頭訓練具有持續優勢,但VLM的通用能力并不能很好地預測其在下游任務中的性能。

不同基準之間的不一致性表明,VLA策略所需要的能力超出了當前VLM所追求的范圍。此外,通過在特定輔助具身任務上微調VLM所獲得的提升并不能遷移到下游控制任務中。

最后,模態級分析確定視覺編碼器是主要的性能瓶頸, 而非語言組件 。

微調視覺編碼器對于實現強控制性能至關重要,而語言編碼器的重要性較低。在將與動作相關的信息注入VLM內部的視覺模塊后所觀察到的顯著性能提升,證實了標準VLM預訓練與 VLA模型的實際需求 之間存在關鍵的領域鴻溝。

結果對比和關鍵結論

為確保實驗的可復現性和公平性,這項研究在三個仿真環境中進行測試,并選擇最具挑戰性的場景作為評估基準:Calvin ABC-D、SimplerEnv Bridge和Libero-Long。



通過繪制多條通用VLM質量保證基準測試結果(橫軸代表VLM能力),以及VLA在各仿真環境下的性能(縱軸),并對兩者進行線性擬合,結果發現VLM能力與VLA性能之間并無明顯的正相關性,更強的VLM并不一定產生更強的VLA,這表明VLM預訓練目標與VLA目標之間存在錯位。

此外,論文還研究了不同VLM輔助任務對VLA性能的影響。

近期不少研究提出利用機器人數據構建VQA數據集以改進VLM骨干網,但鮮有研究探討這種持續微調是否真的能提升下游任務中VLA的性能。


結果顯示,向VLM添加與具身相關的輔助任務損失并不能保證更強的VLA。所有模型的表現均不如原始基線,大多數模型的性能都出現了輕微下降。

現有的具身VQA風格任務并不能為訓練端到端VLA以執行下游操作任務提供明顯的益處,這表明VLA可能需要廣泛的通用能力,而不僅僅是具身技能,才能在下游任務中表現良好。


在VLM4VLA訓練期間,凍結視覺編碼器會導致所有模型在Calvin和Simpler兩個基準測試上的性能顯著下降,這強烈表明,在將VLM適配為VLA時,微調視覺編碼器至關重要。

對于VLM和VLA之間差距的分析,研究人員推測,可能源于以下兩個因素:

1、真實圖像與模擬渲染(真實到模擬):在預訓練階段,視覺模型接觸到的桌面模擬渲染圖像相對較少。因此,視覺編碼器可能缺乏對操作過程中遇到的模擬圖像的有效高級語義表示。

2、視覺語言理解與低級動作控制:VLM的視覺編碼器編碼的視覺特征與QA類任務典型的語言輸出目標更加一致,而機器人中的低級動作控制需要不同的視覺線索和表示。

結果還揭示了一個關鍵洞察,視覺編碼器微調的必要性源于“語義鴻溝”,而非仿真偽影,因為,為推理優化的VLM特征缺乏控制任務所需的細粒度表示。VLM視覺編碼器捕獲語義級別的信息,而VLA需要更詳細的空間信息。


雖然VLM預訓練對于泛化能力仍然不可或缺,但VLM和VLA的學習軌跡最終會分歧到不同的區域,這種分歧解釋了盡管兩者最初是對齊的,但它們之間仍然存在顯著的差距,這使得必須采用特定的微調策略來彌合多模態理解與機器人操作之間的差異。

研究人員表示,VLM與VLA之間的視覺差異很可能源于視覺-語言任務與底層動作控制任務之間的固有異質性,而不僅僅是簡單的圖像級“仿真到真實”差距。

爆炸式增長的VLA研究

VLA領域在過去兩年經歷了顯著增長。根據OpenReview上的關鍵詞搜索,在AI頂會ICLR中提交的相關論文數量呈現出有趣的增長趨勢。

ICLR 2024僅有1篇;ICLR 2025有6篇論文被接收,3篇被拒;ICLR 2026有164篇論文聚焦和提到VLA,更多學術創新出現在令人興奮的機器人學領域。


當前VLA研究的現狀和該領域取得的進展非常樂觀,從架構設計到訓練策略和評估方法,不少科研團隊對VLA模型的各個方面都展現出濃厚的興趣和積極貢獻。

業內人士認為,投稿數量的爆炸式增長以及在離散擴散和具身推理等有前景的方向上的融合表明,VLA研究正在迅速成熟,隨著業內不斷突破根本性挑戰,我們有望實現超強泛化能力的VLA,促進機器人在混亂的、非結構化的環境中更好工作。


GPU 訓練特惠!

H100/H200 GPU算力按秒計費,平均節省開支30%以上!

掃碼了解詳情?

點「贊」的人都變好看了哦!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
東北沒有黑幫,只有“刀槍炮”:一場對香港百年社團的降維打擊

東北沒有黑幫,只有“刀槍炮”:一場對香港百年社團的降維打擊

黃麗搞笑小能手
2026-04-15 06:27:15
別人對你說“咱倆加個微信”,千萬別說 “您掃我還是我掃您?” 高情商的人這樣做

別人對你說“咱倆加個微信”,千萬別說 “您掃我還是我掃您?” 高情商的人這樣做

德魯克博雅管理
2026-04-23 17:02:27
軟件開發最后的一塊兒陣地,被AI攻克了......

軟件開發最后的一塊兒陣地,被AI攻克了......

碼農翻身
2026-04-23 08:59:23
伊朗革命衛隊已經事實獨立

伊朗革命衛隊已經事實獨立

難得君
2026-03-04 12:29:04
孫楊張豆豆相處太累,男方要人哄女方不撒嬌,網友直言二人不適合

孫楊張豆豆相處太累,男方要人哄女方不撒嬌,網友直言二人不適合

萌神木木
2026-04-23 17:20:57
陜西榆林32歲男子深陷境外虛擬貨幣黑平臺4年多,近30萬元打水漂,抑郁躺平不上班滿頭白發

陜西榆林32歲男子深陷境外虛擬貨幣黑平臺4年多,近30萬元打水漂,抑郁躺平不上班滿頭白發

大風新聞
2026-04-23 18:44:07
現在,要不要賣?

現在,要不要賣?

力哥說
2026-04-23 20:00:32
忘恩負義的菲律賓指望中國出手,人民日報通報全國,用新措辭回應

忘恩負義的菲律賓指望中國出手,人民日報通報全國,用新措辭回應

春序娛樂
2026-04-24 00:16:14
王者歸來!新款奔馳S級國內首發亮相:超50%部件改款煥新

王者歸來!新款奔馳S級國內首發亮相:超50%部件改款煥新

快科技
2026-04-23 15:25:06
事實證明,已經“消失”7年的周立波,早已走上一條不歸路

事實證明,已經“消失”7年的周立波,早已走上一條不歸路

素衣讀史
2026-04-16 19:41:20
湖北省紀委監委最新通報

湖北省紀委監委最新通報

新浪財經
2026-04-23 19:10:11
老外剛造出巴掌帽,義烏當天量產十萬單,國內外售價相差整整10倍

老外剛造出巴掌帽,義烏當天量產十萬單,國內外售價相差整整10倍

趣味萌寵的日常
2026-04-23 18:31:49
連斬20多名將領!美防長血洗部隊,陸軍部長掀桌,美國軍政大分裂

連斬20多名將領!美防長血洗部隊,陸軍部長掀桌,美國軍政大分裂

云舟史策
2026-04-23 07:17:39
1979年開戰前,廣州軍區副司令被軍委免職,許世友:此乃兵家大忌

1979年開戰前,廣州軍區副司令被軍委免職,許世友:此乃兵家大忌

墨說古今
2026-03-15 23:43:17
死了這條心!人民日報表態:中國不會救菲律賓,馬科斯投機到頭了

死了這條心!人民日報表態:中國不會救菲律賓,馬科斯投機到頭了

王姐懶人家常菜
2026-04-23 18:41:11
有色金屬行業今日凈流出資金175.06億元,紫金礦業等43股凈流出資金超億元

有色金屬行業今日凈流出資金175.06億元,紫金礦業等43股凈流出資金超億元

證券時報
2026-04-23 17:08:22
黃圣依瑞士游學狀態封神,一身鵝黃閉眼淺笑,松弛感直接拉滿

黃圣依瑞士游學狀態封神,一身鵝黃閉眼淺笑,松弛感直接拉滿

阿廢冷眼觀察所
2026-04-22 08:35:53
87年幫村長家曬糧睡偏房,夜里我竟摸到條粗黑辮子,一道女聲響起

87年幫村長家曬糧睡偏房,夜里我竟摸到條粗黑辮子,一道女聲響起

卡西莫多的故事
2026-04-20 14:44:05
7499元起售,OPPO這臺超大杯是真敢賣啊。。。

7499元起售,OPPO這臺超大杯是真敢賣啊。。。

差評XPIN
2026-04-23 00:10:47
文章上海餐館開業5天,終于迎來了第1個捧場的明星!

文章上海餐館開業5天,終于迎來了第1個捧場的明星!

無處遁形
2026-04-21 06:14:18
2026-04-24 01:12:49
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6852文章數 94541關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

媒體:海軍宣傳片出現的"新兵何劍" 傳遞了巨大信息量

頭條要聞

媒體:海軍宣傳片出現的"新兵何劍" 傳遞了巨大信息量

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

令人驚艷的奇瑞車 風云A9可不只是樣子貨

態度原創

教育
藝術
時尚
家居
本地

教育要聞

家長讓老師給發電子版試卷,卻被老師指責派頭大,到底誰的問題?

藝術要聞

吉達塔蓋到第100層,“它是沙特唯一能按期完成的大項目”

李昀銳:林深見木

家居要聞

浪漫協奏 法式風格

本地新聞

SAGA GIRLS 2026女團選秀

無障礙瀏覽 進入關懷版