網易首頁 > 網易號 > 正文 申請入駐

千尋智能高陽團隊提出 Point-VLA:視覺定位實現語言指令精準執行

0
分享至



設想這樣一個場景:你打電話讓同事去辦公室某個地方拿東西,僅憑語言描述位置是多么困難。在辦公室里,從一堆已經喝過的礦泉水瓶中,讓對面同學遞過來你之前喝過的那個,只用語言幾乎無法準確描述——「左邊第二個」?「有點舊的那個」?這時候,人們更傾向于用手指一下,或者拿出圖片來指代。

這揭示了一個根本問題:人類在面對面交流時,會自然地通過手勢、指點來完成對物體或位置的定位(grounding),而不是依賴復雜的文本描述。即使對于人類這樣強大的多模態大腦,純語言指令也存在歧義,難以準確傳達空間信息。在雜亂場景、相似物體眾多的環境中,語言描述往往力不從心。

同理,當我們只用語言給視覺-語言-動作(Vision-Language-Action,VLA)模型下達指令時,就如同讓人在電話里描述復雜場景,面臨兩個根本性困境:

第一,語言在某些場景下根本無法精確表達。比如在無參考點的桌面上精確放置物體——「把杯子放在距離左邊緣 15 cm、前方 10 cm 的位置」,這種絕對坐標式的描述既不自然又難以準確傳達。再比如雜亂場景中的特定目標,或者形狀不規則的物體,語言的表達能力觸及了邊界。

第二,即使可以用復雜詳細的語言描述,VLA 模型也難以泛化理解。研究發現,雖然先進的視覺-語言模型(VLM)能以 60-70% 的準確率定位復雜描述的目標,但 text-only VLA 在執行時的成功率卻只有 25% 左右。復雜的空間關系描述超出了 VLA 模型的泛化能力范圍。

千尋智能高陽團隊的研究人員注意到這兩個根本性瓶頸,在最新論文《Point What You Mean: Visually Grounded Instruction Policy》中提出了 Point-VLA 方法。該方法通過在圖像上疊加邊界框(bounding box)提供明確的視覺定位線索,讓機器人能像人一樣「看著圖、指著點」來理解指令,在真實機器人操作任務中實現了高達 92.5% 的成功率,相比純文本 VLA 的 32.4% 提升了近 3 倍。

  • 論文標題:Point What You Mean: Visually Grounded Instruction Policy
  • 論文鏈接:https://arxiv.org/pdf/2512.18933
  • 項目主頁:https://yuhang-harry.github.io/Point-VLA



圖 1:Point-VLA 通過在圖像上疊加邊界框,解決了雜亂場景抓取、OOD 物體操作、無參考點精確放置等語言指令難以勝任的任務

語言的邊界:VLA 模型面臨的根本挑戰

視覺-語言-動作(VLA)模型近年來在具身智能領域取得了顯著進展,能夠將自然語言指令直接轉化為機器人動作。然而,研究團隊發現,VLA 模型仍然受制于語言本身的固有局限性。

兩大核心問題:

1. 語言無法表達的場景(Inexpressible References)

在真實世界中,有些場景語言根本無法精確描述,無論你怎么努力:

  • 無參考點的精確位置:「把杯子放在桌面上距離左邊緣 15 cm、前方 10 cm 的位置」——這種絕對坐標式的描述,語言表達起來既不自然又容易出錯。
  • 不規則 / 無定形物體:一個形狀復雜、紋理獨特的陶土塊,用語言描述「紅藍條紋、頂部方形底部圓形」仍然模糊不清。
  • 雜亂場景中的特定目標:在八個相同瓶子的桌面上,即使你說「右側第二排中間偏左的那個」,聽者依然難以確定。

這些場景的共同特點是:語言的表達能力觸及了邊界。而人類在這種情況下會自然地用手指一下,或者拿出圖片指給對方看。

2. 復雜描述的泛化困境(Limited Generalization)

即使在某些場景下,我們可以通過非常詳細、復雜的語言描述來補全信息,但這又帶來了新的問題:VLA 模型難以泛化理解這些復雜的空間描述。

研究團隊的實驗揭示了一個令人驚訝的現象:

  • 先進的 VLM(如 GPT-4V)在面對詳細的文本描述時,能夠以 60-70% 的準確率定位目標。
  • 但 text-only VLA 在相同場景下的操作成功率卻只有 25% 左右。

這說明,即使 VLM「看懂」了復雜的語言描述,VLA 模型在將其轉化為精確動作時仍然力不從心。復雜的空間關系描述超出了 VLA 模型的泛化能力范圍,導致在雜亂場景、OOD 物體、精確放置等任務中表現急劇下降。這兩個問題共同構成了 VLA 模型在真實世界部署的根本瓶頸。



圖 2:VLM 能以 60-70% 準確率定位復雜文本描述的目標(左兩例),但 text-only VLA 執行成功率僅 25%,揭示了語言-動作對齊的鴻溝。右側展示了語言根本無法描述的場景(無參考點平面),Point-VLA 通過視覺定位解決了這兩類問題

Point-VLA:像人一樣「指著說」

為了突破語言的固有局限,千尋智能高陽團隊提出了 Point-VLA 方法,其核心思想簡單而有效:既然語言無法精確表達,那就像人類一樣,用「指」的方式來明確目標。

視覺定位指令(Visually Grounded Instruction)

Point-VLA 的關鍵創新在于引入了視覺定位指令。具體而言,系統在機器人觀察到的第一幀圖像上疊加一個邊界框(bounding box),明確標注出目標物體或位置。這個邊界框就像人類用手指指向目標一樣,提供了明確的像素級空間線索。

例如,對于「拿起瓶子」這個指令:

  • 純文本模式:「Pick up the bottle to the right of the leftmost bottles, in the middle of the desk」(信息完整但過于復雜,VLA 難以準確執行)
  • Point-VLA 模式:「Pick up」+ 圖像上的紅色邊界框(信息完整且簡單直接)

這種方式將高層意圖(pick up, place)保留在語言中,而將精確的空間信息(哪個物體、什么位置)編碼在視覺線索中,完美結合了語言的抽象性和視覺的精確性。



圖 3:Point-VLA 推理流程——用戶通過 GUI 在俯視圖上繪制邊界框,或通過手勢由 MLLM 自動生成邊界框,結合簡短文本指令,機器人即可精確執行操作

統一的策略架構

Point-VLA 采用統一的策略架構,能夠同時處理純文本指令和視覺定位指令。在訓練時,模型以 1:1 的比例接收兩種模態的數據:

  • 純文本指令:保持模型對常規語言指令的理解能力。
  • 視覺定位指令:學習利用像素級視覺線索進行精確操作。

這種聯合訓練策略使得 Point-VLA 既能處理簡單的語言指令(如「向前移動」),也能在需要時接受視覺定位來完成復雜任務,實現了靈活的「即插即用」能力。

視頻展示 Point-VLA 在真實機器人上的操作效果,包括雜亂場景抓取、精確放置等任務

可擴展的自動數據標注 Pipeline

視覺定位指令需要為每個演示標注邊界框,這可能帶來數據標注成本的挑戰。千尋智能團隊開發了一套自動數據標注 Pipeline,利用多模態大語言模型(MLLM)自動生成視覺定位監督信號。

Pipeline 的工作流程很直接:給定一段演示視頻和文本指令,MLLM 分析視頻內容,自動識別關鍵幀并在第一幀上標注目標物體的邊界框。為了提升模型的泛化能力,研究團隊還設計了兩種數據增強策略——隨機平移和局部 CutMix。隨機平移鼓勵模型關注目標的相對位置而非絕對坐標,局部 CutMix 則防止模型過擬合特定物體的視覺特征。

這套 Pipeline 使得研究團隊能夠從現有的演示數據中高效生成大量視覺定位監督信號,無需額外的人工標注成本,支持無縫的數據集成和擴展。



圖 4:Point-VLA 訓練流程——MLLM 自動從演示視頻中生成邊界框標注,結合隨機平移和 CutMix 增強,與純文本數據聯合訓練統一策略

實驗驗證:從 32.4% 到 92.5% 的跨越

千尋智能團隊在真實機器人平臺上進行了全面的實驗驗證,涵蓋 6 個具有挑戰性的操作任務,包括不規則物體抓取、OOD 物體抓取、雜亂場景抓取、蛋槽精確放置、平面精確放置和蛋槽精確插入。實驗結果令人振奮:Point-VLA 在所有任務上的平均成功率達到 92.5%,相比純文本 VLA 的 32.4% 提升了近 3 倍

在最具挑戰性的雜亂場景抓取任務中,Point-VLA 的成功率從 43.3% 提升到 94.3%,在精確放置任務中從 23.3% 提升到 90.0%。這些結果充分證明了視覺定位在消除歧義和實現精確操作方面的強大能力。



圖 5:6 個評估任務的真實機器人實驗場景,涵蓋目標物體指代(不規則物體、OOD 物體)和目標位置指代(雜亂抓取、蛋槽、平面放置)等挑戰



表 1:六個真實機器人操作任務的成功率(%)對比,其中text-vla和interleave-vla均經過與Point-vla同樣數據量,精細文本方位詞標注訓練至收斂,保證對比公平性,數據集信息見論文fig5

語言邊界場景的突破

研究團隊特別設計了兩類「語言邊界」場景來驗證 Point-VLA 的能力:

  • 場景 1:語言根本無法表達的任務

在無參考點的平面桌面上精確放置物體:「把杯子放在距離左邊緣 15 cm、前方 10 cm 的位置」。這種絕對坐標式的描述,語言表達既不自然又難以準確傳達。純文本 VLA 在這類任務上的成功率僅 30%。

而 Point-VLA 通過在圖像上直接標注目標位置的邊界框,繞過了語言表達的邊界,成功率達到95%

  • 場景 2:復雜描述難以泛化

在包含 8 個相同瓶子的雜亂桌面上,需要用「拿起右側、最左邊那排瓶子中間的那個」這樣復雜的描述。雖然 VLM 能以 60-70% 準確率定位,但 text-only VLA 在執行時成功率僅 43.3%——模型難以泛化理解如此復雜的空間關系描述。

Point-VLA 通過視覺定位提供明確的像素級線索,使模型無需理解復雜的語言描述就能準確執行,成功率提升到94.3%

此外,研究團隊還在多個機器人平臺和 VLA 模型骨架上進行了驗證,包括 π0.5 和 π0 兩個不同的基礎模型,以及雙臂機器人和全身人形機器人。結果顯示 Point-VLA 在不同模型和硬件配置下均能保持高成功率,證明了其作為通用接口的可擴展性。

在與純文本指令的兼容性測試中,Point-VLA 即使在純文本模式下(不使用視覺定位),也能匹配甚至超越純文本 VLA baseline。研究團隊在三種空間指代任務上進行了對比:相對位置指代、矩陣布局指代和基于參考的指代。結果顯示,Point-VLA 在純文本模式下的表現與 baseline 相當或更好,而在使用視覺定位時則在復雜空間指代任務上取得最高成功率。這說明視覺定位訓練提升了模型對空間關系的理解能力,即使在不使用視覺定位時也能受益。

在數據擴展性實驗中,隨著訓練數據量的增加,Point-VLA 的性能持續提升,而純文本 VLA 很快達到飽和。在 OOD 物體抓取任務中,當訓練數據從 3 個場景增加到 12 個場景時,Point-VLA 的準確率從約 0.8 提升到 0.95,而純文本 VLA 在約 0.27 處就停止增長,表明視覺定位提供的明確監督信號使模型能夠更有效地從數據中學習。



圖 6:(上)Point-VLA 在三種指令模式下的成功率對比——即使在純文本模式下,Point-VLA 也能匹配或超越 baseline,使用視覺定位時在復雜空間指代上取得最高成功率。(下)隨訓練數據增加,Point-VLA 性能持續提升,而純文本 VLA 很快飽和

技術意義與未來展望

Point-VLA 的提出具有重要的理論和實踐意義。首先,它揭示并解決了 VLA 領域的一個根本性問題:語言本身的表達能力限制了模型的性能上限。通過引入視覺定位,Point-VLA 繞過了這一瓶頸,為 VLA 模型開辟了新的發展路徑。

其次,自動數據標注 Pipeline 使得視覺定位監督信號的獲取成本大幅降低,支持從現有演示數據中無縫生成訓練數據,為大規模 VLA 模型的訓練提供了可行的技術路線。

92.5% 的成功率使得 VLA 模型首次在復雜真實場景中達到了實用化的門檻。Point-VLA 展示的精確操作能力,為機器人在工業、服務等領域的實際應用提供了技術基礎。更重要的是,Point-VLA 驗證了「指著說」這種人類自然交互方式在人機交互中的有效性,啟發了未來具身智能系統在多模態交互方面的探索。

關于千尋智能 Spirit AI

千尋智能致力于推動具身智能和機器人技術的發展,通過創新的 AI 算法使機器人能夠更好地理解和執行人類指令。高陽團隊專注于視覺-語言-動作模型的研究,在多模態學習、機器人操作等領域取得了一系列突破性成果。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
太慘了!燃油車再迎大降價:最大跌幅50%,豪華車帶頭“跳水”

太慘了!燃油車再迎大降價:最大跌幅50%,豪華車帶頭“跳水”

混沌錄
2026-04-23 16:50:14
被列入臺灣大學教材里的五位著名中國共產黨將領

被列入臺灣大學教材里的五位著名中國共產黨將領

老謝談史
2026-04-24 18:38:49
太解氣!單親媽媽被同行惡意“截胡”,全城排隊替她“復仇”

太解氣!單親媽媽被同行惡意“截胡”,全城排隊替她“復仇”

青梅侃史啊
2026-04-21 19:37:02
巴基斯坦沒有想到,跟著中國走了幾十年,結果自己混了一個霸主

巴基斯坦沒有想到,跟著中國走了幾十年,結果自己混了一個霸主

夢史
2026-04-24 17:23:46
1998年我吹牛說要娶女老師為妻,最后她真的成了我的妻子

1998年我吹牛說要娶女老師為妻,最后她真的成了我的妻子

千秋文化
2026-04-17 20:06:49
第一屆國務院產生,12位副總理都是誰?林彪為何能排在彭老總之前

第一屆國務院產生,12位副總理都是誰?林彪為何能排在彭老總之前

搜史君
2026-04-24 16:30:14
南京江寧區房價大幅下滑區域

南京江寧區房價大幅下滑區域

墜入二次元的海洋
2026-04-24 18:19:42
毛主席緊急離開武漢,空軍竟不放行,楊成武:不認我這個代總長?

毛主席緊急離開武漢,空軍竟不放行,楊成武:不認我這個代總長?

驚視
2026-04-24 07:32:15
于東來百臺坦克七百砸下五千萬,魏建軍做夢都得笑醒

于東來百臺坦克七百砸下五千萬,魏建軍做夢都得笑醒

阿芒娛樂說
2026-04-24 18:04:31
連續兩個月從中國進口鎵鍺為零后,日本宣布無人機要做世界第一!

連續兩個月從中國進口鎵鍺為零后,日本宣布無人機要做世界第一!

車窗起霧q
2026-04-24 17:36:07
中國游客暴跌55.9%,日本361萬游客擠爆櫻花季,缺口被全球填平

中國游客暴跌55.9%,日本361萬游客擠爆櫻花季,缺口被全球填平

芳姐侃社會
2026-04-21 16:37:18
馬英九今日表態痛心疾首,蕭旭岑政治命運何去何從?

馬英九今日表態痛心疾首,蕭旭岑政治命運何去何從?

梁察天下
2026-04-24 12:00:02
西安一職校學生被同學持刀捅傷,知情人稱傷者已從ICU轉至普通病房,教育局和警方回應

西安一職校學生被同學持刀捅傷,知情人稱傷者已從ICU轉至普通病房,教育局和警方回應

極目新聞
2026-04-24 18:07:53
黃仁勛罕見發飆,盧特尼克也承認了,中國一子不出,美國也很無奈

黃仁勛罕見發飆,盧特尼克也承認了,中國一子不出,美國也很無奈

觸摸史跡
2026-04-24 03:54:02
歷史第1次:美元占半壁江山!全球支付:歐元僅21%,人民幣呢?

歷史第1次:美元占半壁江山!全球支付:歐元僅21%,人民幣呢?

財說得明白
2026-04-24 09:36:40
前所未有!中國罕見直接表態:軍演針對菲律賓

前所未有!中國罕見直接表態:軍演針對菲律賓

鳳眼論
2026-04-24 18:49:26
回顧:孫小果被注射死刑后,以前女同學透露其習慣,令人感到害怕

回顧:孫小果被注射死刑后,以前女同學透露其習慣,令人感到害怕

飛云如水
2025-01-11 15:15:34
女子失蹤后家人報警,警察用美顏照全城找人,結果找到真人后凌亂了:和照片完全不是同一人啊...

女子失蹤后家人報警,警察用美顏照全城找人,結果找到真人后凌亂了:和照片完全不是同一人啊...

新浪財經
2026-04-23 23:19:36
完了!杜蘭特不打了!火箭G3無核出戰恐遭橫掃,大胡子獨木難支

完了!杜蘭特不打了!火箭G3無核出戰恐遭橫掃,大胡子獨木難支

蘭亭墨未干
2026-04-24 13:28:38
都在問,海軍宣傳片里的“新兵何劍”,暗示中國第四艘航母嗎?

都在問,海軍宣傳片里的“新兵何劍”,暗示中國第四艘航母嗎?

樞密院十號
2026-04-23 18:31:15
2026-04-24 19:43:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12851文章數 142635關注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

參與英國研究的50萬名患者信息在中國售賣 外交部回應

頭條要聞

參與英國研究的50萬名患者信息在中國售賣 外交部回應

體育要聞

里程碑之戰拖后腿,哈登18分8失誤

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經要聞

LG財閥內斗:百億美元商業帝國爭奪戰

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

態度原創

健康
教育
親子
藝術
房產

干細胞如何讓燒燙傷皮膚"再生"?

教育要聞

最新!北京市第八屆講述育人故事活動正式啟動

親子要聞

為了讓孩子少看電視,給他安排了這個點珠貼畫,鍛煉孩子動手能力和專注力#益智玩具 #親子手工 #手工d...

藝術要聞

父親住酒店順走一瓶礦泉水,兒子喝后離奇死亡

房產要聞

重磅新政!海口限價商品房:滿5年可上市 繳15%土地溢價!

無障礙瀏覽 進入關懷版