无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

ReconVLA:具身智能研究首次獲得AI頂級會議最佳論文獎

0
分享至



在長期以來的 AI 研究版圖中,具身智能雖然在機器人操作、自動化系統與現實應用中至關重要,卻常被視為「系統工程驅動」的研究方向,鮮少被認為能夠在 AI 核心建模范式上產生決定性影響。

而 ReconVLA 獲得 AAAIOutstandingPaper Awards,釋放了一個清晰而重要的信號:讓智能體在真實世界中「看、想、做」的能力,已經成為人工智能研究的核心問題之一。

這是具身智能(Embodied Intelligence / Vision-Language-Action)方向歷史上,首次獲得 AI 頂級會議 Best Paper 的研究工作。這是一次真正意義上的 community-level 認可:不僅是對某一個模型、某一項指標的認可,更是對具身智能作為通用智能核心范式之一的肯定。



  • 論文標題:ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver
  • 論文地址:https://arxiv.org/abs/2508.10333
  • 論文代碼:https://github.com/Chowzy069/Reconvla

VLA 模型關鍵瓶頸:機器人真「看準」了嗎?



近年來,Vision-Language-Action(VLA)模型在多任務學習與長時序操作中取得了顯著進展。然而,我們在大量實驗中發現,一個基礎但被長期忽視的問題嚴重制約了其性能上限:視覺注意力難以穩定、精準地聚焦于任務相關目標。

以指令「將藍色積木放到粉色積木上」為例,模型需要在復雜背景中持續鎖定「藍色積木」和「粉色積木」。但現實中,許多 VLA 模型的視覺注意力呈現為近似均勻分布,不同于人類行為專注于目標物體,VLA 模型容易被無關物體或背景干擾,從而導致抓取或放置失敗。

已有工作主要通過以下方式嘗試緩解這一問題:

  • 顯式裁剪或檢測目標區域(Explicit Grounding)
  • 預測目標邊界框作為中間輸出(COT Grounding)

然而,這些方法并未從根本上改變模型自身的視覺表征與注意力分配機制,提升效果有限。

ReconVLA:重建式隱式視覺定位的新范式


為解決上述瓶頸,我們提出ReconVLA,一種重建式(Reconstructive)Vision-Language-Action 模型。其核心思想是:

不要求模型顯式輸出「看哪里」,而是通過「能否重建目標區域」,來約束模型必須學會精準關注關鍵物體。

在 ReconVLA 中,動作預測不再是唯一目標。在生成動作表征的同時,模型還需要完成一項輔助任務:

重建當前時刻所「凝視」的目標區域 ----- 我們稱之為 Gaze Region。

這一重建過程由輕量級擴散變換器(Diffusion Transformer)完成,并在潛在空間中進行高保真復原。由于要最小化重建誤差,模型被迫在其內部視覺表示中編碼關于目標物體的精細語義與結構信息,從而在注意力層面實現隱式而穩定的對齊。

這一機制更接近人類的視覺凝視行為,而非依賴外部檢測器或符號化坐標監督。



方法概覽


ReconVLA 的整體框架由兩個協同分支組成:

1. 動作預測分支: 模型以多視角圖像、自然語言指令與機器人本體狀態為輸入,生成動作 token,直接驅動機器人執行操作。

2. 視覺重建分支: 利用凍結的視覺 tokenizer,將指令關注的目標區域(Gaze region)編碼為高保真潛在 token。主干網絡額外輸出同維度的重建 token,并以此作為條件,引導擴散去噪過程逐步復原目標區域的視覺表示。

重建損失在像素與潛在空間層面為模型提供了隱式監督,使視覺表征與動作決策在訓練過程中緊密耦合。



大規模重建預訓練


為賦予 ReconVLA 穩定的視覺重建與泛化能力,我們構建了一個大規模機器人預訓練數據集:

  • 數據規模:超過 10 萬條交互軌跡,約 200 萬張圖像。
  • 數據來源:BridgeData V2、LIBERO、CALVIN 等開源機器人數據集。
  • 自動化標注:利用微調后的 Grounding DINO 或 Yolo 等方式,從原始圖像中自動生成指令對應的目標物體區域(Gaze region),用于重建監督。

該預訓練過程不依賴動作標簽,卻顯著提升了模型在視覺重建、隱式 Grounding 以及跨場景泛化方面的能力,并為未來擴展至互聯網級視頻數據奠定了一定基礎。

實驗結果



在 CALVIN 仿真基準上,ReconVLA 在長時序任務中顯著優于現有方法:

  • ABC→D 泛化任務:平均完成長度達到3.95,全面領先同期所有對比方法。
  • ABCD→D 長程任務:平均完成長度為4.23,完整任務成功率達70.5%。

值得一提的是,在 CALVIN 極具挑戰的長程任務「stack block」上我們的方法成功率達到 79.5%,遠高于 Baseline 的 59.3%,這說明我們的局部重建作為隱式監督的方法可以在復雜長程任務中實現更靈活的運動規劃。



在真實機器人實驗中,我們基于 AgileX PiPer 六自由度機械臂,測試了疊碗、放水果、翻杯與清理餐桌等任務。ReconVLA 在所有任務上均顯著優于 OpenVLA 與 PD-VLA,并在未見物體條件下仍保持 40% 以上的成功率,展現出強大的視覺泛化能力。



對比于 Explicit Grounding 和 COT Grounding,ReconVLA 在 CALVIN 上獲得了遠高于前兩者的成功率,由此可分析出:

僅用精細化的目標區域作為模型隱式監督可以實現更加精確的注意力,更高的任務成功率以及更簡單的模型夾構。



而消融實驗表明:

1. 全圖重建仍然由于僅有動作監督的基線,因為全圖重建提升了模型的全局感知和理解能力。但由于視覺冗余使得在未知環境下難以展現更好的效果。

2. 重建目標區域(Gaze region)具有顯著效果,這個機制使得模型專注于目標物體,避免被無關背景干擾。

3. 大規模預訓練顯著提升了模型在視覺重建,隱式 Grounding 及跨場景泛化的能力。

總結


ReconVLA 的核心貢獻并非引入更復雜的結構,而是重新審視了一個基礎問題:機器人是否真正理解了它正在注視的世界。

通過重建式隱式監督,我們為 VLA 模型提供了一種更自然、更高效的視覺對齊機制,使機器人在復雜環境中做到「看得準、動得穩」。

我們期待這一工作能夠推動具身智能從經驗驅動的系統設計,邁向更加扎實、可擴展的通用智能研究范式。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
股價兩連板后,500億龍頭公告

股價兩連板后,500億龍頭公告

中新經緯
2026-06-14 18:10:09
那個被郭士強破格提拔的2米06混血少年,打的可不止是天賦

那個被郭士強破格提拔的2米06混血少年,打的可不止是天賦

阿嵀體育評論
2026-06-14 13:47:11
俞敏洪拋出驚人言論:我有兩個大學男同學已經死了,都是家庭條件很好,但倆人沒有抵抗挫折和不幸的能力

俞敏洪拋出驚人言論:我有兩個大學男同學已經死了,都是家庭條件很好,但倆人沒有抵抗挫折和不幸的能力

心理觀察局
2026-06-03 07:17:10
75萬根鋼針從天而降,上千士兵10分鐘被刺身亡,萬人崩潰跪地求饒

75萬根鋼針從天而降,上千士兵10分鐘被刺身亡,萬人崩潰跪地求饒

迷彩前沿
2026-06-12 13:55:53
16歲少女被五人灌“快樂水”,強奸后跳樓身亡,5人里有2名警察?

16歲少女被五人灌“快樂水”,強奸后跳樓身亡,5人里有2名警察?

法紀實錄簿
2026-06-10 10:49:17
中國終于松口了!中國外長訪問蒙古,日本總算等到了這句話!

中國終于松口了!中國外長訪問蒙古,日本總算等到了這句話!

阿龍聊軍事
2026-06-14 13:23:00
世界杯重大技術翻車!國際足聯在壓力下被迫公開VAR影像,引爭議

世界杯重大技術翻車!國際足聯在壓力下被迫公開VAR影像,引爭議

夜白侃球
2026-06-14 09:59:08
生涯首冠!唐斯7中1提前6犯畢業仍躺冠 擁抱女友情緒激動

生涯首冠!唐斯7中1提前6犯畢業仍躺冠 擁抱女友情緒激動

醉臥浮生
2026-06-14 11:44:12
C 羅機場亮相西裝造型干練,氣場拉滿備戰世界杯

C 羅機場亮相西裝造型干練,氣場拉滿備戰世界杯

述家娛記
2026-06-13 13:07:39
只差3個球!克洛澤:梅西本屆世界杯能破我的紀錄,他是天才!

只差3個球!克洛澤:梅西本屆世界杯能破我的紀錄,他是天才!

海浪星體育
2026-06-13 22:08:00
快訊!臺灣沈富雄表態了!

快訊!臺灣沈富雄表態了!

故事終將光明磊落
2026-06-14 13:37:09
一油傳三代,人走油還在,日本一炸雞店一鍋油用了66年拿全國金獎

一油傳三代,人走油還在,日本一炸雞店一鍋油用了66年拿全國金獎

大廠編外實習生
2026-06-12 13:36:01
摩根士丹利:更多跡象顯示中國二手房銷售走弱

摩根士丹利:更多跡象顯示中國二手房銷售走弱

新浪財經
2026-06-13 18:15:03
王楚然骨架大,但是大得恰到好處

王楚然骨架大,但是大得恰到好處

娛你同歡
2026-06-09 20:06:02
巴基斯坦的天塌了!美國和印度太狠了,中國:真的愛莫能助

巴基斯坦的天塌了!美國和印度太狠了,中國:真的愛莫能助

阿傖說事
2026-06-13 14:00:30
大批鋼鐵項目密集開工、投產

大批鋼鐵項目密集開工、投產

新浪財經
2026-06-14 13:10:52
莎拉彈劾案再生變數!參議院大法官被捕,誓言:仍要主審副總統

莎拉彈劾案再生變數!參議院大法官被捕,誓言:仍要主審副總統

夢想的現實
2026-06-14 13:30:04
炸裂!37萬周薪神鋒易主!曼聯極限截胡,切爾西半年籌備徹底白費

炸裂!37萬周薪神鋒易主!曼聯極限截胡,切爾西半年籌備徹底白費

一口桃
2026-06-14 14:55:13
1992年,我因超生被開除公職,沒想到卻因此改變命運

1992年,我因超生被開除公職,沒想到卻因此改變命運

靜若梨花
2026-06-13 10:38:09
日本一杯半價冰沙引爆全網!排隊2小時、機器干到報廢!日網友:感覺日本變窮了…

日本一杯半價冰沙引爆全網!排隊2小時、機器干到報廢!日網友:感覺日本變窮了…

東京新青年
2026-06-13 18:04:12
2026-06-14 18:43:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13249文章數 142669關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發生沖突

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發生沖突

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

家居
游戲
藝術
數碼
軍事航空

家居要聞

空間微調 移形換境

《殺戮尖塔》UP主承認作弊!并承諾退回禮物重打挑戰

藝術要聞

明代高僧寫的《春江花月夜》,美得令人驚嘆

數碼要聞

Meta向旗下Quest 2/3/Pro頭顯全面推送新版Navigator界面

軍事要聞

特朗普:美伊協議周日簽 還有終極手段

無障礙瀏覽 進入關懷版