![]()
蔡志鵬博士(https://zhipengcai.github.io/)是美國 Meta 公司的高級研究員,博士畢業于澳大利亞阿德萊德大學。他的研究主要集中在 Physical Intelligence,包括三維視覺、多模態大模型等。他的工作已在領域頂級會議雜志上發表超過 20 篇。其中 10 篇文章被選為頂級會議口頭或特邀報告,對魯棒估計計算復雜度的理論證明工作被選為 ECCV18 12 篇最佳論文之一。
Meta 發布了一項令人震撼的研究工作 VLM3,首次揭示了三維視覺學習的 Bitter Lesson:標準的視覺語言模型 + scale 數據就是最簡單有效的范式,針對特定任務的架構、損失函數以及數據增強的設計,甚至是 regression 的 formulation,均不是三維視覺學習的必要條件。
![]()
當前的視覺語言 AI 模型(Vision Language Models, VLMs)通過統一的模型架構能夠靈活處理各類不同的視覺任務。然而,盡管在語義理解、視覺問答、圖像指令等任務上表現優異,它們在三維視覺方面仍然表現不佳。相比之下,專家視覺模型(expert vision models)在絕對深度估計(metric depth estimation)等三維理解任務上,憑借專門設計的網絡結構、損失函數及數據增強,已經達到了超越人類的精度。
這就帶來了一個核心問題:「視覺語言模型是否在三維視覺學習方面無法替代專家模型?」VLM3 首次證明了該問題的答案是否定的!
VLM3 通過極簡的設計,在極為多樣的三維視覺任務中媲美或超越專家視覺模型,并大幅超越最先進的視覺語言模型:1)在單目深度估計上 match UnidepthV2 及 MoGe2;2)在目標級三維理解任務上超越 SpatialRGPT;3)在像素匹配任務上超越 DKM 和 RoMa;4)在相機姿態估計上 match DA3,超越 VGGT。
![]()
- 論文地址:https://arxiv.org/pdf/2605.30561
- 代碼地址:https://github.com/facebookresearch/VLM3
二、亮點
在此之前,即便是最先進的 VLM 在標準的三維視覺任務中均遠遠落后于專家視覺模型。
VLM3 通過詳盡的實驗發現,標準的 VLM 僅需要 1)相機焦距歸一化;2)像素空間歸一化,就能夠以令人驚嘆的簡潔方式有效學會各類三維視覺模型,在 1)單目深度估計中 match UniDepthV2 及 MoGe2;2)在目標級別三維理解超越 SpatialRGPT;3)在像素匹配任務上超越 DKM 和 RoMa;4)在相機姿態估計上 match DA3 并超越 VGGT。
![]()
和之前的三維視覺 VLM 不同,VLM3 既不需要改變 VLM 的架構,也不需要在圖片上渲染 marker。相比于專家視覺模型需要大量的架構、損失函數及數據增強方面的復雜設計,VLM3 僅需要標準的 VLM 架構(如 Qwen3-vl-4B)和訓練(基于文字的 SFT)就能夠在極為多樣的三維任務上達到 SOTA。
這種簡潔的訓練推翻了之前三維視覺的學習范式,并揭示了三維視覺的 Bitter Lesson:我們其實完全不需要針對特定三維視覺任務人為設計復雜的架構、損失函數及數據增強。通過簡單的視覺語言建模 + scale 數據就能夠達到同樣的效果,并且于其他非三維視覺任務在統一的語言模型訓練框架下完全兼容。這使得三維視覺不再需要與視覺語言模型的大規模預訓練分離,同時我們能夠使用同樣的方式來實現三維視覺的 scaling law。
同時 VLM3 的成功也意味著三維視覺的學習遠比我們想象中的要容易:除開不需要特殊架構、損失函數等,我們甚至可以不依賴回歸(regression)來學會 fine-grained 3D understanding,這在之前的工作中是難以想象的,因為在連續的輸出空間進行回歸是絕大多數三維視覺模型的核心設計。
三、主要結果 / 性能對比
在四大三維視覺任務上性能顯著優于最先進的 VLM
在單目深度估計上將 DepthLM 的準確率從 84 提升至 90,并且訓練及推理更加簡單高效,無需渲染 marker。
在目標級別三維理解上用同樣的訓練數據超越 SpatialRGPT,并且無需額外的 encoder,模型參數少一半(4B vs 8B)。
在多視角幾何任務上如像素匹配及相機姿態估計上遠超 Qwen3-vl-32B。
![]()
同時在與先進的專家視覺模型(如 MoGe2、DA3、RoMa 等)的對比中,VLM3 也毫不遜色,并且完全不需要復雜的架構、損失函數及數據增強。
![]()
![]()
四、意義 / 應用前景
VLM3 重新定義了三維視覺的最佳學習范式:最簡單的 generalist 架構如 VLM 及 scaling 就是最通用的三維視覺范式!過去三維視覺領域普遍采用的人為的 task-specific 的設計并非必須。
這將極大程度地簡化三維基礎模型的構建。通過將三維視覺任務融入視覺語言模型的預訓練,我們也能有效地兼容三維視覺與其它視覺任務,并將 VLM 的優勢,及靈活性與泛化性從語義及二維視覺任務有效拓展至三維視覺,極大程度提升模型的能力上限。
結語
VLM3 的出現,首次打通了視覺語言模型與三維視覺之間的壁壘,使得統一的架構就能夠簡潔地學會各類視覺任務,并達到專家模型的性能。這既是科研層面的里程碑,也為未來在實際系統中統一多模態推理能力提供了可能。我們期待 VLM3 后續在機器人、自動駕駛、增強現實等場景中的落地應用。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.