无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

VGGT4D:無需訓練,挖掘3D基礎模型潛力,實現4D動態場景重建

0
分享至



如何讓針對靜態場景訓練的 3D 基礎模型(3D Foundation Models)在不增加訓練成本的前提下,具備處理動態 4D 場景的能力?

來自香港科技大學(廣州)與地平線 (Horizon Robotics) 的研究團隊提出了 VGGT4D。該工作通過深入分析 Visual Geometry Transformer (VGGT) 的內部機制,發現并利用了隱藏在注意力層中的運動線索。



作為一種無需訓練 (Training-free) 的框架,VGGT4D 在動態物體分割、相機位姿估計及長序列 4D 重建等任務上均取得了優異性能。



  • 論文標題: VGGT4D: Mining Motion Cues in Visual Geometry Transformers for 4D Scene Reconstruction
  • 論文鏈接:https://arxiv.org/abs/2511.19971
  • 項目主頁: https://3dagentworld.github.io/vggt4d/
  • 代碼鏈接:https://github.com/3DAgentWorld/VGGT4D

研究背景

近年來,以 VGGT、DUSt3R 為代表的 3D 基礎模型在靜態場景重建中表現出色。然而,面對包含移動物體(如行人、車輛)的動態 4D 場景時,這些模型的性能往往顯著下降。動態物體的運動不僅干擾背景幾何建模,還會導致嚴重的相機位姿漂移。

現有的解決方案通常面臨兩類挑戰:

  • 計算或訓練成本高:依賴繁重的測試時優化 (Test-time Optimization) 或需要在大規模 4D 數據集上進行微調。
  • 依賴外部先驗:通常需要引入光流、深度估計或語義分割等額外模塊,增加了系統的復雜性。

VGGT4D 的核心設想:能否在不進行額外訓練的前提下,直接從預訓練的 3D 基礎模型中挖掘出 4D 感知能力?

核心洞察:VGGT 內部的潛在運動線索

研究人員對 VGGT 的注意力機制進行了可視化分析,觀察到一個關鍵現象:VGGT 的不同網絡層對動態區域表現出截然不同的響應模式。

  • 淺層網絡:傾向于捕捉語義上顯著的動態物體。
  • 深層網絡:則逐漸抑制幾何不一致的區域。



這一發現表明,VGGT 雖然是基于靜態假設訓練的,但其內部實際上已經 隱式編碼 了豐富的動態線索。



方法論:潛在運動線索的挖掘與解耦

VGGT4D 的核心貢獻在于提出了一套無需訓練的注意力特征挖掘與掩膜精修機制。該方法深入特征流形內部,利用 Gram 矩陣和梯度流實現了高精度的動靜分離。



跨越投影間隙:基于 Gram 相似度的特征挖掘







基于投影雅可比矩陣的梯度流精修

為了解決 Attention Map 分辨率不足導致的邊界模糊問題,VGGT4D 引入了 投影梯度感知精修 (Projection Gradient-aware Refinement)。





分布內早期掩膜策略(In-Distribution Early-Stage Masking)

在推理階段,直接的全層掩膜(Full Masking)會將模型推向分布外(OOD)狀態,導致性能下降。

VGGT4D 提出了一種早期階段干預策略:僅在淺層抑制動態 Token 的 Key 向量。這種設計既在早期切斷了動態信息對深層幾何推理的影響,又保證了深層 Transformer Block 依然在其預訓練的特征流形上運行,從而保證了位姿估計的魯棒性。

實驗驗證

研究團隊針對動態物體分割、相機位姿估計和 4D 點云重建三大核心任務,在六個基準數據集上進行了詳盡的定量和定性評估。

核心組件評估:動態物體分割性能

實驗首先評估了該方法的核心組件:動態物體分割。





定性分析:定性結果清晰地展示了基線方法的不足:Easi3R 的掩碼較為粗糙且遺漏細節;DAS3R 傾向于過度分割并滲入靜態背景;MonST3R 則常常分割不足。相比之下,VGGT4D 生成的掩碼更加準確,且邊界更加清晰。這些結果有力地驗證了研究團隊的假設:VGGT 的 Gram 相似度統計信息中嵌入了豐富的、可提取的運動線索。



魯棒性驗證:相機位姿估計

強大的基線與持續改進:數據表明,原始 VGGT 已經是一個非常強大的基線,其自身就優于 MonST3R、DAS3R 等許多專門的 4D 重建方法。這表明 VGGT 的預訓練隱式地使其對動態物體具有一定的魯棒性。然而,這種魯棒性并不完美。 VGGT4D 在所有數據集上均持續改進了這一強大的 VGGT 基線。例如在 VKITTI 數據集上,VGGT4D 的 ATE 僅為 0.164,而 MonST3R 高達 2.272。



長序列魯棒性突破:在極具挑戰性的長序列 Point Odyssey 基準測試中,VGGT4D 在所有指標上均取得了最佳結果,同時保持了高度效率。許多其他 4D 方法由于內存不足(OOM)錯誤甚至無法在該 500 幀序列上運行。這表明 VGGT4D 提出的顯式、無需訓練的動態 - 靜態分離方法成功地識別并消除了由運動引起的殘余位姿不一致性,從而實現了更穩定、更準確的相機軌跡,尤其是在長且復雜的序列上。



最終目標:4D 點云重建質量實驗

在 DyCheck 數據集上的評估顯示,VGGT4D 在所有重建指標(準確度、完整度和距離)上均取得了最佳性能。與 VGGT 基線相比,中位準確度誤差從 0.009 降低到 0.004,平均距離從 0.150 降低到 0.123。這證明了該方法不僅實現了精準的動靜分離,更能實質性提升幾何重建質量。





結語

VGGT4D 提出了一種無需訓練的新范式,成功將 3D 基礎模型的能力擴展至 4D 動態場景。該工作證明了通過合理挖掘模型內部的 Gram 相似度統計特性,可以有效解耦動態與靜態信息。這不僅為低成本的 4D 重建提供了新思路,也展示了基礎模型在零樣本遷移任務中的潛力。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中央定調:事業單位這三類人員不允許彈性延遲退休,到齡就得退休

中央定調:事業單位這三類人員不允許彈性延遲退休,到齡就得退休

職場資深秘書
2026-06-14 09:25:33
煮粽子時,只加清水是不對的!多加2樣,粽子軟糯不漏米,不夾生

煮粽子時,只加清水是不對的!多加2樣,粽子軟糯不漏米,不夾生

阿龍美食記
2026-06-10 20:07:05
薪資壓力迫不得已!雷霆計劃送走首發核心球員,主動避稅

薪資壓力迫不得已!雷霆計劃送走首發核心球員,主動避稅

夜白侃球
2026-06-13 16:15:04
大反轉!恩佐和糟糠女友復合,瓦倫蒂娜:沒有第三次機會

大反轉!恩佐和糟糠女友復合,瓦倫蒂娜:沒有第三次機會

綠茵八卦君
2026-06-13 18:50:03
男籃又增添一大勁敵了?廣廈超級外援被歸化:CBA真在養虎為患嗎

男籃又增添一大勁敵了?廣廈超級外援被歸化:CBA真在養虎為患嗎

籃球快餐車
2026-06-14 05:34:47
高溫持續不下,印民組團跑到上海:吃飯美甲不給錢,專鉆小店空子

高溫持續不下,印民組團跑到上海:吃飯美甲不給錢,專鉆小店空子

人間無味啊
2026-06-13 18:54:58
新婚才七天,婆婆就讓我搬走說房子是借的,我默默拿出房產證

新婚才七天,婆婆就讓我搬走說房子是借的,我默默拿出房產證

曉艾故事匯
2026-05-04 08:12:05
情況不對勁!日本連“身后事”都安排好了,準備迎接大規模戰爭?

情況不對勁!日本連“身后事”都安排好了,準備迎接大規模戰爭?

咣當地球
2026-06-14 09:44:28
清邁偶遇瞿穎一家四口,倆女兒身高近170,老公看著也就30出頭

清邁偶遇瞿穎一家四口,倆女兒身高近170,老公看著也就30出頭

柒佰娛
2026-06-13 08:17:09
一張260元的門票,打了中國人的臉?

一張260元的門票,打了中國人的臉?

難得君
2026-06-09 09:52:54
1-1扳平!世界杯最大意外誕生!歐洲雙雄受挑戰,最強黑馬出現

1-1扳平!世界杯最大意外誕生!歐洲雙雄受挑戰,最強黑馬出現

等等talk
2026-06-14 06:25:09
48歲喜提“七胞胎”兒子,全職奶爸一人帶7個娃,真實“身份”不只是礦業老板那么簡單

48歲喜提“七胞胎”兒子,全職奶爸一人帶7個娃,真實“身份”不只是礦業老板那么簡單

婚姻與家庭
2026-06-12 09:38:24
徹查!信號強烈!中央升級反腐“天網”!

徹查!信號強烈!中央升級反腐“天網”!

職場資深秘書
2026-06-13 16:01:25
非洲杯管我世界杯什么事?  國際足聯禁止埃及隊身穿七星戰袍出場

非洲杯管我世界杯什么事? 國際足聯禁止埃及隊身穿七星戰袍出場

威猛孟巍
2026-06-14 01:29:22
沒想到,世界杯剛開始,裁判馬寧意外火出圈,原因讓人哭笑不得

沒想到,世界杯剛開始,裁判馬寧意外火出圈,原因讓人哭笑不得

不寫散文詩
2026-06-13 16:05:32
芯片巨頭永久停產!核心原料被斷供,高市為作死買單,美求情碰壁

芯片巨頭永久停產!核心原料被斷供,高市為作死買單,美求情碰壁

愛看劇的阿峰
2026-06-14 01:07:49
浙江女子過年回家炫耀70萬存款,隔天表姑全家跪地借60萬治病,她不想借,但所有人都說親戚一場,不能見死不救…

浙江女子過年回家炫耀70萬存款,隔天表姑全家跪地借60萬治病,她不想借,但所有人都說親戚一場,不能見死不救…

背包旅行
2026-06-13 15:40:27
小伙職高畢業期望薪資3萬,面試官笑問:牛奶倒入大海怎么拿回?

小伙職高畢業期望薪資3萬,面試官笑問:牛奶倒入大海怎么拿回?

青青會講故事
2025-10-17 17:12:53
泰王的大女兒離世,最難過的人是她已經癱瘓的媽媽

泰王的大女兒離世,最難過的人是她已經癱瘓的媽媽

小娛樂悠悠
2026-06-13 11:14:15
他與陳賡是過命交情,兵敗豫西后感嘆:半世英名被陳大哥毀了

他與陳賡是過命交情,兵敗豫西后感嘆:半世英名被陳大哥毀了

大運河時空
2026-06-13 08:10:03
2026-06-14 11:00:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13246文章數 142669關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

陜西橋梁垮塌致25輛車墜河62人死亡失蹤 官方公布細節

頭條要聞

陜西橋梁垮塌致25輛車墜河62人死亡失蹤 官方公布細節

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

具俊曄曝大S離世前虛弱照,難怪小s退讓

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

健康
親子
教育
游戲
公開課

老人、小孩、孕婦,吃粽子有啥風險

親子要聞

兩個孩子兩種出路

教育要聞

直播預告 | 對話知名作家聶震寧:讀書的四季,閱世的長旅

Xbox曾寄希望《COD:黑色行動7》彌補收入下滑局面

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版