網易首頁 > 網易號 > 正文 申請入駐

徹底顛覆!谷歌4D世界模型來了,比SOTA快300倍!

0
分享至


來源:新智元

【導讀】谷歌 DeepMind 發布 D4RT,徹底顛覆了動態 4D 重建范式。它拋棄了復雜的傳統流水線,用一個統一的「時空查詢」接口,同時搞定全像素追蹤、深度估計與相機位姿。不僅精度屠榜,速度更比現有 SOTA 快出 300 倍。這是具身智能與自動駕駛以及 AR 的新基石,AI 終于能像人類一樣,實時看懂這個流動的世界。

如果是幾年前,你問一位計算機視覺工程師:「我想把這段視頻里的所有東西——無論它是靜止的房子還是奔跑的狗——都在 3D 世界里重建出來,并且還能隨時知道它們下一秒會去哪兒,需要多久?」

他大概會遞給你一根煙,讓你先去買幾塊頂級顯卡,然后給你畫一個由四五個不同模型拼湊起來的流程圖:先算光流,再算深度,再估相機位姿,最后還得用一晚上的時間去跑優化,祈禱結果別崩。

但谷歌 DeepMind 剛剛發布的D4RT(Dynamic 4D Reconstruction and Tracking),試圖終結這種混亂。


這篇論文在計算機視覺領域扔下了一枚關于「效率革命」的重磅炸彈。

它把原本割裂的 3D 重建、相機追蹤、動態物體捕捉,統一成了一個極簡的「查詢」動作。


更重要的是,它的速度比現有SOTA技術快了 18 到 300 倍。


如果在你的認知里,高質量的 4D 重建還是好萊塢特效工作室里那些昂貴且緩慢的渲染農場,耗費漫長的時間等待生成完畢,那么 D4RT 正在把這種能力變成一種可以塞進機器人大腦甚至 AR 眼鏡里的實時直覺。

Demo 演示

為了理解 D4RT 到底做到了什么,我們需要先看一眼它眼中的世界。

在論文展示的演示中,最直觀的震撼來自于對「動態混亂」的駕馭能力。

想象一下這個畫面:一只天鵝在水面上劃過,或者一朵花在風中快速綻放。

傳統的 3D 重建算法(比如 MegaSaM 或 )處理這種場景通常是一場災難——因為它們假設世界是靜止的,所以它們往往會在 3D 空間里留下一串「重影」,就像老式膠片重疊曝光一樣,天鵝變成了長著幾十個脖子的怪物,或者花朵直接變成了一團無法辨認的噪點。

但 D4RT 給出的結果極其干凈。

它不僅可以精準還原天鵝的 3D 形態,還完美剝離了相機的運動和天鵝自身的運動。

在它的視野里,時間變成了一個可以隨意拖動的滑塊。


更令人印象深刻的是它的全像素追蹤能力。

你可以點擊視頻中花瓣上的任意一個像素,D4RT 就能畫出這個點在過去和未來的完整 3D 軌跡,哪怕這個點在中間幾幀被蜜蜂遮擋了,或者跑到了畫面之外,模型依然能根據上下文「腦補」出它的去向。


這種視覺效果給人的感覺是:AI 不再是在一幀幀地「看」視頻,而是把整段視頻吞下去,在大腦里生成了一個完整的、流動的全息全景圖,然后你可以隨意從任何角度、任何時間去檢視它。


模型能力對比圖

拆解「神話」

是真的快,還是文字游戲?

科技公司發論文,數據通常都很漂亮。

作為觀察者,我們需要剝離 PR 濾鏡,看看數據背后的定語。

谷歌聲稱 D4RT 比之前的 SOTA 快了300 倍,處理一分鐘的視頻只需要 5 秒鐘。

這是真的嗎?

答案是:在特定維度上,是真的。

這里的「300倍」指的是吞吐量,具體來說是「在保持相同幀率(FPS)的前提下,模型能同時追蹤多少條 3D 軌跡」。

  • 數據對比:在 24 FPS 的標準電影幀率下,之前的強者 SpatialTrackerV2 只能同時追蹤84條軌跡,再多就卡了;而 D4RT 可以輕松處理1570條。如果是和 DELTA 這種更慢的模型比,那就是314 倍的差距。


  • 實際意義:這意味著之前的技術可能只能盯著畫面里的主角(比如一個人),而 D4RT 可以同時盯著背景里走動的路人、飄落的樹葉和遠處的車流——即所謂的「全像素級感知」。

它比同類技術強在哪兒?

目前市面上的 4D 重建技術主要分兩派:

  1. 「拼裝派」(如 MegaSaM):把深度估計、光流、分割等多個現成模型串起來。雖然效果不錯,但不僅慢,而且一旦一個環節出錯(比如光流飄了),后面全完。

  1. 「多頭派」(如 VGGT):雖然是一個大模型,但為了輸出不同的任務(深度、位姿、點云),需要掛載不同的解碼頭,結構臃腫。

D4RT 的牛,在于它做到了架構層面的統一。

它不需要為深度單獨做一個解碼器,也不需要為位姿單獨做一個。

它只用同一個接口解決所有問題。


有沒有代價?當然有。

D4RT 的「快」主要體現在推理階段。

在訓練階段,它依然是一個龐然大物。它的編碼器使用了 ViT-g,擁有10 億參數,并且需要在 64 個 TPU 芯片上訓練兩天。

這絕不是普通開發者在自家車庫里能復現的玩具,它是典型的「大廠重武器」。

技術解碼

把 4D 重建變成「搜索引擎」

那么,D4RT 到底是怎么做到的?

論文的核心邏輯可以用一句話概括:先全局「閱讀」視頻,再按需「搜索」答案。

不再逐幀解碼,而是「全局記憶」

傳統的視頻處理往往是線性的,處理第 10 幀時可能已經「忘」了第 1 幀的細節。

D4RT 的第一步是使用一個巨大的 Transformer 編碼器(Encoder),把整段視頻壓縮成一個全局場景表征(Global Scene Representation, F)。

你可以把這個F想象成 AI 對這段視頻形成的「長期記憶」。

一旦這個記憶生成了,原本龐大的視頻數據就被濃縮在了這里。

「哪里不會點哪里」的查詢機制

這是 D4RT 最天才的設計。它發明了一種通用的查詢(Query)語言。

當 AI 想要知道某個像素的信息時,它會向解碼器(Decoder)發送一個查詢 q:

這個公式翻譯成人話就是:

請告訴我:在這一幀圖像上坐標為的那個點,它在這個時間時刻,如果從這個相機的視角看過去,它的 3D 坐標在哪里?」

  • 如果你想生成深度圖:就問「現在這個點在現在的相機里多遠?」(讓 )。

  • 如果你想做軌跡追蹤:就問「這個點在第 1 幀、第 2 幀……第 N 幀都在哪?」(固定 ,改變 )。


  • 如果你想重建點云:就問「視頻里所有點在同一時刻的世界坐標在哪?」(把所有點都映射到同一個 )。


并行計算的藝術

因為每一個查詢(Query)都是獨立的,D4RT 不需要像穿針引線一樣按順序計算。

它可以一次性扔出幾萬個問題,利用 GPU/TPU 的并行能力同時算出答案。

這就是為什么它能比別人快 300 倍的根本原因:它把一個復雜的串行幾何問題,變成了一個大規模并行的搜索問題。

關鍵的「作弊」技巧:9x9 Patch

論文作者還發現了一個有趣的細節:如果只告訴解碼器坐標點,AI 有時候會「臉盲」,分不清紋理相似的區域。

于是,他們在查詢時順便把那個像素點周圍9x9的小方塊圖像(RGB Patch)也喂給了模型。


這就像是你讓人在人群中找人,光給個坐標不行,還得給他一張那個人臉部的特寫照片。

消融實驗證明,這個小小的設計極大地提升了重建的銳度和細節。


產業影響

谷歌的野心與具身智能的眼睛

D4RT 的出現,對谷歌現有的業務版圖和未來的 AI 戰略有著極強的互補性。

具身智能與自動駕駛的最后一塊拼圖

現在的機器人之所以笨,很大程度上是因為它們「看不懂」動態環境。

一個掃地機器人能避開沙發,但很難預判一只正在跑過來的貓。

D4RT 提供的實時、密集、動態的 4D 感知,正是機器人急需的技能。

它能讓機器人理解:那個東西不僅現在在那里,而且下一秒它會出現在我左邊。

對于自動駕駛而言,這種對動態物體(如行人、車輛)的像素級軌跡預測,是提升安全性的關鍵。

增強現實(AR)的基石

谷歌一直在 AR 領域尋找突破口(從當年的谷歌眼鏡,到現在的 Project Astra)。

要在眼鏡端實現逼真的 AR,必須要有極低延遲的場景理解。

D4RT 展示的高效推理能力(尤其是在移動端芯片上的潛力),讓「實時把虛擬怪獸藏在真實沙發后面」變得在工程上可行。

對普通人的影響

視頻編輯的「魔法化」

對于普通用戶,這項技術最快落地的場景可能是手機相冊和視頻編輯軟件。

想象一下,你拍了一段孩子踢球的視頻。

有了 D4RT,你可以像在《黑客帝國》里一樣,在視頻播放過程中隨意旋轉視角(盡管你拍攝時并沒有移動),或者輕易地把路人從復雜的背景中「扣」掉,甚至改變視頻中光源的方向。

這是 D4RT 這種 4D 重建技術成熟后的應用之一。

結語

D4RT 讓我們看到了一種新的可能性:AI 對世界的理解,正在從二維的「圖像識別」跨越到四維的「時空洞察」。

它告訴我們,要看清這個流動的世界,關鍵不在于每一幀都看得多仔細,而在于如何建立一個能夠隨時回應疑問的全局記憶。

AI的眼中,過去并沒有消逝,未來也不再不可捉摸,它們只是同一個四維坐標系里,等待被查詢的兩個不同參數而已。

參考資料:

https://d4rt-paper.github.io/

https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

https://storage.googleapis.com/d4rt_assets/D4RT_paper.pdf

為偉大思想而生!

AI+時代,互聯網思想(wanging0123),

第一必讀自媒體

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
繼續破紀錄,72小時訂單超10萬:比亞迪大唐這次會動M9的蛋糕嗎?

繼續破紀錄,72小時訂單超10萬:比亞迪大唐這次會動M9的蛋糕嗎?

藍色海邊
2026-04-28 14:24:53
刻不容緩!中央政治局定調,釋放大信號!看清大局,中國全面出手!

刻不容緩!中央政治局定調,釋放大信號!看清大局,中國全面出手!

互聯網思想
2026-04-28 23:24:38
美股三大指數集體收跌,道指跌0.06%,納指跌0.9%,標普500指數跌0.49%,熱門科技股多數下跌,博通跌超4%,英偉達跌超1%。

美股三大指數集體收跌,道指跌0.06%,納指跌0.9%,標普500指數跌0.49%,熱門科技股多數下跌,博通跌超4%,英偉達跌超1%。

財聯社
2026-04-29 04:08:08
夏洛特公主長相絕了!有戴妃的甜美,凱特的凌厲,也有女王的霸氣

夏洛特公主長相絕了!有戴妃的甜美,凱特的凌厲,也有女王的霸氣

小魚愛魚樂
2026-04-28 09:28:11
斯諾克賽程:趙心童2次出場對陣墨菲,吳宜澤先戰8局,世界冠軍PK

斯諾克賽程:趙心童2次出場對陣墨菲,吳宜澤先戰8局,世界冠軍PK

劉姚堯的文字城堡
2026-04-28 09:37:20
美股收盤:OpenAI相關股票承壓 三大指數集體下跌

美股收盤:OpenAI相關股票承壓 三大指數集體下跌

財聯社
2026-04-29 05:39:18
陳思誠找小21歲阮巨不是瞎了眼:他比誰都精,要的是情緒穩定

陳思誠找小21歲阮巨不是瞎了眼:他比誰都精,要的是情緒穩定

小貓娛樂叭叭
2026-04-27 20:42:52
溫州民商銀行9.9%股權易主,浙商大佬仇建平輾轉入局

溫州民商銀行9.9%股權易主,浙商大佬仇建平輾轉入局

達摩財經
2026-04-26 09:32:45
美聯合10國對中國發起猛攻,中方不隔夜強力反制

美聯合10國對中國發起猛攻,中方不隔夜強力反制

至今
2026-04-29 03:03:01
砸進六個師,談判桌都不給!鐵了心的以色列,真主黨在劫難逃嗎?

砸進六個師,談判桌都不給!鐵了心的以色列,真主黨在劫難逃嗎?

寰球經緯所
2026-04-27 23:35:08
5月1日正式開刀!3萬就立案,所有打工人都要警惕

5月1日正式開刀!3萬就立案,所有打工人都要警惕

洞見小能手
2026-04-27 21:17:44
1976年,江青被捕入獄后,兩個人趁著深夜去看她,江青丑態畢露

1976年,江青被捕入獄后,兩個人趁著深夜去看她,江青丑態畢露

兵鑒史
2026-04-29 03:01:16
下課!曝張慶鵬無緣率隊進季后賽將卸任北控主帥 僅執教一季

下課!曝張慶鵬無緣率隊進季后賽將卸任北控主帥 僅執教一季

醉臥浮生
2026-04-28 21:15:10
驚掉下巴!39 歲鄭欣宜暴瘦現身,整張臉瘦脫形,差點沒認出來

驚掉下巴!39 歲鄭欣宜暴瘦現身,整張臉瘦脫形,差點沒認出來

橙星文娛
2026-04-28 09:29:00
南京二級高級警長李才玉案2026年5月9日開庭

南京二級高級警長李才玉案2026年5月9日開庭

安志軍律師
2026-04-28 19:00:40
泡泡瑪特推出Labubu冰箱,售價5999元,上千人預約

泡泡瑪特推出Labubu冰箱,售價5999元,上千人預約

大象新聞
2026-04-26 13:01:02
云南“14歲男生奸殺同班女生”被判無期,受害人家屬將申請抗訴

云南“14歲男生奸殺同班女生”被判無期,受害人家屬將申請抗訴

新京報
2026-04-28 19:36:18
阿sa蔡卓妍宣布結婚,阿嬌鐘欣潼發文祝福:很開心你等到了那個合拍又珍視你的人,看著你被愛意包裹,滿心滿眼都是溫柔幸福,真的好欣慰

阿sa蔡卓妍宣布結婚,阿嬌鐘欣潼發文祝福:很開心你等到了那個合拍又珍視你的人,看著你被愛意包裹,滿心滿眼都是溫柔幸福,真的好欣慰

極目新聞
2026-04-28 13:14:42
放話了,太陽隊老板在球隊被雷霆隊首輪橫掃后稱已開始籌劃下一步

放話了,太陽隊老板在球隊被雷霆隊首輪橫掃后稱已開始籌劃下一步

好火子
2026-04-29 00:26:37
比披絲巾更可怕的是“瑜伽褲外穿”,廉價又卡襠,三角區更尷尬

比披絲巾更可怕的是“瑜伽褲外穿”,廉價又卡襠,三角區更尷尬

生命之泉的奧秘
2026-03-20 03:56:49
2026-04-29 06:27:00
互聯網思想 incentive-icons
互聯網思想
AI時代,互聯網思想觀察
2434文章數 16907關注度
往期回顧 全部

科技要聞

10億周活目標落空!傳OpenAI爆發內部分歧

頭條要聞

美國:對35個伊朗相關實體及個人實施制裁

頭條要聞

美國:對35個伊朗相關實體及個人實施制裁

體育要聞

魔術黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結婚,老公比她小10歲

財經要聞

中央政治局會議定調,八大看點速覽!

汽車要聞

拒絕瘋狂套娃!現代艾尼氪金星長在未來審美點上

態度原創

游戲
藝術
本地
親子
手機

這不爽翻了?曝PS6或能穩穩運行60幀+光追的游戲畫面

藝術要聞

趙樸初:比風水厲害100倍的宇宙定律

本地新聞

用青花瓷的方式,打開西溪濕地

親子要聞

拍這期視頻時眼淚止不住地流

手機要聞

三星裸眼3D屏來了,廣告牌能“跳”出來

無障礙瀏覽 進入關懷版