網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

徹底顛覆！谷歌4D世界模型來了，比SOTA快300倍！

2026-01-24 21:45:24　來源: 互聯網思想

廣東舉報

0

分享至

來源：新智元

【導讀】谷歌 DeepMind 發布 D4RT，徹底顛覆了動態 4D 重建范式。它拋棄了復雜的傳統流水線，用一個統一的「時空查詢」接口，同時搞定全像素追蹤、深度估計與相機位姿。不僅精度屠榜，速度更比現有 SOTA 快出 300 倍。這是具身智能與自動駕駛以及 AR 的新基石，AI 終于能像人類一樣，實時看懂這個流動的世界。

如果是幾年前，你問一位計算機視覺工程師：「我想把這段視頻里的所有東西——無論它是靜止的房子還是奔跑的狗——都在 3D 世界里重建出來，并且還能隨時知道它們下一秒會去哪兒，需要多久？」

他大概會遞給你一根煙，讓你先去買幾塊頂級顯卡，然后給你畫一個由四五個不同模型拼湊起來的流程圖：先算光流，再算深度，再估相機位姿，最后還得用一晚上的時間去跑優化，祈禱結果別崩。

但谷歌 DeepMind 剛剛發布的D4RT（Dynamic 4D Reconstruction and Tracking），試圖終結這種混亂。

這篇論文在計算機視覺領域扔下了一枚關于「效率革命」的重磅炸彈。

它把原本割裂的 3D 重建、相機追蹤、動態物體捕捉，統一成了一個極簡的「查詢」動作。

更重要的是，它的速度比現有SOTA技術快了 18 到 300 倍。

如果在你的認知里，高質量的 4D 重建還是好萊塢特效工作室里那些昂貴且緩慢的渲染農場，耗費漫長的時間等待生成完畢，那么 D4RT 正在把這種能力變成一種可以塞進機器人大腦甚至 AR 眼鏡里的實時直覺。

Demo 演示

為了理解 D4RT 到底做到了什么，我們需要先看一眼它眼中的世界。

在論文展示的演示中，最直觀的震撼來自于對「動態混亂」的駕馭能力。

想象一下這個畫面：一只天鵝在水面上劃過，或者一朵花在風中快速綻放。

傳統的 3D 重建算法（比如 MegaSaM 或）處理這種場景通常是一場災難——因為它們假設世界是靜止的，所以它們往往會在 3D 空間里留下一串「重影」，就像老式膠片重疊曝光一樣，天鵝變成了長著幾十個脖子的怪物，或者花朵直接變成了一團無法辨認的噪點。

但 D4RT 給出的結果極其干凈。

它不僅可以精準還原天鵝的 3D 形態，還完美剝離了相機的運動和天鵝自身的運動。

在它的視野里，時間變成了一個可以隨意拖動的滑塊。

更令人印象深刻的是它的全像素追蹤能力。

你可以點擊視頻中花瓣上的任意一個像素，D4RT 就能畫出這個點在過去和未來的完整 3D 軌跡，哪怕這個點在中間幾幀被蜜蜂遮擋了，或者跑到了畫面之外，模型依然能根據上下文「腦補」出它的去向。

這種視覺效果給人的感覺是：AI 不再是在一幀幀地「看」視頻，而是把整段視頻吞下去，在大腦里生成了一個完整的、流動的全息全景圖，然后你可以隨意從任何角度、任何時間去檢視它。

模型能力對比圖

拆解「神話」

是真的快，還是文字游戲？

科技公司發論文，數據通常都很漂亮。

作為觀察者，我們需要剝離 PR 濾鏡，看看數據背后的定語。

谷歌聲稱 D4RT 比之前的 SOTA 快了300 倍，處理一分鐘的視頻只需要 5 秒鐘。

這是真的嗎？

答案是：在特定維度上，是真的。

這里的「300倍」指的是吞吐量，具體來說是「在保持相同幀率（FPS）的前提下，模型能同時追蹤多少條 3D 軌跡」。

數據對比：在 24 FPS 的標準電影幀率下，之前的強者 SpatialTrackerV2 只能同時追蹤84條軌跡，再多就卡了；而 D4RT 可以輕松處理1570條。如果是和 DELTA 這種更慢的模型比，那就是314 倍的差距。

實際意義：這意味著之前的技術可能只能盯著畫面里的主角（比如一個人），而 D4RT 可以同時盯著背景里走動的路人、飄落的樹葉和遠處的車流——即所謂的「全像素級感知」。

它比同類技術強在哪兒？

目前市面上的 4D 重建技術主要分兩派：

「拼裝派」（如 MegaSaM）：把深度估計、光流、分割等多個現成模型串起來。雖然效果不錯，但不僅慢，而且一旦一個環節出錯（比如光流飄了），后面全完。

「多頭派」（如 VGGT）：雖然是一個大模型，但為了輸出不同的任務（深度、位姿、點云），需要掛載不同的解碼頭，結構臃腫。

D4RT 的牛，在于它做到了架構層面的統一。

它不需要為深度單獨做一個解碼器，也不需要為位姿單獨做一個。

它只用同一個接口解決所有問題。

有沒有代價？當然有。

D4RT 的「快」主要體現在推理階段。

在訓練階段，它依然是一個龐然大物。它的編碼器使用了 ViT-g，擁有10 億參數，并且需要在 64 個 TPU 芯片上訓練兩天。

這絕不是普通開發者在自家車庫里能復現的玩具，它是典型的「大廠重武器」。

技術解碼

把 4D 重建變成「搜索引擎」

那么，D4RT 到底是怎么做到的？

論文的核心邏輯可以用一句話概括：先全局「閱讀」視頻，再按需「搜索」答案。

不再逐幀解碼，而是「全局記憶」

傳統的視頻處理往往是線性的，處理第 10 幀時可能已經「忘」了第 1 幀的細節。

D4RT 的第一步是使用一個巨大的 Transformer 編碼器（Encoder），把整段視頻壓縮成一個全局場景表征（Global Scene Representation, F）。

你可以把這個F想象成 AI 對這段視頻形成的「長期記憶」。

一旦這個記憶生成了，原本龐大的視頻數據就被濃縮在了這里。

「哪里不會點哪里」的查詢機制

這是 D4RT 最天才的設計。它發明了一種通用的查詢（Query）語言。

當 AI 想要知道某個像素的信息時，它會向解碼器（Decoder）發送一個查詢 q：

這個公式翻譯成人話就是：

「請告訴我：在這一幀圖像上坐標為的那個點，它在這個時間時刻，如果從這個相機的視角看過去，它的 3D 坐標在哪里？」

如果你想生成深度圖：就問「現在這個點在現在的相機里多遠？」（讓）。
如果你想做軌跡追蹤：就問「這個點在第 1 幀、第 2 幀……第 N 幀都在哪？」（固定，改變）。
如果你想重建點云：就問「視頻里所有點在同一時刻的世界坐標在哪？」（把所有點都映射到同一個）。

并行計算的藝術

因為每一個查詢（Query）都是獨立的，D4RT 不需要像穿針引線一樣按順序計算。

它可以一次性扔出幾萬個問題，利用 GPU/TPU 的并行能力同時算出答案。

這就是為什么它能比別人快 300 倍的根本原因：它把一個復雜的串行幾何問題，變成了一個大規模并行的搜索問題。

關鍵的「作弊」技巧：9x9 Patch

論文作者還發現了一個有趣的細節：如果只告訴解碼器坐標點，AI 有時候會「臉盲」，分不清紋理相似的區域。

于是，他們在查詢時順便把那個像素點周圍9x9的小方塊圖像（RGB Patch）也喂給了模型。

這就像是你讓人在人群中找人，光給個坐標不行，還得給他一張那個人臉部的特寫照片。

消融實驗證明，這個小小的設計極大地提升了重建的銳度和細節。

產業影響

谷歌的野心與具身智能的眼睛

D4RT 的出現，對谷歌現有的業務版圖和未來的 AI 戰略有著極強的互補性。

具身智能與自動駕駛的最后一塊拼圖

現在的機器人之所以笨，很大程度上是因為它們「看不懂」動態環境。

一個掃地機器人能避開沙發，但很難預判一只正在跑過來的貓。

D4RT 提供的實時、密集、動態的 4D 感知，正是機器人急需的技能。

它能讓機器人理解：那個東西不僅現在在那里，而且下一秒它會出現在我左邊。

對于自動駕駛而言，這種對動態物體（如行人、車輛）的像素級軌跡預測，是提升安全性的關鍵。

增強現實（AR）的基石

谷歌一直在 AR 領域尋找突破口（從當年的谷歌眼鏡，到現在的 Project Astra）。

要在眼鏡端實現逼真的 AR，必須要有極低延遲的場景理解。

D4RT 展示的高效推理能力（尤其是在移動端芯片上的潛力），讓「實時把虛擬怪獸藏在真實沙發后面」變得在工程上可行。

對普通人的影響

視頻編輯的「魔法化」

對于普通用戶，這項技術最快落地的場景可能是手機相冊和視頻編輯軟件。

想象一下，你拍了一段孩子踢球的視頻。

有了 D4RT，你可以像在《黑客帝國》里一樣，在視頻播放過程中隨意旋轉視角（盡管你拍攝時并沒有移動），或者輕易地把路人從復雜的背景中「扣」掉，甚至改變視頻中光源的方向。

這是 D4RT 這種 4D 重建技術成熟后的應用之一。

結語

D4RT 讓我們看到了一種新的可能性：AI 對世界的理解，正在從二維的「圖像識別」跨越到四維的「時空洞察」。

它告訴我們，要看清這個流動的世界，關鍵不在于每一幀都看得多仔細，而在于如何建立一個能夠隨時回應疑問的全局記憶。

在AI的眼中，過去并沒有消逝，未來也不再不可捉摸，它們只是同一個四維坐標系里，等待被查詢的兩個不同參數而已。

參考資料：

https://d4rt-paper.github.io/

https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

https://storage.googleapis.com/d4rt_assets/D4RT_paper.pdf

為偉大思想而生！

AI+時代，互聯網思想（wanging0123)，

第一必讀自媒體

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

辭任杭州市市長后，姚高員已任浙江省政府黨組成員

澎湃新聞 2026-04-28 14:24:00
159 跟貼 159
網傳深圳東部華僑城結業、閉園？最新回應：不實

魯中晨報 2026-04-28 17:08:10
296 跟貼 296

南都報道后，區長現場督辦！廣州天河這條路“驚心”變順心

南方都市報 2026-04-28 15:12:23
198 跟貼 198

上海迪士尼回應游客勸阻吸煙被打：園區沒有禁煙；被打男子發聲：對方已賠錢和解

中國新聞周刊 2026-04-27 14:25:00
15229 跟貼 15229
又一省份推動帶薪休假落地

澎湃新聞 2026-04-28 11:11:03
102 跟貼 102

31省份去年常住人口數據公布

第一財經資訊 2026-04-28 18:58:16
733 跟貼 733

4秒58！上海小將趙一程創造新的世界紀錄！

澎湃新聞 2026-04-28 15:13:06
980 跟貼 980
微信緊急公告：立即掛斷，不要回答！

第一財經資訊 2026-04-28 10:33:04
519 跟貼 519

比亞迪：旗下部分車型選裝天神之眼B輔助駕駛激光版的價格將從9900元上調為12000元

界面新聞 2026-04-28 15:38:04
814 跟貼 814
文旅部集中整治景區擺渡車，點名龍虎山、長白山、稻城亞丁等

南方都市報 2026-04-27 16:21:12
2131 跟貼 2131
80多萬買的新房未交房竟成工人臨時宿舍，業主要求減免物業費遭開發商拒絕相關部門介入協調

紅星新聞 2026-04-28 19:46:29
195 跟貼 195
深圳“電雞”治理別只靠勸！專家：人海戰術撐不起長效秩序

南方都市報 2026-04-28 07:00:37
502 跟貼 502
撒貝寧獲全國五一勞動獎章

閃電新聞 2026-04-28 16:25:55
218 跟貼 218
山東景區爭議：1996年前出生算老年人嗎？工作人員回應

南風不及你溫柔 2026-04-29 05:23:23
0 跟貼 0
今年“五一”假期小客車上高速繼續免收通行費

界面新聞 2026-04-28 14:05:28
71 跟貼 71
哲思 | 人生三修：靜心，穩事，柔行

人民論壇 2026-04-28 21:18:06
11 跟貼 11

繼續破紀錄，72小時訂單超10萬：比亞迪大唐這次會動M9的蛋糕嗎？

繼續破紀錄，72小時訂單超10萬：比亞迪大唐這次會動M9的蛋糕嗎？

藍色海邊

2026-04-28 14:24:53

刻不容緩！中央政治局定調，釋放大信號！看清大局，中國全面出手！

刻不容緩！中央政治局定調，釋放大信號！看清大局，中國全面出手！

互聯網思想

2026-04-28 23:24:38

美股三大指數集體收跌，道指跌0.06%，納指跌0.9%，標普500指數跌0.49%，熱門科技股多數下跌，博通跌超4%，英偉達跌超1%。

美股三大指數集體收跌，道指跌0.06%，納指跌0.9%，標普500指數跌0.49%，熱門科技股多數下跌，博通跌超4%，英偉達跌超1%。

財聯社

2026-04-29 04:08:08

夏洛特公主長相絕了！有戴妃的甜美，凱特的凌厲，也有女王的霸氣

夏洛特公主長相絕了！有戴妃的甜美，凱特的凌厲，也有女王的霸氣

小魚愛魚樂

2026-04-28 09:28:11

斯諾克賽程：趙心童2次出場對陣墨菲，吳宜澤先戰8局，世界冠軍PK

斯諾克賽程：趙心童2次出場對陣墨菲，吳宜澤先戰8局，世界冠軍PK

劉姚堯的文字城堡

2026-04-28 09:37:20

美股收盤：OpenAI相關股票承壓三大指數集體下跌

美股收盤：OpenAI相關股票承壓三大指數集體下跌

財聯社

2026-04-29 05:39:18

陳思誠找小21歲阮巨不是瞎了眼：他比誰都精，要的是情緒穩定

陳思誠找小21歲阮巨不是瞎了眼：他比誰都精，要的是情緒穩定

小貓娛樂叭叭

2026-04-27 20:42:52

溫州民商銀行9.9%股權易主，浙商大佬仇建平輾轉入局

溫州民商銀行9.9%股權易主，浙商大佬仇建平輾轉入局

達摩財經

2026-04-26 09:32:45

美聯合10國對中國發起猛攻，中方不隔夜強力反制

美聯合10國對中國發起猛攻，中方不隔夜強力反制

至今

2026-04-29 03:03:01

砸進六個師，談判桌都不給！鐵了心的以色列，真主黨在劫難逃嗎？

砸進六個師，談判桌都不給！鐵了心的以色列，真主黨在劫難逃嗎？

寰球經緯所

2026-04-27 23:35:08

5月1日正式開刀！3萬就立案，所有打工人都要警惕

5月1日正式開刀！3萬就立案，所有打工人都要警惕

洞見小能手

2026-04-27 21:17:44

1976年，江青被捕入獄后，兩個人趁著深夜去看她，江青丑態畢露

1976年，江青被捕入獄后，兩個人趁著深夜去看她，江青丑態畢露

兵鑒史

2026-04-29 03:01:16

下課！曝張慶鵬無緣率隊進季后賽將卸任北控主帥僅執教一季

下課！曝張慶鵬無緣率隊進季后賽將卸任北控主帥僅執教一季

醉臥浮生

2026-04-28 21:15:10

驚掉下巴！39 歲鄭欣宜暴瘦現身，整張臉瘦脫形，差點沒認出來

驚掉下巴！39 歲鄭欣宜暴瘦現身，整張臉瘦脫形，差點沒認出來

橙星文娛

2026-04-28 09:29:00

南京二級高級警長李才玉案2026年5月9日開庭

南京二級高級警長李才玉案2026年5月9日開庭

安志軍律師

2026-04-28 19:00:40

泡泡瑪特推出Labubu冰箱，售價5999元，上千人預約

泡泡瑪特推出Labubu冰箱，售價5999元，上千人預約

大象新聞

2026-04-26 13:01:02

云南“14歲男生奸殺同班女生”被判無期，受害人家屬將申請抗訴

云南“14歲男生奸殺同班女生”被判無期，受害人家屬將申請抗訴

新京報

2026-04-28 19:36:18

阿sa蔡卓妍宣布結婚，阿嬌鐘欣潼發文祝福：很開心你等到了那個合拍又珍視你的人，看著你被愛意包裹，滿心滿眼都是溫柔幸福，真的好欣慰

阿sa蔡卓妍宣布結婚，阿嬌鐘欣潼發文祝福：很開心你等到了那個合拍又珍視你的人，看著你被愛意包裹，滿心滿眼都是溫柔幸福，真的好欣慰

極目新聞

2026-04-28 13:14:42

放話了，太陽隊老板在球隊被雷霆隊首輪橫掃后稱已開始籌劃下一步

放話了，太陽隊老板在球隊被雷霆隊首輪橫掃后稱已開始籌劃下一步

好火子

2026-04-29 00:26:37

比披絲巾更可怕的是“瑜伽褲外穿”，廉價又卡襠，三角區更尷尬

比披絲巾更可怕的是“瑜伽褲外穿”，廉價又卡襠，三角區更尷尬

生命之泉的奧秘

2026-03-20 03:56:49

互聯網思想

AI時代，互聯網思想觀察

2434文章數 16907關注度

往期回顧全部

科技要聞

10億周活目標落空！傳OpenAI爆發內部分歧

頭條要聞

美國：對35個伊朗相關實體及個人實施制裁

頭條要聞

美國：對35個伊朗相關實體及個人實施制裁

體育要聞

魔術黑八活塞，一步之遙？！

娛樂要聞

蔡卓妍官宣結婚，老公比她小10歲

財經要聞

中央政治局會議定調，八大看點速覽！

汽車要聞

拒絕瘋狂套娃！現代艾尼氪金星長在未來審美點上

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

藝術

本地

親子

手機

這不爽翻了?曝PS6或能穩穩運行60幀+光追的游戲畫面

藝術要聞

趙樸初：比風水厲害100倍的宇宙定律

本地新聞

用青花瓷的方式，打開西溪濕地

親子要聞

拍這期視頻時眼淚止不住地流

手機要聞

三星裸眼3D屏來了，廣告牌能“跳”出來

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版