![]()
新智元報道
編輯:KingHZ
【新智元導讀】谷歌還在閉源守寶,NVIDIA已把Lyra 2.0全開源:35步去噪變4步,2D圖片直出3D高斯潑濺+網格。社交狂歡背后,是對具身AI仿真的巨大潛力——以后造世界,不用再去真實世界采數據了。
AI閉源時代,快要結束了!
你有沒有過這樣的幻想:盯著一張多年前的老照片——也許是你童年住過的老屋,也許是一次難忘旅行中的街角——
在心里默念:「如果能再走進去看一眼就好了。」
在過去,這叫《盜夢空間》。但在2026年的今天,它變成了現實。
就在剛剛,AI圈發生了一場「核爆」:NVIDIA正式發布并100%開源了Lyra 2.0。
你只需要上傳一張普通的2D圖片,鼠標一點,它就能瞬間將其「吹脹」成一個深邃的、可以四處走動、可以回頭張望的3D交互世界。
當谷歌還在把類似的技術(Genie 3)像傳家寶一樣鎖在閉源的保險箱里時,NVIDIA卻把這把「造物主的畫筆」免費扔到了大街上。
![]()
項目地址:https://research.nvidia.com/labs/sil/projects/lyra2/
開源代碼:https://github.com/nv-tlabs/lyra
預印本:https://arxiv.org/abs/2604.13036
這不僅讓社交媒體陷入狂歡,更讓無數開發者在Reddit上驚呼:「這是終結AI視頻環境連續性問題的一大步!」
![]()
但這絕不僅僅是一個讓老照片變立體的炫酷玩具。
在這場看似慷慨的「技術開源」背后,藏著NVIDIA對未來十年物理世界最冷酷的收割邏輯。
到底怎么做到的?
一場優雅的技術暴力
讓我們從頭捋一遍Lyra 2.0的核心邏輯。
輸入:一張圖片。輸出:一個持久的、可探索的3D世界。
聽起來像魔法,但NVIDIA的工程師們把這個過程拆解成了一條極其精密的流水線:
![]()
第一步:圖片變視頻。
Lyra 2.0以Wan 2.1-14B(一個140億參數的擴散Transformer)作為視頻生成的底座。
給它一張圖片和一條攝像機軌跡,它就能生成一段「漫游視頻」——就像你拿著攝像機在場景里走了一圈。
分辨率832×480,標準流程需要35步去噪,蒸餾版本只需4步就能出結果。
第二步:視頻變3D。
生成的視頻幀被送入前饋3D重建模型,直接輸出3D高斯潑濺(3D Gaussian Splatting)和表面網格。
不需要多視角真實數據,不需要漫長的優化迭代——前饋一步到位,高斯點云直接可用。
第三步:3D可交互。
NVIDIA提供了一個交互式GUI,你可以在累積的點云中規劃攝像機路徑,重訪已經探索過的區域,或者勇闖未知之地。
當你移動時,Lyra 2.0實時生成新的場景內容。
最終的3D高斯潑濺和網格模型可以直接導出到物理引擎——包括NVIDIA自家的Isaac Sim——用于機器人導航、物理仿真、具身AI訓練。
一張照片到一個能跑機器人的仿真世界,就這么簡單。
但真正讓Lyra 2.0封神的,不是這條流水線本身——而是它解決了兩個讓所有前輩都頭疼到禿頂的致命問題。
AI 3D世界的兩大噩夢
「空間遺忘」和「時間漂移」
想象你在用AI生成一個大型3D場景。
你從客廳出發,穿過走廊,走進臥室,再回頭看客廳——完蛋了。客廳變了。
沙發換了位置,墻上的畫消失了,窗戶的形狀都不一樣了。
AI「忘記」了它之前生成的東西。這就是空間遺忘(Spatial Forgetting)。
為什么會這樣?因為當前的視頻模型是自回歸生成的,有一個有限的時間上下文窗口。
當攝像機走遠了,早期的幀就從上下文中掉了出去。等你回頭看,模型只能憑空「幻覺」出新的結構,和原來的完全對不上。
還有一個更陰險的問題:時間漂移(Temporal Drifting)。
每一幀的生成都會引入一點點微小的誤差——顏色偏一點,幾何歪一點。
一幀看不出來,十幀看不出來,但幾百幀累積下來,整個場景就像被放進了哈哈鏡,面目全非。
![]()
這兩個問題是所有「長時程3D生成」方法的阿喀琉斯之踵。
之前的方法用3D幾何做條件約束,但生成瑕疵會污染3D幾何,3D幾何又反過來帶偏后續生成,惡性循環;用長上下文窗口硬扛,但攝像機一走遠,錨定幀就失效了。
Lyra 2.0的解法,堪稱教科書級別的工程智慧:
![]()
對付空間遺忘:幾何只做「路由」,不做「渲染」。
Lyra 2.0維護了每一幀的3D幾何信息,但關鍵在于——
這些幾何信息只用來檢索相關的歷史幀并建立密集的空間對應關系,而不是直接拿去渲染或做像素級條件約束。
換句話說,幾何負責「告訴模型應該參考哪些老畫面,以及新畫面和老畫面在空間上怎么對應」,而實際的像素合成還是交給擴散模型的生成先驗來完成。
這就像給模型裝了一個「空間記憶GPS」,它永遠知道自己走過哪里、看過什么,但不會被歷史殘留的渲染錯誤帶偏。
對付時間漂移:讓模型「吃自己的苦果」學會糾錯。
NVIDIA提出了一種「自增強訓練」策略。
在訓練時,不總是給模型完美的真實幀作為歷史條件,而是故意用模型自己一步去噪后的(帶退化的)輸出來替代。
這樣在訓練中,模型就已經見識過了「自己犯的錯」,學會了「看到漂移就糾正」而不是「看到漂移就繼續漂」。
這種以毒攻毒的策略,直接縮小了訓練和推理之間的分布差距。
兩招組合拳打下來,Lyra 2.0實現了遠超前輩的長時程3D一致性——場景可以無限延展、自由回訪,而且不會「轉身就忘」。
![]()
實測數據:全面碾壓
說得再好聽不如看數據。
在DL3DV和Tanks and Temples兩個經典基準上,Lyra 2.0的表現用「降維打擊」來形容毫不過分。
更關鍵的是和基線方法的對比。
Lyra 2.0的兩個變體——搭配DAv3重建模型和完整版——在LPIPS-G、FID和主觀質量評分上全面超越所有基線方法。
![]()
和Lyra 1.0相比,2.0的進化是質的飛躍:
1.0的局限:2025年9月發布的Lyra 1.0已經很強了——它首創了「視頻擴散模型自蒸餾」的范式,用單張圖片生成3D高斯場景,發表在ICLR 2026上。但它只能處理短視頻、小范圍場景,做不了長時程探索。
2.0的突破:從「短視頻3D重建」躍升到「大規模持久世界生成」。抗遺忘、抗漂移兩大機制,讓它能處理包含大幅視角變化和位置重訪的長攝像機軌跡——這在1.0時代是不可能的任務。
底座升級:視頻生成底座從1.0的Cosmos換到了2.0的Wan 2.1-14B,視覺保真度和生成能力都上了一個臺階。重建模型也做了針對生成數據的微調,對AI生成內容中常見的小型幾何不一致具有更強的魯棒性。
消融實驗進一步驗證了每項技術的貢獻:
去掉抗遺忘機制,回訪區域出現嚴重幻覺;
去掉自增強訓練,長軌跡上的漂移肉眼可見;
兩項聯合使用才能得到最佳結果。
![]()
高維視角
3D世界模型的「智能困境」
我們也需要冷靜地看到,無論是Lyra 2.0還是Genie 3,AI生成3D世界這件事目前都還面臨一個深層困境——前沿智能的天花板。
什么意思?
當前的3D世界生成,本質上是在「視覺保真度」這個維度上瘋狂內卷。
場景越來越逼真,幾何越來越精確,一致性越來越好。
但這些生成出來的世界,本質上還是「死」的——它們沒有物理規律的深層理解,沒有因果推理,沒有對「這個世界為什么是這樣」的認知。
Genie 3號稱有「涌現物理」,但它的物理一致性只能維持幾分鐘,復雜場景下很快就會出現違反常識的行為。
Lyra 2.0生成的3D資產非常精美,但它本質上是「記憶+補全」——用空間記憶防止遺忘,用自增強防止漂移,但并不真正「理解」場景的物理結構。
真正的3D世界模型,應該能夠:
理解因果關系:推倒一面墻,隔壁房間會暴露出來;
遵循物理定律:水往低處流,球會彈跳;
保持語義一致性:廚房里不會突然冒出一架鋼琴。
這需要的不僅僅是更大的模型、更多的訓練數據,而是AI在世界建模能力上的根本性突破——從「統計模式匹配」走向「因果世界理解」。
目前來看,視頻擴散模型作為3D世界生成的底座,已經展現出了驚人的視覺想象力和局部3D一致性。
但要從「好看的3D場景」跨越到「真正可信的世界模擬」,還有一段很長的路要走。
這可能也是為什么NVIDIA選擇開源的原因之一——單打獨斗到不了那個未來,但全世界的開發者一起搞,也許可以。
最后,NVIDIA還展示了交互式GUI、Isaac Sim仿真導出、表面網格提取等一系列實用功能。
![]()
翻譯成人話就是:以后AI造世界,人不用去世界里采數據了。
AI不再只是畫畫、寫詩、編代碼的工具。它正在成為一個世界建造者。
而NVIDIA剛剛把造世界的鑰匙,交給了所有人。
參考資料:
https://research.nvidia.com/labs/sil/projects/lyra2/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.