網易首頁 > 網易號 > 正文申請入駐

浙大突破：普通視頻實現4D沉浸式自由漫游空間轉換能力提升突破

2026-04-16 20:25:01　來源: 科技行者

北京舉報

分享至

這項由浙江大學等機構聯合開發的研究成果，以技術報告形式于2026年4月發布在預印本平臺arXiv，編號為arXiv:2604.07209。研究團隊將這套系統命名為INSPATIO-WORLD，旨在將一段普通的參考視頻轉變為一個可以實時自由漫游的動態四維世界。

假設你拍了一段客廳的視頻，現在不僅想從另一個角度看這個房間，還想自由地向前走兩步、向右轉頭看看窗邊的植物，甚至想讓時間快進或倒退——而這一切都在你拍攝的那一刻之后才發生。這正是INSPATIO-WORLD試圖解決的核心問題，也是整個計算機視覺領域長期以來追求的夢想。

一、我們為什么需要一個"活的"視頻世界

普通相機拍出的視頻本質上是時間和空間的一次"快照記錄"：你只能站在那個固定的位置，沿著那個固定的方向，看那段固定時間里發生的事情。想從另一個角度看看？抱歉，那個角度當時沒有攝像機。這就像你參加了一場演唱會，只坐在左側第三排，演出結束后你想回味從舞臺正后方看到的景象，卻發現根本沒有這個視角的錄像。

現有的人工智能視頻生成技術雖然已經能合成極為逼真的短片，但它們在這個問題上卻有三個讓人頭疼的短板。

第一個短板是"空間遺忘癥"。現有的自動生成框架缺乏有效的記憶機制，當你從一個房間的一端走到另一端再回頭時，AI生成的畫面往往已經"忘記"了起點的樣子，墻上的裝飾可能換了顏色，窗戶可能出現在了不該出現的地方，這種現象被研究者稱為空間持久性退化。

第二個短板是"塑料感"。很多AI視頻系統在真實場景數據極其有限的情況下，大量依賴電腦游戲引擎或三維建模軟件生成的合成數據來訓練模型。這些數據雖然幾何結構完美，但光照質感、材質紋理和真實世界存在明顯差異，最終輸出的畫面往往帶有一種奇怪的"塑料光澤"，一眼就能看出是假的。

第三個短板是"控制失靈"。現有模型普遍無法精確執行用戶設定的攝像機路徑。你讓它向左平移一米，它可能斜移了也可能根本沒動，這反映出這些模型在空間幾何推理能力上的根本性缺陷。

INSPATIO-WORLD的整個設計邏輯，就是圍繞這三個短板展開的。

二、核心架構：像大腦一樣同時記憶過去、感知現在、理解空間

研究團隊為INSPATIO-WORLD設計了一套名為"時空自回歸框架"的核心架構，英文縮寫為STAR。理解這個架構，可以把整個生成過程類比成一位經驗豐富的電影布景師在腦海中重建場景的方式。

這位布景師手中有三類信息可以參考。第一類是"原始劇本"，也就是參考視頻里的那些關鍵幀畫面，它們記錄了真實場景的樣子，是一切重建工作的"出發點"和最終的"對標材料"。第二類是"施工記錄"，也就是之前已經生成好的那些視頻幀，它們告訴布景師自己剛才走到了哪里、方才的畫面是什么樣的，用來保證運動的連續性和邏輯的合理性。第三類是"建筑藍圖"，也就是從參考視頻中提取出來的三維幾何信息，包括深度圖（每個像素距離攝像機有多遠）和相機內參（相當于鏡頭的焦距和視角），這些信息讓布景師知道空間中每一塊磚瓦的精確位置。

每次需要生成一個新的視頻片段時，系統會把用戶的操作指令（比如"向前走"或"向左轉"）轉換成一個精確的六自由度相機姿態變換，通俗來說就是告訴系統"攝像機現在應該在空間中的哪個位置、朝向哪個方向"。然后系統會用這個姿態信息將參考視頻中的特征"重新投影"到新視角下，生成一張"幾何對齊的預覽圖"，同時附上一張"有效像素掩碼"來標注哪些區域是真實可見的、哪些是被遮擋需要AI補全的。這三類信息被同時送入一個基于Transformer架構的擴散模型（可以把它理解為一個極強的"畫面補全引擎"），最終生成既符合幾何結構、又有高度視覺真實性的新視角畫面。

三、時空緩存機制：永遠不會"忘路之遠近"的記憶系統

現有的自回歸視頻生成系統有一個根本性的問題：隨著生成長度的增加，系統對早期內容的記憶會逐漸退化，就像一個長途跋涉的旅人走得越遠、越記不清自己從哪里出發。INSPATIO-WORLD用"時空緩存機制"來解決這個問題，本質上是為系統設計了一套"短期工作記憶加長期空間錨點"的雙重記憶體系。

短期工作記憶負責處理運動的連續性。系統始終保留最近生成的那一批幀（用滑動窗口的方式組織），確保從上一個鏡頭到當前鏡頭的過渡自然流暢，不會出現突兀的跳變。

長期空間錨點則負責處理場景的一致性。每次生成新內容時，系統會從原始參考視頻中實時檢索對應的參考幀，將其注入到生成過程中作為"全局空間坐標原點"。這就好比你在一棟大樓里四處參觀，手里始終拿著一張建筑平面圖，不管走到哪個房間，你都能在平面圖上找到自己的位置，也能據此判斷其他房間應該在哪個方向。

研究團隊還發現了一個微妙但重要的技術問題：現有Transformer模型使用一種叫做"旋轉位置編碼"的機制來理解序列中各個元素的位置關系，但當生成序列變得非常長時，新生成內容的位置編號會不斷增大，超出模型在訓練時見過的范圍，導致它開始"不知道自己在哪"。INSPATIO-WORLD采用了一種"位置索引錨定"策略，將當前待生成塊、參考幀和歷史幀的起始位置索引都固定在同一個絕對坐標原點上，讓模型始終在一個穩定的表示空間內工作，徹底解決了長序列推斷時的數值不穩定問題。

四、幾何約束機制：給AI配一把精密測量尺

純靠記憶和直覺是不夠的，還需要精確的測量工具。INSPATIO-WORLD的"幾何感知顯式約束"模塊，扮演的正是這把精密測量尺的角色。

當用戶按下"向前移動"的鍵時，系統做的不是模糊地"生成一個看起來前進了的畫面"，而是執行一套嚴格的三維幾何計算流程。系統會調用前饋重建方法（一類可以從單張圖像快速估計三維結構的技術，包括深度估計和相機參數恢復）從參考視頻中提取出場景的三維點云，然后根據精確計算出來的新相機姿態將這些三維點重新投影到新視角的二維畫面上，得到一張帶有真實幾何結構的"骨架圖"，同時生成一張二值掩碼標注出哪些像素是有效投影、哪些是因遮擋或視野外而無法投影的空白區域。

這張骨架圖和掩碼就像是建筑工人拿到的施工圖紙，AI不再需要憑空猜測新視角下門應該在哪里、柱子應該多粗，因為幾何結構已經被明確給定了，AI只需要負責"涂色"——填充真實的紋理、光照和細節。

更進一步，INSPATIO-WORLD還支持一種"可選的顯式結構記憶"模式：系統可以把每次生成的視頻內容重建為三維點云，并動態擴展一張整體的場景點云地圖。這相當于給AI配備了一個隨時更新的三維地圖，讓它在探索未知區域時也有空間結構可以參考。

五、多條件因果初始化：教會AI正確理解"先有雞還是先有蛋"

在自回歸視頻生成領域，初始化策略的好壞直接決定了后續生成的質量。一種主流方法（以CausVid為代表）是用因果注意力掩碼來強制模型遵循"當前幀只能參考之前幀"的生成順序，但這種方法有一個根本缺陷：當模型需要同時考慮歷史幀、參考圖像和幾何約束這三類截然不同的輸入時，簡單的因果掩碼根本無法準確描述這些信號之間復雜的依賴關系，強行使用往往導致生成質量不理想。

INSPATIO-WORLD提出了"多條件因果初始化"策略。這個策略的核心思路是：與其一開始就讓模型進入"快速生成"模式，不如先讓它在真實數據或教師模型的軌跡上做充分的"多步預演"，確保模型在初始階段就建立起與各類輸入條件之間準確的關聯理解。等到模型對"如何響應參考視頻"、"如何響應幾何約束"、"如何銜接歷史幀"都形成了穩固的認知之后，再進入蒸餾階段（即加速生成階段），讓模型專注于提升速度和細節精度。

還有一個設計細節值得關注：通過通道拼接方式注入的幾何約束信息，被限制為只作用于當前正在生成的視頻塊，歷史幀對應的通道則用零填充。這個設計防止了過去的幾何信號污染歷史緩存，確保緩存里保存的始終是純粹的圖像信息，從而保證了整個時空自回歸過程的邏輯完整性。

六、聯合分布匹配蒸餾：讓AI同時向兩位老師學習

解決了架構問題，還剩下那個頑固的"塑料感"問題——大量使用合成數據訓練出來的模型，生成的畫面總是缺少真實世界的那種光影質感和材質細節。

INSPATIO-WORLD提出了一種叫做"聯合分布匹配蒸餾"（JDMD）的訓練策略來解決這個問題。要理解這個機制，可以參考這樣一個場景：有個學徒需要同時向兩位師父學習。師父甲是位精通測量和工程規范的建筑師，專門教徒弟如何按照精確的圖紙施工，確保房子的結構毫厘不差——這對應著以合成數據訓練的"運動控制教師模型"，它能教模型如何精確地遵循相機軌跡。師父乙是位審美極高的室內設計大師，專門教徒弟如何讓空間在視覺上顯得真實、溫暖、有質感——這對應著原始的Wan2.1文本生成視頻基礎模型，它是在海量真實世界視頻上預訓練的，對真實視覺分布有深刻的"直覺"。

在訓練過程中，這兩個任務交替激活、共享模型權重。當執行"可控視頻重渲染"任務（即給定參考視頻和幾何信息，生成新視角視頻）時，從合成數據教師那里獲得的梯度指導模型精確控制運動；當執行"文本生成視頻"任務時，從真實數據教師那里獲得的梯度指導模型校準視覺分布，提升紋理和光照的真實感。

這個機制之所以有效，關鍵在于兩個任務的輸入結構截然不同，因此梯度方向不會相互干擾：運動控制的優化不會破壞視覺保真度的優化，反之亦然。通過這種"雙師共訓"，INSPATIO-WORLD最終實現了控制精度和視覺質量的雙重保障。

從工程實現角度，研究團隊還設計了一種"分塊反向傳播"策略來解決訓練時的內存瓶頸。現有自回歸擴散模型在計算分布匹配損失時，由于序列長度增加導致內存壓力暴增，往往不得不在KV緩存構建時關閉梯度計算，這使得模型只能被動地擬合特征，限制了生成質量的上限。分塊反向傳播策略將前向推斷和反向優化解耦：第一階段用無梯度模式完整推斷全序列，只保留最終輸出用于計算損失；第二階段逐塊重新執行前向計算并立即觸發反向傳播，每個塊的中間表示在梯度更新后立即釋放。這個"時間換空間"的策略將峰值內存占用壓縮到單個塊的規模，同時保證了全鏈路的可微性。

七、實驗結果：三項任務全面驗證優勢

研究團隊在三個不同的評測任務上驗證了INSPATIO-WORLD的能力，覆蓋了世界模型評測、長期視頻生成和相機控制視頻重渲染三個維度。

在WorldScore-Dynamic基準測試上，INSPATIO-WORLD以1.3B參數量在所有實時或交互式方法中排名第一，運動平滑度得分達到71.91，相機控制精度得分達到81.51，光度質量得分達到93.00。對比數據尤為說明問題：同為實時交互方法的TeleWorld雖然在3D一致性上得分略高（87.35對84.18），但相機控制精度（76.58對81.51）和光度質量（88.82對93.00）均明顯落后于INSPATIO-WORLD。而那些不支持實時交互的重量級模型，如FantasyWorld-1.0（71.39的總體動態得分，采用非實時模式），則在整體動態得分上略高于INSPATIO-WORLD（68.72），但其計算代價遠超后者。

在RE10K長視頻生成任務中，研究團隊從RealEstate10K數據集中隨機選取了100段超過150幀的序列進行評測。INSPATIO-WORLD取得了42.68的FID（衡量單幀圖像質量與真實數據的分布差距，越低越好）和100.55的FVD（衡量視頻時序質量，越低越好），顯著領先于排名第二的LingBot-World（64.84和173.02）。在相機運動精度上，INSPATIO-WORLD的軌跡誤差（旋轉誤差2.8762，平移誤差0.1398）相比LingBot-World（11.981和0.2064）有壓倒性的優勢，體現了精確幾何約束帶來的控制精度提升。

在相機控制視頻重渲染任務上，系統在真實的OpenVid數據集和合成的Blender數據集上均表現出色。在Blender數據集上，FID降至44.46，FVD降至110.11，與NeoVerse相比（FID 103.23，FVD 230.87）有大幅提升。在OpenVid數據集上，綜合視頻質量得分（VBench六項指標均值）達到0.8507，在所有對比方法中排名第一，且相機控制精度（旋轉誤差1.6000，平移誤差0.1240）與NeoVerse（1.5780和0.1340）持平，實現了視覺質量和控制精度的同步領先。

從定性比較來看，對比實驗中的基線方法各有不同的失敗模式：Infinite-World隨著生成序列增長出現嚴重的結構變形和幾何扭曲；HY-WorldPlay缺乏穩定的運動控制，經常退化成靜態幀重復；LingBot-World雖然單幀質量尚可，但因相機姿態估計不準確而無法精確跟隨預設軌跡。INSPATIO-WORLD則在整個長序列中始終保持了幾何完整性和精確的相機控制。

八、工程實現：如何在普通顯卡上跑出24幀每秒

從研究原型到真正可用的實時系統，工程優化同樣至關重要。

在數據方面，訓練使用了多元化的數據源：包括大規模公開互聯網視頻（如RealEstate10K）、虛幻引擎渲染的合成序列，以及公開的ReCamMaster數據集。每段視頻都會被送入前饋重建模型來提取深度信息，為幾何約束的注入做準備。

訓練分為三個階段。第一階段是教師模型訓練，使用2×10??的學習率，建立穩定的性能基準。第二階段是學生模型初始化階段，沿用相同的學習率，讓學生模型建立起自回歸推斷能力。第三階段是聯合分布匹配蒸餾階段，學生網絡的學習率降至4.0×10??，判別網絡（負責辨別生成質量好壞的子模塊）的學習率設為8.0×10??。

在推斷加速方面，團隊采用了兩項措施：用輕量級的Tiny-VAE替換原有的Wan-VAE（VAE是負責將像素空間壓縮為潛在空間的編解碼器，輕量版雖然精度略有損失，但延遲大幅降低），以及使用PyTorch的圖級編譯優化（torch.compile）減少運行時開銷。最終，搭載1.3B參數版本的INSPATIO-WORLD在專業級H系列NVIDIA GPU上實現了24幀每秒的實時生成，在消費級RTX 4090上也能維持10幀每秒。

九、當前的局限與未來的方向

研究團隊對系統的局限性保持了相當清醒的認識，這一點頗為難得。

目前，INSPATIO-WORLD的空間記憶能力主要依賴于參考視頻提供的原始幾何骨架，對于那些在探索過程中新生成的區域（即超出原始參考視頻覆蓋范圍的新內容），系統缺乏對精細紋理細節的持久記憶能力——它記住了房子的框架，卻可能忘記了新探索到的走廊墻上那幅畫的圖案。

此外，在處理寬角度、全方位視角轉換時，確保動態元素（比如場景中運動的人物或飄動的樹葉）在多視角之間保持時空一致性依然是一個開放性難題。

針對這些局限，研究團隊計劃在未來開發更深層的語義記憶系統，探索幾何結構與高維紋理特征的深度耦合，實現對生成區域更完整的記錄與重建。同時還計劃引入更強的物理先驗約束，讓系統在大規模、高復雜度的動態場景中實現真正意義上的物理正確的閉環仿真。

說到底，INSPATIO-WORLD做的事情可以用一句話概括：把一段平凡的視頻變成一個你可以真正"走進去"的四維世界。這件事聽起來像科幻電影里的情節，但它已經在一塊普通的消費級顯卡上以每秒十幀的速度運行著了。

對于機器人和自動駕駛領域來說，這意味著可以用最低成本從真實世界視頻中生成海量的訓練數據，而不必為每種可能出現的視角都去真實采集。對于游戲和影視行業，這意味著一個新的內容創作范式正在成形。對于普通用戶，或許有一天你手機里的旅游視頻，真的可以讓你在里面重新漫步一遍。

當然，現在的系統還有明顯的短板，360度全方位漫游和動態場景的長期記憶是研究者明確承認的兩道坎。但考慮到這套系統的代碼和模型已經完全開源（可在GitHub上通過inspatio/inspatio-world找到），學術社區接下來會以怎樣的速度填補這些空白，是一個相當值得期待的問題。

有興趣深入了解技術細節的讀者，可以通過arXiv編號2604.07209查閱完整論文。

Q&A

Q1：INSPATIO-WORLD和普通的AI視頻生成有什么區別？

A：普通AI視頻生成是給定文字或圖片后生成一段固定視角的視頻，看完就沒了。INSPATIO-WORLD不同，它能把一段已有的參考視頻變成一個可以實時交互的四維空間，用戶可以通過鍵盤或手柄控制攝像機方向，自由在場景中移動漫游，就像在玩一個以真實視頻為背景的游戲，并且整個過程是實時生成的，消費級顯卡上能跑到每秒10幀。

Q2：INSPATIO-WORLD是怎么解決生成畫面"塑料感"的問題的？

A：核心方法是"聯合分布匹配蒸餾"（JDMD）。系統同時向兩個教師模型學習：一個是用合成數據訓練的、擅長精確幾何控制的教師，另一個是在海量真實視頻上預訓練的、對真實視覺質感有深度理解的教師。兩個任務共享模型權重但交替激活，真實數據教師的梯度持續校準模型的視覺分布，讓它在生成時自動向真實光照和材質質感靠攏，從而消除合成數據帶來的塑料感。

Q3：INSPATIO-WORLD需要什么硬件才能運行，普通人用得上嗎？

A：系統針對不同硬件提供了不同的運行體驗。搭配專業級H系列NVIDIA GPU可以實現24幀每秒的真正實時運行；在消費級RTX 4090顯卡上也能維持10幀每秒，已經可以用于交互式瀏覽。由于代碼和1.3B參數的模型已經完全開源，技術愛好者可以直接在GitHub上的inspatio/inspatio-world倉庫下載使用，不需要購買商業授權。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.