網易首頁 > 網易號 > 正文申請入駐

延世大學與英偉達聯手：視頻AI的物理幻覺是被"過度加工"害的

2026-06-12 17:18:10　來源: 科技行者

北京舉報

分享至

這項由韓國延世大學人工智能系與計算機科學系，聯合英偉達臺灣團隊共同完成的研究，發表于2026年第43屆國際機器學習大會（ICML 2026），論文編號為arXiv:2606.06361，有興趣深入了解的讀者可通過該編號查詢完整原文。

你有沒有遇到過這樣的情形：用AI生成一段視頻，里面的球不是按照重力往下落，而是莫名其妙地飄起來，或者一個物體突然憑空消失，又或者液體往上倒流？這類現象在AI視頻生成領域有個專業名字，叫做"物理幻覺"。簡單說就是，AI畫出來的東西雖然漂亮，但違反了真實世界的物理規律。這項研究就是專門為了解決這個問題而生的。

研究團隊提出了一個令人意想不到的核心發現：當你讓AI只走兩步就生成視頻時，得到的畫面雖然模糊粗糙，但里面物體的運動軌跡往往比走完整整五十步生成的高清視頻更符合物理規律。這就好比一個畫家，快速勾勒的草稿反而比精心修改幾十遍的成品更準確地捕捉到了物體的動態。基于這個發現，研究團隊開發了一套名為"PhaseLock"的方法，能在不額外訓練AI、不引入外部物理引擎的情況下，讓AI生成的視頻在視覺質量幾乎不打折的前提下，物理一致性平均提升6.2分。

一、一個反直覺的發現：越精細越不物理

要理解這項研究的核心，先得明白AI是怎樣生成視頻的。現代的視頻生成AI，核心機制叫做"擴散模型"。你可以把它想象成一個倒放的沙漏過程——一開始，AI拿到的是一團純粹的隨機噪聲，就像電視機沒有信號時的雪花屏，然后一步一步地去掉噪聲，逐漸"顯影"出一段有意義的視頻。每走一步，畫面就清晰一點，細節就多一點。通常，AI走完五十步才算完成一段高質量視頻。

研究團隊做了一個有趣的對比實驗：讓同一個AI用同樣的起點，一次只走兩步就停下來，另一次走完全部五十步。兩段視頻拿來比較，走兩步的畫面模糊、缺乏細節，就像一張焦距沒對準的照片；走五十步的則清晰精美，色彩豐富。但當研究人員用一套專門評估物理合理性的標準（叫做Physics-IQ，這是一個通過比較生成視頻與真實物理實驗視頻的運動軌跡來打分的測試）來衡量時，震驚的結果出現了：兩步版本的物理評分是34.02分，五十步版本卻只有30.82分。走得越多，越不物理。

為了直觀理解這個差異，研究團隊使用了一種叫做"時空切片"的可視化技術。具體做法是，在視頻幀上畫一條橫線，然后把每一幀這條線上的像素豎著拼起來，就得到一張能同時看到空間位置和時間變化的圖。一個球在重力下落時，在這張圖上會呈現出一條平滑的向下傾斜曲線。結果發現，兩步版本的曲線和真實拍攝的視頻幾乎一模一樣；而五十步版本的曲線則出現了奇怪的折返，球竟然在中途往反方向運動。

二、幕后真兇：頻率世界里的"相位侵蝕"

發現了這個現象之后，研究團隊開始追問：為什么會這樣？答案藏在信號處理的世界里。

任何一個圖像或視頻，都可以被分解成兩種信息。用傅里葉變換這把"數學解剖刀"把一段視頻切開，你會得到"幅度"和"相位"兩個部分。幅度描述的是每種顏色、每種亮度出現的多少，就像一首歌里各種音調的音量大小，決定了畫面看起來是亮還是暗、是鮮艷還是灰暗，本質上是外觀信息。相位描述的則是這些信息的位置關系和結構，就像樂譜里每個音符出現的時間順序，決定了物體在哪里、在向哪里運動，是結構和運動信息。

研究團隊分析了AI在逐步去噪過程中，幅度和相位各自發生了什么變化。他們用"相位一致性"（測量生成視頻的相位與真實視頻的相位有多吻合）和"幅度相關性"（同理測量幅度的吻合程度）來量化。結果非常清晰：從第二步到第五十步，幅度相關性幾乎沒有變化，只降低了約2到3%；但相位一致性卻暴跌了大約18%。也就是說，隨著AI不斷精修視頻，外觀越來越好看，但描述物體運動軌跡的結構信息卻大量流失了。

為了排除一個可能的質疑——兩步版本的圖像很模糊，會不會是模糊本身導致相位看起來更"純凈"——研究團隊做了一個精巧的驗證實驗。他們對所有視頻都施加不同程度的高斯模糊（一種讓圖像變模糊的技術），強行消除了清晰度的差異，然后再比較相位的時間變化規律。即便在施加了最強程度的模糊之后，兩步版本的相位時序規律與真實視頻的相關性仍然是五十步版本的3.6倍。這說明，兩步版本之所以相位更準確，不是因為它模糊，而是因為它確實保留了更真實的運動結構。

研究團隊還做了另一組更直接的因果實驗：取一段真實拍攝的視頻，分別對其相位和幅度單獨注入50%的隨機噪聲，然后用光流估計工具（一種測量畫面中物體實際移動了多少像素的技術）來衡量運動軌跡的破壞程度。破壞相位之后，運動軌跡的平均誤差是9.74像素；而破壞幅度之后，誤差只有1.14像素。兩者相差了8.5倍。這個實驗明確證明，相位是運動信息的真正載體，幅度則主要影響外觀。

至于為什么AI在精修過程中相位會優先降解，研究團隊給出了一個理論解釋。大多數視頻AI在訓練時使用的是均方誤差這類損失函數——通俗說就是"預測值和真實值哪里不一樣，就罰哪里"。然而，從頻率的角度來看，相位誤差對最終損失的貢獻取決于該頻率上的幅度大小。在那些幅度本來就很小的高頻區域，哪怕相位差得離譜，對總損失的影響也微乎其微，AI在訓練時就幾乎學不到如何修正這里的相位。而物體的運動軌跡恰恰常常體現在這些不起眼的、幅度微小的區域里。長此以往，AI就形成了一個內在的不對稱性：對幅度非常敏感，對相位相對遲鈍。

三、PhaseLock：用兩步草稿指揮五十步精修

理解了問題所在，研究團隊的解決思路就很自然了：既然兩步就能得到準確的運動先驗，那就把這個先驗保留下來，然后在后續的精修過程中，讓AI的精修方向不要偏離這個物理軌跡。這就是PhaseLock的核心邏輯。

PhaseLock分兩個階段工作。第一階段叫做"運動先驗提取"。研究團隊讓AI先用同一個隨機起點、同一張輸入圖片、同一段文字描述，只走兩步，得到一段粗糙但物理準確的視頻潛在表示（一種AI內部的壓縮表示形式，可以理解為視頻的"草圖數據"）。然后，研究團隊不直接提取這段草圖的相位信息，而是計算每一對相鄰幀之間的差值，得到一個"幀間差分"張量，并把它命名為運動先驗。這個幀間差分，從理論上說，在幀與幀幅度相近的條件下，其大小近似正比于幀間相位之差——這正是之前證明的"相位才是運動信息載體"的數學體現。研究團隊在附錄中給出了完整的數學推導：通過傅里葉分析，相鄰幀的差值的傅里葉變換幅度，等于共享幅度乘以兩倍的幀間相位差的正弦值，在相位差很小（對應平滑運動）時，進一步近似為幅度乘以相位差本身。

第二階段叫做"潛變量差分引導"。在正式走完五十步精修的過程中，每走一步，研究團隊都計算一下當前精修到一半的視頻里的幀間差分，與第一階段提取的運動先驗相比，哪里不一樣了，就把這個差異作為一個修正信號，輕輕地"推"當前的視頻狀態，讓幀間差分盡量靠近運動先驗。這個推力通過一個系數來控制強度，并且隨著精修步數的推進，推力會線性地從最大值衰減到零——在精修的前半段，推力較強，保證物理軌跡不偏離；在精修的后半段，推力接近消失，讓AI自由地去添加紋理細節和高頻信息。

值得注意的是，研究團隊明確放棄了一個看似更直接的方案：直接把兩步版本的相位信息復制粘貼到五十步版本里。他們做了一系列對比實驗，結果發現，直接進行頻率域手術（例如低頻相位注入、全相位替換、幅度保持相位混合等方案）不僅沒有改善，反而讓物理評分大幅下降，有時甚至比啥都不做的基線還要差得多，最差的情況只有1.42分。這是因為AI的內部編碼空間（VAE編碼器生成的潛在空間）并不是一個可以簡單地按頻率拆解的空間，強行替換其中某些頻率成分，就像把一臺精密機器的零件換成另一臺機器的零件，結果往往是整體失效。而幀間差分引導在空間域操作，不觸碰頻率域，通過帕塞瓦爾定理，空間域的均方誤差約束等價于對所有頻率上的譜差異做一個加權求和約束，既達到了相位對齊的目的，又不破壞潛在空間的內在結構。

四、實驗成果：在三個不同維度驗證效果

研究團隊在多個模型、多個評估標準上對PhaseLock進行了全面測試。

在物理一致性評估方面，研究團隊使用了Physics-IQ基準測試，這個測試包含396段真實物理實驗視頻，覆蓋固體力學、流體動力學、光學、熱力學、磁學等66個場景，通過比較生成視頻和真實視頻中物體位置、速度的偏差來計算分數。將PhaseLock接入CogVideoX-5B（一個50億參數的視頻生成模型）后，物理評分從30.82提升到36.0，提升了5.2分；接入LTX-Video（20億參數）后，從26.4提升到32.0，提升了5.6分；接入Wan 2.1（140億參數）后，從20.9提升到28.7，提升了7.8分。這個提升幅度非常可觀——要知道，即便把標準推理步數從50步翻倍到100步，物理評分也只提升約1分，而且計算時間翻倍。PhaseLock用僅僅多跑一次兩步推理的代價（總時間增加約6%，內存增加約2%），實現了遠超步數翻倍的物理一致性提升。

研究團隊還在PhyGenBench這個另一個物理常識評估基準上進行了測試，這個基準包含160個精心設計的文字描述，覆蓋力學、光學、熱力學、材料學四個領域的27條物理規律，使用大語言模型來評估生成視頻是否符合物理邏輯。結果同樣令人滿意：在CogVideoX上平均提升23.9%，在Wan 2.1上平均提升21.4%。其中光學類提升最為顯著，力學、熱力學和材料學也均有改善。

在視覺質量方面，研究團隊使用VBench（一個從主體一致性、背景一致性、運動平滑度、時序穩定性、圖像質量、美學質量六個維度評估視頻質量的工具）來確認PhaseLock不會破壞視頻的外觀。結果顯示，這六個維度的評分在施加PhaseLock前后幾乎沒有變化，有些指標（如背景一致性、圖像質量）甚至略有提升，美學質量有小幅下降但幅度很小，整體視覺體驗基本保持不變。

研究團隊還進行了人類偏好實驗，邀請15名標注人員對396段視頻進行兩兩對比，分別從物理合理性、視覺質量、文字對應程度三個維度判斷哪段視頻更好。結果顯示，在對比CogVideoX基線時，人類評估者在物理合理性方面有78.3%的勝率選擇了PhaseLock的輸出；在對比Wan 2.1時，這個勝率更高達83.3%。視覺質量的勝率甚至更高，分別是78.9%和88.2%，說明PhaseLock不僅物理更準確，整體看起來也更令人滿意。

五、適用范圍、局限性與未來方向

研究團隊還仔細分析了PhaseLock在哪些場景下效果最好，哪些場景下會失效。

從66個Physics-IQ測試場景來看，PhaseLock改善了74%（Wan 2.1）到67%（CogVideoX）的場景，在另外一些場景下出現了輕微的性能下降。進一步分析發現，流體動力學類場景的改善率最高（Wan 2.1高達93%），平均提升也最大；光學類場景在CogVideoX上改善率達到88%。在剛體運動與非剛體運動的對比上，非剛體場景（包括流體、可變形固體、熱力學）的改善幅度平均為41.8%，而剛體場景為23.4%。這是符合邏輯的——非剛體運動往往是連續、有方向性的速度主導運動，相位保護對這類運動最為關鍵。

PhaseLock也在步數蒸餾版本的模型上進行了測試，例如一個只需4步就能生成視頻的輕量版Wan 2.1。在這個模型上，PhaseLock帶來了1.7分的提升。提升幅度相對較小，與理論預期完全吻合——這個模型本身就只走4步，相位侵蝕的機會遠小于走50步的普通模型，所以可供修復的空間也就更小了。

研究團隊也坦承了若干局限。最核心的局限是：PhaseLock轉移的是兩步推理中生成的運動先驗，如果這個兩步先驗本身就是錯誤的（例如輸入圖片模糊、文字描述自相矛盾，或者AI本身對某個物理場景有根本性的認知偏差），那么PhaseLock會把錯誤的運動先驗放大，而不是糾正它。研究團隊通過展示失敗案例明確指出了這一點：當輸入文字要求光線照射在杯子上但圖片本身不夠典型時，兩步先驗生成了錯誤的光影，最終輸出同樣失敗。另一個局限是，PhaseLock依賴迭代去噪循環，對于那些不用擴散模型、而是逐幀自回歸生成視頻的AI（例如某些大型自回歸模型），這套方法無法直接應用。

在未來方向上，研究團隊提出了幾個有趣的設想。既然相位侵蝕部分源于訓練目標的數學結構，那么能否設計一種"相位感知的訓練損失函數"，讓AI在訓練階段就更好地保護相位信息，而不只是在推理階段打補丁？另外，能否開發出"相位保護的采樣器"，讓去噪路徑本身更加相位友好？研究團隊還想到，這個現象可能并不只限于視頻生成——在音頻生成領域，相位決定聲音發生的時間和音高，如果類似的侵蝕也在發生，那么一套音頻版的PhaseLock或許能讓AI生成的音樂節拍更準確；在3D生成領域，相位可能對應幾何結構的空間準確性，保護相位可能意味著生成更合理的三維形狀。

說到底，這項研究講了一個很簡單但細想起來很深刻的道理：更多的加工不總是更好的結果。AI視頻生成中那些令人抓狂的物理幻覺，不是因為AI不"懂"物理，而是因為AI在追求高清美觀的過程中把自己原本知道的物理知識給"磨掉了"。在精修的五十步旅途里，對美觀的追求悄悄侵蝕了對結構準確性的把握，就像一個廚師在反復調味、精心擺盤的過程中，不小心把食材本來的鮮味煮沒了。

PhaseLock的做法并不是給AI塞入更多外部知識，而是阻止它丟失自己本來就有的知識。用兩步的草稿鎖住物理軌跡，然后在精修的全程一直輕輕地提醒AI"別偏"，這個思路既經濟又有效。它提醒了研究者：有時候，問題的關鍵不是"怎么加入更多"，而是"怎么別讓好東西溜走"。

這對普通用戶來說，意味著將來用AI制作教學視頻、科學可視化、產品演示甚至游戲動畫時，物體的運動行為會更加可信，不需要再為AI憑空創造一個"反重力球"而頭疼。而對于更遠的未來——讓AI成為能模擬真實世界的"虛擬物理實驗室"——這項研究也鋪下了一塊堅實的磚。

有興趣深入探究相位侵蝕機制或PhaseLock實現細節的讀者，可通過arXiv:2606.06361查閱完整論文及技術附錄。

Q&A

Q1：PhaseLock方法是否需要重新訓練視頻生成模型才能使用？

A：不需要。PhaseLock是完全免訓練的推理階段方法，直接插入現有擴散模型的推理流程中，不改動模型權重。它只需要額外運行一次兩步的快速推理來提取運動先驗，額外時間開銷約6%，內存增加約2%，可以直接接入CogVideoX、Wan 2.1、LTX-Video等現有模型。

Q2：為什么兩步推理能比五十步推理更好地保留物理運動規律？

A：擴散模型在最初幾步就已經確定了物體運動的粗略軌跡（低頻結構），這些軌跡主要由相位信息編碼。但在后續的精修步驟中，由于訓練時使用的均方誤差損失對相位誤差不敏感（相位梯度被幅度加權，在幅度小的區域幾乎為零），AI傾向于優化外觀而忽略相位，導致運動結構被逐漸侵蝕約18%，而幅度（外觀信息）只下降2到3%。

Q3：PhaseLock在所有物理場景下都能改善效果嗎？

A：不是所有場景都能改善。在Wan 2.1上，PhaseLock改善了74%的Physics-IQ測試場景，在CogVideoX上是67%，其余場景存在輕微下降。流體動力學和熱力學類場景改善最顯著，非剛體運動平均提升41.8%，剛體運動提升23.4%。主要失效情形是兩步先驗本身不準確——例如輸入圖片含義模糊或文字描述與物理常識沖突時，錯誤先驗會被放大而非糾正。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.