![]()
近年來,視頻生成模型發展迅猛。從 Sora、Veo、Kling 到一系列開源視頻生成模型,文生視頻已經逼近真實影像的觀感 —— 畫面清晰、鏡頭流暢、風格可控,一句話就能生成一段觀感不錯的視頻。
然而,當我們把目光從 “像不像” 轉向 “對不對” 時,一個深刻的問題開始浮出水面:當前視頻生成模型雖然擅長制造視覺真實感,卻并不真正理解物理世界。
一個球可能在沒有接觸的情況下突然改變速度;一個下落物體可能無視重力;碰撞、流體、切削、堆積、彈跳等動態過程,經常看起來合理,卻經不起基本物理常識的檢驗。在 VideoPhy-2 這類面向物理常識的視頻評測中,即便是表現最好的模型,聯合準確率也只有 32.6%。這說明,視頻生成距離真正的 “世界模擬器”,仍然存在一條關鍵鴻溝。
于是,浙江大學、香港理工大學、樹根科技與三一集團聯合提出的 NEWTON(Neural Agentic World-Aware Tool-Orchestrated Navigation)—— 把 Agent 范式搬進視頻生成里:與其繼續把物理硬塞進生成器的權重里,不如讓一個會規劃、會調用物理工具、會自查自糾的 Agent,把生成器 “降級” 成它工具箱里的一件兵器。
![]()
- 論文標題:NEWTON: Agentic Planning for Physically Grounded Video Generation
- 論文地址:https://arxiv.org/abs/2605.18396
- 項目主頁:https://newton026.github.io/newton/
視頻生成為什么總是 “物理不穩”?
![]()
過去我們習慣認為,只要模型足夠大、數據足夠多,它終將學會真實世界的物理規律。但 NEWTON 指出,問題的根源并不在模型本身 —— 而是輸入本身就不足以唯一確定一段物理自洽的視頻,再大的模型也補不回輸入端缺失的信息。
文本提示詞本質上是對物理世界的高度壓縮。比如一句 “啤酒被倒進杯子直到裝滿”,看似已經描述清楚了事件,但實際上省略了大量決定動態過程的參數:容器形狀、泡沫生成、液面上升速度等。模型拿到的只是一句自然語言,卻被期待生成一個完整、連續、符合物理規律的視頻。換句話說,模型是在信息嚴重不足的前提下,被要求交出一個物理自洽的完整答案。
關鍵信息一旦缺失,模型就只能在不完整條件下做幻覺式補全:單幀也許漂亮,時間維度上卻處處露餡 —— 液面不升高、刀劃過木頭卻沒有凹槽、顆粒倒下卻不堆積、物體碰撞卻毫無反應。
所以,物理可靠的視頻生成不能押在一句 prompt 上。它至少要同時滿足三件事:信息要夠,能補齊影響動態的物理變量;過程要活,能針對不同場景調用不同的物理工具;結果要能查,生成之后能發現問題、回頭修正。
而現有方法往往只能顧上其中一兩條。端到端模型把物理知識隱式壓進參數,輸入端的條件本身就不完整;ControlNet 一類方法依賴預設的單一模態信號,難以隨場景切換,缺乏動態性;單輪生成則沒有反饋回路,結果不對也無從修起。
NEWTON 的破局思路:把生成變成一個可規劃、可驗證的過程
![]()
NEWTON 的核心變化,是重新定義視頻生成系統的工作方式
傳統范式很短:用戶輸入 prompt,生成器直接輸出視頻。這意味著所有物理細節都得由生成器自己一次性猜出來。NEWTON 把這一步改造成了一個多輪 Agent 循環 ——Planner 先分析當前任務缺哪些物理信息、該調哪些工具,Executor 執行工具調用和視頻生成,Verifier 給結果打一個物理合理性分數,再把反饋寫回下一輪規劃。視頻生成器在這個循環里不再是唯一主角,只是工具箱里的一個動作;真正負責組織過程的,是可訓練的 Planner。
工具庫覆蓋的是互補的物理維度:
- 關鍵幀生成工具給視頻補充時間邊界條件,比如規定拋物線運動在中間幀到達最高點,或要求倒酒時杯內液面隨時間逐步升高;
- 科學計算工具在沙盒 Python 環境里算軌跡、動量守恒、旋轉動力學等數值結果,把人類熟悉的物理推理顯式寫進生成上下文;
- 提示詞優化工具則負責把材料屬性、動作階段、因果關系重新組織成生成器更容易 "聽懂" 的條件
更關鍵的是,NEWTON不需要改動底層的視頻生成模型。無論用的是 LTX-Video 還是 Veo-3.1,生成器始終保持凍結。整套系統里真正需要訓練的只有 Planner—— 它通過 Flow-GRPO 在真實的多輪工具調用流程中做 on-policy 優化,逐步學會:什么時候該算物理、什么時候該生成關鍵幀、什么時候該重寫場景描述、什么時候該真正觸發視頻生成。
這樣的設計,使得 "物理能力" 不再被困在某一個生成模型內部,而是被抽出來,變成一種可組合、可檢查、可遷移的 Agent 行為。
實驗表現:不改生成器,也能顯著提升物理一致性
![]()
![]()
![]()
在 VideoPhy-2 基準上,NEWTON 展現出了穩定提升。接入 LTX-Video 后,聯合準確率從 21.4% 提升到 29.7%;接入 Veo-3.1 后,在選取的測試集中從 30.7% 提升到 37.4%。這些提升并非來自重訓視頻生成器,而是來自 Planner 對物理工具、關鍵幀條件和反饋循環的組織能力。這意味著,即使底層生成器保持不變,只要把 “生成前的物理規格補齊” 和 “生成后的驗證修正” 納入系統流程,視頻生成的物理可靠性就能被顯著改善。
在具體案例中:倒啤酒時,NEWTON 讓杯子隨注入逐漸被填滿,基線卻出現 "杯子早就滿了"" 怎么倒都倒不進去 ""泡沫在長液面不動" 這類荒誕畫面;刀刻木頭時,只有 NEWTON 同時刻出凹槽和木屑;吹泡泡和 LEGO 橄欖球交接的鏡頭也呈現同樣的規律 —— 基線模型常常是 "動作發生了,但世界狀態沒變",而 NEWTON 能把液面上升、材料移除、顆粒堆積、受力反彈這些有因果的動態完整地呈現出來。
總結
NEWTON 的意義不只在于提升了某個評測指標,更在于它提出了一種視頻生成的新范式:未來的視頻模型也許不應只是一個端到端的視覺合成器,而應成為 Agent 系統中的一個可調用模塊。
當任務涉及真實世界的動態規律時,系統需要的不只是更強的渲染能力,還需要知道缺了什么信息、該調用什么工具、如何驗證結果,以及失敗后如何重新規劃。
從這個角度看,NEWTON 給 “世界模擬器” 提供了一條更務實的路徑:不是等待物理規律從黑箱中自然涌現,而是把牛頓請進工具箱,讓 Agent 帶著物理知識,一步步把視頻生成得更真實、更可信。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.