網易首頁 > 網易號 > 正文申請入駐

NEWTON:等物理涌現到請牛頓進工具箱，Agent 驅動視頻生成新范式

2026-06-11 20:50:32　來源: 機器之心Pro

天津舉報

分享至

近年來，視頻生成模型發展迅猛。從 Sora、Veo、Kling 到一系列開源視頻生成模型，文生視頻已經逼近真實影像的觀感 —— 畫面清晰、鏡頭流暢、風格可控，一句話就能生成一段觀感不錯的視頻。

然而，當我們把目光從 “像不像” 轉向 “對不對” 時，一個深刻的問題開始浮出水面：當前視頻生成模型雖然擅長制造視覺真實感，卻并不真正理解物理世界。

一個球可能在沒有接觸的情況下突然改變速度；一個下落物體可能無視重力；碰撞、流體、切削、堆積、彈跳等動態過程，經常看起來合理，卻經不起基本物理常識的檢驗。在 VideoPhy-2 這類面向物理常識的視頻評測中，即便是表現最好的模型，聯合準確率也只有 32.6%。這說明，視頻生成距離真正的 “世界模擬器”，仍然存在一條關鍵鴻溝。

于是，浙江大學、香港理工大學、樹根科技與三一集團聯合提出的 NEWTON（Neural Agentic World-Aware Tool-Orchestrated Navigation）—— 把 Agent 范式搬進視頻生成里：與其繼續把物理硬塞進生成器的權重里，不如讓一個會規劃、會調用物理工具、會自查自糾的 Agent，把生成器 “降級” 成它工具箱里的一件兵器。

論文標題：NEWTON: Agentic Planning for Physically Grounded Video Generation
論文地址：https://arxiv.org/abs/2605.18396
項目主頁：https://newton026.github.io/newton/

視頻生成為什么總是 “物理不穩”？

過去我們習慣認為，只要模型足夠大、數據足夠多，它終將學會真實世界的物理規律。但 NEWTON 指出，問題的根源并不在模型本身 —— 而是輸入本身就不足以唯一確定一段物理自洽的視頻，再大的模型也補不回輸入端缺失的信息。

文本提示詞本質上是對物理世界的高度壓縮。比如一句 “啤酒被倒進杯子直到裝滿”，看似已經描述清楚了事件，但實際上省略了大量決定動態過程的參數：容器形狀、泡沫生成、液面上升速度等。模型拿到的只是一句自然語言，卻被期待生成一個完整、連續、符合物理規律的視頻。換句話說，模型是在信息嚴重不足的前提下，被要求交出一個物理自洽的完整答案。

關鍵信息一旦缺失，模型就只能在不完整條件下做幻覺式補全：單幀也許漂亮，時間維度上卻處處露餡 —— 液面不升高、刀劃過木頭卻沒有凹槽、顆粒倒下卻不堆積、物體碰撞卻毫無反應。

所以，物理可靠的視頻生成不能押在一句 prompt 上。它至少要同時滿足三件事：信息要夠，能補齊影響動態的物理變量；過程要活，能針對不同場景調用不同的物理工具；結果要能查，生成之后能發現問題、回頭修正。

而現有方法往往只能顧上其中一兩條。端到端模型把物理知識隱式壓進參數，輸入端的條件本身就不完整；ControlNet 一類方法依賴預設的單一模態信號，難以隨場景切換，缺乏動態性；單輪生成則沒有反饋回路，結果不對也無從修起。

NEWTON 的破局思路：把生成變成一個可規劃、可驗證的過程

NEWTON 的核心變化，是重新定義視頻生成系統的工作方式

傳統范式很短：用戶輸入 prompt，生成器直接輸出視頻。這意味著所有物理細節都得由生成器自己一次性猜出來。NEWTON 把這一步改造成了一個多輪 Agent 循環 ——Planner 先分析當前任務缺哪些物理信息、該調哪些工具，Executor 執行工具調用和視頻生成，Verifier 給結果打一個物理合理性分數，再把反饋寫回下一輪規劃。視頻生成器在這個循環里不再是唯一主角，只是工具箱里的一個動作；真正負責組織過程的，是可訓練的 Planner。

工具庫覆蓋的是互補的物理維度：

關鍵幀生成工具給視頻補充時間邊界條件，比如規定拋物線運動在中間幀到達最高點，或要求倒酒時杯內液面隨時間逐步升高；
科學計算工具在沙盒 Python 環境里算軌跡、動量守恒、旋轉動力學等數值結果，把人類熟悉的物理推理顯式寫進生成上下文；
提示詞優化工具則負責把材料屬性、動作階段、因果關系重新組織成生成器更容易 "聽懂" 的條件

更關鍵的是，NEWTON不需要改動底層的視頻生成模型。無論用的是 LTX-Video 還是 Veo-3.1，生成器始終保持凍結。整套系統里真正需要訓練的只有 Planner—— 它通過 Flow-GRPO 在真實的多輪工具調用流程中做 on-policy 優化，逐步學會：什么時候該算物理、什么時候該生成關鍵幀、什么時候該重寫場景描述、什么時候該真正觸發視頻生成。

這樣的設計，使得 "物理能力" 不再被困在某一個生成模型內部，而是被抽出來，變成一種可組合、可檢查、可遷移的 Agent 行為。

實驗表現：不改生成器，也能顯著提升物理一致性

在 VideoPhy-2 基準上，NEWTON 展現出了穩定提升。接入 LTX-Video 后，聯合準確率從 21.4% 提升到 29.7%；接入 Veo-3.1 后，在選取的測試集中從 30.7% 提升到 37.4%。這些提升并非來自重訓視頻生成器，而是來自 Planner 對物理工具、關鍵幀條件和反饋循環的組織能力。這意味著，即使底層生成器保持不變，只要把 “生成前的物理規格補齊” 和 “生成后的驗證修正” 納入系統流程，視頻生成的物理可靠性就能被顯著改善。

在具體案例中：倒啤酒時，NEWTON 讓杯子隨注入逐漸被填滿，基線卻出現 "杯子早就滿了"" 怎么倒都倒不進去 ""泡沫在長液面不動" 這類荒誕畫面；刀刻木頭時，只有 NEWTON 同時刻出凹槽和木屑；吹泡泡和 LEGO 橄欖球交接的鏡頭也呈現同樣的規律 —— 基線模型常常是 "動作發生了，但世界狀態沒變"，而 NEWTON 能把液面上升、材料移除、顆粒堆積、受力反彈這些有因果的動態完整地呈現出來。

總結

NEWTON 的意義不只在于提升了某個評測指標，更在于它提出了一種視頻生成的新范式：未來的視頻模型也許不應只是一個端到端的視覺合成器，而應成為 Agent 系統中的一個可調用模塊。

當任務涉及真實世界的動態規律時，系統需要的不只是更強的渲染能力，還需要知道缺了什么信息、該調用什么工具、如何驗證結果，以及失敗后如何重新規劃。

從這個角度看，NEWTON 給 “世界模擬器” 提供了一條更務實的路徑：不是等待物理規律從黑箱中自然涌現，而是把牛頓請進工具箱，讓 Agent 帶著物理知識，一步步把視頻生成得更真實、更可信。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.