![]()
「以棱鏡之思,折射 AI 研究的多維光譜」——學術棱鏡是 CSDN 旗下 AI 科技大本營推出的精品論文欄目,專注遴選全球頂會頂刊及產業前沿的優質研究成果。我們相信,每一篇扎實的論文都是照亮技術未來的光束,而棱鏡,讓光芒綻放出應有的色彩。
責編 | 夢依丹
出品丨AI 科技大本營(ID:rgznai100)
視頻生成模型這兩年跑得太快了:Sora、Veo、Kling 以及一批開源模型,把“像不像”這件事做到了幾乎能以假亂真。畫面越來越清晰,鏡頭越來越順滑,風格也越來越可控。
但一旦把問題換成“對不對”,裂縫就會冒出來——那些看起來合理的動態過程,往往經不起最基本的物理常識:物體無接觸變速、下落無視重力、碰撞沒有反作用、液體不漲液面、切削不留凹槽、顆粒不堆積……
在 VideoPhy-2 這類面向物理常識的視頻評測里,即便當前最強模型,聯合準確率也只有 32.6%。這意味著:視頻生成離“世界模擬器”,還隔著一條關鍵鴻溝。
NEWTON(Neural Agentic World-Aware Tool-Orchestrated Navigation)給出的判斷很尖銳:問題未必出在生成器不夠大,而在于輸入本身就不足以唯一確定一段物理自洽的視頻。
![]()
NEWTON由浙江大學、香港理工大學、樹根科技與三一集團聯合提出,論文地址:https://arxiv.org/abs/2605.18396
項目主頁:https://newton026.github.io/newton/
![]()
一句話 Prompt,決定不了一個物理世界
文本提示詞是對物理世界的高度壓縮——一句“把啤酒倒進杯子直到裝滿”,省掉的卻可能是決定動態的關鍵變量:容器形狀、泡沫生成、液面上升速度等。信息不夠,模型就只能用“幻覺式補全”把空白填滿:單幀漂亮,但一到時間維度,就處處露餡。
![]()
![]()
不把物理硬塞進權重:把“NEWTON”請進工具箱
于是 NEWTON 把路徑反過來走:與其把物理硬塞進生成器的權重,不如把生成器“降級”為工具箱里的一件工具,讓一個會規劃、會調用物理工具、會自查自糾的 Agent 來組織整個生成過程。它把視頻生成從“單輪輸入—單次輸出”,改成一個多輪循環:
![]()
Planner 先判斷缺什么物理信息、該調用哪些工具;
Executor 去執行工具調用與生成;
Verifier 評估結果的物理合理性,把反饋寫回下一輪規劃。
生成器不再是唯一主角,真正負責“把過程跑順”的,是可訓練的 Planner。
NEWTON 的工具庫覆蓋互補的物理維度:
一類是關鍵幀生成工具,用來補齊時間邊界條件(例如規定拋物線運動在中間幀到達最高點,或讓倒酒時液面隨時間逐步上升);
一類是科學計算工具,在沙盒 Python 環境里顯式計算軌跡、動量守恒、旋轉動力學等數值結果,把人類熟悉的物理推理寫進生成上下文;
還有提示詞優化工具,把材料屬性、動作階段、因果關系重寫成生成器更容易“聽懂”的條件。
更關鍵的是,它不需要改動底層視頻生成模型:
無論用 LTX-Video 還是 Veo-3.1,生成器保持凍結,系統真正訓練的是 Planner,并通過 Flow-GRPO 在真實的多輪工具調用流程中做 on-policy 優化,逐步學會“什么時候該算物理、什么時候該生成關鍵幀、什么時候該改寫描述、什么時候才觸發視頻生成”。
這種設計帶來一種很現實的好處:物理能力不再被困在某個模型內部,而被抽成可組合、可檢查、可遷移的 Agent 行為。
![]()
![]()
![]()
在 VideoPhy-2 基準上,NEWTON 的提升也印證了這一點:接入 LTX-Video,聯合準確率從 21.4% 提升到 29.7%;接入 Veo-3.1,在選取測試集上從 30.7% 提升到 37.4%。提升不是來自重訓生成器,而是來自 Planner 對“補齊物理規格”和“生成后驗證修正”的組織能力。
更直觀的對比出現在具體案例里:
倒啤酒時,NEWTON 能讓杯子隨注入逐漸被填滿,而基線會出現“杯子早就滿了卻還在倒”“怎么倒都倒不進去”“泡沫長在液面上不動”等荒誕畫面;
刀刻木頭時,只有 NEWTON 同時刻出凹槽和木屑;
吹泡泡、LEGO 橄欖球交接等鏡頭也類似——基線常常是“動作發生了,但世界狀態沒變”,而 NEWTON 能把液面上升、材料移除、顆粒堆積、受力反彈這些因果鏈條補完整。
NEWTON 最有分量的地方,不只是把指標往上推了一截,而是把“世界模擬器”這件事從一場對參數規模的賭局,改寫成一套可操作的方法論:當任務涉及真實世界的動態規律時,系統得知道信息缺口在哪里、該調哪些工具、如何驗證結果,以及失敗后如何重新規劃。它給視頻生成提供了一條更務實的路——讓 Agent 帶著物理知識,一步步把視頻生成得更真實、更可信。
很多人缺的不是想法,
而是邁出第一步的資源。
現在,
100 小時 AI 算力免費開放領取。
從學習到實踐,從模型到 Agent,
掃碼免費領取
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.