无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

NEWTON:等物理涌現到請牛頓進工具箱,Agent 驅動視頻生成新范式

0
分享至



近年來,視頻生成模型發展迅猛。從 Sora、Veo、Kling 到一系列開源視頻生成模型,文生視頻已經逼近真實影像的觀感 —— 畫面清晰、鏡頭流暢、風格可控,一句話就能生成一段觀感不錯的視頻。

然而,當我們把目光從 “像不像” 轉向 “對不對” 時,一個深刻的問題開始浮出水面:當前視頻生成模型雖然擅長制造視覺真實感,卻并不真正理解物理世界。

一個球可能在沒有接觸的情況下突然改變速度;一個下落物體可能無視重力;碰撞、流體、切削、堆積、彈跳等動態過程,經常看起來合理,卻經不起基本物理常識的檢驗。在 VideoPhy-2 這類面向物理常識的視頻評測中,即便是表現最好的模型,聯合準確率也只有 32.6%。這說明,視頻生成距離真正的 “世界模擬器”,仍然存在一條關鍵鴻溝。

于是,浙江大學、香港理工大學、樹根科技與三一集團聯合提出的 NEWTON(Neural Agentic World-Aware Tool-Orchestrated Navigation)—— 把 Agent 范式搬進視頻生成里:與其繼續把物理硬塞進生成器的權重里,不如讓一個會規劃、會調用物理工具、會自查自糾的 Agent,把生成器 “降級” 成它工具箱里的一件兵器。



  • 論文標題:NEWTON: Agentic Planning for Physically Grounded Video Generation
  • 論文地址:https://arxiv.org/abs/2605.18396
  • 項目主頁:https://newton026.github.io/newton/

視頻生成為什么總是 “物理不穩”?



過去我們習慣認為,只要模型足夠大、數據足夠多,它終將學會真實世界的物理規律。但 NEWTON 指出,問題的根源并不在模型本身 —— 而是輸入本身就不足以唯一確定一段物理自洽的視頻,再大的模型也補不回輸入端缺失的信息。

文本提示詞本質上是對物理世界的高度壓縮。比如一句 “啤酒被倒進杯子直到裝滿”,看似已經描述清楚了事件,但實際上省略了大量決定動態過程的參數:容器形狀、泡沫生成、液面上升速度等。模型拿到的只是一句自然語言,卻被期待生成一個完整、連續、符合物理規律的視頻。換句話說,模型是在信息嚴重不足的前提下,被要求交出一個物理自洽的完整答案。

關鍵信息一旦缺失,模型就只能在不完整條件下做幻覺式補全:單幀也許漂亮,時間維度上卻處處露餡 —— 液面不升高、刀劃過木頭卻沒有凹槽、顆粒倒下卻不堆積、物體碰撞卻毫無反應。

所以,物理可靠的視頻生成不能押在一句 prompt 上。它至少要同時滿足三件事:信息要夠,能補齊影響動態的物理變量;過程要活,能針對不同場景調用不同的物理工具;結果要能查,生成之后能發現問題、回頭修正。

而現有方法往往只能顧上其中一兩條。端到端模型把物理知識隱式壓進參數,輸入端的條件本身就不完整;ControlNet 一類方法依賴預設的單一模態信號,難以隨場景切換,缺乏動態性;單輪生成則沒有反饋回路,結果不對也無從修起。

NEWTON 的破局思路:把生成變成一個可規劃、可驗證的過程



NEWTON 的核心變化,是重新定義視頻生成系統的工作方式

傳統范式很短:用戶輸入 prompt,生成器直接輸出視頻。這意味著所有物理細節都得由生成器自己一次性猜出來。NEWTON 把這一步改造成了一個多輪 Agent 循環 ——Planner 先分析當前任務缺哪些物理信息、該調哪些工具,Executor 執行工具調用和視頻生成,Verifier 給結果打一個物理合理性分數,再把反饋寫回下一輪規劃。視頻生成器在這個循環里不再是唯一主角,只是工具箱里的一個動作;真正負責組織過程的,是可訓練的 Planner。

工具庫覆蓋的是互補的物理維度:

  • 關鍵幀生成工具給視頻補充時間邊界條件,比如規定拋物線運動在中間幀到達最高點,或要求倒酒時杯內液面隨時間逐步升高;
  • 科學計算工具在沙盒 Python 環境里算軌跡、動量守恒、旋轉動力學等數值結果,把人類熟悉的物理推理顯式寫進生成上下文;
  • 提示詞優化工具則負責把材料屬性、動作階段、因果關系重新組織成生成器更容易 "聽懂" 的條件

更關鍵的是,NEWTON不需要改動底層的視頻生成模型。無論用的是 LTX-Video 還是 Veo-3.1,生成器始終保持凍結。整套系統里真正需要訓練的只有 Planner—— 它通過 Flow-GRPO 在真實的多輪工具調用流程中做 on-policy 優化,逐步學會:什么時候該算物理、什么時候該生成關鍵幀、什么時候該重寫場景描述、什么時候該真正觸發視頻生成。

這樣的設計,使得 "物理能力" 不再被困在某一個生成模型內部,而是被抽出來,變成一種可組合、可檢查、可遷移的 Agent 行為。

實驗表現:不改生成器,也能顯著提升物理一致性







在 VideoPhy-2 基準上,NEWTON 展現出了穩定提升。接入 LTX-Video 后,聯合準確率從 21.4% 提升到 29.7%;接入 Veo-3.1 后,在選取的測試集中從 30.7% 提升到 37.4%。這些提升并非來自重訓視頻生成器,而是來自 Planner 對物理工具、關鍵幀條件和反饋循環的組織能力。這意味著,即使底層生成器保持不變,只要把 “生成前的物理規格補齊” 和 “生成后的驗證修正” 納入系統流程,視頻生成的物理可靠性就能被顯著改善。

在具體案例中:倒啤酒時,NEWTON 讓杯子隨注入逐漸被填滿,基線卻出現 "杯子早就滿了"" 怎么倒都倒不進去 ""泡沫在長液面不動" 這類荒誕畫面;刀刻木頭時,只有 NEWTON 同時刻出凹槽和木屑;吹泡泡和 LEGO 橄欖球交接的鏡頭也呈現同樣的規律 —— 基線模型常常是 "動作發生了,但世界狀態沒變",而 NEWTON 能把液面上升、材料移除、顆粒堆積、受力反彈這些有因果的動態完整地呈現出來。

總結

NEWTON 的意義不只在于提升了某個評測指標,更在于它提出了一種視頻生成的新范式:未來的視頻模型也許不應只是一個端到端的視覺合成器,而應成為 Agent 系統中的一個可調用模塊。

當任務涉及真實世界的動態規律時,系統需要的不只是更強的渲染能力,還需要知道缺了什么信息、該調用什么工具、如何驗證結果,以及失敗后如何重新規劃。

從這個角度看,NEWTON 給 “世界模擬器” 提供了一條更務實的路徑:不是等待物理規律從黑箱中自然涌現,而是把牛頓請進工具箱,讓 Agent 帶著物理知識,一步步把視頻生成得更真實、更可信。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
烏克蘭襲擊導致燃料危機惡化,扎哈羅娃呼吁“友好國家”伸出援手

烏克蘭襲擊導致燃料危機惡化,扎哈羅娃呼吁“友好國家”伸出援手

山河路口
2026-06-13 21:03:30
世界杯最遭恨的國家:國歌歌詞揭示歷史宿敵

世界杯最遭恨的國家:國歌歌詞揭示歷史宿敵

體育硬核說
2026-06-13 00:48:10
春光乍泄!古力娜扎跳舞肩帶突然斷裂大面積暴露,擔心的事發生了

春光乍泄!古力娜扎跳舞肩帶突然斷裂大面積暴露,擔心的事發生了

蹲坑看世界
2026-06-13 21:06:31
都罵董潔看走眼,但沒人知道,王大治除了外貌低配,其他全是頂配

都罵董潔看走眼,但沒人知道,王大治除了外貌低配,其他全是頂配

山谷里的怒吼
2026-06-12 13:22:54
黃日華回應主動上前擁抱劉德華但對方“黑臉”:演唱會結束后,他們通過電話,二人關系絕非網友所猜測

黃日華回應主動上前擁抱劉德華但對方“黑臉”:演唱會結束后,他們通過電話,二人關系絕非網友所猜測

臺州交通廣播
2026-06-13 18:19:03
中方通告全球,馬尼拉的回應來了,菲反對黨:拆除所有中方建筑

中方通告全球,馬尼拉的回應來了,菲反對黨:拆除所有中方建筑

共工之錨
2026-06-14 01:40:45
訂單太多?特斯拉中國:Model 3 全系...

訂單太多?特斯拉中國:Model 3 全系...

新浪財經
2026-06-12 22:30:54
新加坡民怨沸騰,官方強硬打壓,堅決不承認“印加坡”

新加坡民怨沸騰,官方強硬打壓,堅決不承認“印加坡”

怪味歷史連連看
2026-06-13 09:15:19
我46歲,他和我閨蜜睡在同一張床上,我跪著鋪地板:我睡這里!

我46歲,他和我閨蜜睡在同一張床上,我跪著鋪地板:我睡這里!

真實人物采訪
2026-06-12 12:55:08
海風:賴清德“第二個家”傳來噩耗

海風:賴清德“第二個家”傳來噩耗

環球網資訊
2026-06-13 17:02:08
惡劣!韓國美女博主自拍,墨西哥球迷做拉眼角動作,身份已被挖出

惡劣!韓國美女博主自拍,墨西哥球迷做拉眼角動作,身份已被挖出

風過鄉
2026-06-13 20:03:49
李書福:將有序關停并轉吉利汽車集團有限公司相關冗余主體

李書福:將有序關停并轉吉利汽車集團有限公司相關冗余主體

紅星資本局
2026-06-13 11:26:05
制裁不到48小時,菲律賓開始內訌:軍方公開站隊,并選擇對抗中國

制裁不到48小時,菲律賓開始內訌:軍方公開站隊,并選擇對抗中國

銘記歷史呀
2026-06-13 16:02:30
隨著德比斯教科書式絕殺+奪賽季第6冠,WorldSSP最新積分榜出爐

隨著德比斯教科書式絕殺+奪賽季第6冠,WorldSSP最新積分榜出爐

側身凌空斬
2026-06-13 20:51:08
哈登涉槍被捕 騎士發聲明回應

哈登涉槍被捕 騎士發聲明回應

體壇周報
2026-06-14 06:34:18
別羨慕網紅賺得多!網紅“猴哥”自以為豪的體面,被前妻撕得稀碎

別羨慕網紅賺得多!網紅“猴哥”自以為豪的體面,被前妻撕得稀碎

君笙的拂兮
2026-06-13 06:55:43
謝娜巡演風波升級!官方出手,更多荒唐行為被扒,張杰都救不了她

謝娜巡演風波升級!官方出手,更多荒唐行為被扒,張杰都救不了她

李健政觀察
2026-06-11 21:45:16
73歲泰王親自接女兒遺體回宮,蘇提達哀傷,提幫功緊靠小姐姐肩膀

73歲泰王親自接女兒遺體回宮,蘇提達哀傷,提幫功緊靠小姐姐肩膀

譯言
2026-06-13 20:22:03
世界杯開始不到兩天,裁判馬寧意外火出圈,原因讓大家笑掉大牙

世界杯開始不到兩天,裁判馬寧意外火出圈,原因讓大家笑掉大牙

夢醉為紅顏一笑
2026-06-14 01:21:49
上海一特斯拉內30萬現金“憑空蒸發”?很多車主都在犯這致命錯誤

上海一特斯拉內30萬現金“憑空蒸發”?很多車主都在犯這致命錯誤

環球網資訊
2026-06-13 18:49:28
2026-06-14 06:52:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13246文章數 142669關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

寶媽考編排名第一卻被低分者遞補 維權后崗位直接取消

頭條要聞

寶媽考編排名第一卻被低分者遞補 維權后崗位直接取消

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

手機
教育
旅游
房產
軍事航空

手機要聞

比華為三折疊還稀缺!iPhone Ultra國行備貨量不足:博主直言搶到賺到

教育要聞

真的無法預測嗎??

旅游要聞

深化旅游合作 增進民心相通

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

軍事要聞

伊外長披露伊美諒解備忘錄草案部分內容

無障礙瀏覽 進入關懷版