網易首頁 > 網易號 > 正文申請入駐

視頻生成模型會「推理」嗎？303道題全面揭示世界模型的推理短板

2026-06-28 18:29:07　來源: 機器之心Pro

天津舉報

分享至

視頻生成模型（Video Generative Models）是近年最炙手可熱的方向。從 Sora、Veo 到 Kling、Seedance，它們能生成以假亂真的畫面，對時間動態與物理規律的模擬令人驚嘆。越來越多證據表明，它們已在大規模視頻數據中隱式學到了某種「世界模型」（World Model）。

但一個關鍵問題被長期忽視：當模型生成一段看似「合理」的視頻時，它真的在一幀幀地連貫推理嗎？還是只畫出了一個看似正確的結果？

我們把這一維度正式定義為推理一致性（Reasoning Coherence）：生成視頻中的事件，能否在幀與幀之間保持因果一致、可信的演化。

已有一些工作開始評估視頻模型的推理：有的只看「最后一幀」判斷結果對錯，有的只評單個物理現象是否合理，但都沒有刻畫「推理一致性」，也就難以回答：到底是推理鏈上哪一步走錯，導致了整個任務失敗。

MME-CoF-Pro 基準

該團隊此前已提出 MME-CoF（arXiv:2510.26802，已被 CVPR 2026 Findings 接收）——首個系統探究視頻模型 Chain-of-Frame（CoF）推理潛力的研究，覆蓋 12 個維度。

如今，已被 ECCV 2026 接收的 MME-CoF-Pro 在此基礎上全面升級：類別從 12 擴至 16，把粗粒度定性評估升級為人工校驗的過程級 Reasoning Score，并首次將「推理引導」（文字/視覺提示）作為可控變量納入評測。

論文：
https://arxiv.org/abs/2603.20194v1
項目主頁：
https://video-reasoning-coherence.github.io/
Huggingface：
https://huggingface.co/datasets/yqi19/mme-cof-pro
GitHub：
https://github.com/yqi19/MME-CoF-Pro

這項工作由美國東北大學（Northeastern University）聯合香港中文大學（CUHK）、北京大學（Peking University）與 NVIDIA 共同完成。MME-CoF-Pro 是業界首個顯式將「推理引導」作為可控變量、并在過程級別（process-level）評估視頻推理一致性的基準，同時提供了細粒度的錯因分析與有趣的機理發現。

數據構成

MME-CoF-Pro 共包含303個精心策劃的圖像 - 文字 - 視頻推理樣本，370張圖像，覆蓋16個推理類別，從 27 個現有的真實與合成基準中篩選構建，并經過領域專家三輪人工校驗。

這 16 個類別被組織為四大能力組，從底層感知逐級遞進到高層任務推理：

感知推理（Perceptual）：視覺細節、旋轉、物體計數；
空間與結構推理（Spatial & Structural）：視覺軌跡、真實世界空間、2D / 3D 幾何；
物理與因果推理（Physical & Causal）：物理規律、4D 動態、自然科學；
任務導向推理（Task-oriented）：具身操作、GUI 交互、醫學影像、表格圖表、文本 / 代碼、視覺邏輯。

與以往工作最大的不同在于：MME-CoF-Pro 把「推理引導」當成一個可顯式控制的變量。每個樣本都提供 No Hint 與 Text Hint 兩種設置；其中 8 個感知要求最高的類別（記為 MME-CoF-Pro-mini）還額外提供 Visual Hint。除提示部分外，其余指令完全一致：

No Hint（無提示）：標準設置，模型只能憑任務指令獨立推理；
Text Hint（文字提示）：在指令中補充關鍵推理步驟的文字描述；
Visual Hint（視覺提示）：在輸入圖像上畫出邊界框 / 箭頭 / 軌跡來引導。

因為只有提示在變、其余完全相同，任何性能差異都可以因果地歸因到推理引導本身。

Reasoning Score：直擊推理鏈路的「手術刀」

傳統評測只看生成「質量」，無法回答模型到底懂不懂世界。我們提出過程級指標 Reasoning Score（RS）：為每個樣本標注一串人工校驗的關鍵推理步驟，每步都是正確生成必須命中的 checkpoint；RS 即被正確完成的步驟比例，由判別模型（Gemini-2.5-Flash）逐步獨立判定。

它不再是「答對 / 答錯」的非黑即白，而能精準定位模型在推理鏈的哪一步崩塌，并支持跨模型可靠比較。

測評實驗

實驗部分，作者全面測評了7個最強的閉源與開源視頻生成模型：Veo-3.1、Veo-3.1-fast、Sora-2、Seedance-1.0-pro、Seedance-1.0-fast、Kling-v2.1 與 Cosmos-Predict2-14B，并在三種提示設置下系統對比，得出以下幾個有趣的結論。

發現一：視頻生成模型普遍不具備強推理能力，且推理能力與生成質量幾乎完全解耦。

即便最強的 Veo 也僅 56 分，Sora 50 分，其余明顯落后——最強也只勉強過 50 分。更值得警惕的是：高畫質 ≠ 會推理。以 Kling 為例，它的綜合生成質量（Avg）高達65.1，但 Reasoning Score 卻低至13.8。它能把風吹樹林的動態渲染得惟妙惟肖，卻完全沒有遵循「逐漸放大并尋找手提包」的推理指令。推理，是一種與生成質量相互獨立的能力。

發現二：文字提示是一把雙刃劍——看似提分，實則誘發幻覺、損害一致性。

多數模型加文字提示后 RS 提升（Veo-3.1 +4.5、Sora-2 +7.6、Cosmos +6.7），但代價是 7 個模型的一致性分數（CS）幾乎全線下降，尤其 4D Dynamics 上 7 模型 CS 全降（-1.2 至 -15.6）。模型往往只在「照本宣科」執行字面指令——例如為滿足運動指令憑空「分裂」出一個多余物體。顯式提示更像是轉移注意力，而非增強理解。

發現三：視覺提示并非萬能，對精細感知任務甚至會幫倒忙。

它在結構化、需空間引導的任務（Embodied、GUI）上有幫助，卻在視覺細節、物體計數等精細任務上拉低成績（Visual Detail：Veo-3.1 RS -13.0、CS -14.4）。更有趣的是，模型常把視覺提示「畫進」畫面——指示方向的箭頭被當成物體、渲染成彎曲軌跡。作者推測這源于訓練數據偏差：標注箭頭 / 高亮常與合成內容共現，模型把「引導」誤當「內容」。

案例研究：提示越多，推理就越好嗎？

一個自然的問題是：不斷增加提示信息，能單調地提升推理表現嗎？作者在 Frozen Lake 任務上用 Sora-2 做了一組漸進式 scaling 實驗。

結果表明：雖然文字與視覺提示帶來的推理分數普遍高于無提示基線（0.23），但兩條曲線都在各階段劇烈波動，沒有清晰的上升趨勢。這說明當前模型無法以累積的方式穩定地利用越來越詳細的提示信息——簡單地堆疊提示，并不能保證推理表現的提升。這也指向了一個開放問題：如何讓視頻模型把多步提示穩定地落地為連貫的推理軌跡。

人類研究：Reasoning Score 究竟靠不靠譜？

為驗證 RS 是否能有效、獨立地刻畫視頻推理能力，作者邀請 10 位標注者對隨機抽取的視頻按標注步驟打分，并與現有指標對比。

結果顯示，Reasoning Score 與人工評分的 Spearman 相關性高達 0.61，大幅超越 Instruction Alignment（0.17），與 Pass@5 last-frame correctness 則呈負相關（-0.41）。這充分說明：RS 比現有指標更能捕捉人類視角下的推理行為，是評估推理一致性的有效指標。

結語

本文系統評測了主流視頻生成模型在推理一致性上的真實水平，提出了過程級評測指標 Reasoning Score，并通過文字 / 視覺提示的可控對比，深入分析了模型的失敗模式與作用機理。

核心結論令人深思：當前的視頻生成模型，更多是在「跟隨」提示，而非真正「理解」并落地世界規律。通往真正世界模型推理的道路上，更強的視覺對齊能力、指令理解能力與抗幻覺機制，仍是必須攻克的方向。

作者希望這些分析結果，能為視頻生成模型與世界模型的未來迭代提供有價值的參考。非常歡迎感興趣的老師同學們聯系作者團隊進一步交流！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.