无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

視頻生成模型會「推理」嗎?303道題全面揭示世界模型的推理短板

0
分享至



視頻生成模型(Video Generative Models)是近年最炙手可熱的方向。從 Sora、Veo 到 Kling、Seedance,它們能生成以假亂真的畫面,對時間動態與物理規律的模擬令人驚嘆。越來越多證據表明,它們已在大規模視頻數據中隱式學到了某種「世界模型」(World Model)。

但一個關鍵問題被長期忽視:當模型生成一段看似「合理」的視頻時,它真的在一幀幀地連貫推理嗎?還是只畫出了一個看似正確的結果?

我們把這一維度正式定義為推理一致性(Reasoning Coherence):生成視頻中的事件,能否在幀與幀之間保持因果一致、可信的演化。



已有一些工作開始評估視頻模型的推理:有的只看「最后一幀」判斷結果對錯,有的只評單個物理現象是否合理,但都沒有刻畫「推理一致性」,也就難以回答:到底是推理鏈上哪一步走錯,導致了整個任務失敗。

MME-CoF-Pro 基準

該團隊此前已提出 MME-CoF(arXiv:2510.26802,已被 CVPR 2026 Findings 接收)——首個系統探究視頻模型 Chain-of-Frame(CoF)推理潛力的研究,覆蓋 12 個維度。

如今,已被 ECCV 2026 接收的 MME-CoF-Pro 在此基礎上全面升級:類別從 12 擴至 16,把粗粒度定性評估升級為人工校驗的過程級 Reasoning Score,并首次將「推理引導」(文字/視覺提示)作為可控變量納入評測。



  • 論文:
  • https://arxiv.org/abs/2603.20194v1
  • 項目主頁:
  • https://video-reasoning-coherence.github.io/
  • Huggingface:
  • https://huggingface.co/datasets/yqi19/mme-cof-pro
  • GitHub:
  • https://github.com/yqi19/MME-CoF-Pro

這項工作由美國東北大學(Northeastern University)聯合香港中文大學(CUHK)、北京大學(Peking University)與 NVIDIA 共同完成。MME-CoF-Pro 是業界首個顯式將「推理引導」作為可控變量、并在過程級別(process-level)評估視頻推理一致性的基準,同時提供了細粒度的錯因分析與有趣的機理發現。

數據構成



MME-CoF-Pro 共包含303個精心策劃的圖像 - 文字 - 視頻推理樣本,370張圖像,覆蓋16個推理類別,從 27 個現有的真實與合成基準中篩選構建,并經過領域專家三輪人工校驗。

這 16 個類別被組織為四大能力組,從底層感知逐級遞進到高層任務推理:

  • 感知推理(Perceptual):視覺細節、旋轉、物體計數;
  • 空間與結構推理(Spatial & Structural):視覺軌跡、真實世界空間、2D / 3D 幾何;
  • 物理與因果推理(Physical & Causal):物理規律、4D 動態、自然科學;
  • 任務導向推理(Task-oriented):具身操作、GUI 交互、醫學影像、表格圖表、文本 / 代碼、視覺邏輯。



與以往工作最大的不同在于:MME-CoF-Pro 把「推理引導」當成一個可顯式控制的變量。每個樣本都提供 No Hint 與 Text Hint 兩種設置;其中 8 個感知要求最高的類別(記為 MME-CoF-Pro-mini)還額外提供 Visual Hint。除提示部分外,其余指令完全一致:

  • No Hint(無提示):標準設置,模型只能憑任務指令獨立推理;
  • Text Hint(文字提示):在指令中補充關鍵推理步驟的文字描述;
  • Visual Hint(視覺提示):在輸入圖像上畫出邊界框 / 箭頭 / 軌跡來引導。

因為只有提示在變、其余完全相同,任何性能差異都可以因果地歸因到推理引導本身。



Reasoning Score:直擊推理鏈路的「手術刀」

傳統評測只看生成「質量」,無法回答模型到底懂不懂世界。我們提出過程級指標 Reasoning Score(RS):為每個樣本標注一串人工校驗的關鍵推理步驟,每步都是正確生成必須命中的 checkpoint;RS 即被正確完成的步驟比例,由判別模型(Gemini-2.5-Flash)逐步獨立判定。

它不再是「答對 / 答錯」的非黑即白,而能精準定位模型在推理鏈的哪一步崩塌,并支持跨模型可靠比較。



測評實驗

實驗部分,作者全面測評了7個最強的閉源與開源視頻生成模型:Veo-3.1、Veo-3.1-fast、Sora-2、Seedance-1.0-pro、Seedance-1.0-fast、Kling-v2.1 與 Cosmos-Predict2-14B,并在三種提示設置下系統對比,得出以下幾個有趣的結論。

發現一:視頻生成模型普遍不具備強推理能力,且推理能力與生成質量幾乎完全解耦。

即便最強的 Veo 也僅 56 分,Sora 50 分,其余明顯落后——最強也只勉強過 50 分。更值得警惕的是:高畫質 ≠ 會推理。以 Kling 為例,它的綜合生成質量(Avg)高達65.1,但 Reasoning Score 卻低至13.8。它能把風吹樹林的動態渲染得惟妙惟肖,卻完全沒有遵循「逐漸放大并尋找手提包」的推理指令。推理,是一種與生成質量相互獨立的能力。



發現二:文字提示是一把雙刃劍——看似提分,實則誘發幻覺、損害一致性。

多數模型加文字提示后 RS 提升(Veo-3.1 +4.5、Sora-2 +7.6、Cosmos +6.7),但代價是 7 個模型的一致性分數(CS)幾乎全線下降,尤其 4D Dynamics 上 7 模型 CS 全降(-1.2 至 -15.6)。模型往往只在「照本宣科」執行字面指令——例如為滿足運動指令憑空「分裂」出一個多余物體。顯式提示更像是轉移注意力,而非增強理解。

發現三:視覺提示并非萬能,對精細感知任務甚至會幫倒忙。

它在結構化、需空間引導的任務(Embodied、GUI)上有幫助,卻在視覺細節、物體計數等精細任務上拉低成績(Visual Detail:Veo-3.1 RS -13.0、CS -14.4)。更有趣的是,模型常把視覺提示「畫進」畫面——指示方向的箭頭被當成物體、渲染成彎曲軌跡。作者推測這源于訓練數據偏差:標注箭頭 / 高亮常與合成內容共現,模型把「引導」誤當「內容」。

案例研究:提示越多,推理就越好嗎?

一個自然的問題是:不斷增加提示信息,能單調地提升推理表現嗎?作者在 Frozen Lake 任務上用 Sora-2 做了一組漸進式 scaling 實驗。



結果表明:雖然文字與視覺提示帶來的推理分數普遍高于無提示基線(0.23),但兩條曲線都在各階段劇烈波動,沒有清晰的上升趨勢。這說明當前模型無法以累積的方式穩定地利用越來越詳細的提示信息——簡單地堆疊提示,并不能保證推理表現的提升。這也指向了一個開放問題:如何讓視頻模型把多步提示穩定地落地為連貫的推理軌跡。

人類研究:Reasoning Score 究竟靠不靠譜?

為驗證 RS 是否能有效、獨立地刻畫視頻推理能力,作者邀請 10 位標注者對隨機抽取的視頻按標注步驟打分,并與現有指標對比。



結果顯示,Reasoning Score 與人工評分的 Spearman 相關性高達 0.61,大幅超越 Instruction Alignment(0.17),與 Pass@5 last-frame correctness 則呈負相關(-0.41)。這充分說明:RS 比現有指標更能捕捉人類視角下的推理行為,是評估推理一致性的有效指標。

結語

本文系統評測了主流視頻生成模型在推理一致性上的真實水平,提出了過程級評測指標 Reasoning Score,并通過文字 / 視覺提示的可控對比,深入分析了模型的失敗模式與作用機理。

核心結論令人深思:當前的視頻生成模型,更多是在「跟隨」提示,而非真正「理解」并落地世界規律。通往真正世界模型推理的道路上,更強的視覺對齊能力、指令理解能力與抗幻覺機制,仍是必須攻克的方向。

作者希望這些分析結果,能為視頻生成模型與世界模型的未來迭代提供有價值的參考。非常歡迎感興趣的老師同學們聯系作者團隊進一步交流!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美的PortaSplit分體式空調在歐賣脫銷:老外直言一生中最棒的投資

美的PortaSplit分體式空調在歐賣脫銷:老外直言一生中最棒的投資

快科技
2026-06-26 10:15:07
每體:貝林成為英格蘭隊的進攻核心,他負責組織、助攻和進球

每體:貝林成為英格蘭隊的進攻核心,他負責組織、助攻和進球

懂球帝
2026-06-28 18:58:14
陳建斌:原以為能牽手蔣勤勤已很知足,沒想到如今日子再度升級!

陳建斌:原以為能牽手蔣勤勤已很知足,沒想到如今日子再度升級!

可樂談情感
2026-06-28 14:55:42
一網友開豐田車追尾張雪機車,結果摩托車沒事,自己的車受損更大

一網友開豐田車追尾張雪機車,結果摩托車沒事,自己的車受損更大

總在茶余后
2026-06-28 01:04:34
王守業貪污1.6億,2005年“雙規”后卻被放出,他叫囂:我擺平了

王守業貪污1.6億,2005年“雙規”后卻被放出,他叫囂:我擺平了

帝哥說史
2026-06-02 21:40:03
蘭州大學回應“教師楊某某相關論文問題”:已成立專項調查組

蘭州大學回應“教師楊某某相關論文問題”:已成立專項調查組

新京報
2026-06-28 11:27:13
蘇州市委常委、副市長施嘉泓,任姑蘇區委書記

蘇州市委常委、副市長施嘉泓,任姑蘇區委書記

江南江南
2026-06-28 17:08:47
5年2.85億美金!聯盟第1!NBA名嘴力挺布朗,FMVP沒有水貨

5年2.85億美金!聯盟第1!NBA名嘴力挺布朗,FMVP沒有水貨

世界體育圈
2026-06-28 17:18:16
震驚!廣東一女子穿吊牌衣服和褲子聚餐,網友:人不要臉天下無敵

震驚!廣東一女子穿吊牌衣服和褲子聚餐,網友:人不要臉天下無敵

火山詩話
2026-06-28 14:24:42
貝克漢姆14歲的女兒小七怎么如此成熟了,好像少婦

貝克漢姆14歲的女兒小七怎么如此成熟了,好像少婦

西樓知趣雜談
2026-06-13 19:52:21
同一箱牛奶為何實體店賣60元,網上只賣35元呢?內行人說出了實話

同一箱牛奶為何實體店賣60元,網上只賣35元呢?內行人說出了實話

平說財經
2026-06-26 19:31:07
雙休毀了孩子?深圳高考成績打臉眾人:別再甩鍋給學校了!

雙休毀了孩子?深圳高考成績打臉眾人:別再甩鍋給學校了!

手工制作阿愛
2026-06-28 13:37:43
美專家:亞洲秩序正在轉變,中國統一可能“不戰而勝”

美專家:亞洲秩序正在轉變,中國統一可能“不戰而勝”

海峽導報社
2026-06-27 10:42:04
有人60歲就腦梗,有人一輩子不會腦梗,醫生直言:關鍵在于5件事

有人60歲就腦梗,有人一輩子不會腦梗,醫生直言:關鍵在于5件事

健身狂人
2026-06-26 02:16:28
張雪怒了:820不如雅馬哈?你嘴好臭!下點注 輸了送你100臺車

張雪怒了:820不如雅馬哈?你嘴好臭!下點注 輸了送你100臺車

念洲
2026-06-27 20:02:53
白玉蘭后勁太大!劉丹為楊紫握拳,趙麗穎回應,熱巴肖戰全炸了

白玉蘭后勁太大!劉丹為楊紫握拳,趙麗穎回應,熱巴肖戰全炸了

手工制作阿殲
2026-06-28 18:29:29
“為錢玩命的傻瓜用完了!”前線軍人道破真相:克里姆林宮只剩兩條路?

“為錢玩命的傻瓜用完了!”前線軍人道破真相:克里姆林宮只剩兩條路?

荷蘭豆愛健康
2026-06-28 10:15:29
今日足球看點:南非VS加拿大,淘汰賽新軍對決

今日足球看點:南非VS加拿大,淘汰賽新軍對決

Shoot體育
2026-06-28 07:15:07
6月28日,萬眾期待的2026年養老金調整通知公布了嗎?漲幅有多少

6月28日,萬眾期待的2026年養老金調整通知公布了嗎?漲幅有多少

社保小達人
2026-06-28 11:46:03
世界杯1/16決賽對陣出爐,上半區五大奪冠熱門齊聚,誰最有冠軍相?

世界杯1/16決賽對陣出爐,上半區五大奪冠熱門齊聚,誰最有冠軍相?

都市快報橙柿互動
2026-06-28 16:54:23
2026-06-28 20:43:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13379文章數 142681關注度
往期回顧 全部

科技要聞

DeepSeek最新論文:如何讓大模型跑得更快

頭條要聞

男子控訴妻子要求令人崩潰吵架無果:每周末是我的噩夢

頭條要聞

男子控訴妻子要求令人崩潰吵架無果:每周末是我的噩夢

體育要聞

韓國可算確定被淘汰了

娛樂要聞

曾沛慈拿下《乘風2026》年度總冠軍

財經要聞

兩只股票撐起的韓國股市,半年熔斷?33 次

汽車要聞

搭載華為乾崑六件套 東風奕派M8預售19.98萬起

態度原創

本地
時尚
教育
公開課
軍事航空

本地新聞

世界杯球迷節:比球賽更好玩的派對

夏天裙子不用買多,建議入手一條藍裙子,清爽高級又耐看

教育要聞

教育哲學精品課,道家老子與莊子的教育思想

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普又發文威脅:伊朗將不復存在

無障礙瀏覽 進入關懷版