无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

MBench: 清華x騰訊聯合定義視頻世界模型的長期記憶能力

0
分享至





隨著視頻生成技術的發展,模型正在從短視頻片段合成,向流式長視頻生成演進。然而,僅僅做到視覺上的逼真是不夠的。一個功能完備的視頻世界模型,必須能夠在長時序交互中保持穩定的內部狀態,并遵循真實世界的物理定律與邏輯規則。

為了系統化地量化和評估這一核心能力,清華大學與騰訊微信視覺團隊推出了MBench—— 一個專門針對流式視頻生成模型和世界模型記憶能力的評測基準。



  • 項目主頁: https://peanutup.github.io/MBench-project/
  • 代碼倉庫: https://github.com/study-overflow/MBench
  • 排行榜鏈接:https://huggingface.co/spaces/study-overflow/MBench_Leaderboard

為什么關注 “記憶能力”?

雖然現有的視頻生成技術已經可以合成視覺上可信的視頻片段,但在走向長視頻生成和功能性的世界模擬時,一個根本性的挑戰依然存在:模型必須能夠忠實地維持現實世界的視覺特征、語義規則、內在動力學和物理規律,并可靠地支持長時序的預測、推理與交互。如果缺乏這種能力,隨著生成時間的延長或交互的增加,視頻往往會出現物體和人物視覺特征突變、場景結構崩塌或因果關系錯誤等現象。

這種從 “視覺合成” 向 “世界建模” 的跨越,本質上需要模型具備長期記憶能力,以維持內部世界狀態在長時序和復雜交互中的穩定性與一致性。

然而,當前的視頻生成評測基準(如 VBench 等)主要側重于單次短視頻生成的視覺質量、運動連貫性或文本對齊。這些指標能夠衡量生成的視頻 “看起來真不真”,卻忽略了對世界 “持久屬性” 保留能力的量化。為了填補這一空白,系統性地衡量模型能否真正記住并模擬物理世界,MBench 首次將視頻和世界模型在長時序下的記憶能力作為核心觀測對象進行了專項基準測試。



MBench 和主流視頻世界模型 benchmark 的比較

MBench 的多維度架構

MBench 基于 1040 個案例,將記憶能力解構為三個互補的核心維度,并進一步細分為 12 個可量化的子維度,涵蓋了從靜態屬性到動態因果的全方位記憶要求:



MBench 的評測維度劃分

  • 實體一致性 (Entity Consistency):

實體一致性關注模型保留個體參與者持久身份和屬性的能力。包括物體一致性(幾何、紋理)和人類一致性(身份特征、外觀細節)。簡單來說,就是當一個人或物體被遮擋、離開畫面再回來時,它的樣子、穿著、特征是否保持不變。

  • 環境一致性 (Environment Consistency):

環境一致性衡量模擬場景的穩定性。包括空間一致性(通過極線幾何和重投影誤差衡量 3D 布局)和渲染一致性(光照與風格的穩定性)。環境一致性考驗的是模型對 3D 空間世界的理解能力 —— 當相機移動、旋轉再回到原位時,房間的布局、場景的結構是否和之前保持一致;而渲染一致性衡量視頻整體上光線的方向和整體的畫面風格是否能保持一致。

  • 因果一致性 (Causal Consistency):

因果一致性衡量模型能否記住事件的因果邏輯,分為自演化和交互。這是最高級的記憶能力:例如,當一個物體正在被打碎,而相機移開再轉回,地上應該產生相應的碎片;當你通過文本指令模型移動一個物體,模型應該準確執行并記住新的位置,即使物體在當前的畫面中已經變得不可見。

針對生成隨機性的評分機制:Trigger-Conditioned Scoring

在評估視頻模型的記憶能力時,團隊發現了一個主要的干擾因素(confound)—— 模型對記憶觸發事件的響應能力存在差異。例如,對于文本條件模型,其生成的視頻往往無法真正呈現提示詞中要求的鏡頭運動、物體遮擋或動態變化;對于動作驅動的世界模型,也可能存在生成的視頻無法正確響應相機運動的現象。這導致模型可能會通過生成靜態或保守內容的方式來避開挑戰,從而獲得虛高的一致性評分。

為此,MBench 引入了觸發條件評分(Trigger-Conditioned Scoring)機制,將得分拆解為兩個部分:

1.觸發覆蓋率 (Trigger Coverage, C_trig):驗證模型是否成功執行了記憶挑戰事件(如物體出鏡再入鏡)。

2.記憶可靠度 (Memory Reliability, S_rel):僅在成功觸發挑戰的樣本上計算一致性得分。

最終的 M-Score 取兩者的調和平均數,旨在懲罰通過生成保守 / 靜態內容來規避一致性挑戰的行為,獎勵那些既能模擬動態世界又能保持一致性的模型。

對 14 個主流 SOTA 模型的評測發現


MBench 對 8 個文本驅動模型和 6 個動作驅動模型進行了大規模評測,評測結果表明,目前并不存在單一模型可以在所有維度上都表現出色,記憶能力仍然是流式視頻生成和世界模型的普遍瓶頸。



模型分數雷達圖



實驗評測結果

對實驗結果進行分析,還可以得到如下發現:

  • 空間與因果能力是主要瓶頸:評測結果顯示,多數模型在長時序視角轉換下的空間幾何還原,以及涉及物理演化的因果邏輯保持上存在顯著缺陷,難以找回消失的視圖或延續畫面外的物理過程。
  • 動作驅動模型的 “偏科” 現象:動作條件模型雖然在空間穩定性指標上表現較好,但存在一個普遍的失效模式 —— 即傾向于生成過度靜態的場景。這種方式雖然規避了空間坍縮,但模型實際上無法驅動復雜的物理演化。
  • 視覺逼真度不等于記憶穩定性:實驗證明,能夠合成高質量、高保真畫面的模型,在長時序記憶維度上不一定占優。這說明單純的視覺生成指標無法替代對模型內部狀態持久性的專項評估,證明了建立記憶能力基準的必要性。


從生成單張圖片到合成分鐘級視頻,視頻生成技術已經取得了令人矚目的進步。然而,要實現能夠理解、預測并進行交互的世界模型,并讓流式視頻生成保持長時一致性,我們仍有很長的路要走。而 “記憶”,正是構建這些核心能力的基石。MBench 揭示了當前主流模型在記憶能力上的真實邊界,也為未來的研究指明了方向。

目前,MBench 已全面開源,開源內容包括:完整的 1040 個評測案例數據集、自動化評測代碼與工具鏈、實時更新的公開排行榜,以及詳細的技術報告與實驗結果。相信在 MBench 的推動下,我們終將迎來能夠 “記住世界、理解世界、預測世界” 的下一代視頻世界模型。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
惡劣!韓國美女博主自拍,墨西哥球迷做拉眼角動作,身份已被挖出

惡劣!韓國美女博主自拍,墨西哥球迷做拉眼角動作,身份已被挖出

風過鄉
2026-06-13 20:03:49
印度突破人類底線!男子和岳母4年亂倫

印度突破人類底線!男子和岳母4年亂倫

歲月有情1314
2026-06-14 02:31:50
阿里高層這次真的生氣了

阿里高層這次真的生氣了

一見財經
2026-06-12 11:11:21
特朗普發AI視頻扮成“日本忍者”引日本不滿:已通過外交渠道向美方表達立場,“強烈希望同樣的事不要再次發生”

特朗普發AI視頻扮成“日本忍者”引日本不滿:已通過外交渠道向美方表達立場,“強烈希望同樣的事不要再次發生”

政知新媒體
2026-06-13 11:52:29
新餐館裝修500把椅子放門口 被市民誤認為是不要的直接搬空 老板娘喊話:主動歸還者請吃砂鍋

新餐館裝修500把椅子放門口 被市民誤認為是不要的直接搬空 老板娘喊話:主動歸還者請吃砂鍋

閃電新聞
2026-06-13 12:22:15
張雪回應曇花六現:我的小心臟受不了!德比斯穩如老牛 很有智慧

張雪回應曇花六現:我的小心臟受不了!德比斯穩如老牛 很有智慧

念洲
2026-06-13 22:36:59
詹俊也犯了巨大巨大失誤!將美國歌手誤認為是小羅:實在是太像了

詹俊也犯了巨大巨大失誤!將美國歌手誤認為是小羅:實在是太像了

風過鄉
2026-06-14 07:49:53
越扒越驚心!你根本想象不到釋永信在少林寺的奢靡生活有多離譜?

越扒越驚心!你根本想象不到釋永信在少林寺的奢靡生活有多離譜?

清歡百味
2026-06-13 09:34:33
烏克蘭襲擊導致燃料危機惡化,扎哈羅娃呼吁“友好國家”伸出援手

烏克蘭襲擊導致燃料危機惡化,扎哈羅娃呼吁“友好國家”伸出援手

山河路口
2026-06-13 21:03:30
中國不需要也不可能復制SpaceX

中國不需要也不可能復制SpaceX

大象新聞
2026-06-13 15:33:12
一場1-1絕平,誕生世界杯最大冷門!新死亡之組:4隊同分,全亂了

一場1-1絕平,誕生世界杯最大冷門!新死亡之組:4隊同分,全亂了

侃球熊弟
2026-06-14 06:08:16
鵝腿阿姨的麻煩越來越大了

鵝腿阿姨的麻煩越來越大了

大張的自留地
2026-06-13 20:34:31
裝修工人因走錯樓層,誤將303室當403室拆成毛坯,法院判了→

裝修工人因走錯樓層,誤將303室當403室拆成毛坯,法院判了→

封面新聞
2026-06-13 13:44:22
日媒:韓國決定申請加入CPTPP

日媒:韓國決定申請加入CPTPP

參考消息
2026-06-13 12:18:28
范德比爾特曬出新車,東契奇評論:可以把車借我開嗎求求了

范德比爾特曬出新車,東契奇評論:可以把車借我開嗎求求了

懂球帝
2026-06-13 22:23:08
不敢信!歐洲球隊0勝:瑞士狂轟26腳只進1點球 卡塔爾拼下歷史首分

不敢信!歐洲球隊0勝:瑞士狂轟26腳只進1點球 卡塔爾拼下歷史首分

風過鄉
2026-06-14 05:34:56
時速101公里!1.4億歐熊皇拯救巴西隊:底線過人+暴力抽射 安帥歡呼

時速101公里!1.4億歐熊皇拯救巴西隊:底線過人+暴力抽射 安帥歡呼

風過鄉
2026-06-14 06:47:55
發行 5.56 億股刷新紀錄,萬億富豪馬斯克,私生活屢次登上熱搜

發行 5.56 億股刷新紀錄,萬億富豪馬斯克,私生活屢次登上熱搜

財經無忌
2026-06-13 09:44:40
穆帥下逐客令!皇馬26歲中場慘遭清洗 售價超6000萬

穆帥下逐客令!皇馬26歲中場慘遭清洗 售價超6000萬

球事百科吖
2026-06-13 19:18:38
新加坡民怨沸騰,官方強硬打壓,堅決不承認“印加坡”

新加坡民怨沸騰,官方強硬打壓,堅決不承認“印加坡”

怪味歷史連連看
2026-06-13 09:15:19
2026-06-14 09:36:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13246文章數 142669關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

“五星”巴西首戰戰平 德國“戰車”凌晨登場

頭條要聞

“五星”巴西首戰戰平 德國“戰車”凌晨登場

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

教育
時尚
旅游
房產
數碼

教育要聞

整體思想求值,一個視頻學會!

伊姐周六熱推:電視劇《南部檔案》;電視劇《意外調查組》......

旅游要聞

十載歡樂相伴,上海迪士尼點亮無數人的溫暖時光

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

數碼要聞

綠聯推出DXP 6800/8800 Ultra NAS:雙萬兆雙雷電4,PCIe擴展

無障礙瀏覽 進入關懷版