網易首頁 > 網易號 > 正文申請入駐

MBench: 清華x騰訊聯合定義視頻世界模型的長期記憶能力

2026-06-11 11:40:22　來源: 機器之心Pro

天津舉報

分享至

隨著視頻生成技術的發展，模型正在從短視頻片段合成，向流式長視頻生成演進。然而，僅僅做到視覺上的逼真是不夠的。一個功能完備的視頻世界模型，必須能夠在長時序交互中保持穩定的內部狀態，并遵循真實世界的物理定律與邏輯規則。

為了系統化地量化和評估這一核心能力，清華大學與騰訊微信視覺團隊推出了MBench—— 一個專門針對流式視頻生成模型和世界模型記憶能力的評測基準。

項目主頁： https://peanutup.github.io/MBench-project/
代碼倉庫： https://github.com/study-overflow/MBench
排行榜鏈接：https://huggingface.co/spaces/study-overflow/MBench_Leaderboard

為什么關注 “記憶能力”？

雖然現有的視頻生成技術已經可以合成視覺上可信的視頻片段，但在走向長視頻生成和功能性的世界模擬時，一個根本性的挑戰依然存在：模型必須能夠忠實地維持現實世界的視覺特征、語義規則、內在動力學和物理規律，并可靠地支持長時序的預測、推理與交互。如果缺乏這種能力，隨著生成時間的延長或交互的增加，視頻往往會出現物體和人物視覺特征突變、場景結構崩塌或因果關系錯誤等現象。

這種從 “視覺合成” 向 “世界建模” 的跨越，本質上需要模型具備長期記憶能力，以維持內部世界狀態在長時序和復雜交互中的穩定性與一致性。

然而，當前的視頻生成評測基準（如 VBench 等）主要側重于單次短視頻生成的視覺質量、運動連貫性或文本對齊。這些指標能夠衡量生成的視頻 “看起來真不真”，卻忽略了對世界 “持久屬性” 保留能力的量化。為了填補這一空白，系統性地衡量模型能否真正記住并模擬物理世界，MBench 首次將視頻和世界模型在長時序下的記憶能力作為核心觀測對象進行了專項基準測試。

MBench 和主流視頻世界模型 benchmark 的比較

MBench 的多維度架構

MBench 基于 1040 個案例，將記憶能力解構為三個互補的核心維度，并進一步細分為 12 個可量化的子維度，涵蓋了從靜態屬性到動態因果的全方位記憶要求：

MBench 的評測維度劃分

實體一致性 (Entity Consistency)：

實體一致性關注模型保留個體參與者持久身份和屬性的能力。包括物體一致性（幾何、紋理）和人類一致性（身份特征、外觀細節）。簡單來說，就是當一個人或物體被遮擋、離開畫面再回來時，它的樣子、穿著、特征是否保持不變。

環境一致性 (Environment Consistency)：

環境一致性衡量模擬場景的穩定性。包括空間一致性（通過極線幾何和重投影誤差衡量 3D 布局）和渲染一致性（光照與風格的穩定性）。環境一致性考驗的是模型對 3D 空間世界的理解能力 —— 當相機移動、旋轉再回到原位時，房間的布局、場景的結構是否和之前保持一致；而渲染一致性衡量視頻整體上光線的方向和整體的畫面風格是否能保持一致。

因果一致性 (Causal Consistency)：

因果一致性衡量模型能否記住事件的因果邏輯，分為自演化和交互。這是最高級的記憶能力：例如，當一個物體正在被打碎，而相機移開再轉回，地上應該產生相應的碎片；當你通過文本指令模型移動一個物體，模型應該準確執行并記住新的位置，即使物體在當前的畫面中已經變得不可見。

針對生成隨機性的評分機制：Trigger-Conditioned Scoring

在評估視頻模型的記憶能力時，團隊發現了一個主要的干擾因素（confound）—— 模型對記憶觸發事件的響應能力存在差異。例如，對于文本條件模型，其生成的視頻往往無法真正呈現提示詞中要求的鏡頭運動、物體遮擋或動態變化；對于動作驅動的世界模型，也可能存在生成的視頻無法正確響應相機運動的現象。這導致模型可能會通過生成靜態或保守內容的方式來避開挑戰，從而獲得虛高的一致性評分。

為此，MBench 引入了觸發條件評分（Trigger-Conditioned Scoring）機制，將得分拆解為兩個部分：

1.觸發覆蓋率 (Trigger Coverage, C_trig)：驗證模型是否成功執行了記憶挑戰事件（如物體出鏡再入鏡）。

2.記憶可靠度 (Memory Reliability, S_rel)：僅在成功觸發挑戰的樣本上計算一致性得分。

最終的 M-Score 取兩者的調和平均數，旨在懲罰通過生成保守 / 靜態內容來規避一致性挑戰的行為，獎勵那些既能模擬動態世界又能保持一致性的模型。

對 14 個主流 SOTA 模型的評測發現

MBench 對 8 個文本驅動模型和 6 個動作驅動模型進行了大規模評測，評測結果表明，目前并不存在單一模型可以在所有維度上都表現出色，記憶能力仍然是流式視頻生成和世界模型的普遍瓶頸。

模型分數雷達圖

實驗評測結果

對實驗結果進行分析，還可以得到如下發現：

空間與因果能力是主要瓶頸：評測結果顯示，多數模型在長時序視角轉換下的空間幾何還原，以及涉及物理演化的因果邏輯保持上存在顯著缺陷，難以找回消失的視圖或延續畫面外的物理過程。
動作驅動模型的 “偏科” 現象：動作條件模型雖然在空間穩定性指標上表現較好，但存在一個普遍的失效模式 —— 即傾向于生成過度靜態的場景。這種方式雖然規避了空間坍縮，但模型實際上無法驅動復雜的物理演化。
視覺逼真度不等于記憶穩定性：實驗證明，能夠合成高質量、高保真畫面的模型，在長時序記憶維度上不一定占優。這說明單純的視覺生成指標無法替代對模型內部狀態持久性的專項評估，證明了建立記憶能力基準的必要性。

從生成單張圖片到合成分鐘級視頻，視頻生成技術已經取得了令人矚目的進步。然而，要實現能夠理解、預測并進行交互的世界模型，并讓流式視頻生成保持長時一致性，我們仍有很長的路要走。而 “記憶”，正是構建這些核心能力的基石。MBench 揭示了當前主流模型在記憶能力上的真實邊界，也為未來的研究指明了方向。

目前，MBench 已全面開源，開源內容包括：完整的 1040 個評測案例數據集、自動化評測代碼與工具鏈、實時更新的公開排行榜，以及詳細的技術報告與實驗結果。相信在 MBench 的推動下，我們終將迎來能夠 “記住世界、理解世界、預測世界” 的下一代視頻世界模型。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.