網易首頁 > 網易號 > 正文申請入駐

西澳大學等聯合團隊給模型裝上了一套"事件日歷"

2026-04-20 21:52:10　來源: 科技行者

北京舉報

分享至

這項由西澳大學、騰訊優圖實驗室、香港中文大學（深圳）、南方科技大學和莫納什大學聯合開展的研究，以預印本形式于2026年4月6日發布在arXiv平臺，論文編號為arXiv:2604.04415。研究的核心成果是一個名為Factum-4B的視頻理解模型，以及一套訓練它的全新方法體系。

你有沒有想過，當一個人工智能模型"看"一段視頻時，它究竟在做什么？表面上，它好像在"理解"畫面，但實際上，現有的大多數視頻AI都像一個記憶力不太好的觀眾——剛看完一段，就忘了前面發生了什么，更別提推斷出各個事件之間的前因后果。

這恰恰是當前視頻AI領域的核心痛點。研究團隊發現，那些被設計為"會思考"的AI模型，在處理視頻問題時往往比普通模型表現更差。這就好比你買了一個"加強版"學習工具，結果它學了半天，反而越學越亂。問題出在哪里？這支研究團隊認為，根源在于這些模型沒有建立起一套有條理的"事件日歷"，就直接開始推理，導致思維飄移、證據丟失、邏輯混亂。

這項研究的解法，借鑒了人類大腦處理視頻的方式。心理學研究早就發現，人在理解一段視頻時，并不是一幀一幀地死記硬背，而是先在腦海里建立一個結構化的草圖——誰在做什么、在哪里做、大概什么時間——然后再基于這個草圖去推理。Factum-4B就是按照這個思路被設計出來的：先建立一份"結構化事件檔案"，再據此進行有據可查的因果推理。

一、視頻AI的通病：看了又忘，想了又亂

要理解這項研究解決了什么問題，先得搞清楚現有的視頻AI到底哪里出了問題。

現有的視頻大語言模型（也就是那些能回答關于視頻問題的AI）普遍依賴一種叫做"思維鏈"的方法。這種方法本來是為文字任務設計的：讓AI在給出答案之前，先寫出一步步的推理過程，就像數學題的解題步驟一樣。這在純文字任務上效果不錯，但視頻不是文字。

視頻的特點是信息量極度密集，而且充滿了時間上的冗余。如果你讓AI對著一段十分鐘的視頻做自由推理，它很容易陷入這樣的困境：花了大量篇幅描述不重要的畫面細節，把真正關鍵的線索淹沒在一堆廢話里；或者跳來跳去地分析幾個孤立的時間點，完全沒有把握住事件之間的連續性和因果關系。

研究團隊做了一個直接的實驗驗證：他們把同一個基礎模型分成兩個版本，一個是普通的"指令跟隨版"，一個是加入了自由思維鏈的"思考增強版"。結果發現，那個號稱更會思考的版本，在幾乎所有視頻理解測試上都不如普通版本。這個結論聽起來反直覺，但背后的道理很清晰：不加約束的思考，在視頻這種高度時序化的信息面前，只會制造混亂，而不是帶來洞見。

這就是這支研究團隊要解決的核心問題：如何給AI的"思考"加上一套有意義的框架，讓它既不亂說廢話，又能真正理解視頻里發生了什么。

二、解法核心：先記"事件日歷"，再推理

研究團隊提出的解法，圍繞一個他們命名為"結構化事件檔案"（Structured Event Facts）的概念展開。簡單來說，這就是一份關于視頻的結構化摘要，在AI開始回答任何問題之前，必須先把這份摘要寫完。

這份摘要的格式非常具體。對于視頻中的每一個時間段（大約每10到30秒一段），AI必須記錄下以下六類信息：時間段的起止時間、畫面中出現的人物、人物的具體動作、所處的場景、畫面中的關鍵物體、攝像機的運動方式，以及一段把上述所有信息整合在一起的事件描述。

以論文中的示例為例——一段關于在停車場鏟雪的視頻——AI會先寫下類似這樣的檔案：在0到39秒，一位穿黑色外套的女士用鏟子清理人行道上的積雪，手持攝像機跟隨拍攝；在39到100秒，一位戴王冠、穿米色夾克的男士進入停車場，開始鏟除一輛銀色汽車引擎蓋上的積雪……如此逐段記錄，直到視頻結束。

有了這份"事件日歷"，AI在回答"這個人什么時候開始鏟地上的雪"這類問題時，就不再需要憑印象瞎猜，而是可以像偵探翻閱案件筆記一樣，逐條核對檔案，找出符合條件的時間段，然后通過檢驗前后事件的邏輯連貫性來確認答案。

研究團隊把后續的推理過程也設計得同樣有條理，分為三個步驟。第一步叫"全局搜索與定位"：AI在事件檔案中尋找與問題相關的關鍵詞，快速鎖定候選的時間段。第二步叫"因果驗證"：AI檢查候選時間段的前一段和后一段，確認這個時間段在整個事件鏈中是否說得通——前面有沒有合理的鋪墊，后面有沒有合理的延續。第三步叫"最終對齊"：AI進行全局一致性檢查，確保推斷出的時間范圍真的包含在觀察到的活動序列之內。

這三步放在一起，構成了一套從"找線索"到"驗線索"再到"得結論"的完整推理流程，而不是像以前那樣東一句西一句地亂想。

三、數據工程：60000條訓練樣本是怎么造出來的

有了好的設計思路，還得有足夠高質量的訓練數據，模型才能真正學會這套方法。研究團隊為此專門構建了一個名為CausalFact-60K的數據集，總計包含32049條視頻樣本和約60000條標注。

數據來源方面，研究團隊從多個高質量的視頻時序理解數據集中篩選素材，包括ActivityNet-Captions、QVHighlights、COIN、Charades-STA等，所有視頻均來自這些數據集的訓練集，不使用原始的文字標注。為確保數據密度，團隊設定了一個篩選標準：一段150秒的視頻，至少要包含5個標注事件，才夠資格進入訓練集。那些事件密度不夠的視頻不會被完全丟棄，而是被保留下來用于后續的強化學習階段。

數據標注過程分為兩大階段。第一階段專注于生成結構化事件檔案。團隊使用了兩個當時最強大的視覺語言模型交替工作：Qwen3-VL-235B負責生成初稿，Gemini 2.5 Pro負責審核和質量打分；然后兩者對換角色，讓生成方和審核方相互牽制，避免任何一個模型的偏好污染數據質量。生成好的檔案還會經過人工抽樣檢查，每批1000條樣本中隨機抽取500條進行人工核驗。

第二階段在已有事件檔案的基礎上生成推理思維鏈。由于思維鏈對邏輯質量的要求更高，這個階段只使用Gemini 2.5 Pro作為生成器，Qwen3-VL擔任質量審核員。流程同樣包含人工抽樣檢查。

在任務類型分布上，這批訓練數據以時序定位任務為主，占53%，因為這類任務有明確的時間重疊率（IoU）作為評判標準，能給強化學習提供穩定的獎勵信號。空間問答和推理問答各占約21%和20%，確保模型不只會定位時間，還保有基本的語義理解能力。剩余少量任務包括時序問答、全局描述和局部描述，起到補充覆蓋的作用。

四、四階段訓練：從"認字"到"寫作文"

拿到了數據，研究團隊面臨的下一個問題是：怎么把這些能力一步步注入模型？如果一上來就讓模型學"先寫檔案、再推理、再給答案"這一整套流程，模型會因為任務太難而直接崩潰——要么檔案寫得一團糟，要么推理過程毫無結構，兩者兼顧根本學不會。

解決辦法是把訓練拆成四個漸進式階段，就像學寫文章要先認字、再造句、再寫段落、再寫完整作文一樣。

第一階段專注于讓模型學會"寫事件檔案"。這個階段的任務只有一件事：給模型看視頻，讓它輸出格式正確、內容準確的結構化事件描述。沒有任何推理，純粹是訓練模型的結構化感知能力。

第一階段半是一個過渡步驟，研究團隊稱之為"格式預熱"。這個階段的任務內容和第一階段一模一樣——還是寫事件檔案——但輸出格式變了：模型現在必須把檔案放在特定的XML標簽里，后面再跟著一個思考標簽和一個回答標簽，只是思考內容暫時是個空占位符。這看起來微不足道，但實踐發現如果跳過這步，模型在下一階段會產生大量格式錯誤，就像要求一個從沒寫過格式文件的人突然交出規范的合同一樣。

第二階段是"思維預熱"。這時候，訓練數據換成了真實的視頻問答任務，模型需要先生成事件檔案，再按照三步推理框架（全局搜索、因果驗證、最終對齊）寫出完整的推理過程，最后給出答案。通過第一和第一半階段的鋪墊，模型這時候已經有了足夠的基礎來學習這套完整流程。

第三階段是強化學習階段，也是整個訓練體系最復雜的部分，后面會專門展開講。

五、獎勵機制：如何評判AI的"答卷"質量

在強化學習階段，AI需要知道自己做對了還是做錯了，才能改進。研究團隊設計了四類獎勵信號，分別衡量AI回答的不同維度。

第一類是格式獎勵，檢查AI的回答是否嚴格遵守了"事件檔案+思考過程+最終答案"的結構，以及思考過程里是否包含了"全局搜索"、"因果驗證"、"最終對齊"、"前因"、"視覺驗證"、"后果"這六個關鍵詞。格式完全正確得滿分1.0，只滿足基本格式要求但缺少關鍵詞得0.5分，格式完全錯誤得0分。

第二類是時序定位獎勵，用于時間段定位類任務。評判標準是AI預測的時間段與正確答案的重疊程度。如果AI預測的是單個連續時間段，但正確答案是多個不連續片段，系統會取"覆蓋率"和"區間重疊率"中較高的一個分數，避免因為格式差異而錯誤懲罰了實質正確的答案。

第三類是多項選擇準確率，用于選擇題類任務，非零即一，選對了就是滿分，選錯了就是零分。

第四類是長度獎勵，這是最有趣的一個設計。研究團隊發現，讓AI在寫完整推理鏈的同時保持簡潔，是一件很難的事。如果任由AI自由生成，它很容易變成一個"廢話大王"，把簡單問題寫成論文。為此團隊設計了一個"軟懲罰"機制：在目標長度以內不扣分，超過目標長度之后按比例線性扣分，超過上限則直接給零分。這比一刀切的硬截斷要溫和得多，不會造成訓練的不穩定。

六、平衡的難題：強化學習遇上多目標沖突

四類獎勵聽起來很全面，但同時優化它們卻帶來了一個頭疼的問題。研究團隊發現，這四個目標之間存在天然的緊張關系——特別是"內容完整性"和"長度效率"之間的矛盾。要寫一份完整、詳細的事件檔案，必然需要更多的篇幅；但長度獎勵又在懲罰過長的輸出。這兩個目標在拉鋸，導致模型在訓練時無所適從。

傳統的解決方法是把多個獎勵加權求和，化為一個綜合分數。但這種方法有一個根本缺陷：權重是固定的，而實際訓練過程中不同獎勵信號之間的相對重要性會動態變化。固定權重往往會讓模型傾向于把容易拿高分的獎勵做到極致，而忽視那些本來更稀缺、更關鍵的信號。

研究團隊借鑒了一種叫做"多梯度下降算法"（MGDA）的數學工具，提出了他們自己的解法，稱為"帕累托前沿引導優勢平衡"算法，簡稱P-FAB。

這個名字聽起來很嚇人，但核心思想可以用一個簡單的比喻來理解。假設你在組織一支四人樂隊，四個人分別代表格式、準確性、因果完整性和簡潔性四個目標。每個人都有自己想要演奏的方向，如果四個人各說各話，演出就會一團糟。P-FAB的作用，就是找出一個指揮方向，讓這四個人都往同一個方向走，同時確保那些平時搶不到話語權的成員（比如因果完整性這個難以滿足的目標）能得到更多關注。

具體在數學上，P-FAB的做法是這樣的：先對每個獎勵信號做中心化處理，消除基準差異；再對各信號做標準化處理，消除量綱不同帶來的影響；然后用一個叫"弗蘭克-沃爾夫算法"的迭代方法，在標準化空間里尋找一組權重，使得加權后的綜合方向對所有目標都盡可能有利，而不是偏向某一個。

最終得到的權重是動態的——每一批訓練數據，權重都會重新計算。那些當前表現較差、信號稀疏的目標會自動獲得更高的權重，從而得到更多關注；那些已經做得不錯的目標則適當降權。這就像一個有彈性的管理系統，總是把資源優先投入到最需要改進的地方。

論文中給出了一個對比示例：同樣一組訓練樣本，在傳統GRPO方法下，四個不同的候選回答可能計算出完全相同的優勢值，模型根本無法區分它們的高下；而P-FAB方法下，四個樣本得到了明顯不同的分數，讓模型能夠清晰地判斷哪個方向值得追求。

七、實驗結果：小模型的大表現

Factum-4B是以Qwen3-VL-4B-Instruct為基礎模型訓練出來的，參數量只有40億，屬于相當輕量的規模。研究團隊在多個視頻理解基準測試上進行了評估，結果出人意料地強勢。

在視頻時序定位任務上，研究團隊測試了三個數據集：Charades-TimeLens（一個重新標注了高質量時間戳的室內活動視頻集）、ActivityNet-TimeLens（重新標注了更精確邊界的開放域視頻集）以及ActivityNet-Captions（一個廣泛使用的大規模基準）。評判指標是"Recall@1"，即AI給出的最優預測答案與正確答案的時間重疊率超過某個閾值的比例，閾值分別為0.3、0.5和0.7——閾值越高，對精度的要求越嚴格。

在ActivityNet-Captions上，Factum-4B的R1@0.5達到48.4%，R1@0.7達到28.1%，大幅超過了參數量更大的Time-R1-7B模型（后者R1@0.5僅39.0%，R1@0.7僅21.4%）。在高精度指標R1@0.7上，Factum-4B在所有開源模型中排名第一。更值得注意的是，Factum-4B使用的幀率僅為每秒1幀，而對比的開源模型普遍使用每秒2幀，相當于Factum-4B用更少的視覺信息取得了更好的結果。

在通用視頻理解基準上，研究團隊還測試了VideoMME（涵蓋電影、體育、紀錄片的長視頻評測集）、MLVU（面向長視頻的多任務評測集）、ETBench（細粒度時間敏感視頻理解基準）和NExT-GQA（基于因果和時序問答的視覺定位基準）。

Factum-4B在VideoMME上達到64.7%的準確率，在NExT-GQA上達到73.6%，比同參數量的Qwen3-VL-4B-Thinking版本高出整整7個百分點。在ETBench的8個子任務中，Factum-4B在6個上取得了最高分，其中時序視頻定位子任務得分66.1%，時序事件匹配子任務得分26.8%，后者甚至超過了專有閉源模型GPT-4o。

消融實驗進一步驗證了每個設計模塊的貢獻。去掉事件檔案只保留推理過程，VideoMME準確率從64.7%跌至60.8%；去掉推理過程只保留事件檔案，準確率跌至58.5%，是所有變體中跌幅最大的，說明如果沒有推理橋梁，檔案里的信息也無法被有效利用。去掉強化學習只用監督微調，ActivityNet R1@0.3比完整模型低8.3個百分點。將P-FAB替換為普通GRPO，在group size為4時性能差距為1.2個百分點，在group size為8時差距擴大到2.5個百分點，表明P-FAB的優勢在更大規模的對比組設置下更加突出。

八、這項研究的邊界與展望

研究團隊在論文中也坦率地指出了當前工作的局限性。Factum-4B的訓練數據規模仍然有限，總共只有約32000個視頻樣本，相比業界頭部模型的訓練規模還有相當大的差距。這意味著模型在某些特定類型的視頻任務上可能表現不穩定，要想在所有視頻理解任務上都取得優異表現，需要進一步擴展數據規模。

此外，這項研究目前聚焦于視頻時序理解和因果推理方向，對于純粹的空間理解（比如精確定位畫面中的物體位置）、復雜的多輪對話或需要外部知識的問答，尚未進行系統性探索。

從更宏觀的視角來看，這項研究揭示了一個有趣的認知科學啟示：人工智能的設計越接近人類認知的實際工作方式，往往就越有效。人類不是靠強大的蠻力逐幀記憶視頻，而是靠構建有意義的事件結構來理解視頻；AI也不應該靠無結構的冗長推理來處理視頻，而應該先建立結構化的認知地圖，再在地圖上尋路。

歸根結底，這項研究做的事情可以用一句話概括：它給AI看視頻時加上了一個"先記筆記、再動筆答題"的習慣。這個習慣看起來簡單，卻解決了長期困擾視頻AI的核心難題——如何在時間維度上保持因果邏輯的連貫性。

以前的視頻AI像一個只會隨手亂寫讀書筆記的學生，內容散亂、重點不突出、前后矛盾；Factum-4B更像一個養成了良好學習習慣的學生，每次讀完一段就整理好時間線，標注好關鍵事件，然后再基于這份有條理的筆記去回答問題。成績的差距，從實驗數據來看是顯而易見的。

對于普通人來說，這項研究離日常生活的距離或許比想象中近得多。視頻內容的智能檢索、安防攝像頭的行為分析、體育比賽的自動解說、醫療手術視頻的質量審查——所有這些應用場景都需要AI不僅能"看到"視頻中發生了什么，更要能理解事件之間的時間順序和因果關系。Factum-4B的方法提供了一條可擴展的路徑，而且它用一個40億參數的小模型就做到了許多70億參數模型做不到的事情，這對于資源有限的研究者和開發者來說是一個頗具參考價值的信號。

對這項研究感興趣的讀者，可以通過arXiv編號2604.04415查閱完整論文，論文題目為"Structured Causal Video Reasoning via Multi-Objective Alignment"。

Q&A

Q1：Factum-4B的"結構化事件檔案"和普通視頻字幕有什么區別？

A：普通視頻字幕通常是對畫面的自由描述，格式隨意，內容可能冗長也可能遺漏關鍵信息。Factum-4B的結構化事件檔案則嚴格要求每個時間段必須記錄六類信息：人物、動作、場景、物體、攝像機運動和事件描述，格式固定且每類信息都有明確的填寫規則（比如畫面中沒有人時，動作一欄必須寫"None"）。這種強制結構確保了檔案的信息密度和格式一致性，也讓后續的推理過程有可靠的依據可查，而不是在模糊描述中猜測。

Q2：P-FAB算法為什么比傳統的多獎勵加權方法更有效？

A：傳統方法把多個獎勵信號乘以固定權重后加總，得到一個綜合分數。這有兩個問題：權重固定意味著無法適應訓練過程中不同目標的動態變化；加總之后不同目標之間的差異被抹平，模型看不出哪些樣本在哪些方面更優秀。P-FAB在標準化空間里動態計算權重，確保稀缺的、難以滿足的目標獲得更多關注，同時為每個訓練樣本生成更有區分度的優勢值，讓模型在正確的方向上學習。

Q3：Factum-4B在視頻理解上比GPT-4o強在哪里？

A：Factum-4B并不是全面超越GPT-4o，而是在特定的時間敏感任務上表現更優。具體來說，在ETBench基準的時序事件匹配子任務上，Factum-4B得分26.8%，高于GPT-4o的13.6%；在時序視頻定位子任務上同樣領先。這主要得益于Factum-4B專門針對時間因果推理進行了優化訓練，而通用大模型在這類精細化時序任務上并不具備專項優勢。不過在其他通用理解任務上，GPT-4o等大型閉源模型整體上仍有較大優勢。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.