![]()
這項由西澳大學、騰訊優圖實驗室、香港中文大學(深圳)、南方科技大學和莫納什大學聯合開展的研究,以預印本形式于2026年4月6日發布在arXiv平臺,論文編號為arXiv:2604.04415。研究的核心成果是一個名為Factum-4B的視頻理解模型,以及一套訓練它的全新方法體系。
你有沒有想過,當一個人工智能模型"看"一段視頻時,它究竟在做什么?表面上,它好像在"理解"畫面,但實際上,現有的大多數視頻AI都像一個記憶力不太好的觀眾——剛看完一段,就忘了前面發生了什么,更別提推斷出各個事件之間的前因后果。
這恰恰是當前視頻AI領域的核心痛點。研究團隊發現,那些被設計為"會思考"的AI模型,在處理視頻問題時往往比普通模型表現更差。這就好比你買了一個"加強版"學習工具,結果它學了半天,反而越學越亂。問題出在哪里?這支研究團隊認為,根源在于這些模型沒有建立起一套有條理的"事件日歷",就直接開始推理,導致思維飄移、證據丟失、邏輯混亂。
這項研究的解法,借鑒了人類大腦處理視頻的方式。心理學研究早就發現,人在理解一段視頻時,并不是一幀一幀地死記硬背,而是先在腦海里建立一個結構化的草圖——誰在做什么、在哪里做、大概什么時間——然后再基于這個草圖去推理。Factum-4B就是按照這個思路被設計出來的:先建立一份"結構化事件檔案",再據此進行有據可查的因果推理。
一、視頻AI的通病:看了又忘,想了又亂
要理解這項研究解決了什么問題,先得搞清楚現有的視頻AI到底哪里出了問題。
現有的視頻大語言模型(也就是那些能回答關于視頻問題的AI)普遍依賴一種叫做"思維鏈"的方法。這種方法本來是為文字任務設計的:讓AI在給出答案之前,先寫出一步步的推理過程,就像數學題的解題步驟一樣。這在純文字任務上效果不錯,但視頻不是文字。
視頻的特點是信息量極度密集,而且充滿了時間上的冗余。如果你讓AI對著一段十分鐘的視頻做自由推理,它很容易陷入這樣的困境:花了大量篇幅描述不重要的畫面細節,把真正關鍵的線索淹沒在一堆廢話里;或者跳來跳去地分析幾個孤立的時間點,完全沒有把握住事件之間的連續性和因果關系。
研究團隊做了一個直接的實驗驗證:他們把同一個基礎模型分成兩個版本,一個是普通的"指令跟隨版",一個是加入了自由思維鏈的"思考增強版"。結果發現,那個號稱更會思考的版本,在幾乎所有視頻理解測試上都不如普通版本。這個結論聽起來反直覺,但背后的道理很清晰:不加約束的思考,在視頻這種高度時序化的信息面前,只會制造混亂,而不是帶來洞見。
這就是這支研究團隊要解決的核心問題:如何給AI的"思考"加上一套有意義的框架,讓它既不亂說廢話,又能真正理解視頻里發生了什么。
二、解法核心:先記"事件日歷",再推理
研究團隊提出的解法,圍繞一個他們命名為"結構化事件檔案"(Structured Event Facts)的概念展開。簡單來說,這就是一份關于視頻的結構化摘要,在AI開始回答任何問題之前,必須先把這份摘要寫完。
這份摘要的格式非常具體。對于視頻中的每一個時間段(大約每10到30秒一段),AI必須記錄下以下六類信息:時間段的起止時間、畫面中出現的人物、人物的具體動作、所處的場景、畫面中的關鍵物體、攝像機的運動方式,以及一段把上述所有信息整合在一起的事件描述。
以論文中的示例為例——一段關于在停車場鏟雪的視頻——AI會先寫下類似這樣的檔案:在0到39秒,一位穿黑色外套的女士用鏟子清理人行道上的積雪,手持攝像機跟隨拍攝;在39到100秒,一位戴王冠、穿米色夾克的男士進入停車場,開始鏟除一輛銀色汽車引擎蓋上的積雪……如此逐段記錄,直到視頻結束。
有了這份"事件日歷",AI在回答"這個人什么時候開始鏟地上的雪"這類問題時,就不再需要憑印象瞎猜,而是可以像偵探翻閱案件筆記一樣,逐條核對檔案,找出符合條件的時間段,然后通過檢驗前后事件的邏輯連貫性來確認答案。
研究團隊把后續的推理過程也設計得同樣有條理,分為三個步驟。第一步叫"全局搜索與定位":AI在事件檔案中尋找與問題相關的關鍵詞,快速鎖定候選的時間段。第二步叫"因果驗證":AI檢查候選時間段的前一段和后一段,確認這個時間段在整個事件鏈中是否說得通——前面有沒有合理的鋪墊,后面有沒有合理的延續。第三步叫"最終對齊":AI進行全局一致性檢查,確保推斷出的時間范圍真的包含在觀察到的活動序列之內。
這三步放在一起,構成了一套從"找線索"到"驗線索"再到"得結論"的完整推理流程,而不是像以前那樣東一句西一句地亂想。
三、數據工程:60000條訓練樣本是怎么造出來的
有了好的設計思路,還得有足夠高質量的訓練數據,模型才能真正學會這套方法。研究團隊為此專門構建了一個名為CausalFact-60K的數據集,總計包含32049條視頻樣本和約60000條標注。
數據來源方面,研究團隊從多個高質量的視頻時序理解數據集中篩選素材,包括ActivityNet-Captions、QVHighlights、COIN、Charades-STA等,所有視頻均來自這些數據集的訓練集,不使用原始的文字標注。為確保數據密度,團隊設定了一個篩選標準:一段150秒的視頻,至少要包含5個標注事件,才夠資格進入訓練集。那些事件密度不夠的視頻不會被完全丟棄,而是被保留下來用于后續的強化學習階段。
數據標注過程分為兩大階段。第一階段專注于生成結構化事件檔案。團隊使用了兩個當時最強大的視覺語言模型交替工作:Qwen3-VL-235B負責生成初稿,Gemini 2.5 Pro負責審核和質量打分;然后兩者對換角色,讓生成方和審核方相互牽制,避免任何一個模型的偏好污染數據質量。生成好的檔案還會經過人工抽樣檢查,每批1000條樣本中隨機抽取500條進行人工核驗。
第二階段在已有事件檔案的基礎上生成推理思維鏈。由于思維鏈對邏輯質量的要求更高,這個階段只使用Gemini 2.5 Pro作為生成器,Qwen3-VL擔任質量審核員。流程同樣包含人工抽樣檢查。
在任務類型分布上,這批訓練數據以時序定位任務為主,占53%,因為這類任務有明確的時間重疊率(IoU)作為評判標準,能給強化學習提供穩定的獎勵信號。空間問答和推理問答各占約21%和20%,確保模型不只會定位時間,還保有基本的語義理解能力。剩余少量任務包括時序問答、全局描述和局部描述,起到補充覆蓋的作用。
四、四階段訓練:從"認字"到"寫作文"
拿到了數據,研究團隊面臨的下一個問題是:怎么把這些能力一步步注入模型?如果一上來就讓模型學"先寫檔案、再推理、再給答案"這一整套流程,模型會因為任務太難而直接崩潰——要么檔案寫得一團糟,要么推理過程毫無結構,兩者兼顧根本學不會。
解決辦法是把訓練拆成四個漸進式階段,就像學寫文章要先認字、再造句、再寫段落、再寫完整作文一樣。
第一階段專注于讓模型學會"寫事件檔案"。這個階段的任務只有一件事:給模型看視頻,讓它輸出格式正確、內容準確的結構化事件描述。沒有任何推理,純粹是訓練模型的結構化感知能力。
第一階段半是一個過渡步驟,研究團隊稱之為"格式預熱"。這個階段的任務內容和第一階段一模一樣——還是寫事件檔案——但輸出格式變了:模型現在必須把檔案放在特定的XML標簽里,后面再跟著一個思考標簽和一個回答標簽,只是思考內容暫時是個空占位符。這看起來微不足道,但實踐發現如果跳過這步,模型在下一階段會產生大量格式錯誤,就像要求一個從沒寫過格式文件的人突然交出規范的合同一樣。
第二階段是"思維預熱"。這時候,訓練數據換成了真實的視頻問答任務,模型需要先生成事件檔案,再按照三步推理框架(全局搜索、因果驗證、最終對齊)寫出完整的推理過程,最后給出答案。通過第一和第一半階段的鋪墊,模型這時候已經有了足夠的基礎來學習這套完整流程。
第三階段是強化學習階段,也是整個訓練體系最復雜的部分,后面會專門展開講。
五、獎勵機制:如何評判AI的"答卷"質量
在強化學習階段,AI需要知道自己做對了還是做錯了,才能改進。研究團隊設計了四類獎勵信號,分別衡量AI回答的不同維度。
第一類是格式獎勵,檢查AI的回答是否嚴格遵守了"事件檔案+思考過程+最終答案"的結構,以及思考過程里是否包含了"全局搜索"、"因果驗證"、"最終對齊"、"前因"、"視覺驗證"、"后果"這六個關鍵詞。格式完全正確得滿分1.0,只滿足基本格式要求但缺少關鍵詞得0.5分,格式完全錯誤得0分。
第二類是時序定位獎勵,用于時間段定位類任務。評判標準是AI預測的時間段與正確答案的重疊程度。如果AI預測的是單個連續時間段,但正確答案是多個不連續片段,系統會取"覆蓋率"和"區間重疊率"中較高的一個分數,避免因為格式差異而錯誤懲罰了實質正確的答案。
第三類是多項選擇準確率,用于選擇題類任務,非零即一,選對了就是滿分,選錯了就是零分。
第四類是長度獎勵,這是最有趣的一個設計。研究團隊發現,讓AI在寫完整推理鏈的同時保持簡潔,是一件很難的事。如果任由AI自由生成,它很容易變成一個"廢話大王",把簡單問題寫成論文。為此團隊設計了一個"軟懲罰"機制:在目標長度以內不扣分,超過目標長度之后按比例線性扣分,超過上限則直接給零分。這比一刀切的硬截斷要溫和得多,不會造成訓練的不穩定。
六、平衡的難題:強化學習遇上多目標沖突
四類獎勵聽起來很全面,但同時優化它們卻帶來了一個頭疼的問題。研究團隊發現,這四個目標之間存在天然的緊張關系——特別是"內容完整性"和"長度效率"之間的矛盾。要寫一份完整、詳細的事件檔案,必然需要更多的篇幅;但長度獎勵又在懲罰過長的輸出。這兩個目標在拉鋸,導致模型在訓練時無所適從。
傳統的解決方法是把多個獎勵加權求和,化為一個綜合分數。但這種方法有一個根本缺陷:權重是固定的,而實際訓練過程中不同獎勵信號之間的相對重要性會動態變化。固定權重往往會讓模型傾向于把容易拿高分的獎勵做到極致,而忽視那些本來更稀缺、更關鍵的信號。
研究團隊借鑒了一種叫做"多梯度下降算法"(MGDA)的數學工具,提出了他們自己的解法,稱為"帕累托前沿引導優勢平衡"算法,簡稱P-FAB。
這個名字聽起來很嚇人,但核心思想可以用一個簡單的比喻來理解。假設你在組織一支四人樂隊,四個人分別代表格式、準確性、因果完整性和簡潔性四個目標。每個人都有自己想要演奏的方向,如果四個人各說各話,演出就會一團糟。P-FAB的作用,就是找出一個指揮方向,讓這四個人都往同一個方向走,同時確保那些平時搶不到話語權的成員(比如因果完整性這個難以滿足的目標)能得到更多關注。
具體在數學上,P-FAB的做法是這樣的:先對每個獎勵信號做中心化處理,消除基準差異;再對各信號做標準化處理,消除量綱不同帶來的影響;然后用一個叫"弗蘭克-沃爾夫算法"的迭代方法,在標準化空間里尋找一組權重,使得加權后的綜合方向對所有目標都盡可能有利,而不是偏向某一個。
最終得到的權重是動態的——每一批訓練數據,權重都會重新計算。那些當前表現較差、信號稀疏的目標會自動獲得更高的權重,從而得到更多關注;那些已經做得不錯的目標則適當降權。這就像一個有彈性的管理系統,總是把資源優先投入到最需要改進的地方。
論文中給出了一個對比示例:同樣一組訓練樣本,在傳統GRPO方法下,四個不同的候選回答可能計算出完全相同的優勢值,模型根本無法區分它們的高下;而P-FAB方法下,四個樣本得到了明顯不同的分數,讓模型能夠清晰地判斷哪個方向值得追求。
七、實驗結果:小模型的大表現
Factum-4B是以Qwen3-VL-4B-Instruct為基礎模型訓練出來的,參數量只有40億,屬于相當輕量的規模。研究團隊在多個視頻理解基準測試上進行了評估,結果出人意料地強勢。
在視頻時序定位任務上,研究團隊測試了三個數據集:Charades-TimeLens(一個重新標注了高質量時間戳的室內活動視頻集)、ActivityNet-TimeLens(重新標注了更精確邊界的開放域視頻集)以及ActivityNet-Captions(一個廣泛使用的大規模基準)。評判指標是"Recall@1",即AI給出的最優預測答案與正確答案的時間重疊率超過某個閾值的比例,閾值分別為0.3、0.5和0.7——閾值越高,對精度的要求越嚴格。
在ActivityNet-Captions上,Factum-4B的R1@0.5達到48.4%,R1@0.7達到28.1%,大幅超過了參數量更大的Time-R1-7B模型(后者R1@0.5僅39.0%,R1@0.7僅21.4%)。在高精度指標R1@0.7上,Factum-4B在所有開源模型中排名第一。更值得注意的是,Factum-4B使用的幀率僅為每秒1幀,而對比的開源模型普遍使用每秒2幀,相當于Factum-4B用更少的視覺信息取得了更好的結果。
在通用視頻理解基準上,研究團隊還測試了VideoMME(涵蓋電影、體育、紀錄片的長視頻評測集)、MLVU(面向長視頻的多任務評測集)、ETBench(細粒度時間敏感視頻理解基準)和NExT-GQA(基于因果和時序問答的視覺定位基準)。
Factum-4B在VideoMME上達到64.7%的準確率,在NExT-GQA上達到73.6%,比同參數量的Qwen3-VL-4B-Thinking版本高出整整7個百分點。在ETBench的8個子任務中,Factum-4B在6個上取得了最高分,其中時序視頻定位子任務得分66.1%,時序事件匹配子任務得分26.8%,后者甚至超過了專有閉源模型GPT-4o。
消融實驗進一步驗證了每個設計模塊的貢獻。去掉事件檔案只保留推理過程,VideoMME準確率從64.7%跌至60.8%;去掉推理過程只保留事件檔案,準確率跌至58.5%,是所有變體中跌幅最大的,說明如果沒有推理橋梁,檔案里的信息也無法被有效利用。去掉強化學習只用監督微調,ActivityNet R1@0.3比完整模型低8.3個百分點。將P-FAB替換為普通GRPO,在group size為4時性能差距為1.2個百分點,在group size為8時差距擴大到2.5個百分點,表明P-FAB的優勢在更大規模的對比組設置下更加突出。
八、這項研究的邊界與展望
研究團隊在論文中也坦率地指出了當前工作的局限性。Factum-4B的訓練數據規模仍然有限,總共只有約32000個視頻樣本,相比業界頭部模型的訓練規模還有相當大的差距。這意味著模型在某些特定類型的視頻任務上可能表現不穩定,要想在所有視頻理解任務上都取得優異表現,需要進一步擴展數據規模。
此外,這項研究目前聚焦于視頻時序理解和因果推理方向,對于純粹的空間理解(比如精確定位畫面中的物體位置)、復雜的多輪對話或需要外部知識的問答,尚未進行系統性探索。
從更宏觀的視角來看,這項研究揭示了一個有趣的認知科學啟示:人工智能的設計越接近人類認知的實際工作方式,往往就越有效。人類不是靠強大的蠻力逐幀記憶視頻,而是靠構建有意義的事件結構來理解視頻;AI也不應該靠無結構的冗長推理來處理視頻,而應該先建立結構化的認知地圖,再在地圖上尋路。
歸根結底,這項研究做的事情可以用一句話概括:它給AI看視頻時加上了一個"先記筆記、再動筆答題"的習慣。這個習慣看起來簡單,卻解決了長期困擾視頻AI的核心難題——如何在時間維度上保持因果邏輯的連貫性。
以前的視頻AI像一個只會隨手亂寫讀書筆記的學生,內容散亂、重點不突出、前后矛盾;Factum-4B更像一個養成了良好學習習慣的學生,每次讀完一段就整理好時間線,標注好關鍵事件,然后再基于這份有條理的筆記去回答問題。成績的差距,從實驗數據來看是顯而易見的。
對于普通人來說,這項研究離日常生活的距離或許比想象中近得多。視頻內容的智能檢索、安防攝像頭的行為分析、體育比賽的自動解說、醫療手術視頻的質量審查——所有這些應用場景都需要AI不僅能"看到"視頻中發生了什么,更要能理解事件之間的時間順序和因果關系。Factum-4B的方法提供了一條可擴展的路徑,而且它用一個40億參數的小模型就做到了許多70億參數模型做不到的事情,這對于資源有限的研究者和開發者來說是一個頗具參考價值的信號。
對這項研究感興趣的讀者,可以通過arXiv編號2604.04415查閱完整論文,論文題目為"Structured Causal Video Reasoning via Multi-Objective Alignment"。
Q&A
Q1:Factum-4B的"結構化事件檔案"和普通視頻字幕有什么區別?
A:普通視頻字幕通常是對畫面的自由描述,格式隨意,內容可能冗長也可能遺漏關鍵信息。Factum-4B的結構化事件檔案則嚴格要求每個時間段必須記錄六類信息:人物、動作、場景、物體、攝像機運動和事件描述,格式固定且每類信息都有明確的填寫規則(比如畫面中沒有人時,動作一欄必須寫"None")。這種強制結構確保了檔案的信息密度和格式一致性,也讓后續的推理過程有可靠的依據可查,而不是在模糊描述中猜測。
Q2:P-FAB算法為什么比傳統的多獎勵加權方法更有效?
A:傳統方法把多個獎勵信號乘以固定權重后加總,得到一個綜合分數。這有兩個問題:權重固定意味著無法適應訓練過程中不同目標的動態變化;加總之后不同目標之間的差異被抹平,模型看不出哪些樣本在哪些方面更優秀。P-FAB在標準化空間里動態計算權重,確保稀缺的、難以滿足的目標獲得更多關注,同時為每個訓練樣本生成更有區分度的優勢值,讓模型在正確的方向上學習。
Q3:Factum-4B在視頻理解上比GPT-4o強在哪里?
A:Factum-4B并不是全面超越GPT-4o,而是在特定的時間敏感任務上表現更優。具體來說,在ETBench基準的時序事件匹配子任務上,Factum-4B得分26.8%,高于GPT-4o的13.6%;在時序視頻定位子任務上同樣領先。這主要得益于Factum-4B專門針對時間因果推理進行了優化訓練,而通用大模型在這類精細化時序任務上并不具備專項優勢。不過在其他通用理解任務上,GPT-4o等大型閉源模型整體上仍有較大優勢。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.