網易首頁 > 網易號 > 正文 申請入駐

輕量高效,即插即用:Video-RAG為長視頻理解帶來新范式

0
分享至

盡管視覺語言模型(LVLMs)在圖像與短視頻理解中已取得顯著進展,但在處理長時序、復雜語義的視頻內容時仍面臨巨大挑戰 —— 上下文長度限制、跨模態對齊困難、計算成本高昂等問題制約著其實際應用。針對這一難題,廈門大學、羅切斯特大學與南京大學聯合提出了一種輕量高效、無需微調的創新框架 ——Video-RAG。該研究已被機器學習頂級會議 NeurIPS 2025 接收,為長視頻理解任務提供了全新的解決思路。

  • 項目主頁:https://video-rag.github.io/
  • 論文鏈接:https://arxiv.org/abs/2411.13093
  • 開源代碼:https://github.com/Leon1207/Video-RAG-master

挑戰:現有方法為何難以勝任?

當前主流方案主要分為兩類:

  • 擴展上下文法(如 LongVA):依賴大規模長視頻 - 文本配對數據進行微調,訓練成本高且數據稀缺;
  • 智能體驅動法(如 VideoAgent):通過任務分解與外部代理決策增強推理,但頻繁調用 GPT-4o 等商業 API 導致開銷巨大。

更重要的是,兩種方法在長時間跨度下的視覺 - 語義對齊上表現有限,往往犧牲效率換取精度,難以兼顧實用性與可擴展性。

創新:用 “檢索” 打通視覺與語言的橋梁

Video-RAG 提出一種低資源消耗、高語義對齊的新路徑 —— 多模態輔助文本檢索增強生成(Retrieval-Augmented Generation, RAG),不依賴模型微調,也不需昂貴的商業大模型支持。其核心思想是:從視頻中提取與視覺內容強對齊的文本線索,按需檢索并注入現有 LVLM 輸入流中,實現精準引導與語義增強。

具體流程如下:

1. 查詢解耦(Query Decoupling)

將用戶問題自動拆解為多個檢索請求(JSON 格式),指導系統從不同模態數據庫中查找相關信息,LVLM 此階段僅處理文本,不接觸視頻幀,大幅降低初期計算負擔。

2. 多模態輔助文本構建與檢索

利用開源工具構建三大語義對齊數據庫:

  • OCR 文本庫:使用 EasyOCR 提取幀內文字,結合 Contriever 編碼 + FAISS 向量索引,支持快速檢索;
  • 語音轉錄庫(ASR):通過 Whisper 模型提取音頻內容并嵌入存儲;
  • 對象語義庫(DET):采用 APE 模型檢測關鍵幀中的物體及其空間關系,經場景圖預處理生成結構化描述文本。

這些文本不僅與畫面同步,還具備明確語義標簽,有效緩解傳統采樣幀缺乏上下文關聯的問題。

3. 信息融合與響應生成

將檢索到的相關文本片段、原始問題與少量關鍵視頻幀共同輸入現有的 LVLM(如 LLaMA-VID、Qwen-VL 等),由模型完成最終推理輸出。整個過程無需微調、即插即用,顯著降低部署門檻與計算開銷。

可以發現,在經過檢索之后,LVLM 可以將更多的注意力集中到對應的關鍵視覺信息上,減少模態鴻溝:

優勢:輕量、高效、性能卓越

  • 即插即用:兼容任意開源 LVLM,無需修改模型架構或重新訓練。
  • 資源友好:在 Video-MME 基準測試中,平均每問僅增加約 2000 token,遠低于主流 Agent 方法的通信與計算開銷。
  • 性能領先:當與一個 72B 參數規模的開源 LVLM 結合時,Video-RAG 在多個長視頻理解基準上超越 GPT-4o 和 Gemini 1.5 等商業閉源模型,展現出驚人的競爭力。

成果與意義

Video-RAG 的成功驗證了一個重要方向:通過高質量、視覺對齊的輔助文本引入外部知識,可以在不改變模型的前提下,突破上下文窗口瓶頸,顯著提升跨模態理解能力。它不僅解決了長視頻理解中的 “幻覺” 與 “注意力分散” 問題,更構建了一套低成本、高可擴展的技術范式,適用于教育、安防、醫療影像分析等多種現實場景。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
1986年陳永貴病逝,追悼會規格成難題,鄧小平只說了一句話,全場安靜

1986年陳永貴病逝,追悼會規格成難題,鄧小平只說了一句話,全場安靜

寄史言志
2026-01-04 16:34:31
緊急!取款方式徹底變了,已全國執行!

緊急!取款方式徹底變了,已全國執行!

趣味萌寵的日常
2026-04-22 15:11:20
移民大清查來了!移民局重查拜登時期的綠卡,65%案件被指涉欺詐

移民大清查來了!移民局重查拜登時期的綠卡,65%案件被指涉欺詐

大洛杉磯LA
2026-04-22 05:39:33
打臉來得太快了!

打臉來得太快了!

燕梳樓頻道
2026-04-21 13:11:28
我在中東教漢語,娶了三個本地女孩,雖然年入百萬,卻并不幸福

我在中東教漢語,娶了三個本地女孩,雖然年入百萬,卻并不幸福

千秋文化
2026-04-20 19:55:30
你怕了?日艦闖臺海48小時后,中國軍艦開到家門口!日本網友崩了

你怕了?日艦闖臺海48小時后,中國軍艦開到家門口!日本網友崩了

史行途
2026-04-20 22:12:22
一地什么都卷,連體育也卷?家長:我們這里的孩子是犯了天條嘛?

一地什么都卷,連體育也卷?家長:我們這里的孩子是犯了天條嘛?

新東方
2026-04-22 17:13:22
兩只液冷牛股再度跌停

兩只液冷牛股再度跌停

財聞
2026-04-22 09:40:39
嚴查醫保違規套現!鄭州多部門聯合進駐調查

嚴查醫保違規套現!鄭州多部門聯合進駐調查

大象新聞
2026-04-22 09:07:01
美股期貨集體拉升,特朗普稱美伊最終將達成重大協議

美股期貨集體拉升,特朗普稱美伊最終將達成重大協議

21世紀經濟報道
2026-04-22 09:05:57
慈禧嘴里那顆8億的夜明珠,下落已經查明:原來是她拿來干那種事

慈禧嘴里那顆8億的夜明珠,下落已經查明:原來是她拿來干那種事

近史談
2026-04-14 18:51:51
A股:成功站上4100點,尾盤很明顯,明天,4月23日,很可能這樣走

A股:成功站上4100點,尾盤很明顯,明天,4月23日,很可能這樣走

虎哥閑聊
2026-04-22 15:00:22
周亮,被免職

周亮,被免職

新京報政事兒
2026-04-21 10:28:07
好裝、好有錢,被國產劇里的窮人氣笑了

好裝、好有錢,被國產劇里的窮人氣笑了

糊咖娛樂
2026-04-21 18:45:21
中國鐵礦石談判大獲全勝!“鎖喉”必和必拓:不降價?那就別賣了

中國鐵礦石談判大獲全勝!“鎖喉”必和必拓:不降價?那就別賣了

動漫里的童話
2026-04-22 05:35:55
徐子淇在富豪老公面前真敢穿,豐滿身材穿薄紗挖洞裙,真豁得出去

徐子淇在富豪老公面前真敢穿,豐滿身材穿薄紗挖洞裙,真豁得出去

蓓小西
2026-04-21 12:27:46
《孤獨的美食家》再次回歸,依舊是松重豐版五郎!但他還能再拍多久呢……?

《孤獨的美食家》再次回歸,依舊是松重豐版五郎!但他還能再拍多久呢……?

日本通
2026-04-22 15:05:36
3連冠!香港隊瘋狂慶祝奪冠,頒獎誰注意鞏曉彬動作,下季將升CBA

3連冠!香港隊瘋狂慶祝奪冠,頒獎誰注意鞏曉彬動作,下季將升CBA

老吳說體育
2026-04-21 21:48:26
蘇聯“人猿雜交”實驗:5名女孩與11只猩猩參與,結局如何?

蘇聯“人猿雜交”實驗:5名女孩與11只猩猩參與,結局如何?

談史論天地
2026-02-28 13:35:18
還有15天!伊朗石油業將被迫減產,隨后全面停產

還有15天!伊朗石油業將被迫減產,隨后全面停產

華爾街見聞官方
2026-04-22 14:04:02
2026-04-22 19:59:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12831文章數 142633關注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠

頭條要聞

朝鮮發聲痛批日本 要求日本向中國道歉

頭條要聞

朝鮮發聲痛批日本 要求日本向中國道歉

體育要聞

網易傳媒再度簽約法國隊和阿根廷隊

娛樂要聞

復婚無望!baby黃曉明陪小海綿零交流

財經要聞

伊朗拒絕出席 特朗普宣布延長停火期限

汽車要聞

純電續航301km+激光雷達 宋Pro DM-i飛馳版9.99萬起

態度原創

健康
教育
親子
時尚
本地

干細胞抗衰4大誤區,90%的人都中招

教育要聞

【媒體聚焦】南方工報 | 廣東省教育研究院走進湛江開展教研幫扶

親子要聞

今起幼兒信息登記!登記后這兩樣保存好,后續報名都要用

初夏穿赫本的白褲子,清新又高級!

本地新聞

春色滿城關不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

無障礙瀏覽 進入關懷版