網易首頁 > 網易號 > 正文申請入駐

記得住、答得快、用得省：HERMES 流式視頻理解實時響應提速10倍

2026-04-24 17:37:36　來源: 機器之心Pro

河北舉報

分享至

復旦大學、上海創智學院與新加坡國立大學聯合提出HERMES，一個面向流式視頻理解的免訓練 (training-free)框架。它將 KV Cache 重新建模為層次化記憶系統，在用戶提問到來時無需額外檢索或輔助計算，就能直接復用緩存進行回答。

在多項流式與離線視頻基準上的實驗表明，HERMES 在相較均勻采樣減少 68% 視頻 token的情況下，仍能取得可比甚至更優的理解性能；在流式數據集上最高帶來11.4%的增益，并實現最高10倍 (10×)的首個 token 生成時間 (TTFT) 加速。

在現實世界中，人類理解視頻流并不是把所有畫面一股腦 “存下來” 再慢慢分析。看一場直播、盯一段監控、觀察一臺正在運轉的機器人時，我們會自然地把剛發生的內容保留在注意力前沿，同時把更早但更關鍵的線索壓縮進長期記憶里。等到有人發問時，我們往往可以立刻回答，而不需要重新把整段過程回放一遍。

然而，現有多模態大語言模型在離線視頻理解上已經取得了顯著進展，一旦進入流式視頻場景，卻常常陷入三難困境：既要保持理解性能穩定，又要做到實時響應，還要把 GPU 顯存開銷壓在可部署范圍內。已有方法中，一部分會把歷史視頻內容轉存到外部 CPU、磁盤或數據庫中，等用戶提問時再額外檢索和重建上下文；另一部分雖然嘗試直接壓縮緩存，卻往往缺乏細粒度管理和可解釋性。

現在，這個問題有了一個更優雅的答案。研究團隊提出HERMES（KV Cache as HiERarchical Memory for Efficient Streaming Video Understanding，ACL-2026），不再把 KV Cache 視作一個被動的中間產物，而是把它看作視頻流理解中的層次化記憶系統。在這一視角下，緩存不僅可以被壓縮，更可以被 “管理”。目前,該工作已被 ACL 2026 主會錄用。

論文標題：HERMES:KV Cache as HiERarchical Memory for Efficient Streaming Video Understanding
論文地址： https://arxiv.org/pdf/2601.14724
代碼地址： https://github.com/haowei-freesky/HERMES
項目主頁： https://hermes-streaming.github.io/

從離線理解到流式理解：

為什么這個問題這么難？

傳統離線視頻理解默認 “視頻已經完整給出”，模型可以在統一采樣后一次性編碼、一次性回答。但流式視頻完全不同：未來幀未知，用戶問題未知，視頻時長也可能持續增長。這意味著模型無法提前知道哪些片段最重要，也不能把每一幀都永遠保存在 GPU 中。

過去的方法大多在兩條路之間搖擺：

依賴外部記憶。把歷史視頻內容以文本描述 (caption)、視覺特征塊 (patch) 或 KV 狀態形式轉移到 CPU、磁盤或數據庫里，等提問時再檢索回來。這類方法的主要問題是延遲高，而且會引入額外計算鏈路。

直接復用內部緩存。把 KV Cache 當作模型內部記憶來使用，理論上更適合低延遲場景；但如果沒有精細的保留與淘汰機制，緩存很快就會被不斷增長的視頻流擠爆，或者在壓縮過程中丟失真正關鍵的信息。

換句話說，流式視頻理解真正缺的，不只是 “更小的緩存”，而是一套更接近人類記憶組織方式的緩存管理機制。

圖 1：HERMES 概念圖。左側展示了其將 KV Cache 視作層次化記憶系統的整體框架；右側則展示了不同層的注意力偏好與效率測試結果。

HERMES：把 KV Cache 變成分層視頻記憶

HERMES 最有啟發性的地方，在于它不是從工程經驗出發硬做壓縮，而是先通過注意力機制分析，去觀察不同解碼層到底更偏好什么樣的視頻信息。研究團隊發現，在流式輸入下，不同層實際上天然呈現出不同的 “記憶分工”。

一個關鍵洞察：不同層，關注的是不同粒度的信息

研究發現，淺層、中層和深層對視頻 token 的偏好并不相同：

淺層像感官記憶。它們對最新到來的幀有明顯的近期偏好 (recency bias)，更關心 “剛剛發生了什么”。

中層像工作記憶。它們會在近期信息和更早的語義信息之間做平衡，承擔承上啟下的過渡作用。

深層像長期記憶。它們不再單純偏向最近幀，而是會周期性地鎖定一些幀級 “錨點” token，用來保留更長時間跨度上的關鍵語義。

圖 2：不同層對流式視頻 token 的注意力偏好。淺層更關注最近 token，深層更傾向于捕捉具有節奏性的幀級錨點，中層則承擔過渡作用。

這意味著，KV Cache 并不是一個 “各層同質” 的存儲池，而天然更像一個由感官記憶、工作記憶和長期記憶組成的層次化系統。HERMES 正是基于這一點，重新設計了流式視頻緩存的保留策略。

方法三件套：分層管理、跨層平滑、位置重索引

圖 3：HERMES 方法總覽圖。包括 “分層 KV Cache 管理”、“跨層記憶平滑” 和 “位置重索引” 三大關鍵組件。

圍繞 “KV Cache 是層次化記憶” 這一核心認識，HERMES 構建了三大關鍵組件：

1. 分層 KV Cache 管理（Hierarchical KV Cache Management）

HERMES 不再對所有層采用統一的淘汰策略，而是按層分配不同保留邏輯。淺層主要按時間新近性保留 token；深層則更多依據對用戶查詢的注意力重要性來保留幀級錨點；中層通過對 “新近性” 和 “注意力分數” 做插值，在二者之間取得平衡。

2. 跨層記憶平滑（Cross-Layer Memory Smoothing）

如果每一層都獨立淘汰 token，就容易出現不同層在同一緩存位置上 “記的不是同一個東西” 的問題。HERMES 通過從深層向淺層傳播重要性信號，對跨層記憶進行平滑，讓多層緩存之間保持更一致的視覺記憶結構。

3. 位置重索引（Position Re-Indexing）

隨著流式輸入不斷累積，token 的位置索引會越來越大，最終逼近模型支持的上限，影響生成質量。HERMES 通過位置重索引，把保留下來的 token 重新映射到連續位置區間中；在流式任務上使用更省算力的惰性重索引 (lazy re-indexing)，在離線長視頻評測上則使用更穩定的即時重索引 (eager re-indexing)。

這三步結合起來，讓 HERMES 能在不依賴額外訓練、不需要查詢時外部檢索的前提下，直接復用一份緊湊而有效的緩存，支撐實時視頻問答。

實驗結果：HERMES 不只是更快，

還在多個基準上更穩更準

主結果：在流式視頻基準上顯著領先 training-free 基線

研究團隊在StreamingBench、OVO-Bench、RVS-Ego、RVS-Movie等多個流式視頻任務上進行了系統評估。結果顯示，HERMES 不僅超過了對應的基礎模型，也普遍優于現有 training-free 的 offline-to-online 方法。

以Qwen2.5-VL-7B為例，在僅使用4K video tokens的情況下，HERMES 在 StreamingBench 上達到79.44%，相較基座模型的73.31%提升6.13個點；在綜合平均指標上達到59.21%，相比基座模型的52.28%提升6.93個點。基于Qwen2.5-VL-32B的 HERMES 版本則進一步將綜合平均表現提升到64.82%。

圖 4：StreamingBench 與 OVO-Bench 上的主結果。HERMES 在眾多 offline-to-online 方案中表現突出，并在不同底座模型上均能穩定提升。

在開放式流式問答任務上，HERMES 同樣展現出更細粒度的時序與空間理解能力，在RVS-Ego和RVS-Movie上相較基礎模型最高可提升11.4%，說明其優勢不僅體現在多選題上，也體現在更接近真實使用場景的開放問答中。

效率優勢：查詢到來時 “實時開口”

如果說準確率證明了 HERMES “記得住”，那么效率實驗證明了它 “答得快”。由于 HERMES 在用戶提問到來時不需要額外檢索或輔助計算，它可以直接在現有緩存上完成回答，這一點對流式交互尤為關鍵。

在基于LLaVA-OV-7B、4K-token memory budget的測試中，HERMES 在不同輸入幀數下都保持了穩定的顯存占用與極低的 TTFT。論文顯示，在16、64、256幀輸入下，其 TTFT 分別約為27 ms、29 ms、28 ms；在256 幀設置下，相比此前的 SOTA 方法StreamingTOM，HERMES 實現了約10×的 TTFT 加速。

圖 5：效率對比結果。隨著輸入幀數增加，HERMES 仍能保持穩定的 GPU 顯存占用和極低的 Time To First Token （TTFT）。

更重要的是，這種速度優勢不是靠犧牲緩存上限換來的。HERMES 在固定緊湊顯存預算下持續工作，避免了隨視頻流增長而不斷抬升的顯存壓力，更適合真實部署中的長期在線場景。

更少 token，不代表更差理解

HERMES 的另一個重要意義在于，它證明了流式視頻理解并不一定依賴 “保存盡可能多的幀”。論文指出，相比均勻采樣方案，HERMES 最多可減少68%的視頻 token，但依然能在多個流式和離線基準上保持競爭力。

在離線視頻任務上，HERMES 并沒有因為面向流式場景設計而犧牲泛化性。以LLaVA-OV-7B為基座時，HERMES 在Egoschema和VideoMME上分別達到 60.29% 和 49.22%，高于基座模型；在MVBench上則取得與基座相當的結果。這說明它不僅適用于持續在線的視頻流，也具備向更廣泛長視頻理解任務遷移的能力。

圖 6：不同 memory budget 下的性能變化。實驗表明，HERMES 在約 4K memory budget 左右已經能在流式與離線任務間取得較好平衡。

從消融實驗可以看到，HERMES 的提升并非來自單一技巧，而是來自一整套協同設計：分層緩存管理決定 “留什么”，跨層記憶平滑解決 “不同層是否記一致”，位置重索引保證 “長流式輸入下還能穩定生成”。這些模塊共同構成了它的性能與效率優勢。

為什么 HERMES 值得關注？

HERMES 的價值，不只是又一個在榜單上更高分的方法，更在于它為流式視頻理解提供了一種更自然的系統設計思路。

它更接近真實部署需求。對于視頻助手、機器人、智能安防、車載系統等場景來說，用戶不會等待模型重新檢索長上下文再開始作答。HERMES 把 “實時響應” 放在架構設計的中心位置，這一點非常關鍵。

它給出了更有解釋性的緩存視角。很多緩存壓縮方法是經驗性的，而 HERMES 先做機制分析，再據此設計記憶管理規則，使 “為什么保留這些 token” 這件事變得更清楚。

它是training-free、plug-and-play的。論文在 LLaVA-OV 與 Qwen2.5-VL 等不同基礎模型上驗證了 HERMES 的通用性，說明它不是與某個單獨模型強綁定的工程 patch，而更像一種可遷移的流式理解范式。

未來展望：讓視頻大模型真正走向持續在線

HERMES 所回答的，不只是 “如何壓縮 KV Cache”，而是 “如何讓視頻大模型以更像記憶系統的方式持續工作”。從這個角度看，它為下一代流式多模態智能體提供了一個很重要的方向：模型不必在每次回答前重新回看全部歷史，而是應該學會像人一樣，保留最新感知、提煉關鍵錨點、壓縮長期經驗，并在需要時迅速調用。

我們可以預期，這種思路會在更多實時視頻場景中釋放價值，例如長時監控理解、第一視角視頻助手、機器人持續感知、在線教育分析以及人機實時協作等。隨著流式視頻應用不斷增多，像 HERMES 這樣兼顧準確性、低延遲與低顯存開銷的方法，很可能成為視頻大模型從 “能看視頻” 邁向 “能持續在線理解視頻” 的關鍵一步。

作者簡介:

第一作者為復旦大學一年級博士生張浩威和南京大學本科生楊樞棟；合作者包括新加坡國立大學 See-Kiong Ng 教授；通訊作者為復旦大學計算與智能創新學院青年研究員傅金蘭與邱錫鵬教授。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.