網易首頁 > 網易號 > 正文 申請入駐

CVPR 2026 | 從視覺Token內在變化量出發,實現VLM無損加速1.87倍

0
分享至



作者介紹:第一作者陳駿杰(四川大學碩士二年級)與共同一作劉旭洋(四川大學碩士三年級)深耕高效視覺語言模型。



  • 論文題目:Variation-aware Vision Token Dropping for Faster Large Vision-Language Models
  • 論文鏈接:https://arxiv.org/abs/2509.01552
  • 代碼鏈接:https://github.com/xuyang-liu16/V2Drop

背景與動機

隨著高分辨率圖像理解與長視頻處理需求的爆發式增長,大型視覺語言模型(LVLMs)所需處理的視覺 Token 數量急劇膨脹,推理效率成為落地部署的核心瓶頸。Token 壓縮是縮短序列、提升吞吐的直接手段,但現有方法普遍依賴注意力權重來判斷 Token 重要性,這一路線暗藏兩個致命缺陷:

一是位置偏差問題(如圖 1 所示),該方法傾向于機械地保留序列末尾的 Token,無論圖像內容如何,注意力得分普遍在序列末尾(對應圖像底部區域)形成峰值(紅色箭頭),導致關鍵的前期 Token 被丟棄,進而加劇多模態幻覺。

二是與高效算子存在根本性的不兼容,計算注意力權重與 FlashAttention 等高效機制之間存在本質沖突。相比之下,右側三列(綠色邊框)展示了基于 L2 Norm 變化量評估方法的顯著優勢 —— 其得分分布均勻、能夠精準聚焦于含有關鍵信息的圖像區域(如綠色框標注的球衣號碼區域),且無需顯式注意力計算,與高效算子天然兼容。



圖 1:注意力引導 vs. 變化量感知的 Token 評估對比

核心發現


發現 1:注意力方法存在系統性末端偏置

研究團隊在 LLaVA-1.5-7B 和 Qwen2-VL-7B 上,對比了 SparseVLM、FastV 與 L2 Norm 變化量評估在相同輸入下的 Token 保留行為。注意力方法的保留概率曲線均呈單調遞增階梯形狀 —— 末端 Token 保留率高達 80%~100%,前端僅 10%~30%,與內容重要性毫無關聯。L2 Norm 則呈近似均勻分布,天然規避位置偏差。



圖 2:兩大模型上視覺 Token 保留位置分布分析 ——L2 Norm 呈現均勻分布,注意力方法呈嚴重末端偏置

發現 2:變化量高的 Token 天然對應語義關鍵區域

針對兩個典型樣本(百事可樂瓶識別、球衣號碼識別),L1 Norm、L2 Norm 和余弦相似度三種指標均在答案相關區域出現顯著峰值,且無論關鍵區域位于序列中段還是后段均能精準捕捉,表明變化量是衡量視覺 Token 重要性的魯棒內在屬性,L2 Norm 綜合性能最優,被 V2Drop 選為默認度量。



圖 3:三種變化量度量指標均精準定位答案相關區域(紅框),驗證變化量與語義重要性的強相關性

解決方案:V2Drop

V2Drop 在 LLM 推理階段采用多階段漸進式剪枝策略,三步實現高效無偏 Token 壓縮:

① 變化量計算(Variation Computation)

在每個預定義剪枝層,計算每個視覺 Token 與上一層表示的 L2 距離作為重要性得分。額外開銷僅為單層注意力計算量的 0.022%,可忽略不計。

② Token 排序與選擇(Token Ranking & Selection)

按變化量得分從高到低排序,保留 Top-K 個 Token,自然過濾惰性 Token,無需引入任何位置偏置。

③ 漸進式壓縮(Progressive Dropping)

在淺層、中層、深層三階段依次執行剪枝,形成 M → Ka → Kb → Kc 漸進壓縮路徑。消融實驗證明,漸進式剪枝比一次性剪枝在 POPE 上高 9.3%、MME 上高 5.9%。



圖 4:V2Drop 整體框架

理論保證

通過一階 Taylor 展開證明,Token 的變化量幅度與其對模型輸出的影響正相關,從理論上驗證了丟棄低變化量 Token 能最小化輸出擾動的核心假設。架構的三大屬性(殘差連接、Layer Norm、平滑激活函數)共同保證了理論假設的合理性。

實驗結果


1、圖像理解(LLaVA-1.5-7B & Qwen2-VL-7B)

在圖像場景的核心表現上,本方法在 LLaVA-1.5-7B 上:壓縮 66.7% Token(保留 192 個)時,綜合性能達 97.6%,超越次優方法 PDrop(96.0%。此外,在 Qwen2-VL-7B 高分辨率場景中,66.7% 和 77.8% 兩檔壓縮率下均全面超越 FastV 和 DART,尤其在 POPE 幻覺抑制指標上表現突出,充分驗證了本方法對原生可變分辨率輸入的強泛化能力。



表 1:基于 LLaVA-1.5-7B 的多圖像理解基準測試對比



表 2:基于 Qwen2-VL-7B 的多圖像理解基準測試對比

2、視頻理解(LLaVA-OV-7B & Qwen2-VL-7B)

在視頻場景中,本方法同樣表現卓越:僅保留 25% 的 Token 時,綜合性能即達 98.6%,超越保留 30% Token 的 DyCoke(97.7%),以更少 Token 實現更優性能;在長視頻任務(VideoMME-Long)上持續領跑,有效緩解了 VideoLLM 普遍存在的末幀偏置問題;在 Qwen2-VL-7B 場景下,僅保留 20% Token 時綜合性能達 93.3%,其中 MVBench 以 62.1 分大幅領先 DART(58.9)和 FastV(50.9),優勢尤為突出。



表 3:基于 Qwen2-VL-7B 的多視頻理解基準測試性能對比



表 4:基于 LLaVA-OV-7B 的多視頻理解基準測試性能對比

3、效率分析(與高效算子完全兼容)

在效率層面,本方法同樣帶來顯著收益:圖文理解任務(LLaVA-1.5-7B)中,LLM 生成延遲降低 31.5%,吞吐量提升至 9.01 items/s(↑1.26×),峰值顯存同步下降 3.3%;視頻理解任務(LLaVA-OV-7B)中,LLM 生成延遲大幅削減 74.2%,吞吐量提升 1.38×,峰值顯存降低 7.8%。與之形成鮮明對比的是,SparseVLM、FastV、PDrop 在視頻場景下峰值顯存分別暴增 54.8%、39.2% 和 37.8%,而本方法無需計算注意力矩陣,真正實現了加速與節存的雙重收益。



表 5:圖像 / 視頻理解任務的效率對比

結論


V2Drop 為視覺語言模型的推理加速開辟了一條全新路徑。研究發現,視覺 Token 在 LLM 各層間的變化量與其任務相關性高度吻合,且這一規律與具體任務無關(task-agnostic)。基于這一洞察,V2Drop 以變化量為核心評估信號,構建了一套輕量、漸進、與高效算子完全兼容的 Token 壓縮框架 —— 無需修改模型權重,無需訪問注意力矩陣,即插即用。在圖像與視頻理解兩條賽道上均實現當前最優性能 - 效率權衡。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
終于知道采購吃回扣是怎么被發現的了,網友分享真實,太開眼了

終于知道采購吃回扣是怎么被發現的了,網友分享真實,太開眼了

夜深愛雜談
2026-03-13 22:02:43
炸鍋!全國充電樁集體漲價!每度電狂漲,電車省錢神話徹底破滅?

炸鍋!全國充電樁集體漲價!每度電狂漲,電車省錢神話徹底破滅?

藍色海邊
2026-04-24 08:08:58
2005年,寧夏女孩做了“女變男”手術,后經歷三段感情,今仍單身

2005年,寧夏女孩做了“女變男”手術,后經歷三段感情,今仍單身

談史論天地
2026-04-26 13:10:08
有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
醫保局聯合財政部出新規!醫保賬戶調整,退休后每月還能返錢嗎?

醫保局聯合財政部出新規!醫保賬戶調整,退休后每月還能返錢嗎?

復轉這些年
2026-04-25 18:23:41
伊朗地下500米導彈城曝光!宣稱兩枚即可擊沉9000噸美軍驅逐艦!

伊朗地下500米導彈城曝光!宣稱兩枚即可擊沉9000噸美軍驅逐艦!

薦史
2026-04-26 13:02:45
奧黛麗赫本人生最后30年:在瑞士小鎮一座帶花園的漂亮房子里度過

奧黛麗赫本人生最后30年:在瑞士小鎮一座帶花園的漂亮房子里度過

毒舌小紅帽
2026-04-17 18:24:06
巔峰時的十三爺胤祥,權力到底有多大?雍正:他若反,我只能等死

巔峰時的十三爺胤祥,權力到底有多大?雍正:他若反,我只能等死

凡人侃史
2026-04-23 23:08:50
踩著聯盟第一人上位!替補出戰季后賽砍43分,本賽季最賺的交易?

踩著聯盟第一人上位!替補出戰季后賽砍43分,本賽季最賺的交易?

你的籃球頻道
2026-04-26 14:08:23
大媽每月電費1700,兒子關掉電閘,次日警方上門:你鄰居出事了

大媽每月電費1700,兒子關掉電閘,次日警方上門:你鄰居出事了

小秋情感說
2026-04-26 09:44:52
男女之間,感情是幌子,性是需求,錢是底線

男女之間,感情是幌子,性是需求,錢是底線

加油丁小文
2026-04-26 14:00:07
離大譜!溫州一男子手術9430余元費用中,衛生材料費高達3927元…

離大譜!溫州一男子手術9430余元費用中,衛生材料費高達3927元…

火山詩話
2026-04-26 09:48:23
金平日:與金正日爭權失敗,駐外30年躲過暗殺,因這件事允許回國

金平日:與金正日爭權失敗,駐外30年躲過暗殺,因這件事允許回國

阿胡
2025-04-03 13:59:42
舍伍德:薩拉赫大概率已完成利物浦最后一次出場,太令人惋惜

舍伍德:薩拉赫大概率已完成利物浦最后一次出場,太令人惋惜

懂球帝
2026-04-26 10:17:08
塞鳥:對手門前4腳打門就是4個進球,這樣的結果我們很難接受

塞鳥:對手門前4腳打門就是4個進球,這樣的結果我們很難接受

懂球帝
2026-04-25 22:13:16
1-3落后!約基奇爆沖被驅逐!最后1秒大規模沖突

1-3落后!約基奇爆沖被驅逐!最后1秒大規模沖突

籃球教學論壇
2026-04-26 12:46:59
廣東一男童被當腦癱治7年,7歲僅18斤重!父母翻閱病例發現其出生時顱骨骨折,疑在醫院摔傷,“已向法院起訴”;多方回應

廣東一男童被當腦癱治7年,7歲僅18斤重!父母翻閱病例發現其出生時顱骨骨折,疑在醫院摔傷,“已向法院起訴”;多方回應

臺州交通廣播
2026-04-25 23:20:14
這條無恥新聞,引起公憤了!

這條無恥新聞,引起公憤了!

胖胖說他不胖
2026-04-25 14:07:02
麗文堅持對美軍購3800億,引趙少康不滿,質問鄭麗文

麗文堅持對美軍購3800億,引趙少康不滿,質問鄭麗文

果媽聊娛樂
2026-04-24 13:15:58
特朗普:已取消威特科夫和庫什納前往巴基斯坦的行程

特朗普:已取消威特科夫和庫什納前往巴基斯坦的行程

新華社
2026-04-25 23:53:04
2026-04-26 14:36:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12855文章數 142636關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

白宮槍手系教師兼游戲開發者 曾向哈里斯總統競選捐款

頭條要聞

白宮槍手系教師兼游戲開發者 曾向哈里斯總統競選捐款

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

房產
旅游
藝術
健康
手機

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

旅游要聞

下一站|一天體驗越南三大特色

藝術要聞

鄭麗文訪問清華附中引發熱議,蔣中正信札字跡真實性遭質疑

干細胞如何讓燒燙傷皮膚"再生"?

手機要聞

vivo Y600 Pro手機現身中國電信終端產品庫,4月27日發布

無障礙瀏覽 進入關懷版