![]()
新智元報道
![]()
【新智元導讀】多模態大模型正試圖從「看畫面」進化到「懂世界」。但面對動輒數小時的真實業務長視頻,所有大模型玩家都撞上了一堵極其現實的高墻:視頻那么長,算力那么貴,幀,到底該怎么選?
多模態大模型正試圖從「看畫面」進化到「懂世界」。但面對動輒數小時的真實業務長視頻,所有大模型玩家都撞上了一堵極其現實的高墻:視頻那么長,算力那么貴,幀,到底該怎么選?
為了妥協算力,目前的行業慣例是「均勻采樣」——讓模型每隔幾秒機械地「睜一次眼」。但這套看似公平的邏輯,在通信等復雜領域場景中卻顯得極為脆弱。因為業務事件的發生,從不按照節拍器來。
痛點:垂直業務場景的「冰與火之歌」
在專業的領域視頻中,「看滿全場」絕不等于「看懂細節」。關鍵事件在時間軸上極度「非均勻分布」,這導致均勻采樣常常在兩個極端里反復橫跳:
「久坐不動」的無效冗余:比如專業培訓、技術課程,一頁教案可能長達十幾分鐘。如果均勻采樣,大量近乎雷同的靜態畫面不僅白白燒掉算力,還會讓大模型直接「看花眼」。
「電光石火」的瞬間遺漏:在現網割接、機房工勘等長錄像中,99% 的時間可能是無意義的靜默等待,但決定成敗的核心動作往往轉瞬即逝。均勻采樣在這種場景下,無異于大海撈針,一漏致命。
這逼出了一個終極拷問:能不能讓模型在不知道提問的前提下,自己判斷「哪些畫面最值得看」?
破局:LFS幀選擇器 給大模型裝上「定位巡航」
面對這一行業共性難題,華為GTS研發部AI數據團隊給出了全新解法——LFS(Learnable Frame Selector,可學習幀選擇器)。
LFS打破了「按時間間隔抽幀」的刻板印象。它的核心判斷極度干脆:幀的價值,只取決于它是否包含關鍵動作與場景變化。
近日,該項「視頻關鍵幀選擇」研究成果已正式被人工智能頂級國際會議IJCAI 2026接收。
![]()
論文首頁信息
? 論文標題:LFS: Learnable Frame Selector for Event-Aware and Temporally Diverse Video Captioning
? 論文鏈接:https://arxiv.org/abs/2601.14594
? 論文作者團隊:華為 GTS研發部 AI數據團隊
![]()
圖 1:LFS 訓練與推理整體框架
核心技術:超輕量級CNN重塑幀選擇邏輯
LFS并不笨重,它的選幀閉環僅靠三招,便實現了四兩撥千斤的奇效。
1. 極致輕量的時間打分:僅 126K參數的「降維打擊」
LFS首先使用凍結的Long-CLIP提取幀特征,隨后將其送入輕量級時間打分網絡TSNet。TSNet通過一維時間CNN精準捕捉局部的動作轉換,并結合全局門控調制,為每一幀生成專屬的「重要性分數」。高分幀,即代表著畫面正在發生關鍵動作或劇烈變化。
值得一提的是團隊在此處極具巧思的算法設計:面對超長視頻帶來的性能壓力,團隊摒棄了調用龐大視覺模型逐幀「重度審視」的傳統路線,而是另辟蹊徑,直接對其文本空間的特征向量進行高速評估。
這種「降維打擊」不僅讓幀選擇過程快如閃電,更將整個一維TSNet模型的參數量極限壓縮至僅126K。這一設計在推理速度與物理顯存占用上展現出了壓倒性的優勢,以極高的計算效率,完美實現了對海量視頻幀的「沙里淘金」。
![]()
圖 2:TSNet框架圖。
2. 分層 Top-K:既看「高光瞬間」,也看「完整全場」
如果只挑最高分的幀,容易導致畫面全部扎堆在某一個激烈操作的時間段,LFS巧妙地將時間線劃分為多個片段,在每個片段內提取高分幀。這保證了模型既抓住了重點,又沒錯過視頻的完整生命周期。
3. 零成本接入:Caption 反饋閉環
LFS并沒有人為設定「哪幀重要」的代理指標,而是直接讓凍結Video-LLM 的Caption損失提供反饋。
訓練時,梯度只回傳到輕量的幀選擇器TSNet,視頻大模型本身始終保持凍結,從而將訓練和工程接入成本降至最低。
為了減少Caption生成的偏見并穩定優化過程,作者采用了一種相對Caption損失,即通過從同一采樣視頻幀集上計算的自回歸損失減去均勻采樣的自回歸損失:
![]()
其中為計算的自回歸損失:
![]()
實驗結果
9大Benchmark上全面提升,8個達成SOTA
數據證明,學會「挑重點」確實能帶來更魯棒的理解力。
在真實業務基準上,搭載LFS的Qwen3-VL-8B整體準確率躍升至75%;在極其考驗關鍵動作捕捉的VDC Detailed子項中,準確率顯著提升至58%。
更硬核的是,LFS 展現出了極強的泛化能力。它生成的高質量Caption能夠直接反哺Zero-shot(零樣本)視頻問答,在MVBench、VideoMME等9個權威開源榜單上均取得穩定且全面的性能提升,除Dream-1K外均取得SOTA表現。
![]()
圖3:LFS在9個benchmark上相對基線取得穩定提升。
![]()
圖4:LFS在開源VDC benchmark上的效果提升。
后記
長視頻理解的難點,從來不只是「視頻太長」,而是有效信息稀疏、關鍵瞬間易被淹沒。LFS的價值,正是讓模型在有限算力下優先看見真正改變業務語義的畫面。
這種「高性能、高命中」的特性,正精準契合行業垂域面向前沿領域的龐大多模態數據消費需求:
知識沉淀更高效:將數小時的技術課程快速定位到核心講解、關鍵操作與知識跳轉點,讓經驗從視頻里被提煉出來。
作業審計更可信:在網絡割接、配置變更等高風險流程中自動捕捉關鍵幀,為規范復盤、風險定位和質量追溯提供證據鏈。
現場巡檢更智能:精準識別機房工勘、設備巡檢等長錄像中的異常動作和狀態變化,讓一線現場數據沉淀為可檢索、可分析的業務資產。
當AI應用從「能看見」走向「看得準、看得省、看得懂」,視頻數據的價值也不再取決于堆了多少幀,而取決于能否在正確的時刻抓住正確的信息。LFS提供 的,正是一條面向行業長視頻理解的高效技術路徑。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.