網易首頁 > 網易號 > 正文申請入駐

將DSA注意力引入多模態，快手Keye2.0開啟強化推理新范式

2026-05-27 09:14:35　來源: 量子位

北京舉報

分享至

允中發自凹非寺
量子位 | 公眾號 QbitAI

當你把一段長達9分鐘、在“晴空萬里”與“冰天雪地”間劇烈切換的冰島旅行Vlog輸入給大模型，并要求它做一份旅行攻略時，常規的視覺大模型通常只能給出一份基于字幕和畫面標簽拼湊的“流水賬”。

但實際上，長視頻理解不僅需要識別每一幀里出現了什么，還要在連續的時序流動中捕捉因果鏈條

而作為快手自研多模態大語言模型，Keye-VL-2.0-30B-A3B展現出了截然不同的理解能力。

它不僅看見了畫面，更讀懂了畫面背后的因果。

先來看視頻：

【視頻請到公眾號查看】

Keye-VL-2.0-30B-A3B捕捉到了“凍手”細節，主動建議備好保暖手套；聽到了獵奇美食吐槽，給出“體驗當地文化”的高情商建議；敏銳察覺到了“雪地車禍”畫面，直接輸出“跟團優于自駕”的安全策略……

這已經超越了簡單的畫面標簽識別，這是在連貫的時序流動中梳理因果、并基于人類邏輯進行深度規劃的“慢思考”。

在多模態大模型從“基礎感知”向“深度推理”演進的浪潮中，快手團隊始終在思考兩個問題：

如何突破視頻理解任務中超長視覺上下文帶來的算力瓶頸？又如何讓模型從一個單純的“觀察者”進化為能解決實際復雜任務的“行動者”？

今天，快手正式發布了新版多模態大模型Keye-VL-2.0-30B-A3B。

作為Keye家族最新一代的30B級主力基座，Keye-VL-2.0-30B-A3B率先將DSA（DeepSeek Sparse Attention）機制引入多模態理解場景，成功解鎖了256K超長上下文的深度感知，在長視頻時序感知上實現了幾乎無損的推理能力。

更具里程碑意義的是，這也是Keye系列首次解鎖Agent協作機制，在Code、Tool、Search等復雜場景下展現出了扎實的系統級協作與執行潛力。

五大技術引擎重塑多模態底座

DSA首次落地多模態，破解長視頻理解瓶頸

視頻理解的痛點，往往在于超長視覺上下文帶來的指數級計算開銷與核心信息的稀釋。

Keye-VL-2.0-30B-A3B在底層架構上完成了關鍵跨越——首次在多模態理解場景中成功應用了DSA（DeepSeek Sparse Attention）。

通過結合稀疏注意力與極具針對性的特征聚合，模型在處理長達小時級的視頻序列時，能夠有效進行高噪環境下的信息提純，精準捕捉關鍵幀并理清動態規律。

這一架構優勢在細粒度視頻時序理解最新基準（TimeLens）中得到了極致驗證。

需要說明的是，該榜單論文官方僅公布了Gemini-2.5-Pro的成績，為了保證評測的嚴謹性，快手團隊嚴格按照相同評測方式，在內部同步測試了Gemini 3 Flash作為實測基線比對：

日常動作時序解析（Charades-TimeLens）：模型以58.4的mIoU強勢對標實測的最強視頻理解閉源標桿Gemini 3 Flash（61.2）。
視頻動作定位（ActivityNet-TimeLens）：憑借58.5的mIoU，實現了對官方數據Gemini-2.5-Pro（58.1）以及實測數據Gemini 3 Flash（57.0）的全面超越。
高光時刻提取（QVHighlights-TimeLens）：模型的mIoU達到70.1，與官方榜單的頂尖閉源模型并駕齊驅，并大幅超過實測的Gemini 3 Flash（49.5）。

時序解析意味著厘清動作發生的精確邊界，并給出所屬視頻中的準確時間。我們向Keye-VL-2.0-30B-A3B輸入了一段制作陶杯的工藝流程視頻。

【視頻請到公眾號查看】

面對繁復的手工動作，模型展現出了手術刀般的幀級判斷力，直接輸出了一份帶有精確時間戳的工藝全拆解：

方解石原料處理：用錘子將原石砸成小塊；放入竹篩中在溪流中反復沖洗去除雜質。
方解石煅燒與制漿：放土窯加木炭煅燒至高溫（約950℃）；開窯取出白色粉末；加水研磨制成細膩漿液（水飛工藝）。
陶土采集與處理：山地挖取紅褐色陶土；倒缸加水攪拌去雜質。
茶杯坯體制作與裝飾：轉輪手工拉坯塑形；精細修整厚度形狀；底部貼方形印章款識并修整。
配釉與施釉：按比例稱取石英石長石等原料并加水攪拌制漿；坯體反復浸入釉漿后自然晾干。
燒制與成品展示：裝窯堆疊；燒柴升溫至1200℃；出窯清洗浸入陳茶水中氧化調整釉色；最終呈現開片、鐵足等釉色特征。

從挖土、煅燒、水飛到修坯、配釉、陳茶，全程極具專業壁壘的手工工序，模型不僅全部準確識別，更將每一個工藝動作與視頻時間軸實現了毫秒級的完美咬合。

再來一段《王者榮耀》高燃對局的視頻。

【視頻請到公眾號查看】

當接收到“請找出視頻中的高光時刻，并給出你的依據，時間戳用[mm:ss]的形式來表示”的指令時，Keye-VL-2.0- 30B-A3B沒有陷入傳統AI“哪里有擊殺提示就截取哪里”或“只看畫面元素劇烈變化”的機械邏輯。

它的做法是基于視覺張力、音畫協同以及電競敘事的深刻理解，給出了極具玩家共鳴的精準判定：

視覺與節奏的雙重爆發——模型判定依據：模型敏銳捕捉到了畫面中最激烈的團戰場景，不僅能精細識別“金色、紫色光效交織”的特效，還能準確讀取“276”“132”等具體的動態傷害數值。它將這些視覺元素的密集程度作為戰斗節奏緊湊的直接證據，展現了極強的動態視覺解析力。
音畫協同的戲劇張力構建——模型判定依據：模型并沒有局限于游戲畫面本身，跨模態捕捉到了底部的英文歌詞字幕。它成功理解了帶有燃向色彩的歌詞與激烈對局之間的關聯，指出了這種“音畫協同”如何將視頻的戲劇張力推向高潮。
“絕境翻盤”的情緒共鳴點——模型判定依據：這是最體現模型深度的部分。它通過讀取畫面中的“27 vs 35”判定出己方劣勢的背景，結合團戰的膠著狀態，精準提煉出“絕境翻盤”這一電競核心敘事節點。它證明了自己不僅能看懂畫面，更能切中游戲視頻背后的情緒感染力與觀賞價值。
全局視角的對比排他邏輯——模型判定依據：模型的分析并沒有孤立存在，而是展現出了宏觀的全局視野。它主動將高光片段與此前的戰斗、追擊片段（00:00-00:16 / 00:17-00:58）進行了全盤對比，從特效強度、節奏張力和敘事意義三個維度嚴密論證了該時段的不可替代性，邏輯閉環極具說服力。

為了更直觀地展現這種跨代際的領先，可以將其在核心視頻理解基準上的表現進行可視化對比。

如下圖所示，無論是TimeLens的細粒度動作錨定，還是在LongVideoBench上的綜合長時序解析，Keye-VL-2.0-30B-A3B都展現出了對同級別甚至200B+超大參數開源基座的顯著壓制力。

除此之外，模型還實現了極致的推理成本與專屬Infra訓練系統重構

作為30B級別的基座，Keye-VL-2.0-30B-A3B不僅在時序理解上顯著優于超兩千億參數的開源模型，更在底層算力效能上實現了飛躍。

一方面是推理成本大幅攤薄，引入DSA架構與系統級工程優化后，模型長序列Prefill（預填充）階段成本降低了50%。

更重要的是，隨著輸入視頻上下文的拉長，傳統Full Attention的Decode計算量會呈指數級暴增，而快手團隊基于DSA的Decode成本曲線展現出了極其平緩的增長態勢，為超長視頻的大規模落地提供了極具競爭力的低成本方案。

另一方面是破解長視頻訓練瓶頸，快手打造了專為長視頻、變長序列服務的訓練Infra：

通過可橫向擴展的ExtraIO架構將IO獨立部署、按需擴容，消除視頻解碼與抽幀帶來的IO瓶頸；
采用ViT–LM異構并行 + 兩級負載均衡 + ViT激活值零顯存優化（Recompute/Offload），破解了長視頻、變長序列下計算/顯存的均衡難題；
基于FlashInfer、TileLang對變長序列模式下的DSA進行深度調優，使得長序列訓練性能相比基于開源方案適配的Baseline直接翻倍。

極致的細粒度感知與時序推理，實現視頻SOTA

基于強大的底層基礎架構，快手團隊在“時空統一編碼”與“長時序特征聚合”上進行了深度優化。

相較于歷史版本，Keye-VL-2.0-30B-A3B的視頻理解能力實現了全方位躍升，不僅在當前同尺寸模型中登頂SOTA，更在多項核心時序指標上跨越了尺寸壁壘。

模型不僅能“看懂”畫面的靜態切片，更具備了強大的時序因果推理能力。

這一跨越式的進化，在多項權威視頻理解榜單的最終定版實測中得到了極其有力的數據印證。

打破了“長上下文衰減”魔咒（VideoMME V2），也就是業界普遍面臨著的“輸入幀數越多，注意力越稀釋、準確率越低”的痛點。

Keye-VL-2.0-30B-A3B徹底扭轉了這一趨勢——當輸入視頻從64幀極限擴展至512幀時，模型的平均準確率（ACC）不僅未見衰減，反而從35.34%逆勢大幅飆升至42.44%

同時，代表復雜邏輯深度的非線性得分（Non-Liner Score）亦從18.54穩步跨越至24.19。

這種反直覺表現，完美驗證了其在超長序列下的絕對統治力。

超長視頻綜合理解（LongVideoBench）方面，當模型面對長達數十分鐘甚至小時級的復雜視頻理解任務時，斬獲了74.10的高分，將同級別開源基座遠遠甩在身后，跨級逼近頂級閉源巨頭。

真正的長視頻理解，是對復雜劇情跌宕、空間跳躍與情感暗線的全面洞察。

我們向模型輸入了一段長達8分鐘、記錄“長白山云頂天宮雪雕重建”的紀錄片，要求其給出詳細的場景劃分與敘事總結。

【視頻請到公眾號查看】

面對這部充滿波折的群像短片，模型不僅精準切分了8個核心場景，更展現出了驚人的“敘事解構”能力：

空間與事件的精準追蹤：從起初的圖紙分歧（00:18），到夜間大型造雪機進場施工（01:29），再到通過航拍對比小鎮從“爛尾樓”變“繁華夜市”（02:48），模型精準識別了所有場景跳躍；
災難沖突的因果提取：在03:45節點，模型敏銳捕捉到了“天空陰沉、冰雪融化飛檐變鈍”的視覺細節，結合旁白精準總結出了核心劇情轉折：“百年不遇的冬雨導致雪體坍塌，團隊陷入死局。”
情感與主題的深度升華：模型并沒有停留在“建雪雕”的表層，它提取了畫面中巨大的“振興東北”刻字，關聯了片中“老程盼女兒、小李回流家鄉”的人物背景，在總結中直指故事內核：“極寒的溫度凍不住東北人的熱血，冰雪項目不僅是奇觀，更是承載著東北人振興家鄉、呼喚游子歸鄉的熾熱情感與現實路徑。”

這樣的表現，已經超越了視頻打標員，成為了一位具備極高人文共情能力的“閱卷人”。

此外在全能視聽推理（MLVU & VideoMMMU）上，模型需要從微觀動作追蹤到宏觀跨學科視頻解析，結果在MLVU (82.80)與VideoMMMU (79.98)等多維高難榜單中均交出了傲視同儕的答卷。

Agent框架打通“感知-規劃-執行”全鏈路

作為Keye家族邁向真實業務場景的關鍵一步，Keye-VL-2.0-30B-A3B首次在多模態基座中內建了Agent協作機制。

面對復雜的多步任務，模型跳出了傳統單輪對話的框架，著力構建了一套相對穩定、可靠的自動化調度基線。

Code Agent（代碼工程基線）方面，在業內巨頭林立的代碼賽道，快手選擇務實地構建多模態代碼能力的有效水位。

模型初步打通了基礎題的邏輯推演，并在真實代碼倉庫的解析上進行了探索。

實測數據顯示，定版模型在LivecodeBench v6 (77.10)與OJBench (39.20)的算法評測中，不僅領先于同級別參數模型，甚至在基礎推演能力上超越了部分兩千億參數的開源基座。

在更貼近真實業務線的SWE-bench Verified任務中，模型也跑通了62.00的基線成績，初步具備了定位并修復代碼Issue的能力。

更重要的是，模型充分發揮了基座的視覺優勢，在HTML前端生成（如視覺手稿直轉網頁）等極具業務價值的細分場景上，跑通了結合執行反饋的自我糾錯閉環。

Tool Agent（工具調用與調度）方面，模型也展現出了扎實的意圖理解與接口調度能力。

這一能力在TAU2-Bench(82.58)、BFCL-V4 (65.72)以及多模態Agent測試集VITA-Bench (33.12)中得到了印證，其中在側重復雜多步調度的TAU2-Bench上，模型跨尺寸建立了顯著優勢。

為了驗證其實際業務容錯率，我們向模型輸入了一段高度交織的復雜指令，要求其同時處理“查詢指定標簽門店、測算經緯度配送距離、篩選商品并最終創建酒店及配送訂單”。

面對這種極易導致模型崩潰的“多線程”需求，Keye-VL-2.0-30B-A3B展現出了極為冷靜的多步任務分解（Task Planning）能力。

它自主規劃并按序調用了get_delivery_store_info、longitude_latitude_to_distance、create_hotel_order等十余次API。

在長達數十輪的執行流中，模型不僅準確提取了上下文參數作為后續API的輸入參數，更在底層跑通了容錯邏輯——

依靠強大的自我推理完成狀態自檢與策略調整，最終向用戶輸出了排版清晰、狀態明確的執行結果。完美適應了高度自動化的文本工作流。

MOPD專家合版，克服災難性遺忘

在垂域能力拓展階段，為解決多任務學習的“災難性遺忘”，快手團隊創新性地引入了跨模態MOPD（多專家策略蒸餾/合并）技術。

通過分段re-tokenize方法，團隊保證了多模態場景下序列的嚴格對齊。

在動態路由與參數融合的作用下，該方法有效整合了各垂域專家模型。

在此基礎上，他們獨創了分桶優勢縮放（Bucket Advantage Scaling）方法，從Token級別對結構組織、教師表達、感知表征與推理運算進行細粒度建模，并在優勢估計階段施加差異化縮放。

這一機制極大強化了核心的感知與推理信號，抑制了格式性、模板性Token的干擾。

同時，為釋放Dense Reward的優勢，快手團隊首次將MOPD引入重復崩潰治理，通過多粒度識別與精確定位，將原本模糊的負向反饋轉化為可追溯的優化信號，顯著提升了長序列生成的魯棒性。

真正的多任務融合，不能以犧牲通用底座能力為代價。下圖是Keye-VL-2.0-30B-A3B最終定版在全維度基準測試中的“全景成績單”：

得益于MOPD技術的有機融合，模型不僅在Video和Agent等核心陣地登頂，更在極度考驗邏輯的數學推理（Math & Reasoning）、STEM以及指令遵循（Instruction Following）等通用能力上迎來了全面爆發。

Context-RL與嚴苛數據引擎，構筑推理的絕對可靠性

為了讓模型蛻變為“嚴密且實事求是的邏輯引擎”，快手團隊在后訓練（Post-Training）階段，量身定制了一套極具深度的多模態強化學習體系，核心建立在兩大基石之上。

一是創新獎勵信號，實現超幾何分布級別的事實性監督

在視覺感知與多模態推理中，為了解決“可靠性難以評估”的痛點，在常規規則外，模型開創性引入了Context-RL獎勵機制

該機制利用混合模態的參考信息，構建了極其稠密的細粒度獎勵信號，實現了超幾何分布級別的事實性監督。

它強力壓制了多步推理、復雜學科（數學/醫療/代碼）場景下的幻覺傾向，迫使模型嚴格錨定輸入信息進行毫無發散的可靠長程推演。

二是嚴苛的數據引擎，這里快手團隊采取了極致的篩選與準確率過濾手段。

高質量獎勵必須依托純凈的數據引擎。

為此，他們設計了極為嚴格的數據篩選配比流程，并引入高效的準確率過濾機制（Accuracy Filtering），實時剔除低質量、邏輯斷層的樣本軌跡。

這種“高信噪比數據”與“高精度獎勵”的完美結合，徹底打破了RL訓練中的作弊與坍塌，確保模型在長上下文推演中的決策穩定性實現了質的飛躍。

扎根真實業務生態，驅動內容與商業雙飛輪

評測榜單上的突破，從來不是Keye迭代的終點。

多模態理解大模型與Agent能力在各真實業務場景中的深度落地，才是快手在2026年乃至未來技術投入的重中之重。

告別空泛的行業熱詞堆砌，快手的全景布局既錨定行業通用能力的扎實基座，更聚焦最堅實的業務落地與真實收益，Keye-VL正在從下面的三個維度，全面重塑真實業務流。

多模態理解融入到核心業務，拿到真實收益

多模態理解能力，是快手龐大內容與商業生態邁向全面智能化的基石。

Keye-VL-2.0-30B-A3B正在將極具細粒度的長視頻感知與圖文解析能力，無縫融入到生成式推薦、內容生態治理以及商業化定向投放等核心鏈路中。

目前，模型已在多個內部高優應用場景率先落地。

它不僅能像人類一樣精準捕捉視頻畫面的“弦外之音”與時序邏輯，極大提升了推薦系統的分發命中率，更在廣告營銷的精細化標簽提取上，實打實地取得了顯著的商業收益轉化。

通過Keye-VL，快手正在讓最前沿的算力與算法，真正成為反哺主營業務的增長引擎。

Video × Agent，重塑視頻素材生產范式

面向未來的智能生態演進方向，Keye新解鎖的Agent協作機制正直接賦能龐大的創作者群體與商業生態。

快手會將“精準多模態理解”與“Agent自動化調度”深度融合，打造端到端的全自動閉環工作流。

面對海量且高頻的短視頻業務訴求，模型不再僅僅是看懂內容的“旁觀者”，化身為深入生產一線的“智能調度樞紐”。

從海量視頻庫中的智能檢索、關鍵高光切片提取，到基于邏輯演進的自動化剪輯包裝，再到契合爆款邏輯的營銷文案生成，Keye-VL都極大降低了優質內容的生產門檻，真正拉動生態生產力。

以30B為基石，構建下一代智能基建壁壘

Keye-VL-2.0-30B-A3B的成功落地，是對快手從底層DSA算力優化、海量數據飛輪到后訓練Context-RL算法鏈路的有力驗證。

這不僅解決了當下的業務痛點，更為下一階段的研發掃清了工程障礙。

他們將以30B版本的成功經驗為跳板，穩步向真正的原生多模態（Native Multimodal）與端到端深度融合挺進。

快手拒絕盲目的跟風炒作，通過一次次扎實的業務驗證與版本迭代，持續構筑具有深度的行業技術影響力，沉淀不可替代的核心基建壁壘。

從突破算力瓶頸，到深入業務一線。跑分不是終點，落地才是

Keye-VL-2.0-30B-A3B，現已就緒。

致謝：本文案例演示的視頻素材源自快手平臺@愛德黎子、@山白、@南翔、@穆穆（鬼神）
開源主頁與模型權重已同步上線
Hugging Face: https://huggingface.co/Kwai-Keye/Keye-VL-2.0-30B-A3B
GitHub: https://github.com/Kwai-Keye/Keye

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.