網易首頁 > 網易號 > 正文申請入駐

15%全量Attention！「RTPurbo」阿里Qwen3長文本推理5倍壓縮方案

2025-12-23 12:52:34　來源: 機器之心Pro

北京舉報

分享至

機器之心發布

為什么大模型廠商給了 128K 的上下文窗口，卻在計費上讓長文本顯著更貴？

為什么 Claude 能 “吞下整本書”，但官方示例往往只展示幾千字的文檔？

為什么所有大模型廠商都在卷 “更長上下文”，而真正做落地的產品經理卻天天琢磨 “怎么把用戶輸入變短”？

這些看似矛盾的現象，其實答案藏在一個長期被技術光環遮掩的真相里：

長序列，正在成為大模型應用里最昂貴的奢侈品

在當前主流的 Full Attention 機制下，計算開銷會隨著輸入長度平方增長，序列一長，處理就變得 “又貴又慢”（見圖 1）。針對這一核心難題，阿里 RTP-LLM 團隊提出了一種全新的后訓練壓縮方案：RTPurbo。在不損失模型效果的前提下，實現了 Attention 計算5 倍壓縮（見圖 2）。

左圖 1：長序列 Attention 計算成本瓶頸；右圖 2：RTPurbo 極大降低 Attention 計算開銷

總的來說， RTPurbo 采用了一種非侵入式的壓縮方法：通過分辨 LLM 內部的長程 Attention Head，僅保留關鍵 Head 的全局信息，對于剩下冗余的 Head 直接丟棄遠程 Tokens。這種 Headwise 級別的混合算法以其簡潔的方案設計和優越的算子兼容性，極大地降低了大模型在長序列下的推理代價，為新一代 LLM 結構設計提供了一個新的視角和演進方向。

目前，項目模型與推理代碼已經發布至 Huggingface、ModelScope 平臺，感興趣的讀者可以閱讀 RTP-LLM 相應的技術 blog 了解更多細節。

https://huggingface.co/RTP-LLM/Qwen3-Coder-30B-A3B-Instruct-RTPurbo
https://modelscope.cn/models/RTP-LLM/Qwen3-Coder-30B-A3B-Instruct-RTPurbo

圖 3：RTPurbo 采用混合壓縮方案，僅有少數 Attention Head 使用全量 Attention）

化繁為簡，被低估的 SWA

但在真實落地中，這兩條路線都有較明顯的共性代價：一方面，它們通常強依賴大量后訓練，工程實現與適配成本也更高；另一方面，Linear Attention 在壓縮信息后，長序列下的召回能力顯著弱于 Full Attention [1]，因此往往需要與 Full Attention 混合使用，帶來性能與加速收益的雙重上限。此外，Linear / Sparse Attention 的算子與調度設計相對復雜，也進一步影響其在工程生態中的通用性、可維護性與一致性。也正因如此，一些前期工作 [2] 反而把目光投向看似 “簡單粗暴” 的 Sliding Window Attention（SWA），例如 gpt-oss 和 MiMo ，這在一定程度上說明 SWA 并非 “權宜之計”，而是一種可規?；瘡陀玫墓こ踢x擇。

在進一步分析現有 LLM 的注意力模式后，團隊觀察到一個更細粒度的關鍵現象：絕大多數 Attention Head 天然更偏好局部信息，只有極少數 “長程頭” 能在長文本中穩定地定位并召回關鍵關聯信息。基于這一現象，團隊提出了一個關鍵假設：

類似人類的閱讀與寫作過程，LLM 在處理長文本時，往往會先從長上下文中 “召回” 相關信息，再在相對局部的上下文范圍內完成推理并輸出答案

換句話說，模型內部可能只有少量 Attention Head 真正在承擔 “信息召回” 的職責：它們通過注意力機制把遠距離信息搬運到當前的 Residual Stream（信息通道）中，讓后續層可以在更局部、更高信噪比的狀態下完成推理。這也直接意味著：對于那些并不承擔長程依賴的 Attention Head，其實并不需要使用 Full Attention—— 長序列場景存在可觀的壓縮空間。

為了驗證這一假設，團隊設計了一個直觀的對比試驗：

方案一：只有 15% 的長程頭使用 Full Attention，剩余 85% 使用 SWA；
方案二：15% 的長程頭使用 SWA，剩余 85% 使用 Full Attention。

如表 1 所示，盡管方案二保留了 85% 的 KV cache，但是其長文能力仍然顯著劣于方案一。

表 1：方案一只用 15% 的 Full Attention，長文效果顯著優于方案二

進一步地，在不做任何微調的情況下，方案一在長文本指標上也非常有競爭力（表 2），幾乎無損：

表 2：方案一不經過訓練，在 Ruler 上無損

不過，在某些特定的長文任務上，未經微調的壓縮模型仍會出現明顯的性能退化（見表 3）。其根源在于：壓縮前后注意力模式的直接切換會對模型輸出造成一定擾動，需要額外訓練來 “消化” 這種變化。

表 3：方案一在特殊 benchmark 上仍然存在顯著負向

因此，為實現更接近 “無損” 的壓縮，團隊進一步提出了一個面向 RL 后模型的壓縮訓練范式：在不依賴高質量標注數據的前提下，僅通過輕量級微調，就能顯著提升壓縮后模型在長文任務上的表現。

自蒸餾，從根本上解決數據問題

當前主流 LLM 通常采用 “預訓練 + 后訓練 + RL” 的訓練范式，如果直接使用長文 SFT / 預訓練語料進行續訓，會帶來兩方面挑戰：

RL 后模型在經過 SFT 會出現過擬合甚至災難性遺忘，損傷短文本任務上的原有能力（見表 4）；
高質量的長文本語料難以獲取。

表 4：Qwen3-30B-A3B-Instruct RL 后模型繼續 SFT 會過擬合，造成災難性遺忘

為解決這兩點，RTPurbo 使用 “模型自蒸餾” 作為關鍵訓練策略：讓壓縮后的模型對齊原模型輸出，從而同時化解數據與能力保留問題：

僅對模型自身的輸出進行對齊，避免依賴特定領域的問答數據，從而確保短文本下游指標基本無損；
只需使用長文本預訓練語料即可完成訓練，使模型快速適應 headwise 稀疏的工作模式。

實測中，僅使用約 1 萬條 32k 長度的預訓練語料（訓練時間小時級），RTPurbo 就能讓長文任務表現與原模型持平。

結果對比

在長文本測試場景下，RTPurbo 僅保留約 15% 的 Attention Heads 使用 Full KV cache，壓縮后的 Qwen-Coder-Plus、Qwen3-30B-A3B-Instruct 在多項長文指標上可與未壓縮模型齊平，充分驗證了壓縮后模型的精度保障。

更重要的是，這種壓縮并非以犧牲通用能力為代價。在多項短文本（通用）Benchmark 上，采用自蒸餾范式訓練后的模型并未出現性能衰減，原有對話、推理和代碼理解等能力都得到了良好保留。

這表明，RTPurbo 不僅是一種單一模型的 “特定優化技巧”，而是一套具有良好可遷移性和通用性的長序列加速方案，可為更大規模、更多架構的 LLM 提供高性價比的推理加速路徑。

從大模型可解釋性到 LLM 壓縮

早期可解釋性工作 [3] 已指出：模型內部存在很強的 “召回” 機制，一部分特定 Attention Head 能穩定定位前文相關信息。團隊成員的前期工作 [2] 也觀察到這些 Head 在長文場景仍保持類似行為。

與此同時，在 [4] 中，作者指出 Softmax 本身在長序列存在熵增的問題。更具體的，隨著序列變長，每個 Token 的注意力不可避免的變得更加彌散（信噪比降低），如下圖所示：

圖 4：Attention 在長序列下存在信噪比下降的問題

因此，為了避免遠程信息干擾模型本身的推理能力，LLM 內部實現了一種非常巧妙的機制：

多數 Head 只處理局部信息，以獲得更高信噪比；
少數 Head 負責從遠處 “召回” 關鍵信息并搬運到當前位置，使后續層能在局部范圍內完成推理。

這與 RTPurbo 的 headwise 設計高度一致：把 “全局召回” 能力集中保留給少量關鍵 Head，其余 Head 則用工程收益更穩定的 SWA 來承載。

RTP-LLM：RTPurbo 在長文上的極致性能優化

圖 5：RTPurbo HeadWise Attention 性能加速結果，圖上結果僅使用 15% 的 Full Attention

RTPurbo 按固定比例劃分 SWA Head 與 Full Head 雖然直觀有效，但工程上必須解決一個問題：不同 Head 計算模式與計算量不一致，會導致負載不均衡，影響 GPU 并行效率與端到端吞吐。

為此，RTP-LLM 圍繞該不均衡在算子層與框架層做了針對性優化，核心包括：

Full Attention Head 的 PTX 級優化：對仍需全量計算的 Full Head 深入 PTX 指令層，利用 gmma::mma_async_shmA 等異步拷貝與矩陣乘指令提升效率；融合 IO warps 與 P/V 計算階段，優化 Ping-Pong 流水與調度，減少空轉等待。
稀疏度感知的負載均衡調度：針對 Tail Latency，采用稀疏度感知動態調度（如反向拓撲排序），優先分配重 tile 給 SM，使各 SM 更同步完成任務，降低尾延遲、提升吞吐。
SWA 的高效實現：避免傳統 SWA 常見的 “三段式 KV 拼接” 或 “Custom Mask” 做法（訪存與調度開銷大），通過重塑數據布局與計算路徑減少冗余訪存與額外算子開銷。
用 CP（Context Parallel）替代 TP（Tensor Parallel）：在 headwise 稀疏場景下，TP 易導致算力利用率低且不夠靈活；采用 CP 讓單卡完成全部 head 的 attention 計算，提高 GPU 利用率，并通過計算 - 通信重疊降低通信開銷。

綜合以上優化，RTP-LLM 能將 Attention 稀疏帶來的理論收益穩定、可復現地轉化為端到端加速；在 256k 長序列下實現單算子最高 9× 加速（見圖 5，圖中僅 15% Head 使用 Full Attention）。

團隊介紹

RTP-LLM 是阿里巴巴智能引擎團隊自研的高性能大模型推理引擎，支持了淘寶、天貓、高德、餓了么等核心業務的大模型推理需求。智能引擎源自阿里巴巴搜索、推薦和廣告技術，是阿里 AI 工程領域的先行者和深耕者。團隊專注于 AI 工程系統的建設，主導建立了大數據 AI 工程體系 AI?OS，持續為阿里集團各業務提供高質量的 AI 工程服務。

RTP-LLM 項目已開源，歡迎交流共建： https://github.com/alibaba/rtp-llm

參考文獻：

[1]: Repeat After Me:Transformers are Better than State Space Models at Copying.

[2]: RazorAttention: Efficient KV Cache Compression Through Retrieval Heads

[3]: In-context Learning and Induction Heads

[4]: 蘇建林，“注意力機制真的可以集中注意力嗎？”，https://www.spaces.ac.cn/archives/9889

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.