網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

阿里RTPurboV2：Transformer再次崛起，百步訓(xùn)練實(shí)現(xiàn)10倍稀疏注意

2026-06-08 12:07:46　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

機(jī)器之心發(fā)布

“Full Attention 正在被遺忘”

隨著 Agent 的廣泛應(yīng)用帶來的長(zhǎng)序列需求，傳統(tǒng) GPT 架構(gòu)的 Attention 部分，由于其 O (N^2) 的計(jì)算復(fù)雜度，正逐漸被視為性能瓶頸而遭到替換。而 Attention 機(jī)制的架構(gòu)迭代，也正在以前所未有的速度推進(jìn)。目前業(yè)界的主流方案大致可以分為兩種：Linear Attention 和 Sparse Attention。其中 Linear Attention 以 Qwen-Next 和 Kimi-K2 為代表，本質(zhì)上是通過改進(jìn)后的 Linear Attention 來實(shí)現(xiàn)信息壓縮，使得存儲(chǔ)代價(jià)壓縮到 O(1) ，計(jì)算代價(jià)壓縮到 O(N)；而 Sparse Attention 則主要通過稀疏化來優(yōu)化計(jì)算開銷，實(shí)踐中往往能夠達(dá)到接近 90% 以上的稀疏度，這也是在 DeepSeek-V4 中被正式采用的技術(shù)路線。

然而，在 RTPurbo 中 [1]，前期工作已經(jīng)充分指出，使用 Full Attention+Sliding Window Attention（SWA）就已經(jīng)可以在精度無損的保證下，將原生 Transformer 的 85% 注意力頭變成 SWA，實(shí)現(xiàn) 15% Full Attention + 85% SWA 的混合架構(gòu)，實(shí)現(xiàn) 5X 的 KV 和 Attention 壓縮。無獨(dú)有偶，在近期的一些開源架構(gòu)，如 MIMO、Gemma4、GPT-OSS 中，也使用了 SWA+Full Attention 這一設(shè)計(jì)，頗有一種 “大道至簡(jiǎn)” 的設(shè)計(jì)思路。

盡管替換了 85% 的 Full Attention 成 SWA，剩下的 15% Full Attention 在超長(zhǎng)序列（1M）下仍然會(huì)成為性能瓶頸。今天，為了徹底解決 Attention 的推理瓶頸，來自阿里的 RTP 團(tuán)隊(duì)推出了第二代 Attention 壓縮技術(shù)：RTPurboV2。通過結(jié)合 Headwise 壓縮，低秩投影壓縮，以及聚類技術(shù)，RTPurboV2 可以在 V1 架構(gòu)的基礎(chǔ)上，進(jìn)一步在 Full Attention 部分實(shí)現(xiàn) 16~32 倍計(jì)算壓縮。

圖 1：RTPurboV2 性能

RTPurboV2：全方位極致 Full Attention 壓縮

圖 2：RTPurboV2 整體架構(gòu)

Full Attention 模型在預(yù)訓(xùn)練過程中，已經(jīng)自發(fā)地形成了高度稀疏的注意力結(jié)構(gòu)。我們要做的不是 "強(qiáng)加" 稀疏性，而是 "釋放" 它。這個(gè)判斷建立在四個(gè)可量化的關(guān)鍵發(fā)現(xiàn)之上。

發(fā)現(xiàn)一：85% 的注意力頭天然適配滑動(dòng)窗口

研究人員發(fā)現(xiàn)，在 Full Attention 模型中，不同的 Attention Head 實(shí)際上承擔(dān)著不同的職責(zé)。有些 Head 專注于捕捉局部信息（比如相鄰 token 之間的關(guān)系），有些 Head 則負(fù)責(zé)捕捉長(zhǎng)距離依賴（比如與自身相關(guān)信息的關(guān)聯(lián)）。

圖 3：與大多數(shù)只關(guān)注局部信息的 Attention Head 不同，Retrieval Heads 會(huì)關(guān)注與當(dāng)前 query token 語義相關(guān)的區(qū)域，即使這些區(qū)域在上下文中距離很遠(yuǎn)

更具體地說，通過可視化分析，研究者觀察到，在 Qwen3 系列模型中：

約 15% 的 Head 表現(xiàn)出明顯的 "召回頭"（retrieval head）特征：它們的注意力分布非常稀疏，只關(guān)注少數(shù)幾個(gè)關(guān)鍵 token，負(fù)責(zé)長(zhǎng)距離信息召回
其余 85% 的 Head 則是 "流式頭"（streaming head）：它們的注意力分布相對(duì)均勻，更多關(guān)注局部上下文

這種分工模式在不同輸入、不同序列長(zhǎng)度下高度穩(wěn)定，是模型在預(yù)訓(xùn)練中自發(fā)習(xí)得的內(nèi)在結(jié)構(gòu)。直接推論：85% 的 Full Attention 計(jì)算可以安全地替換為 SWA（參考 RTPurbo），幾乎不影響模型能力。真正需要解決的，只有剩余 15% 召回頭的高效計(jì)算問題

發(fā)現(xiàn)二：長(zhǎng)程檢索由低維子空間主導(dǎo)

召回頭的核心任務(wù)是在整個(gè)序列中做語義匹配 —— 看起來仍然是 O (N^2) 的問題。RTPurboV2 的核心技術(shù)升級(jí)之一是對(duì)于召回頭和 RoPE 的細(xì)致理解。在深入分析 RoPE 位置編碼的頻率結(jié)構(gòu)后，團(tuán)隊(duì)發(fā)現(xiàn)了召回頭的 RoPE 分量存在顯著的維度冗余。在 RoPE 下，Query-Key 的注意力得分可以分解為不同頻率分量的疊加：

其中 △ = m - n 為位置偏移。不同頻率分量的作用存在本質(zhì)差異：

低頻分量（θ_i 較小）：隨位置偏移緩慢變化，承載 token 間的語義相關(guān)性信號(hào)
高頻分量（θ_i 較大）：隨位置偏移快速振蕩，引入距離敏感性干擾

對(duì)于長(zhǎng)距離檢索而言，高頻分量導(dǎo)致注意力得分隨位置距離劇烈波動(dòng)，削弱了語義信號(hào)的穩(wěn)定傳遞。而從召回任務(wù)本身的性質(zhì)出發(fā)：一個(gè) token 的召回強(qiáng)度不應(yīng)隨相對(duì)位置的變化而快速波動(dòng)。由此可以推斷，在召回頭上的高頻分量一定是出于被壓制狀態(tài)，召回頭本質(zhì)上只會(huì)利用 RoPE 低頻分量。

圖 4：RoPE 下高頻分量隨位置快速旋轉(zhuǎn)，影響長(zhǎng)程檢索

因此，一個(gè)很自然的設(shè)計(jì)是訓(xùn)練一個(gè)低維 projector，我們通過低秩映射將原始特征維度從 D 壓縮至 r=16 (其中 r ? D)，系統(tǒng)性地保留低頻語義分量、過濾高頻位置噪聲。實(shí)驗(yàn)驗(yàn)證，僅 16 維即可達(dá)到 90%+ 的 token 召回率。

發(fā)現(xiàn)三：序列維度的冗余：基于高質(zhì)量特征的自適應(yīng)聚類

這是 RTPurboV2 的核心技術(shù)升級(jí)之二。團(tuán)隊(duì)意識(shí)到低秩投影帶來的增益不止于計(jì)算量的直接降低 —— 它從根本上改善了 Key 向量在語義空間中的分布質(zhì)量。高頻噪聲被過濾后，語義相似的 token 在低秩空間中天然聚攏，語義無關(guān)的 token 彼此遠(yuǎn)離。這為序列維度的進(jìn)一步壓縮創(chuàng)造了理想條件。

基于這一特性，我們?cè)谛蛄芯S度上引入自適應(yīng)聚類，構(gòu)建兩級(jí)漏斗式計(jì)算流程：

1. 粗粒度匹配：將 N 個(gè) token 聚類為 K 個(gè)語義簇（如 K=128），Query 先與 K 個(gè)簇中心做輕量級(jí)匹配，復(fù)雜度僅 O (N·K)

2. 細(xì)粒度計(jì)算：僅在命中的相關(guān)簇內(nèi)執(zhí)行完整 Attention 計(jì)算

兩階段串聯(lián)，整體復(fù)雜度從 O (N^2) 躍遷至 O (N·K)：

兩步壓縮之間存在顯著的協(xié)同增益：

特征維度壓縮→ 降低單步計(jì)算開銷，同時(shí)產(chǎn)出高質(zhì)量聚類輸入
序列維度壓縮（聚類）→ 跳過大量語義無關(guān) token，降低總計(jì)算步數(shù)
協(xié)同效應(yīng) → 特征壓縮提純后的向量讓聚類中心更精準(zhǔn)，使得在極端壓縮比下依然保持高召回率

兩者形成乘法效應(yīng)：壓縮比越激進(jìn)，協(xié)同增益越顯著。

發(fā)現(xiàn)四：動(dòng)態(tài) top-p 顯著優(yōu)于固定 top-k

傳統(tǒng)的稀疏注意力方法通常采用固定 top-k 策略，即每個(gè) query 只保留 attention score 最高的 k 個(gè) token。但這種做法存在一個(gè)根本性問題：不同的 attention head、不同的序列長(zhǎng)度、不同的 query，所需的上下文 token 數(shù)量差異巨大。

以同一模型同一層的三個(gè)召回頭為例，在 64K 上下文下，覆蓋 90% 注意力質(zhì)量所需的 token 數(shù)：

表 1：不同 Attention Head 在不同序列長(zhǎng)度下，top_p = 0.9 時(shí)召回的 Token 數(shù)量

三個(gè)數(shù)量級(jí)的差異，意味著不存在一個(gè)固定的 k 值能同時(shí)滿足所有場(chǎng)景。

兩階段微調(diào)訓(xùn)練 —— 百步完成稀疏化適配

四個(gè)發(fā)現(xiàn)匯合，RTPurboV2 的推理架構(gòu)自然成型：

流式頭（85%）→ SWA（窗口 8192）
召回頭（15%）→ 低秩投影 + 聚類索引 + 動(dòng)態(tài) top-p

而讓模型適配這套稀疏化架構(gòu)，僅需訓(xùn)練約 600 步，約 1M label tokens。更具體的，RTPurboV2 的訓(xùn)練分為兩個(gè)階段：

在數(shù)十萬億 token 的預(yù)訓(xùn)練語境下，1M token 幾乎可以忽略。這也從另一個(gè)角度驗(yàn)證了核心論點(diǎn)：Full Attention 的稀疏性是內(nèi)生的，微調(diào)只是完成從隱式到顯式的轉(zhuǎn)化。

實(shí)驗(yàn)結(jié)果與性能評(píng)估

為了全面驗(yàn)證 RTPurboV2 的有效性，我們?cè)?Qwen3-Coder-30B-A3B 和 Qwen3.5-35B-A3B 兩款主流模型上，針對(duì)長(zhǎng)文本核心基準(zhǔn)進(jìn)行了系統(tǒng)性評(píng)估。

1. Ruler 基準(zhǔn)測(cè)試：長(zhǎng)程檢索的精度突破

在 Qwen3-Coder-30B-A3B 模型上，我們通過離線校準(zhǔn)識(shí)別出約 15% 的關(guān)鍵 “召回頭”。針對(duì)這些 Head，我們?cè)?Prefill 階段采用 Full Attention 并配合 K Cache 聚類，在 Decode 階段則應(yīng)用 RTPurboV2 實(shí)現(xiàn)稀疏化；其余流式頭統(tǒng)一采用 SWA（局部窗口設(shè)為 8192）。

如圖 3 所示，RTPurboV2 在 32K 和 64K 序列長(zhǎng)度下均取得了最優(yōu)平均分（分別為 89.69 和 85.61），顯著優(yōu)于除 Full Attention 外的所有基線方法，證明了其在長(zhǎng)程信息召回上的卓越精度。

圖 5：Ruler 測(cè)評(píng)結(jié)果

2. LongBenchV2 基準(zhǔn)測(cè)試：高召回比例下的無損壓縮

針對(duì) Qwen3.5-35B-A3B 模型，校準(zhǔn)顯示其超過 70% 的 Head 具有召回特性。為此，我們采取了全量稀疏化策略。實(shí)驗(yàn)結(jié)果（圖 4）表明，RTPurboV2 在大幅降低計(jì)算開銷的同時(shí)，完整保留了模型的基礎(chǔ)能力，精度表現(xiàn)與 Full Attention 持平。

圖 6：LongBenchV2 測(cè)評(píng)結(jié)果

3. CoT 推理任務(wù)：復(fù)雜邏輯的穩(wěn)定支撐

在鏈?zhǔn)剿季S（CoT）推理任務(wù)中，RTPurboV2 同樣表現(xiàn)出色（圖 5），實(shí)現(xiàn)了模型推理能力的近乎無損保留，進(jìn)一步驗(yàn)證了該方案在復(fù)雜邏輯場(chǎng)景下的魯棒性。

圖 7：CoT 任務(wù)測(cè)評(píng)結(jié)果

更大的圖景

當(dāng)前注意力機(jī)制的研究重心，大量集中在設(shè)計(jì)全新的高效架構(gòu)上。這條路徑無疑有其價(jià)值。但 RTPurboV2 揭示了一個(gè)容易被忽視的事實(shí)：Full Attention 模型自身就蘊(yùn)含著巨大的效率空間，而釋放這種內(nèi)生稀疏性的成本極低。

600 步訓(xùn)練，精度幾乎無損，Prefill 最高 9.36 倍加速。這意味著，對(duì)于選擇 SWA + Full Attention 混合架構(gòu)的團(tuán)隊(duì) —— 包括 MIMO、Gemma 4、GPT-OSS——不需要替換架構(gòu)就能獲得接近 SOTA 新方案的壓縮效率

“原生 Transformer，從未過時(shí)。Full Attention strikes back.”

團(tuán)隊(duì)介紹

RTP-LLM 是阿里巴巴智能引擎團(tuán)隊(duì)自研的高性能大模型推理引擎，支持了淘寶、天貓、高德等核心業(yè)務(wù)的大模型推理需求。智能引擎源自阿里巴巴搜索、推薦和廣告技術(shù)，是阿里 AI 工程領(lǐng)域的先行者和深耕者。團(tuán)隊(duì)專注于 AI 工程系統(tǒng)的建設(shè)，主導(dǎo)建立了大數(shù)據(jù) AI 工程體系 AI?OS，持續(xù)為阿里集團(tuán)各業(yè)務(wù)提供高質(zhì)量的 AI 工程服務(wù)。

RTP-LLM 項(xiàng)目已開源，歡迎交流共建：https://github.com/alibaba/rtp-llm

參考文獻(xiàn)：

[1]: 僅需 15% 全量 Attention！「RTPurbo」阿里 Qwen3 長(zhǎng)文本推理 5 倍壓縮方案來了：https://mp.weixin.qq.com/s/wFAJ6oG1CsKBJiCBE45BsQ

[2]: Full Attention Strikes Back： https://huggingface.co/papers/2605.16928

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.