![]()
機(jī)器之心發(fā)布
“Full Attention 正在被遺忘”
隨著 Agent 的廣泛應(yīng)用帶來的長(zhǎng)序列需求,傳統(tǒng) GPT 架構(gòu)的 Attention 部分,由于其 O (N^2) 的計(jì)算復(fù)雜度,正逐漸被視為性能瓶頸而遭到替換。而 Attention 機(jī)制的架構(gòu)迭代,也正在以前所未有的速度推進(jìn)。目前業(yè)界的主流方案大致可以分為兩種:Linear Attention 和 Sparse Attention。其中 Linear Attention 以 Qwen-Next 和 Kimi-K2 為代表,本質(zhì)上是通過改進(jìn)后的 Linear Attention 來實(shí)現(xiàn)信息壓縮,使得存儲(chǔ)代價(jià)壓縮到 O(1) ,計(jì)算代價(jià)壓縮到 O(N);而 Sparse Attention 則主要通過稀疏化來優(yōu)化計(jì)算開銷,實(shí)踐中往往能夠達(dá)到接近 90% 以上的稀疏度,這也是在 DeepSeek-V4 中被正式采用的技術(shù)路線。
然而,在 RTPurbo 中 [1],前期工作已經(jīng)充分指出,使用 Full Attention+Sliding Window Attention(SWA)就已經(jīng)可以在精度無損的保證下,將原生 Transformer 的 85% 注意力頭變成 SWA,實(shí)現(xiàn) 15% Full Attention + 85% SWA 的混合架構(gòu),實(shí)現(xiàn) 5X 的 KV 和 Attention 壓縮。無獨(dú)有偶,在近期的一些開源架構(gòu),如 MIMO、Gemma4、GPT-OSS 中,也使用了 SWA+Full Attention 這一設(shè)計(jì),頗有一種 “大道至簡(jiǎn)” 的設(shè)計(jì)思路。
盡管替換了 85% 的 Full Attention 成 SWA,剩下的 15% Full Attention 在超長(zhǎng)序列(1M)下仍然會(huì)成為性能瓶頸。今天,為了徹底解決 Attention 的推理瓶頸,來自阿里的 RTP 團(tuán)隊(duì)推出了第二代 Attention 壓縮技術(shù):RTPurboV2。通過結(jié)合 Headwise 壓縮,低秩投影壓縮,以及聚類技術(shù),RTPurboV2 可以在 V1 架構(gòu)的基礎(chǔ)上,進(jìn)一步在 Full Attention 部分實(shí)現(xiàn) 16~32 倍計(jì)算壓縮。
![]()
圖 1:RTPurboV2 性能
RTPurboV2:全方位極致 Full Attention 壓縮
![]()
圖 2:RTPurboV2 整體架構(gòu)
Full Attention 模型在預(yù)訓(xùn)練過程中,已經(jīng)自發(fā)地形成了高度稀疏的注意力結(jié)構(gòu)。我們要做的不是 "強(qiáng)加" 稀疏性,而是 "釋放" 它。這個(gè)判斷建立在四個(gè)可量化的關(guān)鍵發(fā)現(xiàn)之上。
發(fā)現(xiàn)一:85% 的注意力頭天然適配滑動(dòng)窗口
研究人員發(fā)現(xiàn),在 Full Attention 模型中,不同的 Attention Head 實(shí)際上承擔(dān)著不同的職責(zé)。有些 Head 專注于捕捉局部信息(比如相鄰 token 之間的關(guān)系),有些 Head 則負(fù)責(zé)捕捉長(zhǎng)距離依賴(比如與自身相關(guān)信息的關(guān)聯(lián))。
![]()
圖 3:與大多數(shù)只關(guān)注局部信息的 Attention Head 不同,Retrieval Heads 會(huì)關(guān)注與當(dāng)前 query token 語義相關(guān)的區(qū)域,即使這些區(qū)域在上下文中距離很遠(yuǎn)
更具體地說,通過可視化分析,研究者觀察到,在 Qwen3 系列模型中:
- 約 15% 的 Head 表現(xiàn)出明顯的 "召回頭"(retrieval head)特征:它們的注意力分布非常稀疏,只關(guān)注少數(shù)幾個(gè)關(guān)鍵 token,負(fù)責(zé)長(zhǎng)距離信息召回
- 其余 85% 的 Head 則是 "流式頭"(streaming head):它們的注意力分布相對(duì)均勻,更多關(guān)注局部上下文
這種分工模式在不同輸入、不同序列長(zhǎng)度下高度穩(wěn)定,是模型在預(yù)訓(xùn)練中自發(fā)習(xí)得的內(nèi)在結(jié)構(gòu)。直接推論:85% 的 Full Attention 計(jì)算可以安全地替換為 SWA(參考 RTPurbo),幾乎不影響模型能力。真正需要解決的,只有剩余 15% 召回頭的高效計(jì)算問題
發(fā)現(xiàn)二:長(zhǎng)程檢索由低維子空間主導(dǎo)
召回頭的核心任務(wù)是在整個(gè)序列中做語義匹配 —— 看起來仍然是 O (N^2) 的問題。RTPurboV2 的核心技術(shù)升級(jí)之一是對(duì)于召回頭和 RoPE 的細(xì)致理解。在深入分析 RoPE 位置編碼的頻率結(jié)構(gòu)后,團(tuán)隊(duì)發(fā)現(xiàn)了召回頭的 RoPE 分量存在顯著的維度冗余。在 RoPE 下,Query-Key 的注意力得分可以分解為不同頻率分量的疊加:
![]()
其中 △ = m - n 為位置偏移。不同頻率分量的作用存在本質(zhì)差異:
- 低頻分量(θ_i 較小):隨位置偏移緩慢變化,承載 token 間的語義相關(guān)性信號(hào)
- 高頻分量(θ_i 較大):隨位置偏移快速振蕩,引入距離敏感性干擾
對(duì)于長(zhǎng)距離檢索而言,高頻分量導(dǎo)致注意力得分隨位置距離劇烈波動(dòng),削弱了語義信號(hào)的穩(wěn)定傳遞。而從召回任務(wù)本身的性質(zhì)出發(fā):一個(gè) token 的召回強(qiáng)度不應(yīng)隨相對(duì)位置的變化而快速波動(dòng)。由此可以推斷,在召回頭上的高頻分量一定是出于被壓制狀態(tài),召回頭本質(zhì)上只會(huì)利用 RoPE 低頻分量。
![]()
圖 4:RoPE 下高頻分量隨位置快速旋轉(zhuǎn),影響長(zhǎng)程檢索
因此,一個(gè)很自然的設(shè)計(jì)是訓(xùn)練一個(gè)低維 projector,我們通過低秩映射將原始特征維度從 D 壓縮至 r=16 (其中 r ? D),系統(tǒng)性地保留低頻語義分量、過濾高頻位置噪聲。實(shí)驗(yàn)驗(yàn)證,僅 16 維即可達(dá)到 90%+ 的 token 召回率。
發(fā)現(xiàn)三:序列維度的冗余:基于高質(zhì)量特征的自適應(yīng)聚類
這是 RTPurboV2 的核心技術(shù)升級(jí)之二。團(tuán)隊(duì)意識(shí)到低秩投影帶來的增益不止于計(jì)算量的直接降低 —— 它從根本上改善了 Key 向量在語義空間中的分布質(zhì)量。高頻噪聲被過濾后,語義相似的 token 在低秩空間中天然聚攏,語義無關(guān)的 token 彼此遠(yuǎn)離。這為序列維度的進(jìn)一步壓縮創(chuàng)造了理想條件。
基于這一特性,我們?cè)谛蛄芯S度上引入自適應(yīng)聚類,構(gòu)建兩級(jí)漏斗式計(jì)算流程:
1. 粗粒度匹配:將 N 個(gè) token 聚類為 K 個(gè)語義簇(如 K=128),Query 先與 K 個(gè)簇中心做輕量級(jí)匹配,復(fù)雜度僅 O (N·K)
2. 細(xì)粒度計(jì)算:僅在命中的相關(guān)簇內(nèi)執(zhí)行完整 Attention 計(jì)算
兩階段串聯(lián),整體復(fù)雜度從 O (N^2) 躍遷至 O (N·K):
![]()
兩步壓縮之間存在顯著的協(xié)同增益:
- 特征維度壓縮→ 降低單步計(jì)算開銷,同時(shí)產(chǎn)出高質(zhì)量聚類輸入
- 序列維度壓縮(聚類)→ 跳過大量語義無關(guān) token,降低總計(jì)算步數(shù)
- 協(xié)同效應(yīng) → 特征壓縮提純后的向量讓聚類中心更精準(zhǔn),使得在極端壓縮比下依然保持高召回率
兩者形成乘法效應(yīng):壓縮比越激進(jìn),協(xié)同增益越顯著。
發(fā)現(xiàn)四:動(dòng)態(tài) top-p 顯著優(yōu)于固定 top-k
傳統(tǒng)的稀疏注意力方法通常采用固定 top-k 策略,即每個(gè) query 只保留 attention score 最高的 k 個(gè) token。但這種做法存在一個(gè)根本性問題:不同的 attention head、不同的序列長(zhǎng)度、不同的 query,所需的上下文 token 數(shù)量差異巨大。
以同一模型同一層的三個(gè)召回頭為例,在 64K 上下文下,覆蓋 90% 注意力質(zhì)量所需的 token 數(shù):
![]()
表 1:不同 Attention Head 在不同序列長(zhǎng)度下,top_p = 0.9 時(shí)召回的 Token 數(shù)量
三個(gè)數(shù)量級(jí)的差異,意味著不存在一個(gè)固定的 k 值能同時(shí)滿足所有場(chǎng)景。
![]()
兩階段微調(diào)訓(xùn)練 —— 百步完成稀疏化適配
四個(gè)發(fā)現(xiàn)匯合,RTPurboV2 的推理架構(gòu)自然成型:
- 流式頭(85%)→ SWA(窗口 8192)
- 召回頭(15%)→ 低秩投影 + 聚類索引 + 動(dòng)態(tài) top-p
而讓模型適配這套稀疏化架構(gòu),僅需訓(xùn)練約 600 步,約 1M label tokens。更具體的,RTPurboV2 的訓(xùn)練分為兩個(gè)階段:
![]()
在數(shù)十萬億 token 的預(yù)訓(xùn)練語境下,1M token 幾乎可以忽略。這也從另一個(gè)角度驗(yàn)證了核心論點(diǎn):Full Attention 的稀疏性是內(nèi)生的,微調(diào)只是完成從隱式到顯式的轉(zhuǎn)化。
實(shí)驗(yàn)結(jié)果與性能評(píng)估
為了全面驗(yàn)證 RTPurboV2 的有效性,我們?cè)?Qwen3-Coder-30B-A3B 和 Qwen3.5-35B-A3B 兩款主流模型上,針對(duì)長(zhǎng)文本核心基準(zhǔn)進(jìn)行了系統(tǒng)性評(píng)估。
1. Ruler 基準(zhǔn)測(cè)試:長(zhǎng)程檢索的精度突破
在 Qwen3-Coder-30B-A3B 模型上,我們通過離線校準(zhǔn)識(shí)別出約 15% 的關(guān)鍵 “召回頭”。針對(duì)這些 Head,我們?cè)?Prefill 階段采用 Full Attention 并配合 K Cache 聚類,在 Decode 階段則應(yīng)用 RTPurboV2 實(shí)現(xiàn)稀疏化;其余流式頭統(tǒng)一采用 SWA(局部窗口設(shè)為 8192)。
如圖 3 所示,RTPurboV2 在 32K 和 64K 序列長(zhǎng)度下均取得了最優(yōu)平均分(分別為 89.69 和 85.61),顯著優(yōu)于除 Full Attention 外的所有基線方法,證明了其在長(zhǎng)程信息召回上的卓越精度。
![]()
圖 5:Ruler 測(cè)評(píng)結(jié)果
2. LongBenchV2 基準(zhǔn)測(cè)試:高召回比例下的無損壓縮
針對(duì) Qwen3.5-35B-A3B 模型,校準(zhǔn)顯示其超過 70% 的 Head 具有召回特性。為此,我們采取了全量稀疏化策略。實(shí)驗(yàn)結(jié)果(圖 4)表明,RTPurboV2 在大幅降低計(jì)算開銷的同時(shí),完整保留了模型的基礎(chǔ)能力,精度表現(xiàn)與 Full Attention 持平。
![]()
圖 6:LongBenchV2 測(cè)評(píng)結(jié)果
3. CoT 推理任務(wù):復(fù)雜邏輯的穩(wěn)定支撐
在鏈?zhǔn)剿季S(CoT)推理任務(wù)中,RTPurboV2 同樣表現(xiàn)出色(圖 5),實(shí)現(xiàn)了模型推理能力的近乎無損保留,進(jìn)一步驗(yàn)證了該方案在復(fù)雜邏輯場(chǎng)景下的魯棒性。
![]()
圖 7:CoT 任務(wù)測(cè)評(píng)結(jié)果
更大的圖景
當(dāng)前注意力機(jī)制的研究重心,大量集中在設(shè)計(jì)全新的高效架構(gòu)上。這條路徑無疑有其價(jià)值。但 RTPurboV2 揭示了一個(gè)容易被忽視的事實(shí):Full Attention 模型自身就蘊(yùn)含著巨大的效率空間,而釋放這種內(nèi)生稀疏性的成本極低。
600 步訓(xùn)練,精度幾乎無損,Prefill 最高 9.36 倍加速。這意味著,對(duì)于選擇 SWA + Full Attention 混合架構(gòu)的團(tuán)隊(duì) —— 包括 MIMO、Gemma 4、GPT-OSS——不需要替換架構(gòu)就能獲得接近 SOTA 新方案的壓縮效率
“原生 Transformer,從未過時(shí)。Full Attention strikes back.”
團(tuán)隊(duì)介紹
RTP-LLM 是阿里巴巴智能引擎團(tuán)隊(duì)自研的高性能大模型推理引擎,支持了淘寶、天貓、高德等核心業(yè)務(wù)的大模型推理需求。智能引擎源自阿里巴巴搜索、推薦和廣告技術(shù),是阿里 AI 工程領(lǐng)域的先行者和深耕者。團(tuán)隊(duì)專注于 AI 工程系統(tǒng)的建設(shè),主導(dǎo)建立了大數(shù)據(jù) AI 工程體系 AI?OS,持續(xù)為阿里集團(tuán)各業(yè)務(wù)提供高質(zhì)量的 AI 工程服務(wù)。
RTP-LLM 項(xiàng)目已開源,歡迎交流共建:https://github.com/alibaba/rtp-llm
參考文獻(xiàn):
[1]: 僅需 15% 全量 Attention!「RTPurbo」阿里 Qwen3 長(zhǎng)文本推理 5 倍壓縮方案來了 :https://mp.weixin.qq.com/s/wFAJ6oG1CsKBJiCBE45BsQ
[2]: Full Attention Strikes Back: https://huggingface.co/papers/2605.16928
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.