來源:市場資訊
![]()
幾乎所有 Transformer 都在做一件反常的事:把大量注意力集中到少數幾個特定 Token 上。這不是 bug,而是 Transformer 固有的「注意力匯聚」(Attention Sink)。首篇系統性綜述,帶你從利用、理解到消除,全面掌握這一核心現象。
過去幾年,研究者在 Transformer 的「黑盒」里發現了一個普遍卻反常的現象:無論輸入什么內容,模型總是把大量注意力集中到第一個 Token、[SEP] 或圖像背景補丁這類毫無信息量的位置上。傳統語言模型有,大語言模型有,ViT 有,多模態大模型也有。
這一注意力匯聚(Attention Sink)模式,深刻影響了模型的訓練、推理動態,給注意力機制的理解帶來了挑戰,并且還會引發幻覺等問題。盡管 Attention Sink 引發了眾多討論和前沿的研究,但這一領域始終缺乏系統的全面梳理。
![]()
來自清華大學、香港大學、美團 LongCat 團隊等機構的研究者聯合發布了首篇 Attention Sink 系統綜述,系統梳理了超過 180 篇相關研究。通過統計這些研究的發表時間和主題,綜述勾勒出這一領域的清晰演進軌跡:
![]()
初期(2023 年起)—— 基本利用:早期研究的重點是對 Attention Sink 的實證利用,關注如何利用其固有特性或應對其直接影響。這一階段將 Attention Sink 視為可被利用的實際現象。
中期(2024 年起)—— 機制理解:隨著實證應用成熟,研究重點開始深入探究 Attention Sink 背后的成因。這一階段聚焦于可解釋性,旨在精細理解驅動這一現象的內部機制。
近期(2025 年起)—— 策略性消除:基于機理洞察,最新的研究重點轉向直接的結構性消除。開發系統的消除框架已成為當前研究的前沿。
這一從「基本利用」到「機制理解」再到「策略性消除」的演進,正是綜述核心框架的由來。文章通過三段式框架,系統梳理了這一現象的成因、價值與完整解法。
![]()
論文標題:Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation
論文鏈接:https://arxiv.org/abs/2604.10098
GitHub 項目:https://github.com/ZunhaiSu/Awesome-Attention-Sink
基本利用:初步駕馭 Attention Sink
在利用 Attention Sink 的多種策略中,最直接的方式是 Sink Token 保留(Sink Token Preservation):將 Sink 作為永久性的注意力錨點加以保留,在壓縮中穩定注意力分布。注意力重分配(Attention Redistribution)則更進一步,主動識別 Sink 并將其占用的權重轉移到真正承載語義的 Token 上。可學習前綴 token(Learnable Prefix Tokens)不再依賴自然形成的 Sink,而是在輸入序列前端插入可訓練的前綴,成為顯式、可控的替代性 Sink。至于 Sink Token 重利用(Sink Token Repurposing),則另辟蹊徑,利用 Sink 穩定、高注意力的固有屬性,完成原始注意力管理之外的專門任務,如攻擊植入、防御檢測等。
從策略邏輯看:Sink Token 保留采取被動方式;注意力重分配實施主動干預;可學習前綴 Token 采用更主動的構造策略;Sink Token 重利用則借助 Sink 的固有屬性完成基礎注意力管理之外的專門任務。
機制理解:洞悉 Attention Sink 根源
Attention Sink 為何必然出現?現有解釋從不同層面給出了答案。Softmax 限制與空操作理論(Softmax Limitations & No-Op Theory):Softmax 求和為 1 的剛性約束,使得當查詢與所有鍵都不相關時,模型沒有「什么都不選」的選項。于是被迫將注意力集中到語義無關的 Token 上,同時將這些 Token 的值向量學得極小,從而使注意力輸出趨近于零,實現空操作。異常值電路(Outlier Circuits)則揭示了模型內部存在系統性的離群值,它們相互關聯,共同導致了 Sink 的產生。隱式注意力偏置(Implicit Attention Bias)發現,SinkToken 對每個查詢的貢獻幾乎恒定,本質上充當了固定偏置項。幾何錨點(Geometric Anchoring)進一步表明,Sink 在高維表示空間中充當穩定參考點,起到錨定和穩定表示空間的作用。此外,還包括 Anti-Overmixing、Active-Dormant Attention、Mix-Compress-Refine 等其他理論。
從分析層面看:Softmax 限制與空操作理論闡明的是數學根源,異常值電路揭示的是數值機制,隱式注意力偏置刻畫的是功能角色,幾何錨點描述的是表示空間中的功能特點。多個層面彼此互補,共同勾勒出 Sink 的全貌。
策略性消除:系統消除 Attention Sink
基于對成因的深刻理解,研究者開始從架構上系統消除 Attention Sink。門控注意力(Gated Attention)在注意力輸出后添加可學習的門控單元,模型需要空操作時直接關門,無需制造極端 Logits 和 SinkToken。改良 Softmax(Modified Softmax Functions)則直接修改 Softmax 函數,從根本上消除求和為 1 的約束。可學習注意力偏置(Learnable Attention Bias)顯式引入偏置參數,讓模型用干凈的顯式偏置替代隱式 Sink。預訓練干預(Pre-training Interventions)不修改架構,而是在訓練過程中施加干預,從訓練抑制 Sink 的形成。此外,其他消除技術還包括離群值驅動重縮放(Outlier-Driven Rescaling)、架構隔離(Architectural Isolation)等。
從策略類型看,這些消除方法可以歸為兩類。第一類是提供顯式替代品,使 Attention Sink 不再必要,包括門控注意力和可學習注意力偏置。第二類是切斷因果鏈,從根源消除 Attention Sink,包括改良 Softmax 和預訓練干預。
未來方向
基于對 180 多篇論文的系統梳理,綜述指出了多個值得投入的未來方向。在高效輕量級處理(Efficient Lightweight Processing)方面,需要開發低延遲的注意力重分配、與高效內核兼容的改良 Softmax,避免 Sink 處理本身成為推理瓶頸。預訓練模型輕量適配(Lightweight Adaptation for Pretrained Models)則利用參數高效遷移技術,將 Sink 抑制能力注入已訓練好的模型中,從而避免從頭訓練的高昂成本。此外,新興架構探索(Emerging Architectures Exploration)也值得關注,研究混合線性注意力、3D Transformer 等新架構中 Sink 的表現與應用。其他方向還包括:訓練動態研究、統一理論框架、標準化評測基準、跨架構遷移、多技術協同集成等。
Paper List 指南
綜述團隊已將 180 多篇論文按三大板塊和應用場景分類整理,每篇標注了類別,方便快速定位。
完整 Paper List 請訪問原文或 GitHub 項目:
論文鏈接:https://arxiv.org/abs/2604.10098
GitHub 項目:https://github.com/ZunhaiSu/Awesome-Attention-Sink
![]()
結語
本綜述通過基本利用 → 機制理解 → 策略性消除的框架,首次系統梳理了 Attention Sink 從現象到解決方案的完整路線圖。這一領域既有理論深度,也具備明確的工程價值。
綜述與配套的 Paper List 旨在為社區提供一份實用的參考,幫助讀者快速把握領域全貌與演進邏輯,推動 Transformer 從被動接受 Sink 走向主動駕馭 Sink 的新階段。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.