網易首頁 > 網易號 > 正文 申請入駐

首篇「Attention Sink」綜述:從利用、理解到消除

0
分享至

來源:市場資訊


幾乎所有 Transformer 都在做一件反常的事:把大量注意力集中到少數幾個特定 Token 上。這不是 bug,而是 Transformer 固有的「注意力匯聚」(Attention Sink)。首篇系統性綜述,帶你從利用、理解到消除,全面掌握這一核心現象。

過去幾年,研究者在 Transformer 的「黑盒」里發現了一個普遍卻反常的現象:無論輸入什么內容,模型總是把大量注意力集中到第一個 Token、[SEP] 或圖像背景補丁這類毫無信息量的位置上。傳統語言模型有,大語言模型有,ViT 有,多模態大模型也有。

這一注意力匯聚(Attention Sink)模式,深刻影響了模型的訓練、推理動態,給注意力機制的理解帶來了挑戰,并且還會引發幻覺等問題。盡管 Attention Sink 引發了眾多討論和前沿的研究,但這一領域始終缺乏系統的全面梳理。


來自清華大學、香港大學、美團 LongCat 團隊等機構的研究者聯合發布了首篇 Attention Sink 系統綜述,系統梳理了超過 180 篇相關研究。通過統計這些研究的發表時間和主題,綜述勾勒出這一領域的清晰演進軌跡:


  • 初期(2023 年起)—— 基本利用:早期研究的重點是對 Attention Sink 的實證利用,關注如何利用其固有特性或應對其直接影響。這一階段將 Attention Sink 視為可被利用的實際現象。

  • 中期(2024 年起)—— 機制理解:隨著實證應用成熟,研究重點開始深入探究 Attention Sink 背后的成因。這一階段聚焦于可解釋性,旨在精細理解驅動這一現象的內部機制。

  • 近期(2025 年起)—— 策略性消除:基于機理洞察,最新的研究重點轉向直接的結構性消除。開發系統的消除框架已成為當前研究的前沿。

這一從「基本利用」到「機制理解」再到「策略性消除」的演進,正是綜述核心框架的由來。文章通過三段式框架,系統梳理了這一現象的成因、價值與完整解法。


  • 論文標題:Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation

  • 論文鏈接:https://arxiv.org/abs/2604.10098

  • GitHub 項目:https://github.com/ZunhaiSu/Awesome-Attention-Sink

基本利用:初步駕馭 Attention Sink

在利用 Attention Sink 的多種策略中,最直接的方式是 Sink Token 保留(Sink Token Preservation):將 Sink 作為永久性的注意力錨點加以保留,在壓縮中穩定注意力分布。注意力重分配(Attention Redistribution)則更進一步,主動識別 Sink 并將其占用的權重轉移到真正承載語義的 Token 上。可學習前綴 token(Learnable Prefix Tokens)不再依賴自然形成的 Sink,而是在輸入序列前端插入可訓練的前綴,成為顯式、可控的替代性 Sink。至于 Sink Token 重利用(Sink Token Repurposing),則另辟蹊徑,利用 Sink 穩定、高注意力的固有屬性,完成原始注意力管理之外的專門任務,如攻擊植入、防御檢測等。

從策略邏輯看:Sink Token 保留采取被動方式;注意力重分配實施主動干預;可學習前綴 Token 采用更主動的構造策略;Sink Token 重利用則借助 Sink 的固有屬性完成基礎注意力管理之外的專門任務。

機制理解:洞悉 Attention Sink 根源

Attention Sink 為何必然出現?現有解釋從不同層面給出了答案。Softmax 限制與空操作理論(Softmax Limitations & No-Op Theory):Softmax 求和為 1 的剛性約束,使得當查詢與所有鍵都不相關時,模型沒有「什么都不選」的選項。于是被迫將注意力集中到語義無關的 Token 上,同時將這些 Token 的值向量學得極小,從而使注意力輸出趨近于零,實現空操作。異常值電路(Outlier Circuits)則揭示了模型內部存在系統性的離群值,它們相互關聯,共同導致了 Sink 的產生。隱式注意力偏置(Implicit Attention Bias)發現,SinkToken 對每個查詢的貢獻幾乎恒定,本質上充當了固定偏置項。幾何錨點(Geometric Anchoring)進一步表明,Sink 在高維表示空間中充當穩定參考點,起到錨定和穩定表示空間的作用。此外,還包括 Anti-Overmixing、Active-Dormant Attention、Mix-Compress-Refine 等其他理論。

從分析層面看:Softmax 限制與空操作理論闡明的是數學根源,異常值電路揭示的是數值機制,隱式注意力偏置刻畫的是功能角色,幾何錨點描述的是表示空間中的功能特點。多個層面彼此互補,共同勾勒出 Sink 的全貌。

策略性消除:系統消除 Attention Sink

基于對成因的深刻理解,研究者開始從架構上系統消除 Attention Sink。門控注意力(Gated Attention)在注意力輸出后添加可學習的門控單元,模型需要空操作時直接關門,無需制造極端 Logits 和 SinkToken。改良 Softmax(Modified Softmax Functions)則直接修改 Softmax 函數,從根本上消除求和為 1 的約束。可學習注意力偏置(Learnable Attention Bias)顯式引入偏置參數,讓模型用干凈的顯式偏置替代隱式 Sink。預訓練干預(Pre-training Interventions)不修改架構,而是在訓練過程中施加干預,從訓練抑制 Sink 的形成。此外,其他消除技術還包括離群值驅動重縮放(Outlier-Driven Rescaling)、架構隔離(Architectural Isolation)等。

從策略類型看,這些消除方法可以歸為兩類。第一類是提供顯式替代品,使 Attention Sink 不再必要,包括門控注意力和可學習注意力偏置。第二類是切斷因果鏈,從根源消除 Attention Sink,包括改良 Softmax 和預訓練干預。

未來方向

基于對 180 多篇論文的系統梳理,綜述指出了多個值得投入的未來方向。在高效輕量級處理(Efficient Lightweight Processing)方面,需要開發低延遲的注意力重分配、與高效內核兼容的改良 Softmax,避免 Sink 處理本身成為推理瓶頸。預訓練模型輕量適配(Lightweight Adaptation for Pretrained Models)則利用參數高效遷移技術,將 Sink 抑制能力注入已訓練好的模型中,從而避免從頭訓練的高昂成本。此外,新興架構探索(Emerging Architectures Exploration)也值得關注,研究混合線性注意力、3D Transformer 等新架構中 Sink 的表現與應用。其他方向還包括:訓練動態研究、統一理論框架、標準化評測基準、跨架構遷移、多技術協同集成等。

Paper List 指南

綜述團隊已將 180 多篇論文按三大板塊和應用場景分類整理,每篇標注了類別,方便快速定位。

完整 Paper List 請訪問原文或 GitHub 項目:

  • 論文鏈接:https://arxiv.org/abs/2604.10098

  • GitHub 項目:https://github.com/ZunhaiSu/Awesome-Attention-Sink


結語

本綜述通過基本利用 → 機制理解 → 策略性消除的框架,首次系統梳理了 Attention Sink 從現象到解決方案的完整路線圖。這一領域既有理論深度,也具備明確的工程價值。

綜述與配套的 Paper List 旨在為社區提供一份實用的參考,幫助讀者快速把握領域全貌與演進邏輯,推動 Transformer 從被動接受 Sink 走向主動駕馭 Sink 的新階段。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
白酒再次被關注!醫生發現:腸癌患者喝白酒,不用多久或有3變化

白酒再次被關注!醫生發現:腸癌患者喝白酒,不用多久或有3變化

周哥一影視
2026-04-23 17:44:51
mod終于觸碰逆鱗,卡普空這次是真的怒了

mod終于觸碰逆鱗,卡普空這次是真的怒了

街機時代
2026-04-23 18:00:03
一直很好奇,周冬雨到底怎么了。
手握最高規格的電影獎項,

一直很好奇,周冬雨到底怎么了。 手握最高規格的電影獎項,

小光侃娛樂
2026-04-22 21:25:03
文章上海餐館開業5天,終于迎來了第1個捧場的明星!

文章上海餐館開業5天,終于迎來了第1個捧場的明星!

無處遁形
2026-04-21 06:14:18
摸景甜胸側,抱李雪琴胳膊,31歲的他綜藝翻車,為何如此沒分寸感

摸景甜胸側,抱李雪琴胳膊,31歲的他綜藝翻車,為何如此沒分寸感

草莓解說體育
2026-04-15 04:23:51
王者歸來!新款奔馳S級國內首發亮相:超50%部件改款煥新

王者歸來!新款奔馳S級國內首發亮相:超50%部件改款煥新

快科技
2026-04-23 15:25:06
陳海濤找杜鋒溝通,下達了廣東隊最新的目標!

陳海濤找杜鋒溝通,下達了廣東隊最新的目標!

體育哲人
2026-04-23 10:36:46
一旦開始血液透析,還能活多少年?醫生不再隱瞞,說出了實話

一旦開始血液透析,還能活多少年?醫生不再隱瞞,說出了實話

醫學原創故事會
2026-04-21 23:12:05
400萬人民幣買一本漫畫?《龍珠》首刊登頂世界最貴日漫!

400萬人民幣買一本漫畫?《龍珠》首刊登頂世界最貴日漫!

二次元那些事
2026-04-23 03:46:05
大量硼砂,別再給家里人吃了!這10類食物最易摻硼砂,超危險

大量硼砂,別再給家里人吃了!這10類食物最易摻硼砂,超危險

笑熬漿糊111
2026-04-13 00:05:12
“壯觀”的圖阿普謝煉油廠!米格-29炸毀俄無人機倉庫背后的玄機

“壯觀”的圖阿普謝煉油廠!米格-29炸毀俄無人機倉庫背后的玄機

鷹眼Defence
2026-04-17 18:46:35
地主家的“小姐”,被世界人民嘲笑

地主家的“小姐”,被世界人民嘲笑

平原公子
2026-04-24 00:11:55
王清海教授:山楂的3個黃金組合,掃清血管“垃圾”,便宜又好用

王清海教授:山楂的3個黃金組合,掃清血管“垃圾”,便宜又好用

蠟筆小小子
2026-04-21 14:43:37
打發叫花子!帶領開拓者打進季后賽,結果只給100萬薪資,被拒絕

打發叫花子!帶領開拓者打進季后賽,結果只給100萬薪資,被拒絕

你的籃球頻道
2026-04-23 11:12:55
太陽報:即將征戰英冠的林肯城獲準擴建球場,容量將增至10000人

太陽報:即將征戰英冠的林肯城獲準擴建球場,容量將增至10000人

懂球帝
2026-04-24 00:38:01
暴漲2387%,京滬高鐵用恐怖的業績粉碎無端質疑

暴漲2387%,京滬高鐵用恐怖的業績粉碎無端質疑

北緯的咖啡豆
2026-04-23 11:39:27
大手筆分紅!000915,擬10派20元

大手筆分紅!000915,擬10派20元

中國基金報
2026-04-23 22:15:32
香蕉被點名!醫生提醒:高血糖患者常吃香蕉,很快或迎來這些后果

香蕉被點名!醫生提醒:高血糖患者常吃香蕉,很快或迎來這些后果

醫學科普匯
2026-04-23 20:55:03
出大事了,聯合國五國被點名,以方潛藏內鬼曝光,伊高層罕見表態

出大事了,聯合國五國被點名,以方潛藏內鬼曝光,伊高層罕見表態

地球記
2026-04-24 03:10:19
阿爾特塔莫慌!曼城1-0反超登頂,后5輪要踢4強隊,阿森納有1優勢

阿爾特塔莫慌!曼城1-0反超登頂,后5輪要踢4強隊,阿森納有1優勢

體育知多少
2026-04-23 07:11:48
2026-04-24 04:11:00
新浪財經 incentive-icons
新浪財經
新浪財經是一家創建于1999年8月的財經平臺
2987337文章數 6893關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

數碼
房產
親子
藝術
軍事航空

數碼要聞

榮耀重新定義輕薄本,四月連發六款新品續航首超Mac

房產要聞

三亞安居房,突然官宣!

親子要聞

新華讀報|打乒乓球有助提高兒童注意力

藝術要聞

吉達塔蓋到第100層,“它是沙特唯一能按期完成的大項目”

軍事要聞

人民海軍成立77周年 主力艦艇亮相上海

無障礙瀏覽 進入關懷版