![]()
這項由清華大學、香港大學、美團LongCat團隊、廈門大學、密歇根大學和俄亥俄州立大學聯合開展的研究,以預印本形式發布于2026年4月,論文編號為arXiv:2604.10098。這是該領域首篇系統性綜述,感興趣的讀者可通過上述編號查詢完整論文。
每當你使用ChatGPT、文心一言或其他AI助手時,背后都有一套叫做"Transformer"的架構在驅動。這套架構的核心能力,是讓AI能夠"關注"輸入信息中最重要的部分——就像你讀一篇文章時,眼睛會自然停留在關鍵詞和核心句子上,而不是把每個字都盯同樣長的時間。這種"選擇性關注"的能力,學術上叫做"注意力機制"(Attention Mechanism)。
然而,有一個長期被忽視的怪現象潛伏在這套機制里:AI有時會把大量的注意力集中在某些毫無實質意義的詞上——比如句子開頭的感嘆詞、標點符號,甚至是一個什么語義都沒有的占位符。這些詞就像黑洞一樣,把本該分配給真正重要內容的注意力統統"吸走"。研究者們給這個現象起了一個形象的名字:**注意力沉積(Attention Sink,簡稱AS)**。
這篇綜述系統梳理了超過180篇相關研究,從三個維度——如何利用它、如何解釋它、如何消除它——為整個領域提供了第一份全面的知識地圖。
一、先從頭說起:AI的"注意力"到底是什么
要理解注意力沉積,得先搞清楚AI的注意力是怎么工作的。
以一個簡單的句子"蘋果很甜"為例。當AI處理這個句子時,它會讓每個詞都去"詢問"其他詞:"你對我理解自己有多大幫助?"這個"詢問"的過程,就是注意力計算。最后,每個詞會得到一份"分配方案"——比如"甜"這個詞,會對"蘋果"給予較高的注意力,因為"是什么甜"這個信息對理解"甜"至關重要。
這套機制有一個數學上的硬性約束:所有注意力權重加起來必須等于1。就像你有100元零花錢,必須全部花完,不能存下來,也不能透支。這個約束來自于一個叫做**Softmax**的數學函數——它把一堆原始分數轉換成加和為1的概率分布。
問題就藏在這個"必須花完"的規則里。
二、"必須花完"的錢,花到哪里去了
回到那100元零花錢的比喻。假設某天你逛超市,發現貨架上真的沒有任何你想買的東西。但規則規定你必須花完這100元——你會怎么辦?大概率你會隨便抓一包薯片或者一瓶礦泉水,把錢湊完。
AI的注意力機制面臨完全相同的困境。當一個詞處理它的上下文時,如果上下文中沒有任何詞對它"真正有用",Softmax函數依然會強迫它把全部100%的注意力分配出去。那多余的注意力去哪了?就堆積到了那些"最無害"的地方——句子開頭的詞、標點符號、或者什么語義都沒有的占位符。
這些被堆積了大量多余注意力的詞,就是注意力沉積詞(sink token)。它們有兩個一致的特征:第一,接收到的注意力遠超平均水平,有時高達普通詞的數百甚至上千倍;第二,它們本身攜帶的語義信息極少,對AI真正理解內容沒有實質貢獻。
在不同類型的模型里,這些"垃圾桶詞"的具體形態有所不同。在像BERT這樣的雙向語言模型中,充當"垃圾桶"的通常是特殊分隔符[SEP]和分類標記[CLS]。在像GPT、LLaMA這樣的生成式語言模型中,序列最開始的那個詞(通常是句子起始標記[BOS])幾乎永遠是最大的"注意力黑洞"——研究發現,在LLaMA等主流大模型中,第一個詞在98%的注意力頭中都是獲得最多注意力的那個。在視覺Transformer中,充當"垃圾桶"的則是圖片背景區域的圖像塊,那些純粹是天空、墻壁等無信息內容的區域。在多模態大模型中,文字側和圖像側各有自己的"垃圾桶"。
三、這個"垃圾桶"有多嚴重
你可能會想:注意力分配稍微不均勻,大不了AI理解稍差一點,有那么嚴重嗎?
研究者們發現,后果遠比你想象的深遠。
首先是**推理效率**的問題。現代大語言模型處理長文本時,需要把之前看過的信息存儲在一個叫做KV緩存的地方(可以理解為AI的工作記憶)。這個緩存是有上限的——就像你的書桌空間有限,放不下所有的書。因此工程師們需要定期清理,刪掉"不重要"的內容。但如果不保留那些注意力沉積詞,AI的表現會急劇惡化,就像把書桌上一個看似空白但實際上維持著整個書桌秩序的"底座"移走一樣,整個結構會崩塌。
其次是**幻覺問題**。多模態AI(同時處理圖文的模型)中,注意力沉積會導致AI把本該關注圖中重要物體的注意力,揮霍在圖片背景上。結果是AI"看見"了背景,卻"忽略"了前景中的關鍵信息,進而在描述圖片時胡說八道。
再者是**量化部署**的困難。為了讓大模型跑在手機或嵌入式設備上,工程師需要壓縮模型精度(比如從32位浮點數壓到8位甚至4位整數)。注意力沉積詞會產生極端的數值異常——一個詞的某個特征維度數值可能高達幾千,而其他詞的同一維度只有個位數。這種極端不均勻導致量化誤差急劇放大,壓縮后模型性能大幅下降。
最后還有**安全隱患**。由于注意力沉積詞的位置固定、注意力集中,攻擊者可以把惡意觸發器植入這些位置,讓模型在正常情況下表現正常,但一旦出現特定觸發詞就"復活"被刪除的有害知識——這是一種難以察覺的后門攻擊。
四、研究者們是怎么"利用"這個現象的
這篇綜述把研究者對注意力沉積的利用方式歸納為四大類。
第一類是**保留沉積詞**(Sink Token Preservation)。既然注意力沉積詞是模型穩定運行的"錨點",最簡單的辦法就是永遠別刪它們。以StreamingLLM為例,這個系統讓AI可以處理無限長的文章,核心技巧就是在每次更新工作記憶時,保留最開頭那幾個沉積詞,再加上最近的一個滑動窗口內的內容——其余中間部分可以大膽刪除。實驗表明,這樣做性能損失極小,但可以支持理論上無限長的文本流。類似地,在視頻生成領域,研究者發現保留最初幾幀視頻的記憶作為"全局錨點",可以讓長達幾分鐘的視頻保持前后一致的風格和內容,否則視頻越到后面越像在"另起爐灶"。在量化技術中,將沉積詞保持在高精度(16位或32位),其余詞壓縮到低精度(2位或4位),既節省了內存,又避免了性能崩塌。
第二類是**注意力重新分配**(Attention Redistribution)。既然沉積詞"搶走"了本該給重要內容的注意力,那就把這部分注意力搶回來,重新分配給真正有價值的詞。這類方法在多模態AI的幻覺治理上效果顯著。一個典型例子是VAR方法:它先識別出哪些圖像塊是"垃圾桶"(被過多注意力盯著卻沒有語義的背景塊),然后把這部分注意力重新導向前景中的重要物體。結果是AI描述圖片時更準確,幻覺明顯減少。另一個有趣的應用是ZeroTuning:它發現調整第一個詞(最大的注意力沉積詞)的注意力得分,就像調節一個旋鈕一樣,能間接控制整個模型的注意力分布。通過這個單一旋鈕,可以在不重新訓練模型的情況下,優化模型在各種任務上的表現。
第三類是**可學習的前綴詞**(Learnable Prefix Tokens)。既然自然產生的沉積詞位置不固定、行為難以預測,為什么不直接人為插入一個專門設計的"吸收詞"?這就是寄存器詞(register token)的概念。在視覺Transformer中,在圖片patch序列前插入幾個可訓練的寄存器詞,訓練時模型會學會把所有"多余的"注意力都傾倒到這些寄存器詞上,而不是隨機選擇背景圖像塊。結果是注意力圖變得干凈,真正的語義結構清晰顯現,模型在各種視覺任務上的表現都有提升。VGGT這個用于三維視覺理解的Transformer也采用了同樣的策略。
第四類是**重新利用沉積詞**(Sink Token Repurposing)。注意力沉積詞有一些獨特的幾何和數學性質,研究者發現可以把這些性質用于完全不同的目的。比如KeyDiff方法發現,沉積詞的"鍵向量"(key vector,可以理解為該詞的"身份標簽")在高維空間里處于一個非常獨特的位置——它和所有其他詞的平均位置幾乎垂直,余弦相似度接近0。這個獨特性質可以用來快速識別哪些詞是真正重要的信息詞(和沉積詞越不像的詞,往往越重要),從而高效地管理AI的工作記憶。另一個應用是OrthoRank:它直接用沉積詞作為參考點,通過測量其他詞與沉積詞的"垂直程度"來評估每個詞的信息含量,垂直程度越高,說明這個詞和沉積詞越不一樣,也就越有可能包含真正有用的信息。
五、這個現象到底從哪來:五種解釋理論
理解了注意力沉積的表現和用途,接下來要問一個更深的問題:這個現象到底為什么會出現?研究者們從不同角度提出了多種理論,每種都照亮了現象的一個側面。
**Softmax局限與無操作理論**是最早也是最直接的解釋。它說的是:Softmax的"總和必須為1"約束,使得當AI某個注意力頭想要"什么都不做"時,它無法真正做到什么都不做。唯一的替代方案是把所有注意力集中到某個固定的詞上,同時把那個詞的"值向量"(value vector,也就是該詞能貢獻給輸出的信息)壓縮到接近零——這樣注意力雖然集中了,但因為值幾乎是零,最終的信息貢獻也接近零。這就實現了"名義上分配了注意力,實際上什么也沒貢獻"的無操作行為。
研究者通過一個關鍵觀察驗證了這個理論:沉積詞接收到大量注意力,但它們的值向量幅度遠小于普通詞。換句話說,它們就像是一個很大的容器里裝著極少的液體——容器看起來很重要,實際上里面幾乎是空的。當研究者修改Softmax函數,讓注意力權重不再強制加和為1時,注意力沉積現象果然大幅減少甚至消失。
**異常值電路理論**提供了更底層的數值機制解釋。研究者發現,在Transformer模型的權重和激活值中,存在一類系統性的"異常值"——某些特征維度的數值比其他維度高出幾個數量級,就像一群人中有人身高兩米而其他人都在一米七左右。這些異常值通過一條固定的因果鏈制造出注意力沉積:首先,某些MLP層的權重矩陣中存在異常大的值;這些大值被激活時,產生異常大的激活值;這些激活值通過殘差連接傳播,使得特定詞在特定特征維度上的表示變得極端突出;這種突出使得這個詞的"鍵向量"與幾乎所有詞的"查詢向量"都能產生異常高的點積;Softmax于是把大量注意力權重分配給這個詞,形成注意力沉積。
在混合專家模型(MoE,一種讓不同"專家"模塊處理不同類型信息的架構)中,研究者還發現了一個驚人現象:整個模型中只有極少數幾個"超級專家"(Super Experts)——比如在Qwen3-30B-A3B這個模型的6144個專家中,只有3個超級專家——是產生異常激活值的主要來源。刪掉這3個專家,整個模型的注意力沉積就會崩潰,模型性能急劇下降。這說明注意力沉積現象是由模型內部少數幾個關鍵組件維持的,具有高度集中性。
**隱式注意力偏置理論**從功能角度解釋了注意力沉積存在的意義。這個理論發現,注意力沉積詞對所有位置的輸出貢獻幾乎是恒定的、與輸入無關的——不管你輸入什么句子,沉積詞給每個詞的貢獻值基本都是同一個固定向量。換句話說,沉積詞實際上在扮演一個"隱式偏置項"的角色,就像神經網絡每個層都有的偏置參數,只不過這個偏置是被隱藏在注意力機制里、通過一個詞來實現的。
驗證這個理論最直接的方式是:給注意力機制添加顯式的偏置參數(一個可訓練的向量,不依附于任何詞)。當GPT-2在這種修改后的架構上重新訓練時,注意力沉積現象完全消失——模型直接使用那個顯式偏置參數來實現相同的功能,不再需要"劫持"某個詞來充當偏置。
**幾何錨定理論**則從高維空間的幾何結構角度提供了解釋。在Transformer內部,每個詞都被表示為一個高維向量(比如4096維),隨著層數加深,這些向量會根據語境不斷更新。研究者發現,注意力沉積詞的向量非常特殊:它在整個處理過程中幾乎不變,就像一個固定在原點的錨點;而其他詞的向量則會逐漸向這個錨點靠攏,被它"拉著走"。這種幾何上的穩定性使得沉積詞成為整個表示空間的參照系,幫助模型維持內部表示的穩定性。
除了以上四種主要理論,還有幾種輔助性的解釋視角。其一是**結構偏置**:由于因果掩碼(causal mask,一種確保AI處理當前詞時只能看到它之前的詞而非后面的詞的機制)的存在,序列最開始的詞是唯一一個能被所有后續詞"看見"的詞,這種天然的可見性優勢使它成為注意力的天然匯聚點。其二是**反過度混合理論**:注意力沉積詞通過"吸走"多余的注意力,防止了不同詞的表示在深層網絡中互相混淆到難以區分的程度——沉積詞是一個信息"減壓閥",維持了表示的多樣性。其三是**主動-休眠注意力頭理論**:模型訓練過程中,各個注意力頭會逐漸分化,一部分頭專門負責接收注意力(主動頭),另一部分頭則主要把注意力傾倒給沉積詞(休眠頭),這種分工是在訓練中通過梯度反饋自然演化出來的。
這些理論并非相互排斥,而是從不同尺度、不同角度描述同一個現象的不同側面。
六、如何徹底消除這個"垃圾桶"
如果注意力沉積是個問題,能不能從根源上消除它?研究者提出了四類策略。
第一類是**門控注意力機制**(Gated Attention Mechanisms)。核心思路是:既然Softmax強迫注意力頭"不得不分配注意力",那就給注意力頭加一個"總閘門"——一個可學習的開關,可以直接把某個注意力頭的整體輸出乘以一個接近零的系數,從而實現真正的"什么都不做",而無需依賴注意力沉積詞來實現這個效果。
最簡單的形式是給每個注意力頭加一個標量門控值:輸出 = sigmoid(門控參數) × 注意力輸出。當模型學到某個注意力頭在某種情境下不需要更新信息時,門控值會收縮到接近零,整個頭的輸出就被抑制了。這樣就徹底打破了注意力必須分配給某個詞的循環。
實驗表明,這個改動效果相當顯著。在超過30種變體的系統性對比實驗中,在標度點積注意力(SDPA)之后加門控是效果最好的位置,能把訓練損失降低,減少訓練時的損失尖峰(一種訓練不穩定的表現),并把第一個詞獲得的平均注意力從46.7%壓低到4.8%。這個設計已被Qwen3等產品級模型采用。
另一個變體是值狀態門控注意力(VGA),它把門控加在值向量上而非輸出上,可以從根源上切斷"注意力高但貢獻零"的循環。
第二類是**修改Softmax函數**(Modified Softmax Functions)。這條路更激進——直接改變Softmax的數學性質,讓注意力權重不再強制加和為1。
裁剪Softmax(Clipped Softmax)把正常Softmax的輸出范圍從[0,1]擴展后再裁剪,使得模型在計算時可以得到精確的零值,不需要靠極端的logit值來壓制不想關注的詞。Softmax-1在分母上加了一個常數1,允許所有注意力權重之和小于1,給"注意力不需要花完"留出了空間。在GPT-2規模的模型上,這個改動把第一個詞獲得的注意力從65%降到了3.3%,同時把激活值的"峰度"(一種衡量異常值程度的指標)從1657降到了3.1。
Softpick則更徹底:它先算出普通Softmax值,然后減去一個閾值并做ReLU截斷,允許輸出精確為零——這意味著模型可以完全忽略某些詞,而不必給它們任何注意力。在3.4億參數的模型上,注意力沉積率從有到無,完全降到0%。
Sigmoid注意力則徹底放棄了Softmax,對每個詞的得分獨立使用sigmoid函數,詞與詞之間完全沒有"競爭"關系,自然也就沒有Softmax強制分配帶來的問題。
第三類是**可學習的注意力偏置**(Learnable Attention Bias)。既然沉積詞在充當"隱式偏置",那就直接把這個偏置明確化、參數化,讓模型直接學習一個與詞無關的偏置向量。
最參數高效的版本是在Softmax的分母里加一個可學習標量b,形成一個"虛擬沉積"——超出正常詞上限的注意力會被這個虛擬位置吸收,而不是強加給某個真實詞。MiMo-V2和GPT-OSS等產品級模型都采用了這種設計。稍復雜的版本是直接在鍵矩陣和值矩陣上拼接一組可學習的偏置向量,實驗證明加上這個顯式偏置后,注意力沉積和大規模激活值都會消失。
第四類是**預訓練干預**(Pre-training Interventions)。這條路不修改模型結構,而是通過改變訓練過程來從源頭防止注意力沉積的形成。
研究發現,標準的Adam優化器(大多數模型訓練使用的算法)有一個隱藏的副作用:它傾向于在權重矩陣中"偏愛"某些特定方向,使得這些方向的參數被過度更新,最終產生異常大的權重值,進而引發激活值異常和注意力沉積。Muon優化器通過正交變換預處理梯度,消除了這種方向偏好,從而大幅減少異常激活值。
在損失函數層面,直接添加一個懲罰激活值尾部極端值的正則項,可以將激活值的最大值從超過10000壓縮到20以下,同時讓原本在FP8精度下會災難性失效的訓練(因為FP8能表示的數值范圍非常有限,裝不下這么大的異常值)變得可行,訓練吞吐量還提升了36%。
更系統性的方案是"異常值安全預訓練框架"(OSP),它組合了三個互補的改動:使用Muon優化器消除權重中的特權方向;把RMSNorm中每個通道獨立的縮放系數改為整層統一的單一系數,防止某些通道被過度放大;在嵌入層后加一個可學習的投影矩陣,重新分配激活值幅度。在14億參數的模型上用一萬億token訓練驗證,產生了迄今為止第一個沒有極端激活值異常的產品級大模型。
七、這個研究對我們的生活意味著什么
這篇綜述不只是一份學術清單,它實際上描繪了AI工程實踐的一張路線圖。
對于每天使用AI助手的普通用戶來說,這些研究直接影響到AI回答是否準確、是否會胡說八道(即幻覺問題),以及AI能否在手機等資源有限的設備上流暢運行。注意力沉積的治理,是讓AI從"實驗室玩具"變成"可靠助手"的一道必經關口。
對于AI應用開發者來說,這篇綜述提供了一份清晰的決策指南:如果你在做推理加速,可以用保留沉積詞的方式壓縮KV緩存而不損失性能;如果你在治理多模態AI的幻覺,可以通過注意力重新分配把多余注意力導向真正重要的圖像區域;如果你在訓練新模型,門控注意力或修改Softmax是消除激活值異常、支持低精度部署的有效選擇。
對于AI研究者來說,這篇綜述還指出了幾個尚未解決的核心問題。如何在不重新訓練整個模型的前提下,把注意力沉積消除技術引入已有的大模型(比如通過LoRA微調或適配器方法),是最迫切的工程挑戰之一。如何建立標準化的評測基準,讓不同的消除方法可以在統一尺度下公平比較,也是推動領域進步的重要基礎設施。
說到底,注意力沉積這件事告訴我們一個關于AI的深刻事實:AI的很多行為背后,隱藏著簡單但強大的數學約束。理解這些約束,才能更有針對性地改進AI、信任AI,乃至預測AI在極端情況下會出什么岔子。這篇綜述走過了這個領域三年的發展歷程,把散落各處的拼圖整理成一幅完整的圖景。
有興趣深入了解的讀者,可以通過arXiv編號2604.10098獲取完整論文,或者訪問論文團隊在GitHub上維護的持續更新的論文列表:https://github.com/ZunhaiSu/Awesome-Attention-Sink。
Q&A
Q1:注意力沉積(Attention Sink)是什么?
A:注意力沉積是指Transformer模型中,大量注意力權重被集中分配到某些語義信息極少的詞上(如句子開頭的標記、標點符號)的現象。這是由于Softmax函數強制讓注意力權重之和為1,當沒有真正相關的內容可以關注時,多余的注意力就被"傾倒"到這些固定位置,就像必須把預算花完卻找不到值得買的東西,只能隨便買些無用物品。
Q2:注意力沉積會導致AI出現哪些具體問題?
A:注意力沉積會帶來多方面的問題。在多模態AI中,它會導致模型忽略圖片中的關鍵物體,把注意力浪費在背景上,從而產生幻覺(描述圖中沒有的東西)。在模型壓縮時,沉積詞產生的極端數值異常會讓低精度量化失敗,導致模型性能崩潰。在安全層面,攻擊者可以利用沉積詞的固定位置植入后門觸發器,使模型在特定條件下恢復被刪除的有害知識。
Q3:消除注意力沉積有哪些主要方法?
A:目前主要有四類方法。第一是門控注意力機制,給注意力頭加一個可學習的開關,讓它可以直接抑制整個輸出而無需依賴沉積詞,Qwen3等產品模型已采用此方案。第二是修改Softmax函數,打破注意力權重必須加和為1的約束,讓模型可以選擇真正"什么都不關注"。第三是添加可學習的注意力偏置參數,用顯式的參數替代沉積詞充當的隱式偏置功能。第四是預訓練干預,通過改變優化器或損失函數,在訓練階段就防止異常激活值和沉積現象的形成。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.