![]()
本周,一篇題為《Attention Residuals》的論文,將Kimi推至全球人工智能領域的聚光燈下。論文作者之一,甚至是一名年僅十七歲的高中生。xAI首席執行官埃隆·馬斯克與Google高級人工智能產品經理Shubham Saboo,亦公開發文祝賀。后者更宣稱,Kimi正在觸及Transformer架構中“長達十年無人觸碰的部分”。
![]()
一時間,輿論場喧囂四起。諸如“打破Transformer架構”、“硅谷破防”、“改寫行業規則”等標題,迅速占據頭條。
本文結論先行:這是一項天才般的構想,一次極其硬核的研究,但其本質并未脫離Transformer架構的基本框架。至于那些聳人聽聞的標簽,大多出自營銷號之手,缺乏事實依據。
事實上,針對殘差連接的探索并非孤例。從2022年的DeepNorm到2024年的DenseFormer,優化這一深度神經網絡的基石,始終是業界持續發力的方向。Kimi研究團隊并非此技術路線的開辟者,卻在這條既有路徑上,貢獻了一個兼具激進性、優雅性與工程潛能的解決方案。
01
深層Transformer的結構性困境
在規模化法則的驅動下,提升模型性能的路徑愈發依賴于參數與規模的擴張,神經網絡層數的激增成為必然。然而,研究團隊注意到一個關鍵現象:數據在神經網絡層間傳遞時,存在著“PreNorm稀釋問題”。PreNorm作為一種歸一化技術,因其能有效穩定訓練、加速收斂,已成為現代架構的主流選擇。
為便于直觀理解,不妨將一個大模型比作一條由一百名程序員組成的流水線。每位程序員對應一層神經網絡,共同協作完成一個大型軟件項目。
在傳統的標準殘差連接模式下,層與層之間的狀態更新遵循如下公式:
當前層的輸出,等于上一層輸出與該層自身“修改部分”(即變換函數輸出)的直接相加。類比而言,每位程序員接收前一位的代碼,附上自己的修改后,傳遞給下一位。
![]()
這種簡單累加的方式,在實踐中會引發連鎖問題。從數學視角審視,它將導致兩個互為因果的訓練困境:
其一,早期信息被稀釋掩埋。首層神經網絡提取的原始特征——例如token的初始語義——在經歷數十層累加后,其相對權重被逐層消解,面目模糊。流水線末端的程序員,無從知曉源頭究竟起草了怎樣的底層邏輯。模型越深入,對早期低級特征的精確檢索與利用便越困難。
其二,數值尺度膨脹與梯度失衡。殘差的持續累加,如同項目代碼庫的無休止擴充。后期加入的程序員若想使自己的改動產生可見影響,不得不添加更大量的代碼。對應到網絡,深層必須輸出數值規模更大的信號,才能在累加中占據一席之地。這一現象在正向傳播中或許尚可容忍,但在反向傳播中則潛藏危機:淺層梯度可能劇烈震蕩,深層梯度卻趨于微小,整個網絡的梯度分布極度不均,訓練極易失穩。
因此,研究的核心命題便凝練為:如何讓處于網絡最深層的“程序員”,依然能夠清晰辨識并調用首位“程序員”所撰寫的基礎代碼?
02
時間維度與深度維度的對偶映射
Kimi研究團隊的關鍵洞見,在于識別出神經網絡演進史中,時間序列處理與網絡深度構建之間存在的對偶關系。
Transformer并非神經網絡的初始形態。約在2018年前,循環神經網絡(RNN)主導著序列建模。RNN以時序方式逐詞處理文本,將歷史信息壓縮為單一隱藏狀態向后傳遞。其后果是,后序單元只能接收一個混雜了過往信息的“壓縮包”,早期輸入極易被遺忘——這一過程,與標準殘差連接的信息傳遞機制驚人地相似。
Transformer則憑借注意力機制,顛覆了這一范式。在自回歸解碼中,每一位置的詞元,都能直接“回望”序列中所有前置詞元,并通過加權聚焦關鍵信息。在時間維度上,注意力機制完美消解了信息壓縮與遺忘的難題。
一個自然的類比由此浮現:能否在網絡的深度維度上,揚棄殘差連接所隱含的“RNN式思維”,轉而引入注意力機制?
這正是Kimi論文的核心創新——注意力殘差(Attention Residuals, AttnRes)。傳統殘差累加公式被重塑為一個基于Softmax的注意力加權形式:
![]()
新公式不再將淺層輸出簡單相加,而是為每一層配備一個“偽查詢向量”,使其能夠動態掃描之前所有層的輸出,并為那些包含關鍵信息的層賦予極高的Softmax權重。無關信息層的權重則被壓至近零。
這套內容感知、輸入依賴的選擇機制,本質上是將Transformer的核心理念橫向遷移至殘差路徑的設計中。殘差連接由此從被動的“信息搬運”,轉變為主動的“按需檢索”,有效規避了深層信息稀釋的痼疾。
03
從理論構想到系統級工程
若僅止步于此,注意力殘差仍可能囿于實驗室的理想圖景。真實的大模型工程實踐,尤其面對千億參數、分布式訓練的嚴苛環境,直接套用該機制將引發顯存與通信的“爆炸”。
在分布式訓練普遍采用激活重算、流水線并行等技術的前提下,若強行實現跨層全連接,深層網絡將不得不跨物理GPU節點,獲取所有淺層完整的輸出張量。隨著層數L增加,跨階段數據傳輸量與顯存占用將以O(Ld)規模急劇膨脹,對算力集群構成災難性負擔。
因此,Kimi團隊為解決工程落地而提出的分塊注意力殘差,展現出極高的實用智慧。
為將理論付諸實踐,Kimi團隊設計了一套精妙的降維方案:
核心思路是“分塊降維”。
回到程序員流水線的比喻:要求末位程序員洞悉每一位前序同事的具體貢獻,意味著每位前序程序員都需保留完整的“草稿箱”——這在物理空間上是不可行的。解決方案是,將程序員劃分為N個部門。部門內部沿用標準殘差,并將多層的輸出壓縮成一個單一的“塊級表征”。部門之間則啟用注意力殘差機制,只需關注這N個塊級表征,而無需追溯每個具體層級的輸出。
這一簡單而大膽的策略,直接將顯存與通信的復雜度從O(Ld)降至O(Nd),為理論落地掃除了最大障礙。
其次,訓練階段的跨階段緩存設計進一步優化了通信開銷。在主流的交錯式流水線調度模式下,每個物理GPU常需處理多個計算階段。團隊為此設計了本地緩存機制,確保先前接收到的塊級表征駐留于本地顯存,從而避免跨節點重復傳輸。此舉大幅壓縮了流水線并行的通信峰值,并使跨塊通信時間可被計算過程有效掩蓋。
最后,推理階段的雙階段計算與在線Softmax融合,緩解了內存帶寬瓶頸。推理時反復讀取大量歷史塊級表征,易導致嚴重的內存帶寬壓力。研究團隊采用雙階段策略:第一階段以批處理方式計算跨塊注意力,攤銷內存讀取成本;第二階段順序計算塊內局部注意力。兩階段結果通過在線Softmax技術無縫合并,并與RMSNorm等算子進行內核融合。
技術細節無需贅述,但結果令人印象深刻:上述復雜的跨層注意機制疊加后,Block AttnRes帶來的額外訓練開銷幾乎可以忽略;在典型自回歸推理場景中,端到端延遲增幅低于2%。Kimi團隊在改寫大模型底層網絡拓撲的同時,實現了如此程度的優化,堪稱工程上的奇跡。
04
實證效果與產業意義
最終,Kimi研究團隊將這套架構部署至一個參數規模為48B(激活3B)的小型MoE模型,并使用高達1.4萬億token的數據進行真實環境預訓練。
![]()
規模化法則曲線顯示:在同等算力投入下,應用Block AttnRes的模型始終獲得更低的損失值。簡單換算,該架構使模型能達到傳統基線模型需耗費1.25倍算力方可實現的性能。對于耗資動輒千萬美元級的預訓練階段而言,“白嫖”25%的算力增益,蘊含著巨大的商業價值。
下游能力測試中,需要多步驟邏輯推理的任務獲益最為顯著:
![]()
GPQA-Diamond提升7.5%,Math提升3.6%,HumanEval提升3.1%。這一結果在邏輯上高度自洽:數學推導與代碼生成皆要求模型具備長時間推理與信息保持能力,AttnRes的深度檢索機制恰好契合了這種“不忘初衷”的內在需求。
月之暗面創始人楊植麟在2026年英偉達GTC大會上的公開演講,也從側面印證了這套架構的價值:“要推動大模型智能上限持續突破,必須對優化器、注意力機制和殘差連接等底層基石進行重構。”
當然,這項技術距離真正顛覆Transformer架構或改寫行業規則,尚有顯著距離。核心工程代碼尚未完全開源,公開倉庫中僅提供偽代碼級別的演示。同時,論文中亮眼的實驗結果,全部出自月之暗面自有的模型結構與私有數據。注意力殘差能否在其他主流大模型上復現出穩定且顯著的收益,仍有待第三方獨立驗證。
客觀而言,在深度學習領域,對底層機制進行啟發式修改的嘗試并不鮮見。但一篇論文能獲得馬斯克的“光速”點贊,本身已說明其分量。
![]()
最準確的論斷或許是:這是一個兼顧了學術美學與工程實用性、值得全行業深入跟蹤的殘差機制新設計。它并非推翻Transformer的神話,而是為這座大廈添上了一塊關鍵的磚石。
而月之暗面借此向世界展示:在底層架構創新的“深水區”,中國AI企業同樣有能力交出極具技術含量、堪稱世界級水準的答卷。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.