網易首頁 > 網易號 > 正文申請入駐

Kimi“打破Transformer架構”真相

2026-03-19 07:55:33　來源: 硅基星芒AI

北京舉報

分享至

本周，一篇題為《Attention Residuals》的論文，將Kimi推至全球人工智能領域的聚光燈下。論文作者之一，甚至是一名年僅十七歲的高中生。xAI首席執行官埃隆·馬斯克與Google高級人工智能產品經理Shubham Saboo，亦公開發文祝賀。后者更宣稱，Kimi正在觸及Transformer架構中“長達十年無人觸碰的部分”。

一時間，輿論場喧囂四起。諸如“打破Transformer架構”、“硅谷破防”、“改寫行業規則”等標題，迅速占據頭條。

本文結論先行：這是一項天才般的構想，一次極其硬核的研究，但其本質并未脫離Transformer架構的基本框架。至于那些聳人聽聞的標簽，大多出自營銷號之手，缺乏事實依據。

事實上，針對殘差連接的探索并非孤例。從2022年的DeepNorm到2024年的DenseFormer，優化這一深度神經網絡的基石，始終是業界持續發力的方向。Kimi研究團隊并非此技術路線的開辟者，卻在這條既有路徑上，貢獻了一個兼具激進性、優雅性與工程潛能的解決方案。

深層Transformer的結構性困境

在規模化法則的驅動下，提升模型性能的路徑愈發依賴于參數與規模的擴張，神經網絡層數的激增成為必然。然而，研究團隊注意到一個關鍵現象：數據在神經網絡層間傳遞時，存在著“PreNorm稀釋問題”。PreNorm作為一種歸一化技術，因其能有效穩定訓練、加速收斂，已成為現代架構的主流選擇。

為便于直觀理解，不妨將一個大模型比作一條由一百名程序員組成的流水線。每位程序員對應一層神經網絡，共同協作完成一個大型軟件項目。

在傳統的標準殘差連接模式下，層與層之間的狀態更新遵循如下公式：

當前層的輸出，等于上一層輸出與該層自身“修改部分”（即變換函數輸出）的直接相加。類比而言，每位程序員接收前一位的代碼，附上自己的修改后，傳遞給下一位。

這種簡單累加的方式，在實踐中會引發連鎖問題。從數學視角審視，它將導致兩個互為因果的訓練困境：

其一，早期信息被稀釋掩埋。首層神經網絡提取的原始特征——例如token的初始語義——在經歷數十層累加后，其相對權重被逐層消解，面目模糊。流水線末端的程序員，無從知曉源頭究竟起草了怎樣的底層邏輯。模型越深入，對早期低級特征的精確檢索與利用便越困難。

其二，數值尺度膨脹與梯度失衡。殘差的持續累加，如同項目代碼庫的無休止擴充。后期加入的程序員若想使自己的改動產生可見影響，不得不添加更大量的代碼。對應到網絡，深層必須輸出數值規模更大的信號，才能在累加中占據一席之地。這一現象在正向傳播中或許尚可容忍，但在反向傳播中則潛藏危機：淺層梯度可能劇烈震蕩，深層梯度卻趨于微小，整個網絡的梯度分布極度不均，訓練極易失穩。

因此，研究的核心命題便凝練為：如何讓處于網絡最深層的“程序員”，依然能夠清晰辨識并調用首位“程序員”所撰寫的基礎代碼？

時間維度與深度維度的對偶映射

Kimi研究團隊的關鍵洞見，在于識別出神經網絡演進史中，時間序列處理與網絡深度構建之間存在的對偶關系。

Transformer并非神經網絡的初始形態。約在2018年前，循環神經網絡（RNN）主導著序列建模。RNN以時序方式逐詞處理文本，將歷史信息壓縮為單一隱藏狀態向后傳遞。其后果是，后序單元只能接收一個混雜了過往信息的“壓縮包”，早期輸入極易被遺忘——這一過程，與標準殘差連接的信息傳遞機制驚人地相似。

Transformer則憑借注意力機制，顛覆了這一范式。在自回歸解碼中，每一位置的詞元，都能直接“回望”序列中所有前置詞元，并通過加權聚焦關鍵信息。在時間維度上，注意力機制完美消解了信息壓縮與遺忘的難題。

一個自然的類比由此浮現：能否在網絡的深度維度上，揚棄殘差連接所隱含的“RNN式思維”，轉而引入注意力機制？

這正是Kimi論文的核心創新——注意力殘差（Attention Residuals, AttnRes）。傳統殘差累加公式被重塑為一個基于Softmax的注意力加權形式：

新公式不再將淺層輸出簡單相加，而是為每一層配備一個“偽查詢向量”，使其能夠動態掃描之前所有層的輸出，并為那些包含關鍵信息的層賦予極高的Softmax權重。無關信息層的權重則被壓至近零。

這套內容感知、輸入依賴的選擇機制，本質上是將Transformer的核心理念橫向遷移至殘差路徑的設計中。殘差連接由此從被動的“信息搬運”，轉變為主動的“按需檢索”，有效規避了深層信息稀釋的痼疾。

從理論構想到系統級工程

若僅止步于此，注意力殘差仍可能囿于實驗室的理想圖景。真實的大模型工程實踐，尤其面對千億參數、分布式訓練的嚴苛環境，直接套用該機制將引發顯存與通信的“爆炸”。

在分布式訓練普遍采用激活重算、流水線并行等技術的前提下，若強行實現跨層全連接，深層網絡將不得不跨物理GPU節點，獲取所有淺層完整的輸出張量。隨著層數L增加，跨階段數據傳輸量與顯存占用將以O(Ld)規模急劇膨脹，對算力集群構成災難性負擔。

因此，Kimi團隊為解決工程落地而提出的分塊注意力殘差，展現出極高的實用智慧。

為將理論付諸實踐，Kimi團隊設計了一套精妙的降維方案：

核心思路是“分塊降維”。

回到程序員流水線的比喻：要求末位程序員洞悉每一位前序同事的具體貢獻，意味著每位前序程序員都需保留完整的“草稿箱”——這在物理空間上是不可行的。解決方案是，將程序員劃分為N個部門。部門內部沿用標準殘差，并將多層的輸出壓縮成一個單一的“塊級表征”。部門之間則啟用注意力殘差機制，只需關注這N個塊級表征，而無需追溯每個具體層級的輸出。

這一簡單而大膽的策略，直接將顯存與通信的復雜度從O(Ld)降至O(Nd)，為理論落地掃除了最大障礙。

其次，訓練階段的跨階段緩存設計進一步優化了通信開銷。在主流的交錯式流水線調度模式下，每個物理GPU常需處理多個計算階段。團隊為此設計了本地緩存機制，確保先前接收到的塊級表征駐留于本地顯存，從而避免跨節點重復傳輸。此舉大幅壓縮了流水線并行的通信峰值，并使跨塊通信時間可被計算過程有效掩蓋。

最后，推理階段的雙階段計算與在線Softmax融合，緩解了內存帶寬瓶頸。推理時反復讀取大量歷史塊級表征，易導致嚴重的內存帶寬壓力。研究團隊采用雙階段策略：第一階段以批處理方式計算跨塊注意力，攤銷內存讀取成本；第二階段順序計算塊內局部注意力。兩階段結果通過在線Softmax技術無縫合并，并與RMSNorm等算子進行內核融合。

技術細節無需贅述，但結果令人印象深刻：上述復雜的跨層注意機制疊加后，Block AttnRes帶來的額外訓練開銷幾乎可以忽略；在典型自回歸推理場景中，端到端延遲增幅低于2%。Kimi團隊在改寫大模型底層網絡拓撲的同時，實現了如此程度的優化，堪稱工程上的奇跡。

實證效果與產業意義

最終，Kimi研究團隊將這套架構部署至一個參數規模為48B（激活3B）的小型MoE模型，并使用高達1.4萬億token的數據進行真實環境預訓練。

規模化法則曲線顯示：在同等算力投入下，應用Block AttnRes的模型始終獲得更低的損失值。簡單換算，該架構使模型能達到傳統基線模型需耗費1.25倍算力方可實現的性能。對于耗資動輒千萬美元級的預訓練階段而言，“白嫖”25%的算力增益，蘊含著巨大的商業價值。

下游能力測試中，需要多步驟邏輯推理的任務獲益最為顯著：

GPQA-Diamond提升7.5%，Math提升3.6%，HumanEval提升3.1%。這一結果在邏輯上高度自洽：數學推導與代碼生成皆要求模型具備長時間推理與信息保持能力，AttnRes的深度檢索機制恰好契合了這種“不忘初衷”的內在需求。

月之暗面創始人楊植麟在2026年英偉達GTC大會上的公開演講，也從側面印證了這套架構的價值：“要推動大模型智能上限持續突破，必須對優化器、注意力機制和殘差連接等底層基石進行重構。”

當然，這項技術距離真正顛覆Transformer架構或改寫行業規則，尚有顯著距離。核心工程代碼尚未完全開源，公開倉庫中僅提供偽代碼級別的演示。同時，論文中亮眼的實驗結果，全部出自月之暗面自有的模型結構與私有數據。注意力殘差能否在其他主流大模型上復現出穩定且顯著的收益，仍有待第三方獨立驗證。

客觀而言，在深度學習領域，對底層機制進行啟發式修改的嘗試并不鮮見。但一篇論文能獲得馬斯克的“光速”點贊，本身已說明其分量。

最準確的論斷或許是：這是一個兼顧了學術美學與工程實用性、值得全行業深入跟蹤的殘差機制新設計。它并非推翻Transformer的神話，而是為這座大廈添上了一塊關鍵的磚石。

而月之暗面借此向世界展示：在底層架構創新的“深水區”，中國AI企業同樣有能力交出極具技術含量、堪稱世界級水準的答卷。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.