无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Kimi“打破Transformer架構”真相

0
分享至


本周,一篇題為《Attention Residuals》的論文,將Kimi推至全球人工智能領域的聚光燈下。論文作者之一,甚至是一名年僅十七歲的高中生。xAI首席執行官埃隆·馬斯克與Google高級人工智能產品經理Shubham Saboo,亦公開發文祝賀。后者更宣稱,Kimi正在觸及Transformer架構中“長達十年無人觸碰的部分”。


一時間,輿論場喧囂四起。諸如“打破Transformer架構”、“硅谷破防”、“改寫行業規則”等標題,迅速占據頭條。

本文結論先行:這是一項天才般的構想,一次極其硬核的研究,但其本質并未脫離Transformer架構的基本框架。至于那些聳人聽聞的標簽,大多出自營銷號之手,缺乏事實依據。

事實上,針對殘差連接的探索并非孤例。從2022年的DeepNorm到2024年的DenseFormer,優化這一深度神經網絡的基石,始終是業界持續發力的方向。Kimi研究團隊并非此技術路線的開辟者,卻在這條既有路徑上,貢獻了一個兼具激進性、優雅性與工程潛能的解決方案

01

深層Transformer的結構性困境

在規模化法則的驅動下,提升模型性能的路徑愈發依賴于參數與規模的擴張,神經網絡層數的激增成為必然。然而,研究團隊注意到一個關鍵現象:數據在神經網絡層間傳遞時,存在著“PreNorm稀釋問題”。PreNorm作為一種歸一化技術,因其能有效穩定訓練、加速收斂,已成為現代架構的主流選擇。

為便于直觀理解,不妨將一個大模型比作一條由一百名程序員組成的流水線。每位程序員對應一層神經網絡,共同協作完成一個大型軟件項目。

在傳統的標準殘差連接模式下,層與層之間的狀態更新遵循如下公式:

當前層的輸出,等于上一層輸出與該層自身“修改部分”(即變換函數輸出)的直接相加。類比而言,每位程序員接收前一位的代碼,附上自己的修改后,傳遞給下一位。


這種簡單累加的方式,在實踐中會引發連鎖問題。從數學視角審視,它將導致兩個互為因果的訓練困境:

其一,早期信息被稀釋掩埋。首層神經網絡提取的原始特征——例如token的初始語義——在經歷數十層累加后,其相對權重被逐層消解,面目模糊。流水線末端的程序員,無從知曉源頭究竟起草了怎樣的底層邏輯。模型越深入,對早期低級特征的精確檢索與利用便越困難。

其二,數值尺度膨脹與梯度失衡。殘差的持續累加,如同項目代碼庫的無休止擴充。后期加入的程序員若想使自己的改動產生可見影響,不得不添加更大量的代碼。對應到網絡,深層必須輸出數值規模更大的信號,才能在累加中占據一席之地。這一現象在正向傳播中或許尚可容忍,但在反向傳播中則潛藏危機:淺層梯度可能劇烈震蕩,深層梯度卻趨于微小,整個網絡的梯度分布極度不均,訓練極易失穩。

因此,研究的核心命題便凝練為:如何讓處于網絡最深層的“程序員”,依然能夠清晰辨識并調用首位“程序員”所撰寫的基礎代碼?

02

時間維度與深度維度的對偶映射

Kimi研究團隊的關鍵洞見,在于識別出神經網絡演進史中,時間序列處理與網絡深度構建之間存在的對偶關系。

Transformer并非神經網絡的初始形態。約在2018年前,循環神經網絡(RNN)主導著序列建模。RNN以時序方式逐詞處理文本,將歷史信息壓縮為單一隱藏狀態向后傳遞。其后果是,后序單元只能接收一個混雜了過往信息的“壓縮包”,早期輸入極易被遺忘——這一過程,與標準殘差連接的信息傳遞機制驚人地相似。

Transformer則憑借注意力機制,顛覆了這一范式。在自回歸解碼中,每一位置的詞元,都能直接“回望”序列中所有前置詞元,并通過加權聚焦關鍵信息。在時間維度上,注意力機制完美消解了信息壓縮與遺忘的難題。

一個自然的類比由此浮現:能否在網絡的深度維度上,揚棄殘差連接所隱含的“RNN式思維”,轉而引入注意力機制?

這正是Kimi論文的核心創新——注意力殘差(Attention Residuals, AttnRes)。傳統殘差累加公式被重塑為一個基于Softmax的注意力加權形式:


新公式不再將淺層輸出簡單相加,而是為每一層配備一個“偽查詢向量”,使其能夠動態掃描之前所有層的輸出,并為那些包含關鍵信息的層賦予極高的Softmax權重。無關信息層的權重則被壓至近零。

這套內容感知、輸入依賴的選擇機制,本質上是將Transformer的核心理念橫向遷移至殘差路徑的設計中。殘差連接由此從被動的“信息搬運”,轉變為主動的“按需檢索”,有效規避了深層信息稀釋的痼疾。

03

從理論構想到系統級工程

若僅止步于此,注意力殘差仍可能囿于實驗室的理想圖景。真實的大模型工程實踐,尤其面對千億參數、分布式訓練的嚴苛環境,直接套用該機制將引發顯存與通信的“爆炸”。

在分布式訓練普遍采用激活重算、流水線并行等技術的前提下,若強行實現跨層全連接,深層網絡將不得不跨物理GPU節點,獲取所有淺層完整的輸出張量。隨著層數L增加,跨階段數據傳輸量與顯存占用將以O(Ld)規模急劇膨脹,對算力集群構成災難性負擔。

因此,Kimi團隊為解決工程落地而提出的分塊注意力殘差,展現出極高的實用智慧。

為將理論付諸實踐,Kimi團隊設計了一套精妙的降維方案:

核心思路是“分塊降維”。

回到程序員流水線的比喻:要求末位程序員洞悉每一位前序同事的具體貢獻,意味著每位前序程序員都需保留完整的“草稿箱”——這在物理空間上是不可行的。解決方案是,將程序員劃分為N個部門。部門內部沿用標準殘差,并將多層的輸出壓縮成一個單一的“塊級表征”。部門之間則啟用注意力殘差機制,只需關注這N個塊級表征,而無需追溯每個具體層級的輸出。

這一簡單而大膽的策略,直接將顯存與通信的復雜度從O(Ld)降至O(Nd),為理論落地掃除了最大障礙。

其次,訓練階段的跨階段緩存設計進一步優化了通信開銷。在主流的交錯式流水線調度模式下,每個物理GPU常需處理多個計算階段。團隊為此設計了本地緩存機制,確保先前接收到的塊級表征駐留于本地顯存,從而避免跨節點重復傳輸。此舉大幅壓縮了流水線并行的通信峰值,并使跨塊通信時間可被計算過程有效掩蓋。

最后,推理階段的雙階段計算與在線Softmax融合,緩解了內存帶寬瓶頸。推理時反復讀取大量歷史塊級表征,易導致嚴重的內存帶寬壓力。研究團隊采用雙階段策略:第一階段以批處理方式計算跨塊注意力,攤銷內存讀取成本;第二階段順序計算塊內局部注意力。兩階段結果通過在線Softmax技術無縫合并,并與RMSNorm等算子進行內核融合。

技術細節無需贅述,但結果令人印象深刻:上述復雜的跨層注意機制疊加后,Block AttnRes帶來的額外訓練開銷幾乎可以忽略;在典型自回歸推理場景中,端到端延遲增幅低于2%。Kimi團隊在改寫大模型底層網絡拓撲的同時,實現了如此程度的優化,堪稱工程上的奇跡。

04

實證效果與產業意義

最終,Kimi研究團隊將這套架構部署至一個參數規模為48B(激活3B)的小型MoE模型,并使用高達1.4萬億token的數據進行真實環境預訓練。


規模化法則曲線顯示:在同等算力投入下,應用Block AttnRes的模型始終獲得更低的損失值。簡單換算,該架構使模型能達到傳統基線模型需耗費1.25倍算力方可實現的性能。對于耗資動輒千萬美元級的預訓練階段而言,“白嫖”25%的算力增益,蘊含著巨大的商業價值。

下游能力測試中,需要多步驟邏輯推理的任務獲益最為顯著:


GPQA-Diamond提升7.5%,Math提升3.6%,HumanEval提升3.1%。這一結果在邏輯上高度自洽:數學推導與代碼生成皆要求模型具備長時間推理與信息保持能力,AttnRes的深度檢索機制恰好契合了這種“不忘初衷”的內在需求。

月之暗面創始人楊植麟在2026年英偉達GTC大會上的公開演講,也從側面印證了這套架構的價值:“要推動大模型智能上限持續突破,必須對優化器、注意力機制和殘差連接等底層基石進行重構。”

當然,這項技術距離真正顛覆Transformer架構或改寫行業規則,尚有顯著距離。核心工程代碼尚未完全開源,公開倉庫中僅提供偽代碼級別的演示。同時,論文中亮眼的實驗結果,全部出自月之暗面自有的模型結構與私有數據。注意力殘差能否在其他主流大模型上復現出穩定且顯著的收益,仍有待第三方獨立驗證。

客觀而言,在深度學習領域,對底層機制進行啟發式修改的嘗試并不鮮見。但一篇論文能獲得馬斯克的“光速”點贊,本身已說明其分量。


最準確的論斷或許是:這是一個兼顧了學術美學與工程實用性、值得全行業深入跟蹤的殘差機制新設計。它并非推翻Transformer的神話,而是為這座大廈添上了一塊關鍵的磚石。

而月之暗面借此向世界展示:在底層架構創新的“深水區”,中國AI企業同樣有能力交出極具技術含量、堪稱世界級水準的答卷。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
87年的李立群和胡因夢,注意看胡因夢的眼神,充滿了欣賞

87年的李立群和胡因夢,注意看胡因夢的眼神,充滿了欣賞

喜文多見01
2026-03-19 15:51:54
尼日利亞一女星用500個面包制成禮服 驚艷亮相電影獎 現場撕下一塊大快朵頤

尼日利亞一女星用500個面包制成禮服 驚艷亮相電影獎 現場撕下一塊大快朵頤

快科技
2026-05-12 15:00:24
44歲范冰冰近照判若兩人!與媽媽同框身形暴肥,這次是真懷孕了?

44歲范冰冰近照判若兩人!與媽媽同框身形暴肥,這次是真懷孕了?

八卦王者
2026-05-12 15:27:14
用血淚教訓告訴大家:鄰里關系再好,有些“善良”也不能給得太多

用血淚教訓告訴大家:鄰里關系再好,有些“善良”也不能給得太多

小馬達情感故事
2026-05-11 18:40:04
日本大型電機制造企業尼得科公司被曝大規模造假

日本大型電機制造企業尼得科公司被曝大規模造假

澎湃新聞
2026-05-12 21:33:09
專機起飛前,特朗普下令制裁中國,中方的兩句話,戳穿美國陰謀

專機起飛前,特朗普下令制裁中國,中方的兩句話,戳穿美國陰謀

林子說事
2026-05-12 15:28:43
2016年,黎明和助理陳泳儀的合影,2年后,陳助理成了黎夫人

2016年,黎明和助理陳泳儀的合影,2年后,陳助理成了黎夫人

喜文多見01
2026-05-03 12:41:06
76人更衣室徹底亂了!恩比德帶頭,球員集體倒戈,毒瘤早該離隊

76人更衣室徹底亂了!恩比德帶頭,球員集體倒戈,毒瘤早該離隊

你的籃球頻道
2026-05-12 07:31:00
哈佛博士:大幅提高人類壽命的真正原因,所有人都沒想到!

哈佛博士:大幅提高人類壽命的真正原因,所有人都沒想到!

深度報
2026-05-10 22:38:11
最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
梁靖崑發文總結世乒賽,王皓暖心喊“梁教授”,梁靖崑現為北京電影學院體育教研室副教授

梁靖崑發文總結世乒賽,王皓暖心喊“梁教授”,梁靖崑現為北京電影學院體育教研室副教授

大象新聞
2026-05-12 14:46:31
東北一男子養鹿破產,賭氣放生了30頭鹿,8年后上山,眼前一幕卻讓他淚崩了...

東北一男子養鹿破產,賭氣放生了30頭鹿,8年后上山,眼前一幕卻讓他淚崩了...

背包旅行
2026-05-11 14:51:09
規范大暴雨連下4天之后,15日北方加入,南北都有暴雨區,連下5天

規范大暴雨連下4天之后,15日北方加入,南北都有暴雨區,連下5天

風云圈天氣
2026-05-13 00:05:03
詹姆斯正式回應是否退役:我還沒想清楚 會和家人商量再做決定

詹姆斯正式回應是否退役:我還沒想清楚 會和家人商量再做決定

醉臥浮生
2026-05-12 14:38:26
村民被眼鏡王蛇咬傷打13支血清 專家:我國尚無專門血清,可用抗銀環蛇毒血清加抗眼鏡蛇毒血清

村民被眼鏡王蛇咬傷打13支血清 專家:我國尚無專門血清,可用抗銀環蛇毒血清加抗眼鏡蛇毒血清

封面新聞
2026-05-11 19:00:03
深度分析:湖人隊圍繞盧卡·東契奇建隊,三大自由球員目標

深度分析:湖人隊圍繞盧卡·東契奇建隊,三大自由球員目標

好火子
2026-05-13 03:57:04
日經亞洲突然爆出重磅消息!中國給國內所有芯片廠下一道"死命令"

日經亞洲突然爆出重磅消息!中國給國內所有芯片廠下一道"死命令"

阿七說史
2026-05-11 15:23:09
劉嘉玲曬法國生活,梁朝偉在老婆鏡頭下撿雞蛋,兩口子生活好愜意

劉嘉玲曬法國生活,梁朝偉在老婆鏡頭下撿雞蛋,兩口子生活好愜意

喜歡歷史的阿繁
2026-05-12 12:12:22
2-0,3-1!亞洲杯瘋狂一夜!國足日本晉級,8強誕生2席,印尼出局

2-0,3-1!亞洲杯瘋狂一夜!國足日本晉級,8強誕生2席,印尼出局

光輝記
2026-05-13 02:06:55
記者:穆里尼奧將在五月份正式亮相伯納烏

記者:穆里尼奧將在五月份正式亮相伯納烏

懂球帝
2026-05-12 16:45:12
2026-05-13 05:35:00
硅基星芒AI
硅基星芒AI
錦緞旗下人工智能研究與媒體服務平臺
58文章數 6關注度
往期回顧 全部

科技要聞

宇樹發布載人變形機甲,定價390萬元起

頭條要聞

特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

頭條要聞

特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

體育要聞

騎士終于玩明白了?

娛樂要聞

白鹿風波升級!掉粉20萬評論區淪陷

財經要聞

利潤再腰斬 京東干外賣后就沒過過好日子

汽車要聞

吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

態度原創

時尚
游戲
藝術
家居
軍事航空

普通人真該學學如何穿搭!多穿裙子比褲子更時髦,大方提氣質

活久見!電棍與香鍋怒噴被擼圈開除后和解,祝Mlxg母親節日快樂

藝術要聞

震驚!他竟用鏡頭看透了所有女人的秘密!

家居要聞

極簡主義下的居住場域與空間

軍事要聞

知情人士披露:美國或考慮恢復對伊朗軍事行動

無障礙瀏覽 進入關懷版