網易首頁 > 網易號 > 正文 申請入駐

前有DeepSeek,后有Kimi!馬斯克狂贊的中國雙子星,炸穿大模型10年地基

0
分享至


大數據文摘受權轉載自夕小瑤科技說

黃仁勛召開了英偉達 GTC 大會。

我在看直播的時候注意到一個關鍵細節——楊植麟是這次大會上唯一受邀演講的中國大模型公司創始人。

在演講中他罕見地直接表達:很多普遍使用的技術標準,正成為大模型 Scaling 的瓶頸。并且連著表達了三次“we scale and open-sourced”。

“我們規模化驗證了,并且開源了”。

后面跟著三個關鍵詞——MuonClip、Kimi Linear、Attention Residuals。


這三樣東西剛好覆蓋了深度學習訓練最底層的三個基礎結構——優化器、注意力機制、殘差連接。

Kimi 三個全動了,而且規模化驗證后開源。

它們解決的問題各不相同,但是姿態是一樣的,都是對用了將近十年沒人動的基礎組件動刀。這第三項,正是兩天前 Karpathy 和馬斯克在 X 上點贊的那篇論文。


Karpathy 言外之意在說:attention 如果真的 is all you need,為什么不在深度這個維度上也用?Kimi 這篇論文干的正是這件事。

馬斯克也給 Kimi 的工作點了贊。


非常巧的是,去年的最后幾天,DeepSeek 也在 mHC(Manifold-Constrained Hyper-Connections)的論文里,對「殘差連接」動了刀。

要理解這件事為什么這么重要,可能還得先理解殘差連接是啥,解決了啥。

殘差連接用了 10 年,問題在哪?

讓我們回到 2015 年。

2015 年,深度神經網絡有個致命的毛病:越深越爛。

理論上層數越多,模型表達能力越強;但實際上,訓練信號(梯度)從輸出層往回傳的時候,每經過一層就會衰減一點,等傳到前面的層,信號已經弱到接近于零,模型已經接變笨了。原因很簡單,太深了,學不動了。這就是「梯度消失」。

而 ResNet 就解決了這個大麻煩,它的做法很巧妙,既然每一層傳遞的時候都會“忘記”一些東西,導致最后直接什么都沒有,那我就強制要求每一層在往后傳遞的時候,除了要傳遞該層的變換,還要保留原始輸入。它的公式很簡單:


第 l 層的輸出,等于上一層的輸出,加上本層的變換結果。

這個設計最重要的意義,是保住了一條 identity path。

用大白話說,就是給信息留了一條“原樣直通”的通道,后面的變換怎么折騰都行,但至少有一部分輸入不會被改寫,能直接往后傳。

這是 ResNet 的天才之處,也是 Transformer 能一路堆到今天這個深度的地基。

但地基里,埋著一個隱患。

Transformer 用的是「PreNorm」,也就是先把輸入做歸一化,再過注意力或 FFN,最后加殘差。

這個設計配合殘差連接,相當于強制要求在信息傳遞時保“原文件”。每一層都平等地繼承所有歷史層的輸出,沒有誰更重要。

把殘差連接的遞歸展開,會得到一個直觀的視角:


發現問題了嗎?

每一層的貢獻權重都是 1。無論第 3 層提取的是什么特征,無論第 97 層處理的是什么輸入,它們對最終狀態的貢獻量,完全相同。

PreNorm 把輸入先做標準化,意味著所有層的輸出都被拉到同一尺度;殘差連接又強制等權累加。結果就是,深層的語義個性被稀釋了。

隨著網絡加深,這個累加的總量越來越大——數學上,它大致按層數 L 線性增長。越往后的層,你新產生的輸出,在這團不斷累積的歷史信息里,占比越來越小。越深的層,越難留下痕跡。要想保持影響力,它只能輸出更大幅度的更新。

論文把這個現象叫「PreNorm dilution」——PreNorm 導致的信息稀釋。

就像一本永不刪改的會議記錄本,每次開會,新的紀要都往后疊,舊的內容一字不刪,誰都保留。看上去很穩,很安全,很尊重歷史。可會議一旦開多了,問題就來了:后來的發言者想留下真正有效的意見,就得喊得越來越響。不是因為前面的人更有道理,只是因為紙已經太厚了。

這就是為什么殘差連接的問題,不在于它無效,而在于它太死板。它保住了信息,卻把所有信息一視同仁地保住了。它給了網絡一條歷史通道,卻沒給網絡“該從歷史里拿什么”的能力。

這個問題存在了 10 年。沒人動,不是因為沒人知道,而是因為它夠用了,簡單、穩定、零額外成本。

另一個原因是過去十年大家主要在改的是別的地方。

注意力、激活函數、歸一化、MoE 路由、多模態融合,這些都被反復翻新;唯獨層與層之間的信息流動方式,長期被當成基礎設施默認不動。

論文的 related work 里,Highway、Hyper-Connections、mHC、DDL 這些路線都被系統梳理了一遍。可這些方法大多還停留在“如何修補這條加法路徑”的層面:調一調比例,開幾條并行流,或者想辦法讓狀態別壓得那么狠。

真正幾乎沒人認真追問的是:既然橫向的時間序列上用 Attention 能獲得更智能的全局理解,為什么縱向的深度維度就不行呢?

這正是 Attention Residuals 的出發點。

論文給了一個很妙的類比。像 RNN 這樣的序列模型,本質上也是把過去的信息不斷壓進一個滾動狀態里,沿時間一步一步往后傳。后來 Transformer 用 attention 改了這件事:每個位置不必再死守一個壓縮后的總狀態,而是可以直接看所有歷史位置,動態決定該看誰、看多少。

作者說,深度維度其實也有同樣的問題。標準殘差連接讓每一層只接住一個已經被混好的總狀態,跟當年的序列遞歸有一種很強的形式對偶。既然序列這邊已經從 RNN 走到了 attention,深度這邊為什么不行?

于是,Attention Residuals 做的事情就清楚了:它把標準殘差里那個固定為 1 的權重,換成了一個可學習、而且依賴輸入的 attention 權重。

每一層用一個可學習的查詢向量 w_l,去和所有歷史層的輸出做匹配,經 softmax 歸一化后得到權重,再加權求和:


每層只額外引入一個 d 維的可學習向量,參數量極少。同樣是第 50 層,面對不同輸入,它聚合歷史信息的方式可以完全不同。



  • 左邊是過去 10 年我們最熟悉的標準殘差:所有層輸出一路等權相加。

  • 中間是理論上最完整的 Full AttnRes:每一層都可以回看并選擇所有歷史層。

  • 右邊則是能落地實現方式 Block AttnRes:把層分塊,在保住大部分效果的同時,把系統開銷壓下來。

再講講 DeepSeek 前段時間也發布了一個對殘差連接動刀的工作,叫做「mHC(Manifold-Constrained Hyper-Connections) 」。它延續的是 Hyper-Connections 這條路線:把原本單條的 residual stream 擴展成多條并行流,讓層與層之間的信息交換不再只走一條固定通道。

mHC 把殘差流從單條擴展成多條(n 流),用可學習的矩陣來調節層間的信息流,再用數學約束(雙隨機矩陣)來保持穩定。本質上,這是對 residual stream 的橫向擴展。重點是先把路拓寬,讓信息有多條并行路徑可以走。

Kimi 這次走的是另一條路,在原有這條深度通路上,重寫了信息聚合的規則。

過去,前面各層的輸出是固定等權地一路相加;現在,它用 depth-wise softmax attention 來做跨層選擇,讓每一層都能動態決定該從哪些早期表示里多取一點、少取一點。這樣一來,重要信息會被突出,次要信息會被壓低,早期層里那些原本容易在層層累加中被沖淡的語義,也更有機會被后續層重新調出來。

其實這兩條路并不互相否定,論文里甚至直接說了,AttnRes 和 mHC 在某種意義上是正交的。可從敘事上看,這兩家公司幾乎同時,從不同角度,對一個用了 11 年的基礎結構提出了質疑。這說明,層與層之間的信息流動方式,正在重新成為大模型研究里的關鍵問題。

Kimi 這篇論文更進一步的地方在于,在于它把 Attention 從序列維度,進一步推進到了深度維度。

這也是為什么 Karpathy 會對它產生興趣。一個清晰的信號是:Attention 這套機制,也許還能提供更多的智能潛力

再補一個更進階的信息。

Full Attention Residuals 雖然概念最干凈,工程上卻不能不算賬。因為它意味著每一層都要訪問所有歷史層的輸出,理論復雜度會到 O(L^2d)。

在普通訓練設定下,Full AttnRes 幾乎不額外占內存,因為反向傳播本來就要保留這些層輸出;可一旦上到大規模訓練,尤其是 activation recomputation 和 pipeline parallelism 普遍存在的時候,問題就來了。這些激活需要被顯式保活,還要跨 stage 通信,成本會迅速抬頭。

所以能工程落地的是Block AttnRes

它的思路也很 Kimi:四兩撥千斤,換個結構讓它可用。論文把很多層切成 N 個 block。

塊內仍然用傳統 residual 先累加,塊與塊之間再做 attention。這樣一來,需要保留和通信的對象,就從“每一層的輸出”變成“每個 block 的摘要表示”。論文給出的結果是,memory(內存開銷)和 communication (跨設備通信開銷)都可以降到 O(Nd)。而且實驗里大約 8 個 block,就已經能吃到 Full AttnRes 的大部分收益。


它不是只在紙面上成立,論文專門補了兩套工程優化:

  • cross-stage caching:減少 pipeline 并行時的重復通信

  • two-phase computation:把塊間 attention 先并行算掉,再和塊內順序計算合并

最終結果是:推理延遲額外開銷不到 2%,可以直接替換現有模型的標準殘差。

Scaling law 的結果是:Block AttnRes 達到的 loss,大致相當于基線模型多花 1.25 倍算力才能追上。


三條曲線里,Baseline 始終在上面,Full AttnRes 和 Block AttnRes 整體更低。Block 版本幾乎貼著 Full 走,說明它在更低系統成本下,追回了大部分收益。

這個提升不只停留在預訓練 loss 上。

在作者最終的同配方預訓練對比里,AttnRes 幾乎在所有 benchmark 上都追平或超過 baseline。


如果非要比較 DeepSeek 的 mHC 方案和 Block AttnRes,Block AttnRes 的內存訪問開銷只有 mHC 的約六分之一,是更好的理論框架,更低的系統成本。

就在 GTC 演講的同時,Kimi 正以 180 億美元的估值,進行新一輪 10 億美元融資。

三個月前,這個數字還是 43 億。

近三個月,Kimi 完成了三輪融資,估值從 43 億美元漲到 180 億美元,翻了四倍,成為中國歷史上從成立到估值破百億美元最快的公司。拼多多當年用了三年多,字節跳動用了四年多,Kimi 只用了兩年多。

這個速度本身就已經說明了一件事:最敏感的錢,已經先下注了。

第一層原因,是商業化已經被快速驗證。

K2.5 發布后的 20 天內,Kimi 的收入就超過了 2025 年全年總和。根據全球支付平臺 Stripe 的數據,Kimi 的付費訂單數在 1 月環比激增 8280%,2 月再漲 123.8%,全球排名也從此前從未進入前 100,一路沖到第 9 位,前面已經是 Grok、Cursor 這樣的名字。

但如果只是增長快,還不足以支撐 180 億美元的想象力。

更深一層,資本押注的,是 Kimi 身上那股很少見的技術心氣。

最近這幾個月,Kimi 連續開源的幾項工作,砍的幾乎都是深度學習最底層的基礎設施。

這件事的分量,其實比一篇論文本身大得多。

因為市場真正買單的,不只是你能不能做出增長,而是你有沒有能力去改寫那些別人默認不能動的東西。

更重要的是,你改完之后,還能不能把這種能力變成真實增長。

所以,楊植麟在 GTC 連說三個“we scale and open-sourced”,不全是客套,我想了下,還有姿態。

“we”意味著一種邀請——不用別人定義的規則做競賽,我們在改規則本身。然后開源公開邀請所有人一起往前走。

GPU 訓練特惠!

H100/H200 GPU算力按秒計費,平均節省開支30%以上!

掃碼了解詳情?

點「贊」的人都變好看了哦!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
馬鞍山一中學多名學生研學就餐后腹痛腹瀉,官方:涉事酒店停業整頓

馬鞍山一中學多名學生研學就餐后腹痛腹瀉,官方:涉事酒店停業整頓

界面新聞
2026-04-23 21:01:05
“撞車啦”! 中超第8輪CCTV直播北京國安 海港都是同個時間段

“撞車啦”! 中超第8輪CCTV直播北京國安 海港都是同個時間段

80后體育大蜀黍
2026-04-23 11:04:00
違建一年未拆!深圳一街道辦凍結涉事房產引質疑,街道回應

違建一年未拆!深圳一街道辦凍結涉事房產引質疑,街道回應

南方都市報
2026-04-23 20:48:22
王子文和王朔未婚生子的瓜!

王子文和王朔未婚生子的瓜!

八卦瘋叔
2026-04-23 11:10:22
梅德韋杰夫終結阿爾卡拉斯16連勝:一場遲到的復仇

梅德韋杰夫終結阿爾卡拉斯16連勝:一場遲到的復仇

綠茵狂熱者
2026-04-23 15:04:40
14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

阿訊說天下
2026-04-18 11:52:55
梅西也八卦?埃雷拉:內馬爾派對上,我們想下樓看熱鬧被老婆攔下

梅西也八卦?埃雷拉:內馬爾派對上,我們想下樓看熱鬧被老婆攔下

星耀國際足壇
2026-04-23 14:38:09
阿瑪尼官宣!是臺州姑娘李云霄

阿瑪尼官宣!是臺州姑娘李云霄

陳意小可愛
2026-04-22 04:46:09
萬科執行副總裁全身而退

萬科執行副總裁全身而退

地產微資訊
2026-04-23 20:06:56
美剛宣布 "大勝",伊朗就從地下挖出整個“司令部”,白宮懵了

美剛宣布 "大勝",伊朗就從地下挖出整個“司令部”,白宮懵了

新動察
2026-04-22 10:12:07
朝鮮半島生變,美“謊言”不攻自破

朝鮮半島生變,美“謊言”不攻自破

烽火瞭望者
2026-04-23 19:49:23
烏度卡拒擔責引休媒炮轟:史無前例慘敗 遠遜JJ無戰術 該被解雇

烏度卡拒擔責引休媒炮轟:史無前例慘敗 遠遜JJ無戰術 該被解雇

顏小白的籃球夢
2026-04-23 07:25:20
河北一轎車斑馬線撞飛2人后掉頭再次沖撞傷者,周邊商家:肇事司機未逃離當場被控制

河北一轎車斑馬線撞飛2人后掉頭再次沖撞傷者,周邊商家:肇事司機未逃離當場被控制

極目新聞
2026-04-22 15:36:21
51歲國足名宿:曾是上海申花隊長,退役定居美國,今回國當主教練

51歲國足名宿:曾是上海申花隊長,退役定居美國,今回國當主教練

以茶帶書
2026-04-23 16:10:52
重磅官宣!水官高速4月25日24時起停止收費

重磅官宣!水官高速4月25日24時起停止收費

南方都市報
2026-04-23 16:44:13
聯手圍剿特朗普?四大前總統齊聚費城,美國撕裂真相藏不住了

聯手圍剿特朗普?四大前總統齊聚費城,美國撕裂真相藏不住了

真正能保護你的
2026-04-23 23:43:58
同事借我車去青海,我提前把ETC卡拔了,2小時后他從收費站來電了

同事借我車去青海,我提前把ETC卡拔了,2小時后他從收費站來電了

張道陵秘話
2026-04-11 16:37:21
湖南男子買煙炫富,致使一家三口被滅,2歲兒子在遺體邊躺了兩天

湖南男子買煙炫富,致使一家三口被滅,2歲兒子在遺體邊躺了兩天

莫地方
2026-04-24 00:10:03
窗戶紙捅破,生死局開啟?日本商界急得團團轉,對華提出一個請求

窗戶紙捅破,生死局開啟?日本商界急得團團轉,對華提出一個請求

歸史
2026-04-22 20:37:52
55歲"紙片人"魯豫,與小19歲男友同居后變樣,如今她令人大跌眼鏡

55歲"紙片人"魯豫,與小19歲男友同居后變樣,如今她令人大跌眼鏡

觀察鑒娛
2026-04-17 09:43:01
2026-04-24 01:11:00
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6852文章數 94541關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

媒體:海軍宣傳片出現的"新兵何劍" 傳遞了巨大信息量

頭條要聞

媒體:海軍宣傳片出現的"新兵何劍" 傳遞了巨大信息量

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

令人驚艷的奇瑞車 風云A9可不只是樣子貨

態度原創

本地
藝術
手機
公開課
軍事航空

本地新聞

SAGA GIRLS 2026女團選秀

藝術要聞

吉達塔蓋到第100層,“它是沙特唯一能按期完成的大項目”

手機要聞

vivo X500 Pro Max被曝光:2nm工藝+5GHz,2K直屏九月發!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

人民海軍成立77周年 主力艦艇亮相上海

無障礙瀏覽 進入關懷版