无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

難怪黃仁勛GTC請了楊植麟,讀完Kimi新論文我懂了

0
分享至


這是蒼何的第 511 篇原創!

Token,正在成為 AI 時代的水和電。

誰能用更少的算力壓出更多的 token 效率,誰就能在這場軍備競賽里活得更久。

這也是為什么今年英偉達 GTC 大會的焦點,開始從"誰的卡更多"轉向"誰用得更聰明"。


圖片來自中國藍新聞

這就不得不提剛在GTC上演講的楊植麟了,因為他演講的一個重要主題就是 Token 效率。

這可能也是老黃請他的原因。

楊植麟這次演講的主題是《How We Scaled Kimi K2.5》,首次完整披露了 Kimi 下一代模型的技術路線圖。他把 Kimi 的進化邏輯概括為三個維度:

  • Token 效率:用 MuonClip 優化器替代用了 11 年的 Adam,token 效率翻倍

  • 長上下文:Kimi Linear 架構在 128K-1M 上下文范圍內,解碼速度提升 5-6 倍

  • 智能體集群:引入 Orchestrator 編排器,讓多個 Agent 并行協作


但真正讓我注意到的,是他在演講里提到的第三項底層創新:「Attention Residuals」


因為就在 GTC 前兩天,我看到 Kimi 剛發了這篇論文。而馬斯克轉發后直接說了句:「Impressive work from Kimi」。


Karpathy 看完也半開玩笑地說:我們是不是沒把「Attention is All You Need」這句話理解透。


一篇改殘差連接的論文,怎么就讓這幫人集體激動了?我去讀了下。


論文我也下載下來了,私信回復暗號即可獲取:Attention_Residuals

主角我居然還挺熟——殘差連接

簡單說下殘差連接是什么。

2015 年 ResNet 提出了一個極其簡單的操作:每一層的輸出 = 上一層傳下來的東西 + 這一層自己算出來的東西。就是一個加法。

這個加法讓深層網絡成為可能,也讓后來的 Transformer 站穩了腳跟。從 2015 年到現在,幾乎所有大模型都在用它,權重恒定為 1,所有層一視同仁


問題在哪?

打個比方:一個學生上了 40 節課,期末復習的時候把所有筆記等量堆在一起看——不管哪門課跟考試相關,每門課都占同樣的復習時間。

結果就是:

  • 早期學到的重要內容,傳到深層已經被稀釋得差不多了

  • 后面的層想產生影響,得"喊"得比前面所有層加起來還大聲

  • 研究甚至發現,很多大模型里相當一部分層可以直接刪掉,性能幾乎不受影響


用了十年沒人動,不是因為它完美,是因為"夠用"讓人失去了追問的動力。

DeepSeek 去年底發了篇論文(mHC),核心思路是:既然固定權重太死板,那就讓權重變成可學習的,讓模型自己決定怎么混合各層的信號。

DeepSeek 在殘差連接基礎上改進的 mHC(流形約束超連接) 架構,解決了 Hyper-Connections 的訓練不穩定問題,同時保持表達能力,并在 3B/9B/27B 規模模型上驗證了效果。


這個方向是對的,但有一個局限:權重訓練完就固定了,不管輸入是什么,每一層拿到的混合方式都一樣

Kimi 團隊這篇論文問了一個更往下的問題:就算權重可以學,每一層拿到的依然是"混合過的狀態"。它沒有辦法說"我要單獨看第 3 層的輸出"。

信息一旦被攪進累積狀態,就找不回來了。

Kimi 的解法,來自一個很漂亮的類比。

把 Attention 旋轉 90 度

Transformer 處理文本的時候,用注意力機制讓每個詞可以"回頭看"前面所有的詞,根據內容動態決定關注哪里。這是橫向的——在序列維度上。

Kimi 團隊在思考:那層與層之間,為什么不能做同樣的事?

把注意力機制"旋轉 90 度"——從序列維度轉向深度維度。

改完之后,每一層擁有一個可學習的查詢向量(query),用它對所有前序層的輸出做 attention。哪些層對當前計算更重要,權重就更高;不相關的層,權重自動降低。


回到復習的比喻:現在這個學生有了一套智能系統:做每道題之前,系統根據題目內容自動從 40 節課的筆記里挑出最相關的幾份重點看。


最關鍵的一點:這個權重是動態的。同一個模型,處理不同的輸入,每一層對前序層的關注程度完全不同——實時決定,而非訓練完就固定。

Ilya 說過,LSTM 旋轉 90 度就是 ResNet。現在 Kimi 證明,Attention 也可以旋轉 90 度。


效果:等效白賺 25% 算力

工程上,Kimi 把模型分成約 8 個 block,塊內用傳統殘差,塊間做 attention。推理延遲增加不到 2%,幾乎免費。

在自家 48B 參數模型(Kimi Linear,3B 激活參數)上驗證:

  • GPQA-Diamond(科學推理):+7.5 分

  • Math(數學):+3.6 分

  • HumanEval(代碼):+3.1 分

同等算力下性能更好;反過來說,達到同等性能需要的訓練預算減少約 20%。相當于不加機器、不加數據,只改信息流結構,白賺 25% 的算力效果。


這幾年大模型的競爭,表面上是參數量、數據量、卡的數量在比拼。

但 GTC 的風向已經變了.

黃仁勛自己也清楚,光靠堆算力的時代正在見頂。

他需要在臺上展示的,是"聰明地用算力"的人。

楊植麟帶來的三項底層創新: MuonClip、Kimi Linear、Attention Residuals。

恰好都在回答同一個問題:

怎么用更少的資源做出更好的模型。

Adam 用了 11 年,Attention 用了 8 年,殘差連接用了 10 年。

這些東西不是不能動,是大部分人默認了"不需要動"。

當所有人都在想怎么買更多的卡,有人在想怎么讓每張卡的每個 token 都更值錢。

這才是黃仁勛真正想讓世界看到的。

過去兩年,從 DeepSeek 到 Kimi,中國大模型團隊動手的位置越來越深。

從訓練方法論到核心網絡架構,再到最底層的信號傳遞結構。

大力出奇跡的故事講了太久了。接下來的競爭,屬于那些敢拆「地基」的人。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
你有囍事了!6月13號一過,屬兔的注意:2026最大的一樁美事降臨

你有囍事了!6月13號一過,屬兔的注意:2026最大的一樁美事降臨

普陀動物世界
2026-06-13 02:57:24
形勢有多嚴峻?上海某公司HR裁員已經裁到崩潰大哭的程度…

形勢有多嚴峻?上海某公司HR裁員已經裁到崩潰大哭的程度…

慧翔百科
2026-06-08 11:38:38
2026港姐大熱門宣布退賽,官方說辭難服眾,內情引全網熱議

2026港姐大熱門宣布退賽,官方說辭難服眾,內情引全網熱議

最美的筆觸
2026-06-16 05:41:18
高考后才懂!高中住校和走讀的差距,真的不止一星半點

高考后才懂!高中住校和走讀的差距,真的不止一星半點

戶外阿毽
2026-06-16 14:35:43
特朗普的兒子埃里克·特朗普發文稱,去中國沒有任何商業利益

特朗普的兒子埃里克·特朗普發文稱,去中國沒有任何商業利益

小馬姨
2026-05-17 10:09:45
95小生人氣洗牌:三人崛起,兩人下滑,王一博邊緣,張凌赫意外

95小生人氣洗牌:三人崛起,兩人下滑,王一博邊緣,張凌赫意外

老沮系戲精北鼻
2026-06-15 19:44:00
2026年事業單位改革:三類人轉公,四類人分流。

2026年事業單位改革:三類人轉公,四類人分流。

細說職場
2026-06-16 20:59:36
離婚15年后再看謝暉,他的選擇何其明智正確

離婚15年后再看謝暉,他的選擇何其明智正確

趙枹是個熱血青年
2026-06-15 21:19:35
表妹和表哥偷情大瓜:8年感情歸零,表妹不滿表哥分手曝兩人奸情

表妹和表哥偷情大瓜:8年感情歸零,表妹不滿表哥分手曝兩人奸情

江山揮筆
2026-04-18 20:54:36
九段線不認了,釣魚島改叫日本名了,新加坡到底在向誰遞投名狀?

九段線不認了,釣魚島改叫日本名了,新加坡到底在向誰遞投名狀?

史怌的生活科普
2026-06-15 22:26:46
美軍唯一新型雷達試驗機墜毀,或為維修后嚴重故障導致

美軍唯一新型雷達試驗機墜毀,或為維修后嚴重故障導致

紅星新聞
2026-06-16 10:37:38
白崇禧對林彪評價很低,直到去臺灣,仍認為我軍第一猛將絕不是他

白崇禧對林彪評價很低,直到去臺灣,仍認為我軍第一猛將絕不是他

零點歷史說
2026-06-05 13:45:11
有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
華工科技:1.6T光模塊產品在海外集成商、渠道商批量交付

華工科技:1.6T光模塊產品在海外集成商、渠道商批量交付

每日經濟新聞
2026-06-16 15:45:27
楊天真爆料經紀圈潛規則:簽1000萬只告訴藝人500萬,差價私吞再抽成

楊天真爆料經紀圈潛規則:簽1000萬只告訴藝人500萬,差價私吞再抽成

阿廢冷眼觀察所
2026-06-17 00:18:56
大漲、大漲、再大漲!SpaceX上市連漲三天,馬斯克身家1.3萬億美元≈8.8個巴菲特

大漲、大漲、再大漲!SpaceX上市連漲三天,馬斯克身家1.3萬億美元≈8.8個巴菲特

每日經濟新聞
2026-06-16 17:41:15
6只科技牛股排隊辟謠“求別炒”,資金無視估值背離“就是不信”

6只科技牛股排隊辟謠“求別炒”,資金無視估值背離“就是不信”

第一財經資訊
2026-06-16 21:29:16
皇馬擬提前解約玻璃人鐵衛 庫庫雷利亞加盟引發連鎖清洗

皇馬擬提前解約玻璃人鐵衛 庫庫雷利亞加盟引發連鎖清洗

甜度百分百21
2026-06-17 01:17:47
父親去部隊看兒子,讓警衛把軍長叫出來,軍長:我不認識這老頭

父親去部隊看兒子,讓警衛把軍長叫出來,軍長:我不認識這老頭

我不是沃神
2026-06-01 20:25:03
7.69萬起!吉利新車正式上市

7.69萬起!吉利新車正式上市

科技堡壘
2026-06-15 09:27:11
2026-06-17 03:39:00
蒼何
蒼何
前大廠工程師,努力分享AI干貨知識
122文章數 156關注度
往期回顧 全部

科技要聞

DeepSeek融資500億,梁文鋒牢牢握住控制權

頭條要聞

四川警方私扣酒商159瓶茅臺 酒放庫房3年有的已成空瓶

頭條要聞

四川警方私扣酒商159瓶茅臺 酒放庫房3年有的已成空瓶

體育要聞

身價5萬的門將,擋住了12億歐元的狂轟濫炸

娛樂要聞

吳文忻葬禮:2個女兒在靈堂內茫然失措

財經要聞

從123美元到62美元 白銀價格上演過山車

汽車要聞

三車齊發 零跑全新C10/C11/C16上市12.58萬元起

態度原創

健康
教育
游戲
時尚
旅游

粽子一次吃多少不傷胃?專家講解

教育要聞

中西部地區高考生真的要去大城市上大學!!!

LPL迎來破天流量!賽區最強人氣王重出江湖,賽制卻出大問題?

中式坐月子,震撼歐美中產

旅游要聞

昆明早餐鄙視鏈:燒餌塊、豆花米線、稀豆粉,本地人早餐怎么選?

無障礙瀏覽 進入關懷版