網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

【梁文鋒署名】DeepSeek新論文：所有人都覺得沒必要改的東西，他們改了

2026-01-01 18:17:24　來源: AI進化論花生

北京舉報

0

分享至

2025年的最后一天，DeepSeek又發論文了。

過去一年，很多人都在問同一個問題：DeepSeek為什么能用更少的錢，做出更強的模型？

答案當然不止一個。但這篇論文透露了其中一個思路：去優化那些所有人都覺得"已經是最優解"的東西。

這次他們動的是殘差連接——一個深度學習領域用了十年、幾乎沒人質疑過的基礎設計。

論文名字有點硬核：mHC（Manifold-Constrained Hyper-Connections），翻譯過來就是"流形約束的超連接"。但核心思想其實不復雜，今天試著用人話講清楚。

先說背景：殘差連接統治了深度學習十年

經常訓練大模型的朋友，一定聽過"殘差連接"（Residual Connection）這個詞。

2015年，何愷明團隊提出ResNet，核心創新就是這個殘差連接。簡單說就是：每一層的輸出 = 這一層學到的東西 + 上一層的輸入。

用公式表示：

x_{l+1} = x_l + F(x_l)

這個設計看起來簡單，但解決了一個大問題：網絡太深就訓不動。

為什么？因為梯度消失。信號在幾十上百層網絡里傳遞，越傳越弱，最后弱到模型根本學不到東西。

殘差連接的妙處在于：它給信號開了一條"快車道"。不管中間那些層學到了什么，原始信號都能直接傳到后面。這就是所謂的恒等映射（Identity Mapping）——淺層的信息可以原封不動地傳到深層。

從2015年到現在，不管是GPT、LLaMA還是Gemini，幾乎所有大模型都在用這個設計。十年了，沒人動過它。

DeepSeek的第一次嘗試：Hyper-Connections

2024年9月，DeepSeek發了一篇論文，提出了Hyper-Connections（HC），第一次對殘差連接動刀。

核心思想是：既然殘差連接的權重是固定的（1:1），為什么不讓模型自己學習最優的連接方式？

HC做了兩件事：

把殘差流從1條擴展到n條（通常n=4）
引入可學習的連接矩陣，讓模型自己決定怎么混合這些信號

效果確實好。論文數據顯示：

訓練收斂速度提升1.8倍
ARC-Challenge任務提升6個百分點

這個提升挺猛的。但HC有一個致命缺陷——訓練不穩定。

HC的問題：信號放大了3000倍

這是論文里最直觀的一張圖。

看左邊那條藍線（HC），在第12000步左右，損失突然飆升。這對大規模訓練來說是致命的——你可能已經燒了幾百萬的算力，結果模型突然崩了。

為什么會這樣？

論文里有詳細分析。核心原因是：HC破壞了恒等映射的特性。

還記得殘差連接的公式嗎？x_{l+1} = x_l + F(x_l)。這里的x_l是"1倍"傳遞到下一層的。但HC引入了可學習的權重矩陣H，信號傳遞變成了：

x_{l+1} = H * x_l + ...

問題來了：H是可學習的，沒有任何約束。

當網絡有60層時，信號要經過60個H矩陣的連乘。如果每個H的"放大倍數"稍微大于1，連乘60次會發生什么？

指數爆炸。

論文測量了這個"放大倍數"（Amax Gain Magnitude）。理想情況下應該是1（信號不放大也不縮小）。但HC在27B模型上的實測結果是——

峰值達到3000。

信號被放大了3000倍，梯度也被放大了3000倍。難怪訓練會崩。

mHC的解法：雙隨機矩陣

現在問題清楚了：H矩陣太"自由"了，沒有約束，所以會亂來。

那怎么約束它？

最簡單的方法是讓H = I（單位矩陣），這樣就退化回原始的殘差連接了。但這樣就失去了HC的性能優勢。

DeepSeek的解法很優雅：把H約束在"雙隨機矩陣"上。

什么是雙隨機矩陣？簡單說就是滿足兩個條件的矩陣：

所有元素都 ≥ 0
每行之和 = 1，每列之和 = 1

舉個例子，這是一個2×2的雙隨機矩陣：

[0.3, 0.7]
[0.7, 0.3]

每行加起來是1，每列加起來也是1。

為什么這個約束有效？

因為雙隨機矩陣做的事情本質上是"加權平均"。

當你用雙隨機矩陣乘以一個向量時，結果向量的每個元素都是輸入向量的凸組合（加權平均）。加權平均有一個天然的性質：結果不會超出輸入的范圍。

這就從數學上保證了信號不會爆炸。

更妙的是，雙隨機矩陣還有一個"封閉性"：兩個雙隨機矩陣相乘，結果還是雙隨機矩陣。

這意味著不管網絡有多深，60層、100層、1000層，信號經過多少個H矩陣的連乘，結果仍然是一個雙隨機矩陣，仍然滿足"不會爆炸"的性質。

論文用了一個算法叫Sinkhorn-Knopp來做這個投影。具體細節不展開了，核心就是迭代地調整矩陣的行和列，讓它們都歸一化到和為1。

效果：穩定性提升三個數量級

mHC的效果怎么樣？

先看穩定性。同樣是27B模型，同樣的訓練配置：

指標

HC

mHC

Amax Gain峰值

3000

1.6

從3000降到1.6，降低了三個數量級。說實話，看到這個數字的時候我愣了一下——這個改進幅度有點離譜。

訓練曲線也變得平滑了，再也沒有那個可怕的"損失飆升"。

再看性能。mHC不僅比原始的殘差連接強，甚至比不穩定的HC還要強：

Benchmark

Baseline

HC

mHC

BBH

43.8

48.9

51.0

DROP

47.0

51.6

53.9

GSM8K

46.7

53.2

53.8

MMLU

59.0

63.0

63.4

mHC在大多數任務上都比HC更好，特別是推理任務（BBH +2.1%，DROP +2.3%）。

穩定性提升了，性能也提升了。那代價呢？

只增加了6.7%的訓練時間。

這個數字挺關鍵的。HC雖然不增加FLOPs（浮點運算量），但因為擴展了殘差流寬度，內存訪問成本大幅增加。DeepSeek在論文里花了大量篇幅講基礎設施優化——內核融合、選擇性重計算、通信重疊——才把開銷控制在這個水平。

為什么這個方法優雅？

讀完這篇論文，我覺得mHC的設計挺漂亮的，主要體現在三個地方：

1. 問題定義精準

很多研究會籠統地說"訓練不穩定"，但DeepSeek精確地定位到了問題根源：恒等映射特性的喪失導致信號在多層傳播時爆炸。有了這個精準定義，解決方案才能有的放矢。

2. 解決方案有數學保證

雙隨機矩陣不是拍腦袋想出來的，而是有嚴格的數學性質支撐：

譜范數 ≤ 1（不會放大信號）
組合封閉性（多層仍然穩定）
Birkhoff多面體的幾何解釋（是所有置換矩陣的凸組合）

這種有數學保證的方法，比"試了一百種trick發現這個work"要可靠得多。

3. 工程和理論并重

很多論文只講理論創新，對工程實現一筆帶過。但DeepSeek的論文花了相當篇幅講基礎設施優化：怎么融合內核、怎么減少內存占用、怎么和DualPipe調度配合。這才是能真正落地的研究。

往大了說：DeepSeek在找什么？

回到開頭的問題：DeepSeek為什么能用更少的錢做出更強的模型？

這篇論文給出了一個側面的答案：他們在找那些"所有人都覺得已經是最優解"的東西，然后證明它不是。

過去十年，大模型的架構創新主要集中在"微觀設計"——Attention怎么改、FFN怎么改、位置編碼怎么改。但殘差連接？從2015年到現在，幾乎原封不動。大家默認它沒什么可優化的了。

mHC證明了這個假設是錯的。

更重要的是，這種優化的特點是：不增加計算量，只改變信息流動的方式。同樣的FLOPs，更好的效果。

這可能就是DeepSeek的技術哲學之一：不是比誰燒的錢多，而是比誰能在同樣的資源下榨取更多性能。

當然，mHC還解決了一個實際問題：讓HC能穩定訓練。HC本身是個好方法，但因為不穩定沒法用。mHC修復了這個缺陷，讓這條架構創新的路能走下去。

論文最后一句話說得挺直接的：

"我們希望mHC能重新激發社區對宏觀架構設計的興趣。"

翻譯一下：過去大家都在卷Attention、卷FFN、卷MoE。現在DeepSeek說，層與層之間怎么連接，這塊也有金礦。

最后

這篇論文給我最大的啟發是：當你發現一個方法有效但不穩定時，不要放棄，而是去找約束條件。

雙隨機矩陣就是這樣一個約束——它保留了HC的表達能力（可學習的連接權重），同時通過數學性質保證了穩定性（加權平均不會爆炸）。在自由和約束之間找平衡，這個思路可能在很多領域都適用。

回到開頭的問題：DeepSeek為什么能做到別人做不到的事？

這篇論文給出的答案是：去質疑那些"所有人都覺得沒必要改"的東西。殘差連接用了十年，不代表它是最優解。

2025年最后一天發這篇論文，DeepSeek給2026年開了個好頭。

參考資料：

mHC論文：https://arxiv.org/abs/2512.24880
Hyper-Connections論文：https://arxiv.org/abs/2409.19606
DeepSeek-V3技術報告：https://arxiv.org/abs/2412.19437

@Deepseek 用我奶奶也能懂的方式，用100字解釋下這篇論文。

奶奶，你想啊，AI訓練就像帶熊孩子。以前的規矩是：拉著手走，一步都不許亂動。安全，但孩子啥也學不會。后來有人說：放開讓他跑吧。結果跑著跑著就跑丟了。 DeepSeek的辦法：讓孩子自己跑，但只能在圍欄里跑。怎么跑都行，反正跑不出去。給自由畫個圈，這就是mHC。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

港媒：江旻憓已放棄加拿大護照

澎湃新聞 2026-04-23 13:06:27
3392 跟貼 3392
個人微信建了600多個工作群，離職時賬號歸誰

現代快報 2026-04-23 13:49:11
2299 跟貼 2299

狗子乖乖躺著讓雞治病

瀟湘晨報 2026-04-23 17:38:12
97 跟貼 97

中介稱"杭州600萬房子355萬急出" 有人看房被"丟路邊"

錢江晚報 2026-04-23 14:45:39
1523 跟貼 1523
美國指責中國向三個非洲國家施壓，取消賴清德的飛行許可，中方回應

北京青年報 2026-04-23 15:20:42
13 跟貼 13

深圳水官高速4月26日起停止收費

新快報新聞 2026-04-24 08:16:04
58 跟貼 58

“窩囊版”蹦極發生意外，景區最新通報

南方都市報 2026-04-23 20:23:51
118 跟貼 118
內蒙古一老板開1.6萬月薪招人放3000只羊，包吃住，有Wi-Fi，有專人送物資，全年無休，回應：更適合夫妻檔，一望無際的大草原常年見不到人

瀟湘晨報 2026-04-23 22:14:14
653 跟貼 653

“甘蔗運來我們都要！”廣東化州一糖廠主動收購蔗農滯銷果蔗，幾百輛貨車排隊兩三公里等候，廠里還派人為司機送三餐和水

極目新聞 2026-04-23 20:01:05
346 跟貼 346
“記者臥底桂林六日游低價團”后續：地接旅行社被罰30萬并停業整頓

極目新聞 2026-04-24 08:03:58
20 跟貼 20
“烏龍法規”引發關注，央媒：“空氣法”荒唐劇映照形式主義積弊

澎湃新聞 2026-04-23 19:07:04
89 跟貼 89
歐盟批準向烏克蘭提供900億歐元貸款方案

新華社 2026-04-23 20:15:08
688 跟貼 688
蔡磊目前僅存眼部活動能力，直言病情因高強度工作而加重惡化，稱攻克漸凍癥是最后一場創業：“人生自古誰無死？這次創業無比值得”

大象新聞 2026-04-23 23:45:03
43 跟貼 43
“還債騎手”被強制下線240次：“開始我很反感過勞提醒，影響賺錢”

澎湃新聞 2026-04-23 15:04:11
271 跟貼 271
為何昨日廣東出現明顯降雨？專家詳解

環球網資訊 2026-04-24 09:05:09
14 跟貼 14
布克批裁判：再這么吹，NBA要被當成WWE

文匯報 2026-04-23 16:23:09
279 跟貼 279
市場監管總局：將對81家電商平臺自律承諾"回頭看"

央視新聞客戶端 2026-04-23 16:56:57
166 跟貼 166
DeepSeek-V4預覽版本正式上線并開源

界面新聞 2026-04-24 11:02:39
27 跟貼 27
海爾凈水發布行業首個濾芯自凈化技術標準

齊魯壹點 2026-04-24 10:58:59
5 跟貼 5
反詐｜警惕！有人冒充監管人員聯系你，這些話術全是誤導

新浪財經 2026-04-24 12:44:56
0 跟貼 0
格力回應鋁線電機爭議：相關工程機已停產，海信稱靠多三兩銅多500元時代已終結

紅星資本局 2026-04-21 20:40:16
0 跟貼 0

找到了！伊朗真正的內鬼，根本不是人！中國也要小心

找到了！伊朗真正的內鬼，根本不是人！中國也要小心

像詩一樣的姑娘

2026-04-24 10:23:00

廣東一名女子在洗車的時候，在備胎槽里竟然發現一個蘋果的定位器

廣東一名女子在洗車的時候，在備胎槽里竟然發現一個蘋果的定位器

周哥一影視

2026-04-24 03:45:19

4月23日大消息！國務院點名3行業，馬上要起飛了

4月23日大消息！國務院點名3行業，馬上要起飛了

生活新鮮市

2026-04-24 07:38:49

“千山翠”再現，比亞迪旗艦大唐重磅發布，第三代元PLUS全面升級

“千山翠”再現，比亞迪旗艦大唐重磅發布，第三代元PLUS全面升級

光電科技君

2026-04-24 08:11:06

英國王室久違拍“全家福”，緬懷已故女王，卡米拉的站姿又亮了

英國王室久違拍“全家福”，緬懷已故女王，卡米拉的站姿又亮了

照見古今

2026-04-23 18:11:45

安徽一女子同房后黃體破裂休克，送醫發現失血兩升！這事有多危險

安徽一女子同房后黃體破裂休克，送醫發現失血兩升！這事有多危險

科普大世界

2026-04-23 21:23:02

難以相信！她已經61歲了，看起來竟然像三四十歲的樣子！

難以相信！她已經61歲了，看起來竟然像三四十歲的樣子！

科學發掘

2026-04-23 08:35:50

“暴力抗法”半月后，拼多多發生重大高管調整

“暴力抗法”半月后，拼多多發生重大高管調整

一見財經

2026-04-23 08:04:06

當不成總統了？美國四大前總統已經聯手，打響扳倒特朗普的第一槍

當不成總統了？美國四大前總統已經聯手，打響扳倒特朗普的第一槍

米老鼠的世界

2026-04-23 23:48:22

18+4+4+8失誤！哈登空砍全隊最高分連迎兩大里程碑超越韋德帕克

18+4+4+8失誤！哈登空砍全隊最高分連迎兩大里程碑超越韋德帕克

狍子歪解體壇

2026-04-24 10:34:23

老人擠公交插隊被乘客撞倒離世家屬起訴公交公司索賠70萬被駁回

老人擠公交插隊被乘客撞倒離世家屬起訴公交公司索賠70萬被駁回

封面新聞

2026-04-23 14:00:02

官方：深圳正式簽約前NBA中鋒伊布-巴吉，頂替阿爾法-卡巴

官方：深圳正式簽約前NBA中鋒伊布-巴吉，頂替阿爾法-卡巴

懂球帝

2026-04-24 11:04:07

馬科斯失算了！人民日報攤牌：中國不會救菲律賓，徹底死了這條心

馬科斯失算了！人民日報攤牌：中國不會救菲律賓，徹底死了這條心

影孖看世界

2026-04-24 12:31:59

阿里納斯：詹姆斯是最有統治力的老將，這數據99%球員都是頂薪

阿里納斯：詹姆斯是最有統治力的老將，這數據99%球員都是頂薪

懂球帝

2026-04-23 23:24:51

美預測：臺海一旦開打，9國將展開混戰，中俄朝將對陣6國聯軍

美預測：臺海一旦開打，9國將展開混戰，中俄朝將對陣6國聯軍

琴音繚繞回

2026-04-23 10:11:11

張婉婷疑曾介入高云翔董璇婚姻，懷了對方的孩子，也太狗血了

張婉婷疑曾介入高云翔董璇婚姻，懷了對方的孩子，也太狗血了

話娛論影

2026-04-23 09:58:53

姐夫手術我墊50萬，他們不提還錢，今年他二次病危，姐撥99通電話

姐夫手術我墊50萬，他們不提還錢，今年他二次病危，姐撥99通電話

千秋文化

2026-04-20 19:48:09

離譜出圈！歌手搶不到高鐵票，直接取消北京演唱會

離譜出圈！歌手搶不到高鐵票，直接取消北京演唱會

南萬說娛26

2026-04-24 11:46:48

DeepSeek-V4發布脫離英偉達框架轉向華為

DeepSeek-V4發布脫離英偉達框架轉向華為

泡泡網

2026-04-24 12:00:10

鬧大了！霍汶希發聲力挺張敬軒，遭內地網友抵制，謝霆鋒恐被連累

鬧大了！霍汶希發聲力挺張敬軒，遭內地網友抵制，謝霆鋒恐被連累

娛樂團長

2026-04-21 21:05:57

AI進化論花生

AI博主，AppStore付費榜第一的小貓補光燈app開發者

191文章數 112關注度

往期回顧全部

科技要聞

剛剛，DeepSeek-V4 預覽版發布百萬上下文

頭條要聞

特朗普：不會對伊朗動用核武器已從軍事上拿下了伊朗

頭條要聞

特朗普：不會對伊朗動用核武器已從軍事上拿下了伊朗

體育要聞

里程碑之戰拖后腿，哈登18分8失誤

娛樂要聞

王思聰被綠！戀愛期間女友被金主包養

財經要聞

19家企業要"鋁代銅"，格力偏不

汽車要聞

全景iDrive 續航近800km 新款寶馬7系/i7亮相

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

藝術

本地

公開課

軍事航空

《光與影：33號遠征隊官方藝術設定集》來啦!

藝術要聞

16幅佐恩高清油畫 | 瑞典著名畫家

本地新聞

云游中國｜逛世界風箏都留學生探秘中國傳統文化

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

軍事要聞

美伊陷入互相封鎖僵局

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版