網易首頁 > 網易號 > 正文 申請入駐

DeepSeek 元旦扔出王炸!CEO 梁文鋒親自署名,要動 AI 用了 10 年的“承重墻”?

0
分享至

  今天是元旦,DeepSeek 又扔了個王炸。

  本來準備躺平過節(嗯,是真的躺著了),結果睜眼發現一篇新論文 mHC(流形約束超連接)突然刷屏。

  我看了一眼作者列表,直接“垂死病中驚坐起”——最后一位赫然寫著:Wenfeng Liang(梁文鋒)。

  

  圖:DeepSeek CEO 梁文峰署名

  熟悉 DeepSeek 的都知道,這位 CEO 極少在技術論文上親自署名。

  老板親自掛帥,還選在新年第一天發,說明這事兒絕對不簡單。

  讀完我才發現,他們這次竟然要革深度學習祖師爺 ResNet 的命。

  聽起來很狂?但我研究了一下原理,發現這幫人是真有東西。

  01|從何愷明的“神來之筆”說起

  要看懂 DeepSeek 的操作,我們得先回看一眼歷史。

  2016年,大神何愷明(Kaiming He) 團隊提出了 ResNet,徹底解決了深層網絡訓練不動的難題。

  其中的核心設計叫“恒等映射”。

  

  圖:何愷明,深度殘差網絡(ResNet)的主要發明者

  打個比方,這就像在迷宮里修了一條“直通車道”。信號可以無腦地從這一層傳到下一層,不被中間商賺差價。

  正是因為有了這條路,今天的 ChatGPT、DeepSeek 這些幾百層的龐然大物才跑得起來。

  但問題是,對于現在胃口越來越大的模型來說,這一條“單車道”漸漸不夠用了。

  于是,學術界搞出了一個叫 HC(Hyper-Connections,超連接) 的東西。

  HC 的想法很美好:既然單車道不夠,那我就擴建成多車道唄!

  它把殘差流變寬(n倍),讓信息在不同車道間亂竄、混合,以此來提升模型的能力。

  

  圖:三代架構進化史:(a) 是經典的“單車道” ResNet; (b) 是路修寬了但沒紅綠燈的 HC(容易撞車); (c) 是 DeepSeek 加了“交通管制”的 mHC。

  但問題來了,這一擴建,出事了。

  原來的 ResNet 是“直通車”,很穩。現在的 HC 變成了“無紅綠燈的超級路口”。

  論文里的數據特別嚇人:在 HC 的架構下,信號在網絡里傳著傳著,就會因為缺乏管束而瘋狂膨脹。

  看原論文里的數據,HC 的信號增益幅度峰值直接干到了 3000!(下圖右側)

  

  圖:HC 的信號增益幅度峰值直接干到了 3000

  這意味著啥?意味著信號被放大了 3000 倍。

  這就像早高峰的十字路口沒有紅綠燈,車全撞在一塊了,這就是典型的“信號爆炸”。

  結果就是:模型訓練極其不穩定,錯誤率(Loss) 說炸就炸,根本沒法在大規模模型上用。

  02|DeepSeek 的解法:數學暴力美學

  面對這種“車禍現場”,一般人的思路可能是:“那我就少修兩條路吧。”

  但 DeepSeek 的思路是:路我要修,但我要請一個懂數學的交警。

  這就是 mHC(流形約束超連接)的核心邏輯。

  他們發現,只要把那些負責指揮交通的矩陣,強行按在一個叫“雙隨機矩陣”的數學規則里,問題就解決了。

  別被這個數學名詞嚇跑,它的原理其實也挺簡單,就像“能量守恒定律”:

  不管你在路口怎么變道、怎么混合,進來的流量總和,必須嚴格等于出去的流量總和。

  既不允許車子憑空消失(信號衰減),也不允許憑空變出車來(信號爆炸)。

  為了做到這一點,DeepSeek 用了一個叫 Sinkhorn-Knopp 的算法,像是給矩陣戴上了“緊箍咒”。

  不管這矩陣原來長啥樣,經過這個算法一處理,它就必須變得老老實實,行和列的加和都得等于1。

  這就很漂亮了。

  它保留了多車道互聯帶來的信息豐富度(性能提升),又把信號嚴格限制在了一個安全的范圍內(穩定性),完美致敬了何愷明當年追求的“恒等映射”精神。

  03. 效果怎么樣?直接看療效

  理論吹得再好,還得看實驗。

  還記得剛才說 HC 的信號增益飆到了 3000 嗎?

  用了 mHC 之后,這個數字被死死按在了 1.6 左右。

  

  從 3000 到 1.6,這是直接降低了三個數量級!

  這也直接體現在了訓練曲線上:

  穩如老狗: mHC 的訓練 Loss 曲線(藍線)極其平滑,跟基線模型幾乎一樣穩。

  

  圖:mHC 的訓練 Loss 曲線極其平滑

  性能更強: 在 27B 參數的模型上,mHC 不僅穩,效果還比標準版更好。特別是在比較難的 BBH(邏輯推理)和 DROP 任務上,提升非常明顯。

  

  圖:在 27B 參數的模型上,mHC 不僅穩,效果還比標準版更好。

  04. 不止是數學,更是工程上的“摳門”

  讀 DeepSeek 的論文,你永遠能感覺到他們那種“把算力榨干到最后一滴”的執著。

  因為把路修寬,本來是一件非常費顯存、費時間的事。

  如果不做優化,內存訪問成本(I/O)會增加好幾倍,這誰受得了?

  所以 mHC 不僅僅是一個數學創新,還是一套工程優化方案。

  算子融合(Kernel Fusion): 他們手寫了底層的 Kernel,把好幾步計算合并成一步,減少 GPU 讀寫內存的次數。

  重計算(Recomputing): 為了省顯存,他們選擇在反向傳播時重新計算中間結果,而不是一直存著。

  通信重疊: 利用 DualPipe 策略,把額外的通信時間“藏”在計算時間里。

  結果就是:在擴展率為 4 的情況下,mHC 帶來的額外訓練時間開銷,僅僅只有 6.7%。

  用極小的代價,換來了模型性能和穩定性的雙重提升。

  這種“又好又省”的風格,確實很 DeepSeek。

  說實話,每次讀 DeepSeek 的論文都讓人挺佩服的,不是那些牛逼的技術,而是他們“死磕底層”的態度。

  特別是在現在,大家都忙著卷應用、卷 Agents 的時候,他們愿意回過頭去修補 AI 的“地基”。

  ResNet 已經統治了深度學習這么多年,大家都覺得它是完美的。

  但 mHC 告訴我們:只要你不迷信權威,哪怕是地基,也有重修的可能。

  mHC 這種架構,或許不會馬上改變你的生活,但它可能會讓下一代的 DeepSeek、GPT 跑得更穩、更快。

  對于 DeepSeek 這種“硬核”的數學暴力美學,你怎么看?歡迎在評論區聊聊。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
56歲湖北男子非洲失聯十多天后首次與家人聯系,女兒:父親脖子大片淤青,說話神志不清,連自己都不認識;大使館工作人員:會派人了解情況

56歲湖北男子非洲失聯十多天后首次與家人聯系,女兒:父親脖子大片淤青,說話神志不清,連自己都不認識;大使館工作人員:會派人了解情況

揚子晚報
2026-04-24 19:05:54
體制內硬剛領導會是什么下場?網友"鐵頭娃"式回答,大徹大悟

體制內硬剛領導會是什么下場?網友"鐵頭娃"式回答,大徹大悟

夜深愛雜談
2026-04-24 07:32:39
百億私募一季度持倉曝光:高毅資產馮柳熬不住了?減持海康威視5700萬股,重陽投資卻趁機抄底

百億私募一季度持倉曝光:高毅資產馮柳熬不住了?減持海康威視5700萬股,重陽投資卻趁機抄底

每日經濟新聞
2026-04-25 13:36:11
放棄職工社保轉居民社保:不是糊涂,是普通人算透了現實賬

放棄職工社保轉居民社保:不是糊涂,是普通人算透了現實賬

天氣觀察站
2026-04-25 11:53:26
官方:四川女籃外援坎貝奇缺席總決賽G5;今晚僅單外援出戰

官方:四川女籃外援坎貝奇缺席總決賽G5;今晚僅單外援出戰

懂球帝
2026-04-25 12:50:45
鄭欽文2-1逆轉僅3小時,下輪對手正式確定:再遇強敵,進16強難了

鄭欽文2-1逆轉僅3小時,下輪對手正式確定:再遇強敵,進16強難了

侃球熊弟
2026-04-24 22:20:51
男人的生理需求能有多難忍?網友:我對我老公只有動物本能

男人的生理需求能有多難忍?網友:我對我老公只有動物本能

帶你感受人間冷暖
2026-02-07 03:58:56
月薪1.6萬招放羊工老板:電話快被打爆了,更適合四五十歲的夫妻搭檔,一個人來的都拒絕了

月薪1.6萬招放羊工老板:電話快被打爆了,更適合四五十歲的夫妻搭檔,一個人來的都拒絕了

環球網資訊
2026-04-24 14:55:55
一半中國人蛋白質沒吃夠!醫生:64歲以上人群,每天這樣吃才達標

一半中國人蛋白質沒吃夠!醫生:64歲以上人群,每天這樣吃才達標

白宸侃片
2026-04-24 08:18:22
西甲懸念終結 皇馬遭絕平+4輪僅1勝 巴薩或11分領跑 最快下輪奪冠

西甲懸念終結 皇馬遭絕平+4輪僅1勝 巴薩或11分領跑 最快下輪奪冠

我愛英超
2026-04-25 06:15:13
42歲,傅首爾徹底變樣了!瘦成標準美女,網友:和麥琳像親姐妹

42歲,傅首爾徹底變樣了!瘦成標準美女,網友:和麥琳像親姐妹

娛樂皮皮醬
2026-04-24 17:33:27
羅翔:如果一個人突然努力工作,業余時間開始學習,不再參加社交活動,那么,身邊的人可能不僅不會幫他,還會拉他下來,原因就一個!

羅翔:如果一個人突然努力工作,業余時間開始學習,不再參加社交活動,那么,身邊的人可能不僅不會幫他,還會拉他下來,原因就一個!

譚老師地理大課堂
2026-04-22 00:03:57
美伊談判,最新消息

美伊談判,最新消息

魯中晨報
2026-04-25 07:36:08
經過伊朗這一戰,中美之間可能至少50年內不會爆發戰爭

經過伊朗這一戰,中美之間可能至少50年內不會爆發戰爭

流史歲月
2026-04-17 23:20:03
近7場1勝 皇馬球迷貼面怒罵球員:不知羞恥 姆巴佩用帽遮臉+逃離

近7場1勝 皇馬球迷貼面怒罵球員:不知羞恥 姆巴佩用帽遮臉+逃離

我愛英超
2026-04-25 07:46:50
才播了三期,就說他倆一定會離?

才播了三期,就說他倆一定會離?

橘子娛樂
2026-04-24 21:14:22
《蜜語紀》她集童星、學霸于一身,長得美演技好,終于又火了

《蜜語紀》她集童星、學霸于一身,長得美演技好,終于又火了

娛君墜星河
2026-04-25 15:26:29
郭冬臨現狀:住北京老房子,身形消瘦、臉頰凹陷,59歲無兒無女

郭冬臨現狀:住北京老房子,身形消瘦、臉頰凹陷,59歲無兒無女

娛說瑜悅
2026-04-23 16:04:39
又遇苦主!鄭欽文第5次挑戰世界第2 交手1-3落后 2月前遭3盤逆轉

又遇苦主!鄭欽文第5次挑戰世界第2 交手1-3落后 2月前遭3盤逆轉

我愛英超
2026-04-24 22:13:09
互聯網是有記憶的,她的黑歷史一大堆啊!

互聯網是有記憶的,她的黑歷史一大堆啊!

BenSir本色說
2026-04-15 22:38:07
2026-04-25 16:03:00
AI范兒 incentive-icons
AI范兒
AI范兒是一個專注于人工智能領域的資訊和學習平臺,提供最新的人工智能資訊
728文章數 669關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

哈啰變速車1.5小時收費高達45元 游客直呼:騎不起

頭條要聞

哈啰變速車1.5小時收費高達45元 游客直呼:騎不起

體育要聞

火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

娛樂要聞

鄧超最大的幸運,就是遇見孫儷

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

數碼
手機
藝術
家居
房產

數碼要聞

首款驍龍8 Gen5小平板!OPPO Pad Mini圖賞

手機要聞

一加Ace 6至尊版手機規格匯總,4月28日發布

藝術要聞

荒廢十多年!福建石獅“最美爛尾樓”,德國品牌接盤了

家居要聞

自然肌理 溫潤美學

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

無障礙瀏覽 進入關懷版