25年最后一天, deepseek 奉上了新年禮物 mHC,又是新的網(wǎng)絡(luò)結(jié)構(gòu)
如果不負(fù)責(zé)任地猜一下,這種對(duì)底層架構(gòu)的深度魔改,加上他們之前MoE的積累,沒(méi)準(zhǔn)DeepSeek V4真的要搞個(gè)大新聞。
DeepSeek是真的厲害,要搞就搞底層創(chuàng)新,搞完MoE,現(xiàn)在盯上Transformer最基礎(chǔ)的下水道:殘差連接(Residual Connection)。
![]()
1、為什么要搞mHC
自從ResNet出來(lái)以后,殘差連接就是深度學(xué)習(xí)的標(biāo)配。Identity Mapping(恒等映射)保證了信號(hào)能無(wú)損傳到深層,模型才能堆得深。
24年字節(jié)搞了個(gè)Hyper-Connections,覺(jué)得原來(lái)的殘差流太細(xì),信息不夠跑。于是把殘差流寬度擴(kuò)大n倍(比如4倍),還加了各種可學(xué)習(xí)的線性映射矩陣(HH)來(lái)混合不同流的信息。這就好比把原來(lái)的單車道擴(kuò)建成了四車道高速公路,不僅寬,車還能變道。
問(wèn)題來(lái)了: 路是寬了,但車速控制不住了。原來(lái)那套完美的Identity Mapping屬性被破壞了。當(dāng)你層數(shù)一深,這些不受約束的矩陣乘起來(lái),信號(hào)要么消失要么爆炸。圖里HC跑到12k步loss直接起飛,梯度亂跳。顯存訪問(wèn)開(kāi)銷也因?yàn)橥ǖ雷儗挶┰觯采狭薓emory Wall。
![]()
2、核心思路:把矩陣關(guān)進(jìn)“流形”里(Manifold Constraint)
這部分是論文的理論高光。DeepSeek這次的做法,給混合矩陣加約束,強(qiáng)制它必須是雙隨機(jī)矩陣(Doubly Stochastic Matrix)。
妙在哪里?1??從幾何角度,這相當(dāng)于把信號(hào)的傳遞變成了一種“凸組合”。你可以把它想象成一種能量守恒系統(tǒng),信號(hào)在層與層之間傳遞時(shí),總量被嚴(yán)格控制住了,既不會(huì)憑空放大也不會(huì)莫名衰減。2?? 雙隨機(jī)矩陣的譜范數(shù)≤1,意味著不會(huì)放大信號(hào),梯度爆炸的風(fēng)險(xiǎn)大大降低。3??多個(gè)雙隨機(jī)矩陣連乘,結(jié)果還是雙隨機(jī)矩陣,所以深層網(wǎng)絡(luò)也能保持穩(wěn)定
實(shí)現(xiàn)上用經(jīng)典的Sinkhorn-Knopp算法,反復(fù)做行列歸一化,迭代20次就夠了。
![]()
3、工程優(yōu)化
mHC顯然需要大量對(duì)應(yīng)的工程優(yōu)化才能 work, 而且DeepSeek顯然是要在實(shí)際生產(chǎn)環(huán)境里用這東西的,所以花了不少篇幅講工程實(shí)現(xiàn)。
幾個(gè)關(guān)鍵優(yōu)化:Kernel Fusion(算子融合)、Recomputing(重計(jì)算)、DualPipe通信重疊(dualpipe 是 v3提的) 等等。
最終效果:在n=4時(shí),mHC只增加6.7%的訓(xùn)練時(shí)間開(kāi)銷。這個(gè)數(shù)字對(duì)于大規(guī)模訓(xùn)練來(lái)說(shuō)是可以接受的。
主要看27B模型的結(jié)果:
loss比baseline降0.021,比HC穩(wěn)
梯度范數(shù)平穩(wěn),HC則劇烈波動(dòng)
BBH、DROP、GSM8K等benchmark全面超baseline,多數(shù)超HC
信號(hào)增益幅度從HC的約3000降到約1.6,三個(gè)數(shù)量級(jí)
在 scaling實(shí)驗(yàn)中還做了3B、9B的模型,說(shuō)明這套方法在大模型上是通用的,且隨著算力增加優(yōu)勢(shì)依然存在,期待在百 b 甚至 T 以上的模型效果
感覺(jué)又要搞一波大的(是不是今年春節(jié),DeepSeek V4要來(lái)了?)
作者:AI Dance
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.