AI范兒 · 深度長文
這幾天,很多人都在讀 DeepSeek V4 的技術(shù)報告,我當(dāng)然也不例外。
對技術(shù)圈來說,DeepSeek 每次發(fā)技術(shù)報告,就好像是一次"開卷考試"。
因為他們不只會告訴我們模型有多強(qiáng)、跑分多厲害,還會把背后的技術(shù)架構(gòu)、訓(xùn)練方法、工程細(xì)節(jié),甚至算力和成本都攤開來講。
這次也一樣。
大家都在討論百萬 Token、榜單表現(xiàn)、國產(chǎn)算力、價格。但我發(fā)現(xiàn),很多人可能忽略了一個非常有意思的細(xì)節(jié)。
它叫Muon。
模型是怎么訓(xùn)練的、用了哪些創(chuàng)新方法,是每一次技術(shù)報告當(dāng)中的重頭戲。
這一次,DeepSeek V4 主要在解決三個特別樸素的問題。
第一個問題:內(nèi)容太長,看不過來
百萬 Token 聽起來很酷,但背后有個麻煩:模型每生成一個字,都可能要回頭翻前面非常長的內(nèi)容。
這就像你讓一個人讀完一百萬頁資料,然后每回答一個問題,都要把前面所有資料重新翻一遍。
傳統(tǒng) Attention 機(jī)制的問題就在這里:上下文越長,計算量和顯存壓力會快速膨脹。
不是模型不想看,而是完整看一遍的成本實(shí)在太高了。
DeepSeek 一貫以來的風(fēng)格都是把成本往死里降(畢竟我們是真缺算力),所以這次 DeepSeek V4 引入了兩個新的東西:CSA 和 HCA。
![]()
你可以把它理解成兩種"省力讀書法":先把內(nèi)容壓縮,再挑重要部分看。
這樣模型不需要每次都把所有內(nèi)容完整掃一遍,長文本才有可能真正跑起來。
第二個問題:模型太深,信息容易傳丟
大模型不是一層兩層,而是很多層神經(jīng)網(wǎng)絡(luò)疊在一起。
信息從第一層傳到最后一層,有點(diǎn)像接力跑。層數(shù)越多,中間越容易出現(xiàn)變形、衰減,甚至訓(xùn)練不穩(wěn)定。
我們都知道一個成語叫"三人成虎"吧,謠言傳多了,假的也像真的,說的就是信息在傳遞過程中不斷失真。
所以 DeepSeek V4 引入了一個叫 mHC 的東西。
它可以理解成給層與層之間的信息傳遞加了一套更穩(wěn)定的"接力通道",讓重要信息在深層網(wǎng)絡(luò)里不容易跑偏。
![]()
這個東西在今年元旦的時候 DeepSeek 已經(jīng)單獨(dú)發(fā)過論文,當(dāng)時就引起了不小的關(guān)注。這次在 V4 里面出現(xiàn),完全是情理之中。
第三個問題:模型太大,訓(xùn)練太難
DeepSeek V4 訓(xùn)練了 30T+ tokens。
大家都知道,規(guī)模大到一定的數(shù)量級,已經(jīng)不是"多喂點(diǎn)數(shù)據(jù)"那么簡單了,它會面臨一個巨大的工程問題。
模型可能學(xué)得慢,可能訓(xùn)練不穩(wěn)定,甚至訓(xùn)練到一半直接崩了。
V4 的論文里面也提到了,訓(xùn)練過程遇到了突然抽風(fēng)的情況,誤差率突然爆炸,而且會反復(fù)出現(xiàn)。
這時候,Muon 就出現(xiàn)了。
它不是模型,也不是功能,而是訓(xùn)練模型時的"學(xué)習(xí)方法"。它決定模型每一步該怎么調(diào)整參數(shù),往哪個方向改,改多大。
所以,如果說 CSA/HCA 解決的是"看得太多太貴",mHC 解決的是"傳得太遠(yuǎn)不穩(wěn)",那么 Muon 解決的就是:
這么大的模型,怎么才能更快、更穩(wěn)地學(xué)會。
01Muon 到底是什么
Muon 其實(shí)就是訓(xùn)練大模型時用的優(yōu)化器。
通俗講,模型訓(xùn)練就是不斷犯錯、不斷修改參數(shù)的過程,這就好比我們教一個小孩學(xué)游泳,它會不斷犯錯、我們不斷的給他糾正,最后他終于學(xué)會了。
如果你教一個孩子,這樣的方法還應(yīng)付得過來,假設(shè)讓你同時教 1000 個孩子,你肯定直接崩潰了。
這就是傳統(tǒng)方法遇到的問題,一旦遇到超大規(guī)模、超多參數(shù)的模型訓(xùn)練,成本和效率根本扛不住。
現(xiàn)在假設(shè)有套 AI 系統(tǒng),讓隨時監(jiān)控到每個孩子的動作姿勢以及各種我們需要知道的數(shù)據(jù),如果發(fā)現(xiàn)錯了,直接進(jìn)行提示,也許我們可以輕松應(yīng)對 1000 個孩子的教學(xué)。
![]()
Muon 的作用也類似:這個優(yōu)化器決定的是,模型每次犯錯之后,下一步到底該往哪個方向改,改多大。
它讓模型在訓(xùn)練時更快收斂,也更穩(wěn)定。
DeepSeek V4 論文里也明確說,他們在大部分模塊中使用 Muon,原因是它能帶來更快收斂和更好的訓(xùn)練穩(wěn)定性。
這句話翻譯成人話就是:它能讓模型少走彎路,學(xué)得更快,也更不容易訓(xùn)崩。
![]()
△圖:DeepSeek V4技術(shù)報告中關(guān)于Muon的單獨(dú)章節(jié)
02有意思的"夢幻聯(lián)動"
有意思的是,這么關(guān)鍵的東西并不是 DeepSeek 自己發(fā)明的。
DeepSeek V4 論文在 Muon 這一節(jié)里引用了兩篇工作:Jordan et al., 2024 和 Liu et al., 2025。
這里的 Liu et al., 2025,正是月之暗面團(tuán)隊之前圍繞 Muon 做的大模型訓(xùn)練研究。
![]()
△圖:月之暗面關(guān)于 Muon 的論文
換句話說,DeepSeek 這次用上的 Muon,背后不只是一個優(yōu)化器名字,也包含了包括月之暗面在內(nèi)的一系列前沿研究積累。
這聽起來很有戲劇性。
DeepSeek 和月之暗面,在模型產(chǎn)品和開源生態(tài)里,毫無疑問是競爭關(guān)系。
但到了底層訓(xùn)練方法上,它們卻在同一個關(guān)鍵方向上出現(xiàn)了交集。
這不是"誰抄誰",更不是簡單合作。
而是開源最有意思的地方:表面上大家在競爭,底層技術(shù)卻會互相流動。
03開源不只是免費(fèi)
很多人誤以為,開源就是免費(fèi)。
這樣理解就太偏了,而且把開源看小了。
開源真正有價值的地方,不只是"我把東西免費(fèi)給你用",而是我把一條被驗證過的技術(shù)路徑,交給更多人繼續(xù)往前推。
在很多前沿領(lǐng)域,大家其實(shí)都在摸著石頭過河。只不過,有人把自己摸到的經(jīng)驗封閉起來,寫成專利,鎖在公司內(nèi)部。
也有人愿意把它寫成論文、放出代碼、開放模型,讓更多人看到這條路到底走不走得通。
一個團(tuán)隊先摸到了一塊石頭,另一個團(tuán)隊就不必從河邊重新開始試探。它可以站在這個基礎(chǔ)上,把問題繼續(xù)往下做。
DeepSeek 一直以來都在做這樣的事情,現(xiàn)在我們看到國內(nèi)越來越多的模型公司都在做這件事。
今天我們終于看到,一直以為獨(dú)立作戰(zhàn)的他們,開始夢幻聯(lián)動了,這件事情特有意義。
在很多前沿的領(lǐng)域,技術(shù)并不會完全按照公司邊界流動。論文、開源、社區(qū)和工程實(shí)踐,會讓不同團(tuán)隊的經(jīng)驗彼此影響。
04同一條河,同一塊石頭
放到今天這個環(huán)境里,這件事更有意義。
國內(nèi)公司做大模型,大家都要面對更高的算力壓力,也要面對更復(fù)雜的外部限制。
這個時候,開源就不只是理想主義,它也是一種現(xiàn)實(shí)選擇。不過大家不要誤解,開源是針對全世界,不只是國內(nèi)。
大家都在同一條河里摸索。有人愿意把摸到的石頭標(biāo)出來,后來的人就能少摔幾跤,也能把精力放到更難的問題上。
所以,當(dāng)我們討論 DeepSeek V4 的時候,當(dāng)然可以討論它的參數(shù)規(guī)模、百萬 Token、榜單成績,也可以討論它到底用了多少國產(chǎn)算力。
但我覺得,像 Muon 這個細(xì)節(jié)同樣值得被看見。
它讓我們看到,大模型公司之間不只有競爭,也存在一種更隱性的技術(shù)交匯。
表面上,大家都在爭奪下一代最強(qiáng)開源模型的位置。但在更底層的技術(shù)世界里,一篇論文、一個優(yōu)化器、一套工程實(shí)踐,可能會被不同團(tuán)隊繼續(xù)接力。
這不是誰輸誰贏的問題,而是整個生態(tài)一起往前走的方式。
這才是"開源之火,可以燎原"真正動人的地方。
Muon 這種"競爭對手之間的技術(shù)接力",你覺得未來會更多還是更少?評論區(qū)聊聊你的看法覺得有用 → 點(diǎn)個??在看轉(zhuǎn)給還不知道的朋友點(diǎn)個贊 告訴我你看完了關(guān)注「AI范兒」,下次更新第一時間收到
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.