无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek V4 背后,竟然藏著一個月之暗面的影子

0
分享至

AI范兒 · 深度長文

這幾天,很多人都在讀 DeepSeek V4 的技術(shù)報告,我當(dāng)然也不例外。

對技術(shù)圈來說,DeepSeek 每次發(fā)技術(shù)報告,就好像是一次"開卷考試"。

因為他們不只會告訴我們模型有多強(qiáng)、跑分多厲害,還會把背后的技術(shù)架構(gòu)、訓(xùn)練方法、工程細(xì)節(jié),甚至算力和成本都攤開來講。

這次也一樣。

大家都在討論百萬 Token、榜單表現(xiàn)、國產(chǎn)算力、價格。但我發(fā)現(xiàn),很多人可能忽略了一個非常有意思的細(xì)節(jié)。

它叫Muon

模型是怎么訓(xùn)練的、用了哪些創(chuàng)新方法,是每一次技術(shù)報告當(dāng)中的重頭戲。

這一次,DeepSeek V4 主要在解決三個特別樸素的問題。

第一個問題:內(nèi)容太長,看不過來

百萬 Token 聽起來很酷,但背后有個麻煩:模型每生成一個字,都可能要回頭翻前面非常長的內(nèi)容。

這就像你讓一個人讀完一百萬頁資料,然后每回答一個問題,都要把前面所有資料重新翻一遍。

傳統(tǒng) Attention 機(jī)制的問題就在這里:上下文越長,計算量和顯存壓力會快速膨脹。

不是模型不想看,而是完整看一遍的成本實(shí)在太高了。

DeepSeek 一貫以來的風(fēng)格都是把成本往死里降(畢竟我們是真缺算力),所以這次 DeepSeek V4 引入了兩個新的東西:CSA 和 HCA。


你可以把它理解成兩種"省力讀書法":先把內(nèi)容壓縮,再挑重要部分看。

這樣模型不需要每次都把所有內(nèi)容完整掃一遍,長文本才有可能真正跑起來。

第二個問題:模型太深,信息容易傳丟

大模型不是一層兩層,而是很多層神經(jīng)網(wǎng)絡(luò)疊在一起。

信息從第一層傳到最后一層,有點(diǎn)像接力跑。層數(shù)越多,中間越容易出現(xiàn)變形、衰減,甚至訓(xùn)練不穩(wěn)定。

我們都知道一個成語叫"三人成虎"吧,謠言傳多了,假的也像真的,說的就是信息在傳遞過程中不斷失真。

所以 DeepSeek V4 引入了一個叫 mHC 的東西。

它可以理解成給層與層之間的信息傳遞加了一套更穩(wěn)定的"接力通道",讓重要信息在深層網(wǎng)絡(luò)里不容易跑偏。


這個東西在今年元旦的時候 DeepSeek 已經(jīng)單獨(dú)發(fā)過論文,當(dāng)時就引起了不小的關(guān)注。這次在 V4 里面出現(xiàn),完全是情理之中。

第三個問題:模型太大,訓(xùn)練太難

DeepSeek V4 訓(xùn)練了 30T+ tokens。

大家都知道,規(guī)模大到一定的數(shù)量級,已經(jīng)不是"多喂點(diǎn)數(shù)據(jù)"那么簡單了,它會面臨一個巨大的工程問題。

模型可能學(xué)得慢,可能訓(xùn)練不穩(wěn)定,甚至訓(xùn)練到一半直接崩了。

V4 的論文里面也提到了,訓(xùn)練過程遇到了突然抽風(fēng)的情況,誤差率突然爆炸,而且會反復(fù)出現(xiàn)。

這時候,Muon 就出現(xiàn)了。

它不是模型,也不是功能,而是訓(xùn)練模型時的"學(xué)習(xí)方法"。它決定模型每一步該怎么調(diào)整參數(shù),往哪個方向改,改多大。

所以,如果說 CSA/HCA 解決的是"看得太多太貴",mHC 解決的是"傳得太遠(yuǎn)不穩(wěn)",那么 Muon 解決的就是:

這么大的模型,怎么才能更快、更穩(wěn)地學(xué)會。

01Muon 到底是什么

Muon 其實(shí)就是訓(xùn)練大模型時用的優(yōu)化器

通俗講,模型訓(xùn)練就是不斷犯錯、不斷修改參數(shù)的過程,這就好比我們教一個小孩學(xué)游泳,它會不斷犯錯、我們不斷的給他糾正,最后他終于學(xué)會了。

如果你教一個孩子,這樣的方法還應(yīng)付得過來,假設(shè)讓你同時教 1000 個孩子,你肯定直接崩潰了。

這就是傳統(tǒng)方法遇到的問題,一旦遇到超大規(guī)模、超多參數(shù)的模型訓(xùn)練,成本和效率根本扛不住。

現(xiàn)在假設(shè)有套 AI 系統(tǒng),讓隨時監(jiān)控到每個孩子的動作姿勢以及各種我們需要知道的數(shù)據(jù),如果發(fā)現(xiàn)錯了,直接進(jìn)行提示,也許我們可以輕松應(yīng)對 1000 個孩子的教學(xué)。


Muon 的作用也類似:這個優(yōu)化器決定的是,模型每次犯錯之后,下一步到底該往哪個方向改,改多大。

它讓模型在訓(xùn)練時更快收斂,也更穩(wěn)定

DeepSeek V4 論文里也明確說,他們在大部分模塊中使用 Muon,原因是它能帶來更快收斂和更好的訓(xùn)練穩(wěn)定性。

這句話翻譯成人話就是:它能讓模型少走彎路,學(xué)得更快,也更不容易訓(xùn)崩。


△圖:DeepSeek V4技術(shù)報告中關(guān)于Muon的單獨(dú)章節(jié)

02有意思的"夢幻聯(lián)動"

有意思的是,這么關(guān)鍵的東西并不是 DeepSeek 自己發(fā)明的。

DeepSeek V4 論文在 Muon 這一節(jié)里引用了兩篇工作:Jordan et al., 2024 和 Liu et al., 2025。

這里的 Liu et al., 2025,正是月之暗面團(tuán)隊之前圍繞 Muon 做的大模型訓(xùn)練研究。


△圖:月之暗面關(guān)于 Muon 的論文

換句話說,DeepSeek 這次用上的 Muon,背后不只是一個優(yōu)化器名字,也包含了包括月之暗面在內(nèi)的一系列前沿研究積累。

這聽起來很有戲劇性。

DeepSeek 和月之暗面,在模型產(chǎn)品和開源生態(tài)里,毫無疑問是競爭關(guān)系。

但到了底層訓(xùn)練方法上,它們卻在同一個關(guān)鍵方向上出現(xiàn)了交集。

這不是"誰抄誰",更不是簡單合作。

而是開源最有意思的地方:表面上大家在競爭,底層技術(shù)卻會互相流動。

03開源不只是免費(fèi)

很多人誤以為,開源就是免費(fèi)。

這樣理解就太偏了,而且把開源看小了。

開源真正有價值的地方,不只是"我把東西免費(fèi)給你用",而是我把一條被驗證過的技術(shù)路徑,交給更多人繼續(xù)往前推。

在很多前沿領(lǐng)域,大家其實(shí)都在摸著石頭過河。只不過,有人把自己摸到的經(jīng)驗封閉起來,寫成專利,鎖在公司內(nèi)部。

也有人愿意把它寫成論文、放出代碼、開放模型,讓更多人看到這條路到底走不走得通。

一個團(tuán)隊先摸到了一塊石頭,另一個團(tuán)隊就不必從河邊重新開始試探。它可以站在這個基礎(chǔ)上,把問題繼續(xù)往下做。

DeepSeek 一直以來都在做這樣的事情,現(xiàn)在我們看到國內(nèi)越來越多的模型公司都在做這件事。

今天我們終于看到,一直以為獨(dú)立作戰(zhàn)的他們,開始夢幻聯(lián)動了,這件事情特有意義。

在很多前沿的領(lǐng)域,技術(shù)并不會完全按照公司邊界流動。論文、開源、社區(qū)和工程實(shí)踐,會讓不同團(tuán)隊的經(jīng)驗彼此影響。

04同一條河,同一塊石頭

放到今天這個環(huán)境里,這件事更有意義。

國內(nèi)公司做大模型,大家都要面對更高的算力壓力,也要面對更復(fù)雜的外部限制。

這個時候,開源就不只是理想主義,它也是一種現(xiàn)實(shí)選擇。不過大家不要誤解,開源是針對全世界,不只是國內(nèi)。

大家都在同一條河里摸索。有人愿意把摸到的石頭標(biāo)出來,后來的人就能少摔幾跤,也能把精力放到更難的問題上。

所以,當(dāng)我們討論 DeepSeek V4 的時候,當(dāng)然可以討論它的參數(shù)規(guī)模、百萬 Token、榜單成績,也可以討論它到底用了多少國產(chǎn)算力。

但我覺得,像 Muon 這個細(xì)節(jié)同樣值得被看見。

它讓我們看到,大模型公司之間不只有競爭,也存在一種更隱性的技術(shù)交匯。

表面上,大家都在爭奪下一代最強(qiáng)開源模型的位置。但在更底層的技術(shù)世界里,一篇論文、一個優(yōu)化器、一套工程實(shí)踐,可能會被不同團(tuán)隊繼續(xù)接力。

這不是誰輸誰贏的問題,而是整個生態(tài)一起往前走的方式。

這才是"開源之火,可以燎原"真正動人的地方。

Muon 這種"競爭對手之間的技術(shù)接力",你覺得未來會更多還是更少?評論區(qū)聊聊你的看法覺得有用 → 點(diǎn)個??在看轉(zhuǎn)給還不知道的朋友點(diǎn)個贊 告訴我你看完了關(guān)注「AI范兒」,下次更新第一時間收到

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
baby帶小海綿現(xiàn)身港迪,素顏弓著背玩手機(jī)仍好美,3部手機(jī)搶鏡

baby帶小海綿現(xiàn)身港迪,素顏弓著背玩手機(jī)仍好美,3部手機(jī)搶鏡

柒佰娛
2026-06-26 09:41:09
江蘇600分以上40931人,看到這個數(shù)字我沉默了

江蘇600分以上40931人,看到這個數(shù)字我沉默了

馬蹄燙嘴說美食
2026-06-26 10:06:40
火箭軍黨委發(fā)表署名文章

火箭軍黨委發(fā)表署名文章

政知新媒體
2026-06-26 08:52:28
醫(yī)生:希望你的血脂報告里,永遠(yuǎn)不要出現(xiàn)這3項異常

醫(yī)生:希望你的血脂報告里,永遠(yuǎn)不要出現(xiàn)這3項異常

華庭講美食
2026-06-23 16:28:06
全球首款0.7nm芯片發(fā)布

全球首款0.7nm芯片發(fā)布

芯智訊
2026-06-25 20:05:25
空調(diào)“鋁代銅”爭議持續(xù)發(fā)酵 格力、松下、海爾三家立場清晰

空調(diào)“鋁代銅”爭議持續(xù)發(fā)酵 格力、松下、海爾三家立場清晰

鰲頭財經(jīng)
2026-06-23 17:41:39
大難臨頭各自飛!見福建艦現(xiàn)身南海:美國也不叫了,臺獨(dú)也不跳了

大難臨頭各自飛!見福建艦現(xiàn)身南海:美國也不叫了,臺獨(dú)也不跳了

騷年先鋒
2026-06-26 02:24:00
金價一夜大變天!6月26日,中國黃金最新價格、人民幣黃金最新價格

金價一夜大變天!6月26日,中國黃金最新價格、人民幣黃金最新價格

戶外釣魚哥阿旱
2026-06-26 13:56:15
“建議取消私生子繼承權(quán)!”專家話炸翻全網(wǎng):憑什么要為背叛買單

“建議取消私生子繼承權(quán)!”專家話炸翻全網(wǎng):憑什么要為背叛買單

一絲不茍的法律人
2026-06-25 11:22:53
極右翼“集大成者”,贏下哥倫比亞大選

極右翼“集大成者”,贏下哥倫比亞大選

鳳凰WEEKLY
2026-06-25 14:50:33
Here we go!羅馬諾:森林中場埃利奧特-安德森1.3億鎊加盟曼城

Here we go!羅馬諾:森林中場埃利奧特-安德森1.3億鎊加盟曼城

懂球帝
2026-06-26 05:10:11
發(fā)現(xiàn)一個有趣的現(xiàn)象:不管信不信,男人過了50,基本都有以下特征

發(fā)現(xiàn)一個有趣的現(xiàn)象:不管信不信,男人過了50,基本都有以下特征

小書蟲媽媽
2026-06-25 12:36:46
全網(wǎng)看哭!698分高考少年查分當(dāng)場崩潰:沒人撐腰的孩子

全網(wǎng)看哭!698分高考少年查分當(dāng)場崩潰:沒人撐腰的孩子

手工制作阿愛
2026-06-26 02:32:17
《火遮眼》超越《哪吒》,北美票房近4000萬,目前勉強(qiáng)回本

《火遮眼》超越《哪吒》,北美票房近4000萬,目前勉強(qiáng)回本

影視高原說
2026-06-25 14:59:30
委內(nèi)瑞拉強(qiáng)震前后最新衛(wèi)星圖像對比,重災(zāi)區(qū)建筑損毀嚴(yán)重,委代總統(tǒng)視察現(xiàn)場,幸存者:就像恐怖片

委內(nèi)瑞拉強(qiáng)震前后最新衛(wèi)星圖像對比,重災(zāi)區(qū)建筑損毀嚴(yán)重,委代總統(tǒng)視察現(xiàn)場,幸存者:就像恐怖片

揚(yáng)子晚報
2026-06-26 14:41:32
央視宋世雄,晚年選擇87歲獨(dú)居北京,這一決定刺痛無數(shù)中國式家庭

央視宋世雄,晚年選擇87歲獨(dú)居北京,這一決定刺痛無數(shù)中國式家庭

人生錄
2026-06-22 16:37:13
毛主席為何頻繁更換貼身警衛(wèi)員?越是忠心的人,越會被主動調(diào)離

毛主席為何頻繁更換貼身警衛(wèi)員?越是忠心的人,越會被主動調(diào)離

小莜讀史
2026-06-25 15:45:24
武漢監(jiān)委原委員之子在港洗錢6400萬!辯稱“賣比特幣”被當(dāng)庭駁回

武漢監(jiān)委原委員之子在港洗錢6400萬!辯稱“賣比特幣”被當(dāng)庭駁回

聽心堂
2026-06-25 09:16:46
伊朗專家:全世界都要感謝伊朗,是伊朗治好了全世界的美軍恐懼癥

伊朗專家:全世界都要感謝伊朗,是伊朗治好了全世界的美軍恐懼癥

農(nóng)夫史記
2026-06-22 20:56:04
英國插手臺島第2天,中國在聯(lián)合國發(fā)聲:中國支持阿根廷對馬島主權(quán)

英國插手臺島第2天,中國在聯(lián)合國發(fā)聲:中國支持阿根廷對馬島主權(quán)

阿龍聊軍事
2026-06-26 13:46:39
2026-06-26 16:19:00
AI范兒 incentive-icons
AI范兒
AI范兒是一個專注于人工智能領(lǐng)域的資訊和學(xué)習(xí)平臺,提供最新的人工智能資訊
772文章數(shù) 679關(guān)注度
往期回顧 全部

科技要聞

美國政府要求OpenAI分批發(fā)布GPT-5.6

頭條要聞

男子20多年前考入大學(xué)后不滿專業(yè)輟學(xué) 在山林中被發(fā)現(xiàn)

頭條要聞

男子20多年前考入大學(xué)后不滿專業(yè)輟學(xué) 在山林中被發(fā)現(xiàn)

體育要聞

三球換里德:森林狼和黃蜂誰更癲?!

娛樂要聞

劉嘉玲想放棄梁朝偉,沒有自理能力

財經(jīng)要聞

懸在科技頭上的達(dá)摩克利斯之劍

汽車要聞

老板們的新座駕!65萬元起,尊界V800/V680開啟預(yù)訂

態(tài)度原創(chuàng)

家居
游戲
本地
公開課
軍事航空

家居要聞

綠意盎然 自然之境

2026情懷紀(jì)實(shí)!KK對戰(zhàn)平臺社區(qū)調(diào)研:仙劍奇?zhèn)b傳影響了幾代中國玩家?

本地新聞

2026世界杯全勤太難?這份保姆級攻略請收好

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗:駛離指定航線船舶不享有安全保障

無障礙瀏覽 進(jìn)入關(guān)懷版