網易首頁 > 網易號 > 正文 申請入駐

DeepSeek V4報告太詳盡了!484天換代之路全公開

0
分享至

  • henry 發自 凹非寺
    量子位 | 公眾號 QbitAI

DeepSeek V4“遲到”半年,但發布后的好評如潮還在如潮。

中外熱搜上了一整圈,科技媒體的版面今天都讓給了它,OpenAI也成了它的陪襯。





大家驚嘆于DeepSeek在有限條件下作出重大突破的創造力,也佩服其在2026年,還能堅定選擇開源路線的決心。





可以說,一時間信息多的有些超載,但多歸多,主線就兩條。

第一條,百萬token上下文全面開源,KVcache大幅縮減。

V4-Pro和V4-Flash,1.6萬億參數/2840億參數上下文都是1M。1M場景下,V4-Pro的單token FLOPs只有V3.2的27%,KV cache只有10%。

亞馬遜硬件師GPD表示,這意味著DeepSeek可能解決當前的HBM短缺問題。



第二條,國產芯片適配,已經支持華為算力,預計下半年昇騰950超節點批量上市。



此外,大家最關心的,還莫過于在過去四個月中,DeepSeek陸續放出了幾篇「可能進V4」的論文,今天技術報告開源了,可以對一下賬。

  • mHC(流形約束超連接):2025年12月31日上傳arXiv,梁文鋒掛名。進了V4。
  • Engram(條件記憶模塊):1月DeepSeek聯合北大發布。沒進V4,但在未來方向里被點名,留給V5。
  • DualPipe:V3老伙計。繼續用,針對mHC做了調整。
  • Muon優化器:從Kimi那邊借的。V4把AdamW替了,接管絕大多數參數的訓練。

四個預期,三個落地,一個給下一代。



整體架構

V4這一代,是DeepSeek系列里動刀最多的一版。相比V3,V4在三個地方做了升級。

第一,引入mHC(Manifold-Constrained Hyper-Connections)強化殘差連接。

第二,設計hybrid attention架構,CSA和HCA交替疊加,解決長文效率問題。

第三,采用Muon作為主優化器。



MoE部分仍然用DeepSeekMoE,MTP(Multi-Token Prediction)模塊跟V3保持一致。

一些細節微調包括,affinity score的激活函數從Sigmoid換成了Sqrt(Softplus(·)),去掉了routing target nodes的數量約束,前幾層dense FFN換成了用Hash routing的MoE層。

接下來,我們一個個看。

mHC,給殘差連接加一層約束

殘差連接是何愷明2016年在ResNet里提出來的,十年沒怎么變過。模型一層一層堆,梯度沿著殘差往回傳,這是深度學習能work的前提。

但模型越來越深、參數越來越多之后,傳統殘差開始露怯,信號傳遞不穩,訓練容易崩。



先說Hyper-Connections(HC),這是Kimi團隊之前提出的想法。核心是把殘差流從一維變成n_hc條并行通道,每層之間通過一個矩陣B來混合。

A、B、C是三個線性映射。想法很優雅,相當于給殘差流增加了一個新的scaling維度。但DeepSeek在堆多層時發現,HC經常出現數值不穩定,訓練說崩就崩。

V4的做法叫mHC,把矩陣B約束到「雙隨機矩陣」的流形上(數學上叫Birkhoff polytope),行和列都歸一化為1。這個約束帶來兩個好處。

  • 矩陣的譜范數天然不超過1,殘差傳播套上硬上限,爆不起來。
  • 這種矩陣在乘法下是封閉的,堆很多層也穩。

輸入映射A和輸出映射C則通過Sigmoid函數保證非負且有界,避免信號互相抵消。

實現上用Sinkhorn-Knopp迭代,交替做行歸一化和列歸一化,迭代20次收斂。整個過程對每一層都跑一遍。

聽起來貴,但DeepSeek做了fused kernel,再配合選擇性recomputation,實測mHC帶來的wall-time開銷控制在overlapped pipeline的6.7%。

技術判斷上,mHC不是那種讓人眼前一亮的架構創新,更像是一個「穩得住大模型」的工程補丁。但隨著模型深度和參數量繼續往上推,這種補丁會變成剛需。

混合注意力機制

這是全篇論文最厚的一塊,也是「百萬token效率」的核心魔法所在。

V4的注意力層不是一種,是兩種交替使用的結構,CSA(Compressed Sparse Attention)和HCA(Heavily Compressed Attention)。

CSA做兩件事,先壓縮,再稀疏選擇



第一步,KV壓縮。每m個token的KV entries,通過一個帶學習權重的attention-like機制壓成一個。

第二步,lightning indexer + top-k選擇。這部分繼承自V3.2的DSA。對每個query token,用一個輕量的indexer計算它和每個壓縮KV塊的相關性分數。

第三步,core attention。在選中的這top-k壓縮KV塊上做Multi-Query Attention,得到注意力輸出。

第四步,grouped output projection。因為V4把head dimension c設成了512(比V3.2的128大得多),如果直接把所有head的輸出投影回d維會很貴,所以做了分組投影,把n_h個head分成g組,每組先投影到一個中間維度d_g,最后再合并投影回d。

整個CSA等于做了兩層壓縮。第一層是序列長度壓縮,n變成n/m。第二層是稀疏選擇,n/m變成top-k。對1M token的序列,原本需要attend 1M個token,現在只需要attend 1024個壓縮塊。

HCA的思路更簡單粗暴,壓得更狠,但不做稀疏。



壓縮率m’=128,每128個token壓成一個。壓縮過程也沒有CSA那樣的overlap,直接每m’個一組壓。然后對所有壓縮后的KV做dense attention。

論文里沒有長篇大論地解釋CSA和HCA為什么要配對使用,但讀完整個architecture章節,能看出它們的分工。

CSA的壓縮溫和、靠稀疏把關,適合做token-level的精細檢索。HCA的壓縮兇猛、保持dense,適合做長距離的全局信號匯總。

V4把兩者層層交替。Pro有61層,Flash有43層,CSA和HCA一層一層往上疊。既不漏細節,也不被細節拖住。

此外,論文還透露了幾個trick。

Q/KV normalization。CSA和HCA在core attention之前,都對query和KV entries做一次RMSNorm,防止attention logits爆炸。

Partial RoPE。只對query和KV entries的最后64維施加旋轉位置編碼,其余維度不動。

因為KV entries既做key又做value,naive的RoPE會讓輸出帶上絕對位置信息,所以在output端也對應施加一個位置為-i的RoPE來抵消,只保留相對位置信息。這是個巧妙的工程處理。

Sliding window attention作為輔助分支。

因為壓縮注意力保證嚴格因果性,一個query token看不到自己壓縮塊內其他token的信息。為了補償近距離依賴,V4額外加了一個sliding window分支,每個query除了看壓縮KV之外,還能看最近128個token的uncompressed KV。

Attention sink。借鑒OpenAI和StreamingLLM的trick,在attention分母上加一個learnable sink logit,允許attention score總和不等于1。

這在長序列里尤其有用,能避免模型被迫把注意力均攤。

Muon優化器

V4訓練中絕大多數參數優化用的不是AdamW,是Muon。

Muon是前幾年Keller Jordan那批人(他現在在OpenAI)在小模型上驗證過的優化器,基于矩陣正交化。

它只優化2D參數矩陣,其他參數(embedding、prediction head、RMSNorm權重、mHC的靜態偏置等)還是走AdamW。

Muon在LLM規模上的第一次大規模驗證是Kimi K2。 2025年,Moonshot用Muon(加上他們自己的QK-Clip變種,合稱MuonClip)訓了一個1T參數的MoE,15.5T token,全程零崩潰。

現在DeepSeek也用上了。不過他們做了自己的版本,hybrid Newton-Schulz迭代,10步分兩段。

  • 前8步用激進系數,快速把奇異值推向1附近。
  • 后2步用溫和系數,精確地把奇異值穩定在1。

這里有個細節值得注意。Kimi用Muon需要QK-Clip來防止attention logits爆炸,DeepSeek沒用這招。他們的理由是,V4的注意力架構允許直接對query和KV做RMSNorm,從源頭把爆炸的可能壓住了。

兩家公司,同一個優化器,解決同一個問題,走的是兩條路。這種跨團隊的技術共享和各自演化,是2026年開源社區最有意思的一面。

模型訓練

DeepSeek-V4系列在預訓練數據量上實現了翻倍。

對比V3僅用14.8T Token訓練,V4-Flash 與 V4-Pro 的數據消耗量分別達到了32T和33T。訓練數據量整整翻了一倍多(增長約 1.2 倍)

數據構成上,長文檔數據單獨curate,優先收錄科學論文和技術報告這類有學術價值的長材料。tokenizer仍用V3的128K詞表。

在模型架構上,V4-Flash,43層,隱藏維度4096。

MoE用1個shared expert + 256個routed experts,每token激活6個。總參數284B,激活13B。

V4-Pro,61層,隱藏維度7168。MoE用1個shared expert + 384個routed experts,每token激活6個。總參數1.6T,激活49B。

訓練調度上,序列長度走四段,4K → 16K → 64K → 1M。sparse attention不是從頭打開,前1T token用dense attention做warmup,擴到64K時才introduce sparsity。

論文表示,訓練中間出過一次嚴重的loss spike,DeepSeek摸到兩個土辦法,Anticipatory Routing和SwiGLU Clamping。論文原話非常誠實,這兩個trick work,但底層機理仍是open question。

一個訓練了兩個萬億參數MoE的團隊公開承認「我們不知道為什么這兩個trick管用」,在2026年已經是一件挺稀罕的事。

在后訓練階段,V4這一代做了一次方法論替換,傳統的mixed RL階段被On-Policy Distillation(OPD)完全替代。

流程分兩步。

第一步,訓domain specialist。

數學、代碼、agent、指令跟隨四個領域,各自獨立訓一個expert。先SFT打底,再用GRPO做domain-specific RL。V4還引入了三檔reasoning effort mode,Non-think、Think High、Think Max,每檔輸出長度不同。

第二步,OPD合并。

十幾個expert通過on-policy distillation合進一個統一的student。student自己rollout,最小化reverse KL向對應領域的expert對齊。數學任務向數學expert靠,編程任務向編程expert靠。

方法論聽起來很優雅。但工程上裝不下,十幾個teacher每個都是萬億級,vocab size超過10萬。

V4的做法是teacher權重offload到分布式存儲按需加載,只緩存hidden states不materialize logits,按teacher排序樣本保證每個mini-batch只加載一個teacher head。

一套看似優雅的后訓練方法論,背后是一堆「不這樣做就裝不下」的工程妥協。

實驗結論

在實驗部分,有三件最值得說的事。



開源領先。

SimpleQA-Verified上V4-Pro-Max拿到57.9,K2.6是36.9,GLM-5.1是38.1。領先所有開源模型20個百分點。

匹敵閉源。

Codeforces rating 3206,超過了GPT-5.4的3168和Gemini-3.1-Pro的3052,在人類選手榜單上排名第23。開源模型匹敵閉源頭部,這次是真的匹敵了。

差距仍在。

HLE上V4-Pro-Max 37.7,Gemini-3.1-Pro 44.4,Claude-Opus-4.6-Max 40.0。1M MRCR上V4優于Gemini但明顯不如Claude。知識類和最前沿的推理任務仍有3-6個月的gap。

論文中,DeepSeek表示:

  • DeepSeek-V4-Pro-Max在標準推理benchmark上優于GPT-5.2和Gemini-3.0-Pro,但略落后于GPT-5.4和Gemini-3.1-Pro。這表明其發展軌跡大約落后最前沿閉源模型3到6個月。

Flash-Max可能是這篇論文最被低估的一部分。

V4-Flash-Max只激活13B參數,推理任務上能打平GPT-5.2和Gemini-3.0-Pro,代碼和數學甚至超過K2.6-Thinking。

如果只看激活參數量,這是目前效率最極致的推理模型之一。

現實任務里最值得提的是內部R&D代碼benchmark,V4-Pro-Max 67%,接近Claude Opus 4.5的70%。

85人的內部開發者調研里,91%表示V4-Pro可以作為主力coding模型。

在官方的推文中,也側面印證了這個說法:

  • 目前DeepSeek-V4已成為公司內部員工使用的Agentic Coding模型,據評測反饋使用體驗優于Sonnet 4.5,交付質量接近Opus 4.6非思考模式,但仍與Opus 4.6思考模式存在一定差距。

在論文的最后,DeepSeek也表示:

  • 為了追求極致的長文效率,V4系列采取了一個相對激進的架構設計。為了降低風險,我們保留了許多已經驗證過的組件和trick,這讓架構變得相對復雜。在未來的迭代中,我們將進行更全面、更有原則的研究,把架構精簡到最本質的部分。

未來方向幾條,探索新維度的sparsity(點名了Engram那條線)、低延遲架構、長時程多輪agentic任務、多模態、更好的數據curation。

有個蠻有意思的小細節,在形式化數學評測中,DeepSeek也皮了一下友商:

  • 我們在K2.6和GLM-5.1的部分條目留空了,因為它們的API太忙,沒法及時返回我們查詢的結果。



太火了,就是說。

總結

把V4放回DeepSeek的完整路徑里看,它不是在追趕frontier。

過去三年的趨勢非常清晰。閉源大廠追求的是能力上限,誰家的模型能在HLE上拿更高分。DeepSeek追求的一直是另一條線,同樣能力下的成本下限。

V4把這件事推到了百萬token。一個1M的上下文,在V3.2的成本結構下是不可持續的,KV cache會把顯存吃光。V4把它壓到V3.2的10%,成本曲線突然打直了。



那結果會怎樣呢。一個很長的agent會話,一份反復回讀的技術文檔,一次跨多倉庫的重構,這些過去要切窗口、要加retrieval、要精心管理上下文的場景,在V4這里變成了「全塞進去看看再說」。

DeepSeek這幾年做的事,底層動作很清晰,一直在刪。從V2的MLA開始,每一代都在刪KV cache、刪激活參數、刪注意力計算量。

刪到V4,單token推理FLOPs砍到四分之一,KV cache砍到十分之一。

百萬token不是一個新的能力,是同一個上下文窗口被壓到可以承擔的成本。

One more thing

論文的結尾有一份長長的貢獻者名單。

梁文鋒在其中。



其中有不少帶星號的名字,是已經離開團隊、但仍然對V4做出過重要貢獻的研究者。

過去這一年,關于DeepSeek人才流失的消息傳過好幾輪。但這份名單把他們的名字和V4這個大家等了整整一年多的模型,綁在了同一張紙上。

每一個人都算數,每一天也都算數。

V4發布當天,DeepSeek研究員陳德里在x上轉發并寫道:

DeepSeek-V3:2024年12月26日。

DeepSeek-V4:2026年4月24日。

484天后,我們謙卑地分享這份愛心的勞動。

一如既往,我們始終堅持長期主義和全民開源。

AGI屬于每個人。




[1]https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro

[2]https://arxiv.org/pdf/2512.24880

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中央紀委國家監委公開通報八起違反中央八項規定精神典型問題

中央紀委國家監委公開通報八起違反中央八項規定精神典型問題

新華社
2026-04-24 17:05:33
湖人3比0火箭:父子籃球玩耍烏度卡?

湖人3比0火箭:父子籃球玩耍烏度卡?

張佳瑋寫字的地方
2026-04-25 11:56:09
張軍被帶走傳聞多日,多種跡象表明情況嚴重,任職高校撤掉其信息

張軍被帶走傳聞多日,多種跡象表明情況嚴重,任職高校撤掉其信息

米修體育
2026-04-25 09:38:35
“我舉報自己”,官方最新回應

“我舉報自己”,官方最新回應

中國新聞周刊
2026-04-25 12:23:25
華晨宇演唱會延期哭了,撫仙湖居民發聲:那我們之前的犧牲算什么

華晨宇演唱會延期哭了,撫仙湖居民發聲:那我們之前的犧牲算什么

離離言幾許
2026-04-23 20:05:27
90%訂單消失,中東旺季沒了

90%訂單消失,中東旺季沒了

中國新聞周刊
2026-04-25 07:28:04
山西村支書駕鏟車掩埋村民,現場有多名民警。被埋村民仍在住院

山西村支書駕鏟車掩埋村民,現場有多名民警。被埋村民仍在住院

聽心堂
2026-04-24 21:15:50
女性動情(性興奮狀態)全身及私密部位和下體會有什么表現?

女性動情(性興奮狀態)全身及私密部位和下體會有什么表現?

荷蘭豆愛健康
2026-04-25 12:20:41
虎狼之詞啊!一公共女廁提示走紅網絡,“屙尿時對準坑位”引熱議

虎狼之詞啊!一公共女廁提示走紅網絡,“屙尿時對準坑位”引熱議

火山詩話
2026-04-25 06:12:02
芬蘭空軍學員駕飛機空中畫巨型不雅圖案 遭軍方譴責、網友抨擊

芬蘭空軍學員駕飛機空中畫巨型不雅圖案 遭軍方譴責、網友抨擊

環球趣聞分享
2026-04-24 13:10:17
5倍大牛股 宣布將“戴帽”, DeepSeek概念股稱可能“戴帽”

5倍大牛股 宣布將“戴帽”, DeepSeek概念股稱可能“戴帽”

每日經濟新聞
2026-04-25 12:22:54
美國巨星黛博拉,這大體格真壯實,誰人不愛呢

美國巨星黛博拉,這大體格真壯實,誰人不愛呢

可樂談情感
2026-04-25 10:41:48
泡泡瑪特:4月30日發售兩款Labubu冰箱,售價5999元,每款全球限量發售999臺

泡泡瑪特:4月30日發售兩款Labubu冰箱,售價5999元,每款全球限量發售999臺

魯中晨報
2026-04-24 20:08:07
黃一鳴回應:沒結婚一天找8個男的也沒關系 承認跟40歲大叔交往過

黃一鳴回應:沒結婚一天找8個男的也沒關系 承認跟40歲大叔交往過

奇思妙想草葉君
2026-04-24 22:03:45
提前起飛10分鐘,大學生把海航告了

提前起飛10分鐘,大學生把海航告了

中國新聞周刊
2026-04-24 18:21:10
特朗普發長文攻擊華裔和印度裔移民,你說集中營還遠嗎?

特朗普發長文攻擊華裔和印度裔移民,你說集中營還遠嗎?

談芯說科技
2026-04-24 22:05:35
上海人終于體會到了引進印度人的“快樂”!

上海人終于體會到了引進印度人的“快樂”!

步論天下事
2026-04-25 09:34:47
港媒:中國正從伊朗的廢墟中汲取關于“持久戰”的冷酷經驗

港媒:中國正從伊朗的廢墟中汲取關于“持久戰”的冷酷經驗

矚望云霄
2026-04-24 23:33:38
日本網友瘋換中文手機界面,直呼清爽十倍,中國文化悄悄出圈!

日本網友瘋換中文手機界面,直呼清爽十倍,中國文化悄悄出圈!

行者聊官
2026-04-24 20:48:30
急得滿頭大汗的印度,終于買到了尿素,但是和他們想的大不一樣!

急得滿頭大汗的印度,終于買到了尿素,但是和他們想的大不一樣!

達文西看世界
2026-04-25 11:40:56
2026-04-25 15:12:49
量子位 incentive-icons
量子位
追蹤人工智能動態
12534文章數 176457關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

"蚊子大軍"來襲北極圈也被攻破 各地疾控發出重要預警

頭條要聞

"蚊子大軍"來襲北極圈也被攻破 各地疾控發出重要預警

體育要聞

火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

娛樂要聞

鄧超最大的幸運,就是遇見孫儷

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

親子
房產
旅游
健康
公開課

親子要聞

當54歲的日本老公有了女兒,每天捧在手心都怕要化了!

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

旅游要聞

2026年聊城市沿黃沿運文旅融合主流媒體采風活動|東阿阿膠城開城儀式氛圍感拉滿 一秒穿越古今

干細胞如何讓燒燙傷皮膚"再生"?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版