![]()
![]()
![]()
2026年4月24日,DeepSeek-AI正式發布DeepSeek-V4系列預覽版本,該系列包含兩款強大的混合專家(Mixture-of-Experts, MoE)語言模型——DeepSeek-V4-Pro與DeepSeek-V4-Flash,同時配套推出DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro-Base兩個基礎版本,全方位覆蓋不同推理需求場景。作為開源大模型領域的重要更新,DeepSeek-V4系列在架構優化、推理效率、任務適配性上實現多重突破,支持百萬token上下文長度,在代碼、數學、推理、智能體等多類任務中表現亮眼,甚至在部分基準測試中逼近領先閉源模型,成為當前開源大模型領域的標桿之作。本文將對DeepSeek-V4全系列模型進行全面、詳細的拆解,涵蓋模型簡介、架構升級、下載方式、評測結果、使用方法等核心內容,助力開發者快速掌握模型特性、高效上手部署。
一、DeepSeek-V4系列核心模型整體概述
DeepSeek-V4系列是DeepSeek-AI推出的新一代MoE架構語言模型,核心定位是“高效能、長上下文、多場景適配”,預覽版本包含四款核心模型,分別為DeepSeek-V4-Flash、DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro、DeepSeek-V4-Pro-Base,其中DeepSeek-V4-Flash與DeepSeek-V4-Pro為核心功能版本,Base版本則提供基礎模型支持,滿足不同開發者的輕量化或定制化需求。
兩款核心功能模型(DeepSeek-V4-Flash與DeepSeek-V4-Pro)均采用混合專家(MoE)架構,支持百萬token(1M)的上下文長度,這意味著模型能夠處理超長文本輸入,適配長文檔分析、多輪對話、代碼審計等復雜場景。二者的核心差異集中在參數量與性能定位上:DeepSeek-V4-Pro總參數量達1.6T,激活參數量49B,主打高性能、全場景覆蓋;DeepSeek-V4-Flash總參數量284B,激活參數量13B,主打輕量化、高效推理,在控制資源占用的同時兼顧性能表現。
值得注意的是,DeepSeek-V4-Pro與DeepSeek-V4-Flash均支持三種推理強度模式,可根據實際任務需求靈活切換,同時推出Max推理模式(DeepSeek-V4-Pro-Max、DeepSeek-V4-Flash-Max),進一步挖掘模型推理潛力,其中DeepSeek-V4-Pro-Max穩居當前最佳開源模型之列,大幅縮小了與領先閉源模型的差距。
二、DeepSeek-V4系列核心架構與優化升級
DeepSeek-V4系列在架構設計與訓練優化上引入多項關鍵創新,核心目標是提升長上下文處理效率、訓練穩定性與模型表達能力,具體升級點如下:
2.1 混合注意力架構:大幅提升長上下文處理效率
為解決長上下文場景下推理效率低、資源占用高的痛點,DeepSeek-V4系列設計了混合注意力機制,創新性地結合壓縮稀疏注意力(Compressed Sparse Attention, CSA)與重度壓縮注意力(Heavily Compressed Attention, HCA),實現了長上下文處理效率的顯著提升。
該架構的核心優勢的在于“精準壓縮、高效計算”:通過CSA與HCA的協同作用,在保留關鍵信息的前提下,對注意力權重進行合理壓縮,減少冗余計算。官方測試數據顯示,在百萬token上下文場景下,DeepSeek-V4-Pro相比上一代模型DeepSeek-V3.2,僅需27%的單token推理FLOPs(浮點運算次數)和10%的KV緩存,極大降低了長上下文推理的資源消耗,讓百萬token級別的長文本處理變得更加高效、可行。
2.2 流形約束超連接(mHC):增強跨層信號傳播穩定性
在傳統殘差連接的基礎上,DeepSeek-V4系列引入了流形約束超連接(Manifold-Constrained Hyper-Connections, mHC),進一步優化模型的跨層信號傳播機制。傳統殘差連接雖能緩解梯度消失問題,但在深層模型中仍存在信號衰減、傳播不穩定的問題,影響模型的表達能力與訓練效果。
mHC通過引入流形約束,對跨層信號傳播進行規范與增強,在保留模型原有表達能力的同時,顯著提升了跨層信號傳播的穩定性,讓深層模型的訓練更加順暢,有效避免了訓練過程中出現的梯度爆炸、模型退化等問題,為模型性能的提升奠定了架構基礎。
2.3 Muon優化器:實現更快收斂與更高訓練穩定性
訓練優化器是大模型訓練的核心組件,直接影響模型的收斂速度、訓練穩定性與最終性能。DeepSeek-V4系列采用全新的Muon優化器,相比傳統優化器(如Adam、SGD),Muon優化器在收斂速度與訓練穩定性上實現雙重提升。
通過優化學習率調度、梯度更新策略,Muon優化器能夠讓模型在訓練過程中更快收斂,減少訓練迭代次數,同時有效抑制訓練過程中的波動,提升訓練穩定性,確保模型能夠充分學習訓練數據中的特征,進一步挖掘模型的性能潛力。
2.4 預訓練與后訓練:打造多領域專業能力
DeepSeek-V4系列的兩款核心模型(DeepSeek-V4-Flash與DeepSeek-V4-Pro)均在超過32T高質量、多樣化token上進行了預訓練,涵蓋文本、代碼、數學、知識問答等多個領域,確保模型具備扎實的基礎能力。
在預訓練基礎上,模型經過全面的后訓練流程,采用兩階段范式,精準培養模型的領域專家能力:第一階段,通過監督微調(SFT)和基于GRPO的強化學習(RL),獨立培養模型在不同領域的專業能力,讓模型在代碼、數學、推理等特定領域形成核心優勢;第二階段,通過在線策略蒸餾(on-policy distillation)對模型進行統一整合,將多個領域的專業能力融合到單一模型中,實現“全領域覆蓋、各領域精通”的效果,讓模型能夠適配多樣化的任務需求。
2.5 Max推理模式:挖掘模型性能極限
DeepSeek-V4-Pro-Max是DeepSeek-V4-Pro的最大推理努力模式,經過針對性優化,顯著提升了開源模型的知識能力,穩居當前最佳開源模型之列。該模式下,模型在代碼基準測試中達到頂尖水平,在推理與智能體任務上大幅縮小了與領先閉源模型之間的差距,成為開源模型中少有的能夠與閉源模型同臺競技的存在。
與此同時,DeepSeek-V4-Flash-Max作為DeepSeek-V4-Flash的Max推理模式,在擁有更大推理預算的情況下,可實現與Pro版本相當的推理性能,能夠滿足中高端推理需求;但由于其參數規模較小(總參數量284B,激活參數量13B),在純知識類任務和最復雜的智能體工作流上,性能略遜于Pro版本,適合對資源占用有要求、推理難度適中的場景。
三、DeepSeek-V4全系列模型下載指南
DeepSeek-V4系列四款模型均支持通過HuggingFace與ModelScope兩個平臺下載,其中DeepSeek-V4-Flash-Base與DeepSeek-V4-Pro-Base還支持通過ModelScope SDK和Git命令下載,具體下載信息與操作步驟如下,開發者可根據自身需求選擇合適的下載方式。
3.1 全系列模型下載信息匯總
以下是DeepSeek-V4系列四款模型的核心參數與下載地址匯總,清晰呈現各模型的差異與下載渠道,方便開發者快速查詢:
模型名稱
總參數量
激活參數量
上下文長度
精度
下載渠道
DeepSeek-V4-Flash-Base
284B
13B
1M
FP8 混合
HuggingFace | ModelScope
DeepSeek-V4-Flash
284B
13B
1M
FP4 + FP8 混合*
HuggingFace | ModelScope
DeepSeek-V4-Pro-Base
1.6T
49B
1M
FP8 混合
HuggingFace | ModelScope
DeepSeek-V4-Pro
1.6T
49B
1M
FP4 + FP8 混合*
HuggingFace | ModelScope
注:FP4 + FP8 混合精度說明:MoE專家參數使用FP4精度;其余大部分參數使用FP8精度,該精度設置在保證模型性能的前提下,進一步降低了模型的存儲與推理資源占用。
3.2 DeepSeek-V4-Flash-Base下載方法
當前DeepSeek-V4-Flash-Base的貢獻者未提供更詳細的模型介紹,模型文件和權重可通過“模型文件”頁面獲取,也可通過以下兩種方式直接下載:
3.2.1 ModelScope SDK下載
首先需要安裝ModelScope SDK,然后通過代碼調用實現模型下載,具體步驟如下:
# 安裝ModelScope
pip install modelscope# SDK模型下載
from modelscope import snapshot_download
model_dir = snapshot_download('deepseek-ai/DeepSeek-V4-Flash-Base')
執行上述代碼后,模型將自動下載到指定目錄(默認目錄可通過ModelScope配置調整),下載完成后即可用于本地部署與推理。
3.2.2 Git下載
通過Git命令直接克隆模型倉庫,獲取模型文件與權重,具體命令如下:
# Git模型下載
git clone https://www.modelscope.cn/deepseek-ai/DeepSeek-V4-Flash-Base.git克隆完成后,進入對應目錄即可獲取模型的全部文件與權重,適合需要手動配置模型參數的開發者。
3.3 DeepSeek-V4-Pro-Base下載方法
與DeepSeek-V4-Flash-Base類似,DeepSeek-V4-Pro-Base未提供詳細模型介紹,模型文件和權重可通過以下兩種方式下載:
3.3.1 ModelScope SDK下載
安裝ModelScope SDK后,通過以下代碼下載模型:
3.3.2 Git下載# 安裝ModelScope(若已安裝可跳過)
pip install modelscope# SDK模型下載
from modelscope import snapshot_download
model_dir = snapshot_download('deepseek-ai/DeepSeek-V4-Pro-Base')
使用Git命令克隆模型倉庫,具體命令如下:
# Git模型下載
git clone https://www.modelscope.cn/deepseek-ai/DeepSeek-V4-Pro-Base.git3.4 核心模型(DeepSeek-V4-Flash/Pro)下載說明DeepSeek-V4-Flash與DeepSeek-V4-Pro可直接通過HuggingFace或ModelScope平臺下載,訪問對應平臺的模型頁面,按照平臺提示操作即可完成下載。其中,ModelScope平臺的模型地址分別為:
- DeepSeek-V4-Flash:可通過ModelScope搜索“deepseek-ai/DeepSeek-V4-Flash”獲取下載鏈接;
- DeepSeek-V4-Pro:可通過ModelScope搜索“deepseek-ai/DeepSeek-V4-Pro”獲取下載鏈接。
下載完成后,模型文件可直接用于本地推理、微調等任務,無需額外的權重轉換(若有特殊需求,可參考后續“本地運行”部分的說明)。
四、DeepSeek-V4系列模型詳細評測結果
為全面驗證DeepSeek-V4系列模型的性能,官方進行了多維度的基準測試,涵蓋基礎模型評測、指令微調模型評測、與前沿模型對比、不同推理模式對比四個維度,測試數據全面、詳實,能夠清晰反映各模型的性能表現與優勢場景。以下是完整的評測結果解析:
4.1 基礎模型評測結果
基礎模型評測主要針對DeepSeek-V3.2-Base、DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro-Base三款模型,從架構、參數量、世界知識、語言與推理、代碼與數學、長上下文六個維度進行測試,具體結果如下表所示:
基準測試(指標)
樣本數(Shots)
DeepSeek-V3.2-Base
DeepSeek-V4-Flash-Base
DeepSeek-V4-Pro-Base
架構
MoE
MoE
MoE
激活參數量
37B
13B
49B
總參數量
671B
284B
1.6T
世界知識
AGIEval (EM)
0-shot
80.1
82.6
83.1
MMLU (EM)
5-shot
87.8
88.7
90.1
MMLU-Redux (EM)
5-shot
87.5
89.4
90.8
MMLU-Pro (EM)
5-shot
65.5
68.3
73.5
MMMLU (EM)
5-shot
87.9
88.8
90.3
C-Eval (EM)
5-shot
90.4
92.1
93.1
CMMLU (EM)
5-shot
88.9
90.4
90.8
MultiLoKo (EM)
5-shot
38.7
42.2
51.1
Simple-QA verified (EM)
25-shot
28.3
30.1
55.2
SuperGPQA (EM)
5-shot
45.0
46.5
53.9
FACTS Parametric (EM)
25-shot
27.1
33.9
62.6
TriviaQA (EM)
5-shot
83.3
82.8
85.6
語言與推理
BBH (EM)
3-shot
87.6
86.9
87.5
DROP (F1)
1-shot
88.2
88.6
88.7
HellaSwag (EM)
0-shot
86.4
85.7
88.0
WinoGrande (EM)
0-shot
78.9
79.5
81.5
CLUEWSC (EM)
5-shot
83.5
82.2
85.2
代碼與數學
BigCodeBench (Pass@1)
3-shot
63.9
56.8
59.2
HumanEval (Pass@1)
0-shot
62.8
69.5
76.8
GSM8K (EM)
8-shot
91.1
90.8
92.6
MATH (EM)
4-shot
60.5
57.4
64.5
MGSM (EM)
8-shot
81.3
85.7
84.4
CMath (EM)
3-shot
92.6
93.6
90.9
長上下文
LongBench-V2 (EM)
1-shot
40.2
44.7
51.5
從基礎模型評測結果可以看出:
1. 參數量優勢:DeepSeek-V4-Pro-Base總參數量(1.6T)和激活參數量(49B)遠超另外兩款模型,為其性能優勢奠定了基礎;DeepSeek-V4-Flash-Base雖然激活參數量(13B)最小,但整體性能優于上一代模型DeepSeek-V3.2-Base,體現了架構優化的價值。
2. 世界知識表現:三款模型中,DeepSeek-V4-Pro-Base在所有世界知識類基準測試中均表現最佳,尤其是Simple-QA verified(55.2)、FACTS Parametric(62.6)等指標,大幅領先于另外兩款模型;DeepSeek-V4-Flash-Base在C-Eval(92.1)、CMMLU(90.4)等中文知識測試中表現突出,適合中文場景應用。
3. 語言與推理表現:三款模型整體表現接近,DeepSeek-V4-Pro-Base在HellaSwag(88.0)、WinoGrande(81.5)等推理類指標中略勝一籌,DeepSeek-V4-Flash-Base在DROP(88.6)指標中表現最佳,體現了輕量化模型的推理優勢。
4. 代碼與數學表現:DeepSeek-V4-Pro-Base在HumanEval(76.8)、MATH(64.5)等核心指標中表現最佳,適合復雜代碼與數學任務;DeepSeek-V4-Flash-Base在CMath(93.6)指標中表現突出,在基礎數學任務中具備優勢;DeepSeek-V3.2-Base在BigCodeBench(63.9)指標中領先,但其整體代碼能力不及DeepSeek-V4系列模型。
5. 長上下文表現:DeepSeek-V4-Pro-Base(51.5)> DeepSeek-V4-Flash-Base(44.7)> DeepSeek-V3.2-Base(40.2),充分體現了DeepSeek-V4系列在長上下文處理上的優化效果,尤其是Pro版本,能夠更好地適配超長文本場景。
4.2 指令微調模型:三種推理模式詳解
DeepSeek-V4-Pro和DeepSeek-V4-Flash均支持三種推理強度模式,不同模式針對不同的任務場景設計,具備不同的特點與回復格式,開發者可根據任務需求靈活選擇,具體如下表所示:
推理模式
特點
典型應用場景
回復格式
Non-think
快速、直觀的響應
日常例行任務、低風險決策
總結
Think High
有意識的邏輯分析,速度較慢但更準確
復雜問題求解、規劃
思考過程 總結
Think Max
將推理能力發揮到極致
探索模型推理能力的邊界
特殊系統提示 + 思考過程 總結
三種推理模式的核心差異在于“推理深度”與“響應速度”的平衡:Non-think模式追求高效,適合簡單、高頻的日常任務;Think High模式兼顧速度與準確性,適合中等復雜度的推理與規劃任務;Think Max模式追求極致準確性,適合復雜、高風險的任務,能夠充分挖掘模型的推理潛力。
4.3 DeepSeek-V4-Pro-Max與前沿模型對比
為驗證DeepSeek-V4-Pro-Max的性能水平,官方將其與當前主流前沿模型(Opus-4.6 Max、GPT-5.4 xHigh、Gemini-3.1-Pro High等)進行對比測試,涵蓋知識與推理、長上下文、智能體能力三個維度,具體結果如下表所示:
基準測試(指標)
Opus-4.6 Max
GPT-5.4 xHigh
Gemini-3.1-Pro High
K2.6 Thinking
GLM-5.1 Thinking
DS-V4-Pro Max
知識與推理
MMLU-Pro (EM)
89.1
87.5
91.0
87.1
86.0
87.5
SimpleQA-Verified (Pass@1)
46.2
45.3
75.6
36.9
38.1
57.9
Chinese-SimpleQA (Pass@1)
76.4
76.8
85.9
75.9
75.0
84.4
GPQA Diamond (Pass@1)
91.3
93.0
94.3
90.5
86.2
90.1
HLE (Pass@1)
40.0
39.8
44.4
36.4
34.7
37.7
LiveCodeBench (Pass@1)
88.8
91.7
89.6
93.5
Codeforces (Rating)
3168
3052
3206
HMMT 2026 Feb (Pass@1)
96.2
97.7
94.7
92.7
89.4
95.2
IMOAnswerBench (Pass@1)
75.3
91.4
81.0
86.0
83.8
89.8
Apex (Pass@1)
34.5
54.1
60.9
24.0
11.5
38.3
Apex Shortlist (Pass@1)
85.9
78.1
89.1
75.5
72.4
90.2
長上下文
MRCR 1M (MMR)
92.9
76.3
83.5
CorpusQA 1M (ACC)
71.7
53.8
62.0
智能體能力
Terminal Bench 2.0 (Acc)
65.4
75.1
68.5
66.7
63.5
67.9
SWE Verified (Resolved)
80.8
80.6
80.2
80.6
SWE Pro (Resolved)
57.3
57.7
54.2
58.6
58.4
55.4
SWE Multilingual (Resolved)
77.5
76.7
73.3
76.2
BrowseComp (Pass@1)
83.7
82.7
85.9
83.2
79.3
83.4
HLE w/ tools (Pass@1)
53.1
52.0
51.6
54.0
50.4
48.2
GDPval-AA (Elo)
1619
1674
1314
1482
1535
1554
MCPAtlas Public (Pass@1)
73.8
67.2
69.2
66.6
71.8
73.6
Toolathlon (Pass@1)
47.2
54.6
48.8
50.0
40.7
51.8
從對比結果可以看出,DeepSeek-V4-Pro-Max在多個維度表現亮眼,核心優勢如下:
1. 知識與推理:在Chinese-SimpleQA(84.4)、LiveCodeBench(93.5)、Codeforces(3206)、Apex Shortlist(90.2)等指標中表現突出,其中LiveCodeBench和Codeforces指標超越多數前沿模型,體現了其在中文知識和代碼領域的核心優勢;在GPQA Diamond(90.1)、HMMT 2026 Feb(95.2)等指標中接近頂尖水平,知識儲備與推理能力強勁。
2. 長上下文:在MRCR 1M(83.5)、CorpusQA 1M(62.0)指標中表現優異,雖然不及Opus-4.6 Max,但遠超Gemini-3.1-Pro High,充分體現了其百萬token上下文的處理能力,適合長文檔分析等場景。
3. 智能體能力:在SWE Verified(80.6)、BrowseComp(83.4)、MCPAtlas Public(73.6)等指標中表現出色,與領先模型差距較小,能夠較好地適配智能體相關任務,具備較強的工具調用與任務執行能力。
整體而言,DeepSeek-V4-Pro-Max作為開源模型,在多個核心指標上逼近甚至超越部分閉源模型,大幅縮小了開源與閉源模型之間的差距,成為當前開源大模型的佼佼者。
4.4 不同推理模式下的性能對比
為清晰呈現不同推理模式對模型性能的影響,官方測試了DeepSeek-V4-Flash與DeepSeek-V4-Pro在三種推理模式下的表現,涵蓋知識與推理、長上下文、智能體能力三個維度,具體結果如下表所示:
基準測試(指標)
V4-Flash Non-Think
V4-Flash High
V4-Flash Max
V4-Pro Non-Think
V4-Pro High
V4-Pro Max
知識與推理
MMLU-Pro (EM)
83.0
86.4
86.2
82.9
87.1
87.5
SimpleQA-Verified (Pass@1)
23.1
28.9
34.1
45.0
模型地址:modelscope.cn/collections/deepseek-ai/DeepSeek-V4
我們相信人工智能為普通人提供了一種“增強工具”,并致力于分享全方位的AI知識。在這里,您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業洞察。 歡迎關注“福大大架構師每日一題”,發消息可獲得面試資料,讓AI助力您的未來發展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.