![]()
星期五中午,本該是盤算周末去哪嗨的黃金時段。但沒想到 DeepSeek 突然反手就是一個超級加倍,就在剛剛,正式發布并開源了 V4 系列模型預覽版。
![]()
一上來就是王炸級別,而且雙雙標配百萬 token 上下文:
- 參數量達 1.6T 的 DeepSeek-V4-Pro(49B 激活參數)
- 284B 參數的 DeepSeek-V4-Flash(13B 激活參數)
即日起可在官網 chat.deepseek.com 或官方 App 體驗,API 服務同步上線。
DeepSeek V4 登場,Agent 玩家迎來大狂歡
Agent 能力是此次升級最核心的方向。
V4-Pro 已在 DeepSeek 內部作為 Agentic Coding 工具日常使用。
員工的實測反饋是:用起來比 Sonnet 4.5 順手,交付質量接近 Opus 4.6 非思考模式,和 Opus 4.6 思考模式相比還有差距。
官方內部 R&D 編程基準測試也給出了類似的定位,約 200 個來自 50 余位工程師的真實工作任務里,V4-Pro-Max 的 Pass Rate 是 67%,Sonnet 4.5 是 47%,Opus 4.5 Thinking 是 73%,Opus 4.6 Thinking 是 80%。
![]()
參與內部調研的 85 名有使用經驗的開發者和研究人員中,超過九成認為 V4-Pro 已經可以作為首選或接近首選的編程模型。
模型已針對 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 產品進行專項適配,代碼任務與文檔生成均有提升。
工具調用方面,V4 系列引入了新的 XML 格式 tool-call schema,以「|DSML|」特殊 token 劃定調用邊界。官方表示這一設計有效減少了轉義失敗和工具調用錯誤,比上一代更可靠。
![]()
知識與推理層面,V4-Pro 在世界知識測評中大幅領先其他開源模型。
SimpleQA-Verified 得分 57.9,比最接近的開源競爭者高出約 20 個百分點,只是略遜于 Gemini-3.1-Pro 的 75.6。數學、STEM、競賽代碼三項超越全部已公開評測的開源模型,達到頂級閉源模型水準。
基座模型層面,V4-Pro-Base 在 MMLU 5-shot、MMLU-Pro 5-shot、Simple-QA Verified 25-shot、LongBench-V2 長文本評測上的得分分別為 90.1、73.5、55.2、51.5,全面大幅領先參數量相近的 V3.2-Base(對應分別是 87.8、65.5、28.3、40.2)。
值得一提的是,參數量更小的 V4-Flash-Base 在多數基準測試中同樣超越了 V3.2-Base,說明架構層面的改進本身帶來了相當可觀的效率提升。
指令模型的橫向對比里,V4-Pro Max 的 LiveCodeBench Pass@1 達到 93.5,Codeforces Rating 達到 3206,均為參測模型中最高。
![]()
在 Codeforces 人類選手排行榜上,V4-Pro-Max 目前位列第 23 名。IMOAnswerBench Pass@1 達到 89.8,僅次于 GPT-5.4 的 91.4。競賽數學基準 HMMT 2026 Feb Pass@1 為 95.2,和 Opus-4.6 Max 的 96.2 及 GPT-5.4 的 97.7 差距很小。Apex Shortlist Pass@1 達到 90.2,超過同場對比的所有模型。
Agent 評測方面,SWE Verified Resolved 為 80.6,和 Opus-4.6 Max 的 80.8 基本持平。
BrowseComp Pass@1 為 83.4,MCPAtlas Public Pass@1 為 73.6,均處于參測模型前列。后兩項數字說明 V4 對 MCP 工具生態的兼容能力很扎實,并非只在內部框架上表現良好。
![]()
長文本評測上,MRCR 1M MMR 為 83.5,CorpusQA 1M ACC 為 62.0,超過 Gemini-3.1-Pro 的 76.3 和 53.8,但在 MRCR 上仍落后 Claude Opus 4.6 的 92.9。
從分段數據來看,128K 以內的檢索能力相當穩定,128K 之后開始出現明顯下滑,但 1M 時的表現依然超過大多數同類模型。
中文寫作同樣是 V4-Pro 的強項。
官方將 Gemini-3.1-Pro 作為中文寫作的對標基準模型,在包含 3170 條樣本的功能性寫作評測中,V4-Pro 的勝率為 62.7%,Gemini 為 34.1%。
創意寫作方面,V4-Pro 在寫作質量上的勝率達到 77.5%。不過遇到高難度指令約束或多輪寫作場景,Claude Opus 4.5 仍有優勢,勝率是 52.0% 對 45.9%。
別把 Flash 當「丐版」,選對思考模式才是王道
很多人看到 Pro 和 Flash 兩個檔位,第一反應是「Flash 就是降配版」。
錯,大錯特錯。 DeepSeek 的定位邏輯要更復雜,V4-Flash 的參數量和激活量都小得多,API 價格更有競爭力。推理能力和 Pro 很接近,世界知識儲備稍遜,
簡單 Agent 任務上兩者差距不大。真正拉開差距的是高難度任務,以及思考模式的選擇。
在 Think Max 模式下,V4-Flash 的推理性能可以大幅追近 Pro:LiveCodeBench Flash Max 達到 91.6,Codeforces Flash Max Rating 達到 3052,GPQA Diamond Pass@1 達到 88.1,IMOAnswerBench Pass@1 達到 88.4,和 Pro Max 的差距已相當有限。
![]()
日常任務用 Flash,遇到硬骨頭開 Think Max,性價比很高。
模式之間的性能落差遠比版本之間的落差大。以 V4-Pro 為例,HLE Pass@1 從非思考模式的 7.7 提升至 Max 模式的 37.7,Apex Pass@1 從 0.4 提升至 38.3,BrowseComp Pass@1 從無法評測躍升至 83.4。對于復雜任務,選對思考強度,比糾結選哪個版本要重要得多。
兩款模型均支持三種推理強度,可通過 reasoning_effort 參數切換。
非思考模式響應速度快,適合日常輕量任務;Think High 開啟顯式邏輯推理,適合復雜問題與規劃;Think Max 推理能力拉滿,適合探索模型上限,官方建議上下文窗口至少設置為 384K token,復雜 Agent 場景則直接設成 max。
Think Max 模式下還有一段額外注入到系統提示開頭的指令,要求模型「以絕對最大力度推理,不允許走捷徑」,并強制要求把每一步推理、每一個被否定的假設都顯式寫出來。
![]()
這種設計的效果從數據上看相當明顯,也解釋了為什么同一個模型在不同模式下的表現差距如此之大。
百萬長上下文,榨干每一個 token
百萬 token 上下文有不少模型都在宣傳,但撐起這個規模的工程代價是完全不一樣的。
DeepSeek V4 在架構層面做了比較大的調整。注意力機制是這次改動的核心。傳統的注意力計算量隨序列長度平方增長,上下文一長就成了最主要的計算瓶頸。
![]()
V4 引入了兩種壓縮注意力并交替使用。CSA 把每 m 個 token 的 KV 緩存壓縮為一條,再用稀疏注意力只挑其中 k 條參與核心計算;HCA 則用更激進的壓縮率,把更長區間的 token 壓縮為一條,但保持稠密注意力。
![]()
CSA 里還有一個閃電索引器,用 FP4 低精度快速算出每個查詢 token 和各壓縮塊之間的相關性得分,再挑出 top-k 個塊參與后續注意力,進一步壓縮計算量。為了避免壓縮損失局部細節,兩種注意力都額外引入了滑動窗口分支,讓每個 token 能完整看到最近的若干個相鄰 token。
效果是顯著的,在 1M 上下文場景下,V4-Pro 的單 token 推理計算量僅為 V3.2 的 27%,KV 緩存占用降至 V3.2 的 10%。V4-Flash 更激進,同樣場景下推理計算量僅為 V3.2 的 10%,KV 緩存降至 7%。
![]()
官方表示,百萬上下文從現在起將是 DeepSeek 所有官方服務的標配。
真·就長長長長長長長長。
除注意力機制外,V4 還引入了流形約束超連接(mHC)來強化殘差連接。
傳統殘差連接把層與層之間的信號直接相加,而 mHC 把殘差流的寬度擴展若干倍,再通過三組可學習的線性映射動態控制信號的混合方式。
負責殘差變換的矩陣被約束在雙隨機矩陣集合上,保證譜范數不超過 1,讓跨層信號傳播更加穩定。
訓練層面采用 Muon 優化器,通過迭代正交化梯度矩陣來更新參數,加快收斂速度并提升穩定性,和 AdamW 混用:大多數模塊用 Muon,嵌入層、預測頭、RMSNorm 權重仍用 AdamW。
訓練過程中遇到了 loss spike 問題。
DeepSeek 摸索出兩個有效手段。第一個叫「預期性路由」,在第 t 步訓練時用第 t-Δt 步的舊參數計算路由索引,把骨干網絡和路由網絡的更新解耦,打破兩者之間的惡性循環。
第二個是對 SwiGLU 激活函數的線性分量做截斷,把數值范圍鉗制在 [-10, 10] 以內,直接壓制異常值的出現。補貨,兩種方法目前只知道有效,機理還不夠清晰,DeepSeek 在論文中坦承這個問題留待后續研究。
![]()
此外,兩款模型均在超過 32T token 的高質量數據上完成預訓練,數據構成涵蓋數學、代碼、網頁、長文檔等多個類別,中期訓練階段還額外加入了 agentic 數據來強化代碼能力。
訓練后階段采用兩步范式,先通過 SFT 與 GRPO 強化學習獨立培養領域專家,涵蓋數學、代碼、Agent、指令跟隨等多個方向,再經在線蒸餾(OPD)將各領域能力整合進單一模型。
OPD 采用全詞表 logit 蒸餾而非 token 級 KL 估計,梯度估計更穩定,知識遷移更完整,代價是工程實現難度大幅提升——超過十個教師模型的權重被集中存儲、按需加載,隱藏層狀態也做了專門緩存以避免顯存爆炸。
當然,源神,依然是那個源神!
目前四個權重版本均已開源,可在 HuggingFace 或 ModelScope 下載。
Base 版本采用 FP8 Mixed 精度,指令版本采用 FP4 與 FP8 混合精度,MoE 專家參數使用 FP4,其余參數使用 FP8。
FP4 到 FP8 的反量化是無損的,因為 FP8(E4M3)比 FP4(E2M1)多兩位指數位,動態范圍更大,能完整吸收 FP4 的量化信息。本地部署建議將采樣參數設為 temperature=1.0、top_p=1.0。
此次發布未提供 Jinja 格式 chat template,官方在 encoding 文件夾中提供了 Python 腳本與測試用例,說明如何將 OpenAI 兼容格式的消息編碼為模型輸入字符串,以及如何解析模型的文本輸出。
![]()
API 接入方面,V4-Pro 與 V4-Flash 已同步上線,同時支持 OpenAI ChatCompletions 接口與 Anthropic 接口。價格如上,調用時 base_url 不變,model 參數改為 deepseek-v4-pro 或 deepseek-v4-flash 即可。
舊接口名稱 deepseek-chat 與 deepseek-reasoner 將于三個月后(2026 年 7 月 24 日)停止使用,當前階段兩者分別指向 V4-Flash 的非思考模式與思考模式,開發者需在截止日期前完成遷移。看來這個周末有得忙了。
除了技術架構,DeepSeek V4 這次一個更值得關注的變化,是英偉達不再是唯一選項。
也就是說, DeepSeek 沒有給英偉達或 AMD 提前優化適配的機會,而是把早期訪問權限獨家開放給了國產芯片廠商。這意味著,國產模型在「去英偉達化」邁出了重要的一步。
圖片
DeepSeek 選擇在 V4 這個節點上做這件事,時機很精準。
V4 的性能已經比肩頂級閉源模型,如果它只能跑在英偉達芯片上,那「國產最強開源模型」這個標簽總顯得差一口氣。現在它跑通了昇騰,這個敘事也有所完整:算法是自己的,代碼是開源的,芯片是國產的。
巧合的是,黃仁勛最近就在與科技播客 Dwarkesh Patel 的訪談節目中表示,DeepSeek不是一個無足輕重的進展。
![]()
他還假設了一個情況,那就是 DeepSeek 新模型在華為平臺上首發,黃仁勛表示這一天對美國來說將是一個可怕的結果,因為這意味著 AI 模型被優化為在中國 AI 硬件上表現最佳,而這些模型擴散到全球之后,就會推動中國技術成為世界標準。
DeepSeek 用萬億參數級別的模型驗證了昇騰可以承載頂級大模型的推理,這對整個國產算力生態是一針強心劑。國內大廠本就在加大昇騰芯片的采購力度,V4 的成功適配讓這個決策有了更充分的技術背書。寒武紀、海光信息等其他國產芯片廠商也會被倒逼著加速自己的大模型適配進度。
一個頂級開源模型的芯片選擇,正在撬動一整條產業鏈的洗牌。
DeepSeek-V4 模型開源鏈接:
https://huggingface.co/collections/deepseek-ai/deepseek-v4
https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
DeepSeek-V4 技術報告:
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek\_V4.pdf
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.