網易首頁 > 網易號 > 正文申請入駐

剛剛！DeepSeek更新V4論文，3000億獨角獸公開算力真相

2026-05-06 15:56:24　來源: 智能紀元AGI

遼寧舉報

分享至

就在剛剛，五一休假剛結束，DeepSeek團隊悄悄更新了V4模型論文。

盡管這份論文依舊是58頁，但增加了大量13天前V4預覽版論文中沒披露的信息。

我看完之后發現，這份“完整版”DeepSeek V4論文當中，梁文鋒藏了半年的算力底牌一次性全曝光。

以下是我總結的完整版論文的更新內容：

1、相比預覽版，這次完整版V4論文中，大量增加FP4量化訓練過程的細節，以及首次公布獨有訓練穩定方案：預路由+SwiGLU clamping。

2、新增生成式獎勵模型GRM、百萬級上下文加速細節，新增更多MegaMoE內核、DeepGEMM開源等信息，以及修正了包括Host Codegen、SMT 整數分析、位精度可復現性，以及KV Cache 異構結構、磁盤緩存策略，預訓練/微調的精確超參、學習率、batch size等信息。

3、另外，這次完整版論文，DeepSeek修改了部分真實場景的測評結果，包括中文寫作、搜索、白領任務、代碼 Agent等。

其中提到，中文寫作當中，DeepSeek V4系列模型勝率高達77.5%；白領專業任務下的30項高級任務中，DeepSeek V4完全不輸Claude Opus 4.6。

整體來說，新的DeepSeek V4論文更加完整，很多數據更加嚴謹。

實際上，過去兩周，圍繞DeepSeek V4的話題不斷，一方面新的V4模型接入華為昇騰的算力平臺，而導致推遲發布；另一方面，V4兩度大幅降價，使得全系列API服務的輸入緩存命中價格進一步降至原有價格的1/10，但模型性能比肩GPT-5.5、GLM的水平，引發廣泛關注。

就在剛剛，DeepSeek再度被曝出融資消息。

領投方包括半導體大基金（國家集成電路產業投資基金）等，其他入股投資方包括騰訊、阿里等，梁文鋒也可能會參與投資，但最終的投資者陣容尚未確定。

最新的DeepSeek的估值達到約450億美元（約合人民幣3000億元），比兩周前曝光的200億美元估值，翻了一倍。

V4算力秘訣：

如何訓的穩、模型跑得快、顯存更省

4月24日，DeepSeek-V4的預覽版本正式上線并同步開源。

新的DeepSeek-V4擁有百萬字超長上下文，在Agent能力、世界知識和推理性能上均實現領先水平，其最大的優勢在于同時實現英偉達和華為昇騰算力訓練。

此次完整版V4論文，DeepSeek團隊進行了大量修正和增加內容。

1、新增最多的一部分就是：FP4量化感知訓練信息。

DeepSeek提到，V4在后期訓練里直接用上了FP4量化感知訓練，目的就是讓模型跑起來更快、更省顯存。

其中，把最占顯存的MoE 專家權重和長文本注意力的QK 計算都壓成 FP4 精度，轉成FP8計算時完全不損失精度，還能直接兼容現有框架，速度直接快 2 倍，關鍵信息找回率還能保持 99.7%，而推理時直接用FP4權重運行，又快又省顯存，效果還不掉。

具體來說，為了實現推理加速并減少部署時的內存流量，團隊將FP4（MXFP4）量化應用于兩個組件：（1）、MoE專家權重，這是GPU內存占用的主要來源；（2）、CSA索引器中的查詢-鍵（QK）路徑，其中QK激活值以FP4格式進行緩存、加載和乘法運算，從而加速長上下文場景中的注意力分數計算。

此外，在此QAT過程中，團隊進一步將索引分數從FP32量化至BF16。這一優化使QK選擇器實現了2倍加速，同時保持了KV計算99.7%的召回率。

論文指出，通過采用混合CSA與HCA，并對計算和存儲進行精度優化，DeepSeek-V4系列與DeepSeek-V3.2相比，推理FLOPs顯著降低，KV緩存大小大幅縮減，在長上下文場景下優勢尤為明顯。

在1M tokens上下文場景中，即使是激活參數量更大的DeepSeek-V4-Pro，其單FLOPs（以等效FP8 FLOPs計算）僅為DeepSeek-V3.2的27%，KV緩存大小僅為后者的10%。

此外，激活參數量更小的DeepSeek-V4-Flash進一步提升了效率：在1M令牌上下文設置下，它的單FLOPs僅為DeepSeek-V3.2的10%，KV緩存大小僅為后者的7%。

另外，DeepSeek-V4系列的路由專家參數采用FP4精度。目前現有硬件上FP4×FP8運算的峰值FLOPs與FP8×FP8持平，但從理論上來說，未來硬件可以讓該運算的效率提升三分之一，這將進一步提高DeepSeek-V4系列的效率。

2、DeepSeek首次公布獨有訓練穩定方案：預路由+SwiGLU clamping。

DeepSeek提到，訓練萬億參數這種超大模型，本身就特別容易出問題 ——訓練崩、損失暴漲、訓著訓著就不穩定，DeepSeek-V4 也沒躲開這個行業難題。簡單的回滾操作只能臨時救場，沒法從根上解決反復炸損的問題。

研究人員發現，不穩的根源主要在 MoE 層的異常數值，而且路由機制還會讓這種異常越來越嚴重，形成惡性循環。為了把訓練徹底穩住，他們從兩個方向下手，最終拿出兩套非常實用、能直接落地的穩定方案：

第一個叫預判路由（Anticipatory Routing）。

簡單說就是不讓主模型和路由模塊同步更新，故意 “錯開”：當前步用最新參數算特征，但路由分配卻用之前的舊參數來算，提前算好、緩存起來，從邏輯上切斷惡性循環。這套做法還做了大量工程優化，只會增加大概 20% 的耗時，并且系統會自動監測，只有炸損失時才開啟，穩住之后自動切回普通模式，既解決崩潰問題，又幾乎不影響訓練效率和最終效果。

第二個叫SwiGLU Clamping。直接在激活函數上做限制，把 SwiGLU 的線性部分強行約束在-10到10之間，門控部分上限也設為 10。這么一做，模型里的極端異常值直接被 “按住”，訓練瞬間穩了很多，而且不會損傷模型的能力。

靠著一系列關鍵技術，DeepSeek-V4成功搞定了萬億MoE模型最頭疼的訓練穩定性難題，讓超大模型能穩穩訓完。

新增生成式獎勵模型GRM能力，

多項顯示V4比肩Opus 4.5

過去做模型優化，簡單任務用規則檢查就行，難驗證的復雜任務只能靠RLHF 人類反饋，但這種方法需要大量人工標注，成本高、效率低。

而論文首次提到，DeepSeek-V4直接拋棄了傳統的單值獎勵模型，改用了一套生成式獎勵模型（GRM）。

簡單說，就是不用額外訓練單獨的打分模型，而是讓模型自己當裁判：用同一個模型一邊生成答案、一邊評估答案，把“生成能力”和“評判能力”一起訓練、一起變強。

訓練時，用帶評分標準的數據做引導，讓模型自己學會判斷回答好不好、對不對、邏輯嚴不嚴謹。好處非常明顯：

1、只需要很少量的人工標注，模型就能靠自己的推理能力泛化到復雜任務；

2、評判過程自帶邏輯思考，打分更穩、更準；

3、生成和評判一體，效果比傳統獎勵模型強得多。

這套GRM機制，讓DeepSeek-V4在沒有大量人工標注的情況下，依然把復雜任務的對齊能力拉到了很高水平。

這是DeepSeek-V4系列的工具調用 schema，最終效果層面非常穩定和準確，整個過程也有了更多的思考能力。

同時，完整版DeepSeek-V4論文，還增加了百萬級上下文加速等內容：

1、全新工具調用格式與交互機制。完整版公開了 <|DSML|> 格式的 XML 工具調用規范，同時新增交錯思考（Interleaved Thinking） 機制，在工具交互場景下全程保留推理鏈內容，不再因用戶新消息清空歷史思考；還新增了 Quick Instruction 專用指令體系，通過特殊 token 讓模型直接復用 KV 緩存并行完成搜索、分類、標題生成等輔助任務，顯著降低首 token 延遲。

2、百萬上下文推理工程全套實現。完整版大幅擴充了推理框架與 KV 緩存管理內容，首次公開百萬上下文工程化落地的完整方案：包括異構 KV 緩存結構、狀態緩存（State Cache）、磁盤緩存（On-disk KV Cache）以及共享前綴復用機制，并提供三種滑動窗口緩存策略用于工程部署。同時補充了上下文并行（Contextual Parallelism）的兩階段通信方案，解決超長序列跨卡壓縮與計算問題。 3、真實場景大規模人類評估。完整版新增大量真實業務場景的系統性測評，包括中文寫作、搜索增強問答、白領專業任務、代碼智能體等大規模人工對比數據，公開了在各類實用場景下 DeepSeek-V4-Pro 對比 Gemini、Claude 的勝率與得分，完整展現模型在真實使用中的落地效果，這些數據在精簡版中完全缺失。 4、完整基礎設施、作者與附錄。完整版將基礎設施章節拆分為專家并行、TileLang 內核、批不變與確定性算子、訓練框架、推理框架等精細小節，補充大量工程優化細節與加速數據；同時新增完整作者列表、致謝與評估細節附錄，是一份可復現、可核查、完全開放的正式技術報告。

此外，完整版DeepSeek V4論文增加了基準測試的最新結果。

其中，在附錄提到的搜索增強問答測試中，在DeepSeek網頁端和應用端，“非思考”模式采用檢索增強搜索（RAG），而“思考”模式則使用智能體搜索。

對于檢索增強搜索，在客觀和主觀問答兩個類別中的評估中，DeepSeek-V4-Pro的表現大幅優于DeepSeek-V3.2，在兩個類別中均展現出穩定優勢，提升最顯著的是單值搜索以及規劃與策略任務。不過，DeepSeek-V3.2在對比和推薦任務中仍保有相當的競爭力，說明DeepSeek-V4-Pro在需要對搜索結果進行均衡、多視角推理的場景中仍有改進空間。

而智能體搜索上，V4智能體搜索的表現始終優于RAG，在復雜任務上的優勢尤為明顯。此外，智能體搜索的成本效率依然很高，僅比標準RAG高出微不足道的成本。

在中文寫作中，結果顯示，DeepSeek-V4-Pro以62.7%對34.1%的整體勝率，優于基準模型Gemini-3.1-Pro，這主要是因為Gemini在中文寫作場景中偶爾會因其固有的風格偏好而覆蓋用戶的明確要求。

創意寫作方面，與Gemini-3.1-Pro相比，DeepSeek-V4-Pro在指令遵循方面取得了60.0%的勝率，在寫作質量方面取得了77.5%的勝率，表明其在指令遵循上略有提升，而在寫作質量上則有顯著進步。

盡管DeepSeek-V4-Pro在整體用戶案例分析中表現更優，但針對最具挑戰性的提示詞（特別是涉及高復雜度約束或多輪場景）的評估顯示，Claude Opus 4.5以52.0%對45.9%的勝率領先。

白領任務層，DeepSeek構建了一套包含30項高級中文專業任務的綜合評測套件，覆蓋13個關鍵行業如金融、教育、法律與科技等。

結果顯示，DeepSeek-V4-Pro-Max在各類中文任務上的表現優于Opus-4.6-Max，取得了63%的出色不敗率，且在分析、生成與編輯類任務中均展現出穩定優勢。

最后，DeepSeek還修改了編碼智能體測試結果。

結果顯示，DeepSeek-V4-Pro編碼智能體能力顯著優于Claude Sonnet 4.5，并接近Claude Opus 4.5的水平。

當被問及與其他前沿模型相比，DeepSeek-V4-Pro是否已準備好作為他們的默認首選編碼模型時，52%的人表示肯定，39%的人傾向于肯定，而表示否定的人數不足9%。

受訪者認為DeepSeek-V4-Pro在大多數任務中能提供令人滿意的結果，但也指出其存在細微錯誤、對模糊提示的誤解以及偶爾過度思考的問題。

總結就是，DeepSeek-V4-Pro的性能和能力不輸給Claude和GPT能力，甚至中文寫作能力要高于谷歌Gemini-3.1，但距離Opus 4.5還略有一些差距。

總結

照例我還是要總結一下這篇文章。

五一之前，DeepSeek多模態模型論文突然刪了，引發廣泛關注，也讓我們等待DeepSeek帶來新的moment。

DeepSeek連夜刪新論文，梁文鋒到底怕什么｜深度

然而，五一之后，我們終于等來了DeepSeek-V4的論文更新：藏了半年的算力底牌一次性全曝光，核心技術全公開。

我看完 DeepSeek-V4 完整版論文才真正明白，如今大模型的競爭早已不只是參數和效果，更是效率、穩定性、工程化的全面較量。

從FP4量化到百萬上下文加速，從訓練防崩機制到生成式獎勵模型，每一處細節都在把“不可能”變成“可落地”，讓人真切感受到DeepSeek-V4大模型正在從追趕走向引領。

然而，從我們感知上來說，DeepSeek-V4雖然沒引發去年R1時候的“DeepSeek時刻”，但V4再度鞏固了國產AI大模型在高性價比層面的重要優勢，令AI和投資行業印象深刻。

這波，DeepSeek直接把開源大模型的效率天花板捅破了！

據報道，一位考慮投資DeepSeek的人士透露，DeepSeek的編碼能力名列前茅，其同行公司如智譜、MiniMax預計營收將持續飆升，市值超過3000億。

因此，鑒于 DeepSeek 的估值已大幅上漲，梁文鋒可能會考慮籌集更多資金，以增加未來投資計算能力的資金儲備。

顯然，DeepSeek有望成為國內另一家AI大模型“巨龍”。

我們有理由相信，隨著資源、人才、技術的進一步聚集和迭代，梁文鋒的下一代更輕、更快、更強的DeepSeek大模型，已經近在眼前。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.