无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

剛剛!DeepSeek更新V4論文,3000億獨角獸公開算力真相

0
分享至



就在剛剛,五一休假剛結束,DeepSeek團隊悄悄更新了V4模型論文。

盡管這份論文依舊是58頁,但增加了大量13天前V4預覽版論文中沒披露的信息。

我看完之后發現,這份“完整版”DeepSeek V4論文當中,梁文鋒藏了半年的算力底牌一次性全曝光。

以下是我總結的完整版論文的更新內容:

1、相比預覽版,這次完整版V4論文中,大量增加FP4量化訓練過程的細節,以及首次公布獨有訓練穩定方案:預路由+SwiGLU clamping。

2、新增生成式獎勵模型GRM、百萬級上下文加速細節,新增更多MegaMoE內核、DeepGEMM開源等信息,以及修正了包括Host Codegen、SMT 整數分析、位精度可復現性,以及KV Cache 異構結構、磁盤緩存策略,預訓練/微調的精確超參、學習率、batch size等信息。

3、另外,這次完整版論文,DeepSeek修改了部分真實場景的測評結果,包括中文寫作、搜索、白領任務、代碼 Agent等。

其中提到,中文寫作當中,DeepSeek V4系列模型勝率高達77.5%;白領專業任務下的30項高級任務中,DeepSeek V4完全不輸Claude Opus 4.6。



整體來說,新的DeepSeek V4論文更加完整,很多數據更加嚴謹。

實際上,過去兩周,圍繞DeepSeek V4的話題不斷,一方面新的V4模型接入華為昇騰的算力平臺,而導致推遲發布;另一方面,V4兩度大幅降價,使得全系列API服務的輸入緩存命中價格進一步降至原有價格的1/10,但模型性能比肩GPT-5.5、GLM的水平,引發廣泛關注。

就在剛剛,DeepSeek再度被曝出融資消息。

領投方包括半導體大基金(國家集成電路產業投資基金)等,其他入股投資方包括騰訊、阿里等,梁文鋒也可能會參與投資,但最終的投資者陣容尚未確定。

最新的DeepSeek的估值達到約450億美元(約合人民幣3000億元),比兩周前曝光的200億美元估值,翻了一倍。



V4算力秘訣:

如何訓的穩、模型跑得快、顯存更省

4月24日,DeepSeek-V4的預覽版本正式上線并同步開源。

新的DeepSeek-V4擁有百萬字超長上下文,在Agent能力、世界知識和推理性能上均實現領先水平,其最大的優勢在于同時實現英偉達和華為昇騰算力訓練。

此次完整版V4論文,DeepSeek團隊進行了大量修正和增加內容。

1、新增最多的一部分就是:FP4量化感知訓練信息。

DeepSeek提到,V4在后期訓練里直接用上了FP4量化感知訓練,目的就是讓模型跑起來更快、更省顯存。

其中,把最占顯存的MoE 專家權重和長文本注意力的QK 計算都壓成 FP4 精度,轉成FP8計算時完全不損失精度,還能直接兼容現有框架,速度直接快 2 倍,關鍵信息找回率還能保持 99.7%,而推理時直接用FP4權重運行,又快又省顯存,效果還不掉。

具體來說,為了實現推理加速并減少部署時的內存流量,團隊將FP4(MXFP4)量化應用于兩個組件:(1)、MoE專家權重,這是GPU內存占用的主要來源;(2)、CSA索引器中的查詢-鍵(QK)路徑,其中QK激活值以FP4格式進行緩存、加載和乘法運算,從而加速長上下文場景中的注意力分數計算。

此外,在此QAT過程中,團隊進一步將索引分數從FP32量化至BF16。這一優化使QK選擇器實現了2倍加速,同時保持了KV計算99.7%的召回率。



論文指出,通過采用混合CSA與HCA,并對計算和存儲進行精度優化,DeepSeek-V4系列與DeepSeek-V3.2相比,推理FLOPs顯著降低,KV緩存大小大幅縮減,在長上下文場景下優勢尤為明顯。

在1M tokens上下文場景中,即使是激活參數量更大的DeepSeek-V4-Pro,其單FLOPs(以等效FP8 FLOPs計算)僅為DeepSeek-V3.2的27%,KV緩存大小僅為后者的10%。

此外,激活參數量更小的DeepSeek-V4-Flash進一步提升了效率:在1M令牌上下文設置下,它的單FLOPs僅為DeepSeek-V3.2的10%,KV緩存大小僅為后者的7%。

另外,DeepSeek-V4系列的路由專家參數采用FP4精度。目前現有硬件上FP4×FP8運算的峰值FLOPs與FP8×FP8持平,但從理論上來說,未來硬件可以讓該運算的效率提升三分之一,這將進一步提高DeepSeek-V4系列的效率。

2、DeepSeek首次公布獨有訓練穩定方案:預路由+SwiGLU clamping。

DeepSeek提到,訓練萬億參數這種超大模型,本身就特別容易出問題 ——訓練崩、損失暴漲、訓著訓著就不穩定,DeepSeek-V4 也沒躲開這個行業難題。簡單的回滾操作只能臨時救場,沒法從根上解決反復炸損的問題。

研究人員發現,不穩的根源主要在 MoE 層的異常數值,而且路由機制還會讓這種異常越來越嚴重,形成惡性循環。為了把訓練徹底穩住,他們從兩個方向下手,最終拿出兩套非常實用、能直接落地的穩定方案:

第一個叫預判路由(Anticipatory Routing)

簡單說就是不讓主模型和路由模塊同步更新,故意 “錯開”:當前步用最新參數算特征,但路由分配卻用之前的舊參數來算,提前算好、緩存起來,從邏輯上切斷惡性循環。這套做法還做了大量工程優化,只會增加大概 20% 的耗時,并且系統會自動監測,只有炸損失時才開啟,穩住之后自動切回普通模式,既解決崩潰問題,又幾乎不影響訓練效率和最終效果。

第二個叫SwiGLU Clamping。直接在激活函數上做限制,把 SwiGLU 的線性部分強行約束在-10到10之間,門控部分上限也設為 10。這么一做,模型里的極端異常值直接被 “按住”,訓練瞬間穩了很多,而且不會損傷模型的能力。

靠著一系列關鍵技術,DeepSeek-V4成功搞定了萬億MoE模型最頭疼的訓練穩定性難題,讓超大模型能穩穩訓完。



新增生成式獎勵模型GRM能力,

多項顯示V4比肩Opus 4.5

過去做模型優化,簡單任務用規則檢查就行,難驗證的復雜任務只能靠RLHF 人類反饋,但這種方法需要大量人工標注,成本高、效率低。

而論文首次提到,DeepSeek-V4直接拋棄了傳統的單值獎勵模型,改用了一套生成式獎勵模型(GRM)

簡單說,就是不用額外訓練單獨的打分模型,而是讓模型自己當裁判:用同一個模型一邊生成答案、一邊評估答案,把“生成能力”和“評判能力”一起訓練、一起變強。

訓練時,用帶評分標準的數據做引導,讓模型自己學會判斷回答好不好、對不對、邏輯嚴不嚴謹。好處非常明顯:

1、只需要很少量的人工標注,模型就能靠自己的推理能力泛化到復雜任務;

2、評判過程自帶邏輯思考,打分更穩、更準;

3、生成和評判一體,效果比傳統獎勵模型強得多。

這套GRM機制,讓DeepSeek-V4在沒有大量人工標注的情況下,依然把復雜任務的對齊能力拉到了很高水平。



這是DeepSeek-V4系列的工具調用 schema,最終效果層面非常穩定和準確,整個過程也有了更多的思考能力。

同時,完整版DeepSeek-V4論文,還增加了百萬級上下文加速等內容:

1、全新工具調用格式與交互機制。完整版公開了 <|DSML|> 格式的 XML 工具調用規范,同時新增交錯思考(Interleaved Thinking) 機制,在工具交互場景下全程保留推理鏈內容,不再因用戶新消息清空歷史思考;還新增了 Quick Instruction 專用指令體系,通過特殊 token 讓模型直接復用 KV 緩存并行完成搜索、分類、標題生成等輔助任務,顯著降低首 token 延遲。

2、百萬上下文推理工程全套實現。完整版大幅擴充了推理框架與 KV 緩存管理內容,首次公開百萬上下文工程化落地的完整方案:包括異構 KV 緩存結構、狀態緩存(State Cache)、磁盤緩存(On-disk KV Cache)以及共享前綴復用機制,并提供三種滑動窗口緩存策略用于工程部署。同時補充了上下文并行(Contextual Parallelism)的兩階段通信方案,解決超長序列跨卡壓縮與計算問題。 3、真實場景大規模人類評估。完整版新增大量真實業務場景的系統性測評,包括中文寫作、搜索增強問答、白領專業任務、代碼智能體等大規模人工對比數據,公開了在各類實用場景下 DeepSeek-V4-Pro 對比 Gemini、Claude 的勝率與得分,完整展現模型在真實使用中的落地效果,這些數據在精簡版中完全缺失。 4、完整基礎設施、作者與附錄。完整版將基礎設施章節拆分為專家并行、TileLang 內核、批不變與確定性算子、訓練框架、推理框架等精細小節,補充大量工程優化細節與加速數據;同時新增完整作者列表、致謝與評估細節附錄,是一份可復現、可核查、完全開放的正式技術報告。

此外,完整版DeepSeek V4論文增加了基準測試的最新結果。

其中,在附錄提到的搜索增強問答測試中,在DeepSeek網頁端和應用端,“非思考”模式采用檢索增強搜索(RAG),而“思考”模式則使用智能體搜索。



對于檢索增強搜索,在客觀和主觀問答兩個類別中的評估中,DeepSeek-V4-Pro的表現大幅優于DeepSeek-V3.2,在兩個類別中均展現出穩定優勢,提升最顯著的是單值搜索以及規劃與策略任務。不過,DeepSeek-V3.2在對比和推薦任務中仍保有相當的競爭力,說明DeepSeek-V4-Pro在需要對搜索結果進行均衡、多視角推理的場景中仍有改進空間。

而智能體搜索上,V4智能體搜索的表現始終優于RAG,在復雜任務上的優勢尤為明顯。此外,智能體搜索的成本效率依然很高,僅比標準RAG高出微不足道的成本。





在中文寫作中,結果顯示,DeepSeek-V4-Pro以62.7%對34.1%的整體勝率,優于基準模型Gemini-3.1-Pro,這主要是因為Gemini在中文寫作場景中偶爾會因其固有的風格偏好而覆蓋用戶的明確要求。

創意寫作方面,與Gemini-3.1-Pro相比,DeepSeek-V4-Pro在指令遵循方面取得了60.0%的勝率,在寫作質量方面取得了77.5%的勝率,表明其在指令遵循上略有提升,而在寫作質量上則有顯著進步。



盡管DeepSeek-V4-Pro在整體用戶案例分析中表現更優,但針對最具挑戰性的提示詞(特別是涉及高復雜度約束或多輪場景)的評估顯示,Claude Opus 4.5以52.0%對45.9%的勝率領先。



白領任務層,DeepSeek構建了一套包含30項高級中文專業任務的綜合評測套件,覆蓋13個關鍵行業如金融、教育、法律與科技等。

結果顯示,DeepSeek-V4-Pro-Max在各類中文任務上的表現優于Opus-4.6-Max,取得了63%的出色不敗率,且在分析、生成與編輯類任務中均展現出穩定優勢。



最后,DeepSeek還修改了編碼智能體測試結果。

結果顯示,DeepSeek-V4-Pro編碼智能體能力顯著優于Claude Sonnet 4.5,并接近Claude Opus 4.5的水平。

當被問及與其他前沿模型相比,DeepSeek-V4-Pro是否已準備好作為他們的默認首選編碼模型時,52%的人表示肯定,39%的人傾向于肯定,而表示否定的人數不足9%。

受訪者認為DeepSeek-V4-Pro在大多數任務中能提供令人滿意的結果,但也指出其存在細微錯誤、對模糊提示的誤解以及偶爾過度思考的問題。

總結就是,DeepSeek-V4-Pro的性能和能力不輸給Claude和GPT能力,甚至中文寫作能力要高于谷歌Gemini-3.1,但距離Opus 4.5還略有一些差距。



總結

照例我還是要總結一下這篇文章。

五一之前,DeepSeek多模態模型論文突然刪了,引發廣泛關注,也讓我們等待DeepSeek帶來新的moment。

DeepSeek連夜刪新論文,梁文鋒到底怕什么|深度

然而,五一之后,我們終于等來了DeepSeek-V4的論文更新:藏了半年的算力底牌一次性全曝光,核心技術全公開。

我看完 DeepSeek-V4 完整版論文才真正明白,如今大模型的競爭早已不只是參數和效果,更是效率、穩定性、工程化的全面較量。

從FP4量化到百萬上下文加速,從訓練防崩機制到生成式獎勵模型,每一處細節都在把“不可能”變成“可落地”,讓人真切感受到DeepSeek-V4大模型正在從追趕走向引領。

然而,從我們感知上來說,DeepSeek-V4雖然沒引發去年R1時候的“DeepSeek時刻”,但V4再度鞏固了國產AI大模型在高性價比層面的重要優勢,令AI和投資行業印象深刻。

這波,DeepSeek直接把開源大模型的效率天花板捅破了!

據報道,一位考慮投資DeepSeek的人士透露,DeepSeek的編碼能力名列前茅,其同行公司如智譜、MiniMax預計營收將持續飆升,市值超過3000億。

因此,鑒于 DeepSeek 的估值已大幅上漲,梁文鋒可能會考慮籌集更多資金,以增加未來投資計算能力的資金儲備。

顯然,DeepSeek有望成為國內另一家AI大模型“巨龍”。

我們有理由相信,隨著資源、人才、技術的進一步聚集和迭代,梁文鋒的下一代更輕、更快、更強的DeepSeek大模型,已經近在眼前。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
病人問“驗血為何抽滿管”,網友質疑血液被倒賣,評論區一片恐慌

病人問“驗血為何抽滿管”,網友質疑血液被倒賣,評論區一片恐慌

譚談社會
2026-05-13 03:24:58
負債超60億!王健林兜兜轉轉,終究還是弄丟了萬達影業

負債超60億!王健林兜兜轉轉,終究還是弄丟了萬達影業

李砍柴
2026-05-07 19:54:36
多地網友拍到的“不明飛行物”到底是啥?(2026·05·14)

多地網友拍到的“不明飛行物”到底是啥?(2026·05·14)

新京報
2026-05-14 17:34:20
A股“股王”源杰科技副總被刑拘,涉嫌刑事犯罪

A股“股王”源杰科技副總被刑拘,涉嫌刑事犯罪

界面新聞
2026-05-14 20:08:25
5月14日俄烏:烏克蘭回擊俄羅斯最大規模的空襲

5月14日俄烏:烏克蘭回擊俄羅斯最大規模的空襲

山河路口
2026-05-14 19:20:07
女子稱支付寶深夜被扣款捐贈184萬元,維權3年仍不知原因,支付寶回應

女子稱支付寶深夜被扣款捐贈184萬元,維權3年仍不知原因,支付寶回應

蓬勃新聞
2026-05-14 19:47:45
特朗普獲日本未得全部禮遇,北京21響禮炮加雙邊背書

特朗普獲日本未得全部禮遇,北京21響禮炮加雙邊背書

郭蛹包工頭
2026-05-14 19:28:12
廣州毒保姆何天帶:一年殺8位老人,揚言:老人活多久我說了算

廣州毒保姆何天帶:一年殺8位老人,揚言:老人活多久我說了算

莫地方
2026-05-14 01:05:05
這跟不穿有啥區別?趙露思演唱會內衣外穿:被眾嘲一套比一套辣眼

這跟不穿有啥區別?趙露思演唱會內衣外穿:被眾嘲一套比一套辣眼

胡一舸南游y
2026-05-13 15:23:56
老人離世房產未過戶,2026年法律新規:繼承權真的會作廢嗎?

老人離世房產未過戶,2026年法律新規:繼承權真的會作廢嗎?

復轉這些年
2026-03-22 17:48:38
解放臺灣,解放軍準備了70多年,我軍戰區罕見說出:受不了了

解放臺灣,解放軍準備了70多年,我軍戰區罕見說出:受不了了

命運自認幽默
2026-03-22 19:24:37
再見雄鹿!再見密爾沃基!字母哥交易籌碼曝光,網友:白菜價

再見雄鹿!再見密爾沃基!字母哥交易籌碼曝光,網友:白菜價

天光破云來
2026-05-14 19:19:04
山西動物園全員午睡,游客:根本叫不醒

山西動物園全員午睡,游客:根本叫不醒

宇宙來信發
2026-05-13 22:05:12
趙匡胤登基后見到柴榮幼子,趙普說殺,他只回一句,盡顯帝王格局

趙匡胤登基后見到柴榮幼子,趙普說殺,他只回一句,盡顯帝王格局

掠影后有感
2026-05-14 11:35:51
《給阿嬤的情書》總票房破2億!制片人曾說:“我說票房能過億,他們覺得我瘋了”

《給阿嬤的情書》總票房破2億!制片人曾說:“我說票房能過億,他們覺得我瘋了”

上觀新聞
2026-05-14 12:36:09
3分鐘傾家蕩產?年入千億“精神鴉片”,正精準掏空中國人的錢包

3分鐘傾家蕩產?年入千億“精神鴉片”,正精準掏空中國人的錢包

指忘崖
2026-05-13 19:01:33
滄海桑田!特朗普帶黃仁勛訪華,《紐約時報》評論真可謂一語中的

滄海桑田!特朗普帶黃仁勛訪華,《紐約時報》評論真可謂一語中的

夕落秋山
2026-05-14 19:06:27
A股:今天大跌收市,尾盤加速跳水,原因是什么?明天還會下跌?

A股:今天大跌收市,尾盤加速跳水,原因是什么?明天還會下跌?

虎哥閑聊
2026-05-14 15:08:39
男單、男雙僅剩獨苗!泰國公開賽第2輪國羽損失慘重

男單、男雙僅剩獨苗!泰國公開賽第2輪國羽損失慘重

佑銘羽球
2026-05-14 16:40:03
王一博回應結婚,網友:祝福。

王一博回應結婚,網友:祝福。

美芽
2026-05-13 12:09:53
2026-05-14 20:31:00
智能紀元AGI
智能紀元AGI
專注科技、科學、商業產業報道
2315文章數 10609關注度
往期回顧 全部

科技要聞

馬斯克說會談很順利 黃仁勛點贊 庫克比耶

頭條要聞

外媒詢問中方對魯比奧的制裁是否已經解除 外交部回應

頭條要聞

外媒詢問中方對魯比奧的制裁是否已經解除 外交部回應

體育要聞

爭議抽象天王山,和季后賽最穩定中鋒

娛樂要聞

何九華官宣當爸!全程不提孩子媽

財經要聞

李強會見美國工商界代表

汽車要聞

雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

態度原創

房產
健康
教育
家居
時尚

房產要聞

海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

專家揭秘干細胞回輸的安全風險

教育要聞

5月16日開考! 2026上海中考理化實驗操作考試及外語聽說測試,考前重要提醒來啦!

家居要聞

精神奢享 對話塔尖需求

T恤+低腰闊腿褲、襯衫+低腰半裙,今年夏天最時髦的搭配,誰穿誰好看!

無障礙瀏覽 進入關懷版