網易首頁 > 網易號 > 正文 申請入駐

DeepSeek V4震撼發布!實現全球開源領先

0
分享至


新智元報道

編輯:Aeneas 好困

【新智元導讀】讓全球從春節苦等到四月的DeepSeek V4,終于來了!

就在剛剛,DeepSeek V4真的來了!

今天,那個曾經以一己之力打破閉源模型霸權的DeepSeek,帶著DeepSeek-V4系列預覽版,向全球開發者正式宣告——

百萬級上下文(1M Context)的平民化時代,以及開源Agent能力、世界知識和推理性能上的新巔峰,已經到來。

DeepSeek V4,再度實現國內與開源領域的領先。

V4的技術報告,已經同步發布。


論文地址:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

DeepSeek-V4-Pro

性能比肩頂級閉源模型

DeepSeek-V4 系列包含兩個版本:擁有1.6T總參數、49B激活參數的性能怪獸DeepSeek-V4-Pro,以及專為高效率、經濟性設計的284B總參數、13B激活參數的DeepSeek-V4-Flash



可以說,DeepSeek-V4-Pro已經達到了開源模型的新巔峰,對標全球頂尖閉源水準。


首先,V4-Pro在Agent能力上實現了跨越式突破,其Agentic Coding水平穩居開源界首位。

實測反饋顯示,其編碼體驗已超越Sonnet 4.5,交付質量直追Opus 4.6(非思考模式),目前已成為公司內部Agent編程的首選模型。

其次,它具備深厚的世界知識儲備。

在知識測評維度,V4-Pro顯著領先同類開源產品,與閉源標桿Gemini-Pro-3.1的差距已縮減至極小范圍。

另外,它還有頂尖的邏輯推理表現。

在數學、STEM及高難度競賽代碼等硬核領域,V4-Pro的表現不僅冠絕開源社區,更具備了挑戰世界最強閉源模型的實戰競爭力。


支撐這兩個模型傲視群雄的,是其底層技術的「三大神技」:

  • 混合注意力機制(CSA + HCA)

DeepSeek-V4 并沒有盲目增加硬件投入,而是開創性地設計了混合注意力架構。

壓縮稀疏注意力(CSA)對KV緩存進行token維度的壓縮并結合DSA稀疏注意力;重壓縮注意力(HCA)則進行更極致的壓縮以維持稠密計算。

這種「長短結合」的策略,讓模型在處理百萬字上下文時,計算量和顯存需求大幅降低。

  • 流形約束超連接(mHC)

為了提升信號傳播的穩定性并增強模型表達力,V4引入了mHC結構,升級了傳統的殘差連接。這讓模型在深層網絡中依然能保持卓越的建模能力。

  • Muon 優化器

引入全新的Muon優化器,讓訓練過程不僅收斂更快,且更加穩定。

正是這些結構創新,讓DeepSeek-V4在推理效率上實現了質的飛躍。

在100萬token上下文的極端場景下,DeepSeek-V4-Pro的單token推理計算量僅為前代的 27%,KV緩存占用更是縮減到了驚人的10%

DeepSeek-V4-Flash

極致效能與性價比的完美平衡

相比于Pro版本,Flash版則是更快捷高效的經濟之選。

盡管在世界知識的深度上略遜于Pro版本,但DeepSeek-V4-Flash保留了與之接近的邏輯推理水平。

受益于更精簡的參數規模與激活機制,它能為用戶提供響應更快、成本更低的API接入方案。

在處理基礎 Agent 任務時,V4-Flash的表現與Pro版不相上下,但在應對極端復雜任務時仍存在進階空間。

架構革新

重塑長上下文效率

DeepSeek-V4引入了革命性的注意力機制,通過在Token維度進行高效壓縮,并結合 DSA稀疏注意力(DeepSeek Sparse Attention) 技術,實現了全球頂尖的長文本處理能力。

這種創新大幅削減了對計算資源與顯存的依賴。

即日起,1M(100萬 tokens)超長上下文將成為DeepSeek官方服務的標準配置。


DeepSeek-V4和DeepSeek-V3.2的計算量和顯存容量隨上下文長度的變化

Agent能力深度優化

DeepSeek-V4 針對Claude Code、OpenClaw、OpenCode、CodeBuddy等主流 Agent生態進行了深度適配。

在代碼編寫與自動化文檔生成等場景下,其產出效率顯著提升。


V4-Pro在特定Agent框架下自動生成的PPT頁面實例

API全面升級,舊版模型倒計時

對于開發者而言,好消息是:API已經同步上線!

只需簡單修改 model_name 即可接入這兩款新旗艦:

  • 追求性能:deepseek-v4-pro

  • 追求效率:deepseek-v4-flash

特別提醒:原有的 deepseek-chat 和 deepseek-reasoner 模型名將作為V4的過渡別名(分別指向 V4-Flash 的非思考與思考模式),但這兩個舊名稱將于2026年7月24日正式停用。

論文解讀

兩種壓縮,一套組合拳

V4-Pro中,CSA的壓縮率為4,每4個token的KV緩存合并成一個條目。

壓縮之后再通過Lightning Indexer對壓縮后的KV條目打分,每個query token只選top-1024個條目做注意力計算。索引計算用FP4精度,超長上下文下開銷極低。

HCA走另一條路。壓縮率拉到128,比CSA激進得多,但不做稀疏選擇,所有壓縮后的KV條目都參與計算。極致壓縮換全局視野。



兩種機制交替堆疊,CSA精細檢索,HCA全局感知,再加上每層128 token的滑動窗口捕捉局部依賴,三條路徑協同。


算一筆賬。

以常規BF16 GQA8(頭維度128)作為基線,V4在100萬token下的KV緩存只有基線的約2%。KV條目還采用混合精度存儲,RoPE維度BF16,其余FP8,體積比純BF16再砍一半。

推理端則把壓縮KV和滑動窗口KV分開管理,支持磁盤級緩存存儲,避免共享前綴的重復prefill。

mHC,6.7%的代價換來的穩定性

標準HC擴展殘差流寬度來增強信息傳遞,但多層堆疊時數值會炸。

mHC的做法是把殘差映射矩陣約束在雙隨機矩陣流形(Birkhoff多面體)上,確保譜范數不超過1,信號深層傳播不發散。投影通過Sinkhorn-Knopp算法迭代20次實現。

工程代價可控,擴展因子只有4,經過融合kernel和選擇性重計算優化后,額外墻鐘時間僅6.7%。

訓練萬億參數的「土辦法」

Muon的核心是對梯度動量做Newton-Schulz正交化,V4用10次混合迭代,前8次快速收斂,后2次精確穩定。

但優化器只是一半的故事。V4報告披露了兩個訓練穩定性技巧。

Anticipatory Routing,把路由索引的計算和主干網絡的更新解耦,用歷史參數提前算好路由并緩存。系統在檢測到loss spike時自動觸發,日常開銷可忽略。

SwiGLU Clamping,把SwiGLU線性分量鉗制在[-10, 10],門控上界鉗制在10。簡單粗暴但有效。


MoE工程上,V4開源了MegaMoE,把通信和計算融合進單個pipeline kernel,通用場景加速1.5到1.73倍,延遲敏感場景最高1.96倍。

專家分訓,蒸餾合一

V4用On-Policy Distillation(OPD)替代了V3.2的混合RL。先獨立訓練數學、代碼、Agent等領域專家,再用一個學生模型對十幾個專家做全詞表logit蒸餾。

工程上的關鍵突破是,不緩存教師logits(顯存放不下),只緩存最后一層隱藏狀態,訓練時按需重建logits,用TileLang專用kernel加速KL散度計算。

V4還引入了Generative Reward Model(GRM),讓actor網絡同時充當獎勵模型,評判和生成能力聯合優化,不再依賴傳統標量獎勵模型。

后訓練階段同步做了FP4量化感知訓練,對MoE專家權重和CSA索引器做FP4量化,且FP4到FP8反量化無損,整個流程復用現有FP8框架。

DeepSeek

再度證實開源的力量

從V3的橫空出世到V4的效率革命,DeepSeek始終堅持將最頂級的技術通過開源分享給社區。

DeepSeek-V4的上線,不僅是技術參數的跳躍,更是對「百萬長上下文」和「高性能 Agent」這兩大未來趨勢的有力回應。

它證明了通過架構創新,我們可以在不犧牲性能的前提下,極大降低大模型的門檻。

現在,你可以在官方App或chat.deepseek.com立即開啟1M上下文的全新體驗。

這不僅僅是一個對話框,這是一個能裝下整部百科全書、能理解萬行代碼邏輯的「第二大腦」。

參考資料:

https://huggingface.co/collections/deepseek-ai/deepseek-v4

https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

https://api-docs.deepseek.com/zh-cn/guides/thinking_mode

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
一場96-113的慘敗,讓掘金腸子悔青,雷霆也失算了,馬刺看到希望

一場96-113的慘敗,讓掘金腸子悔青,雷霆也失算了,馬刺看到希望

毒舌NBA
2026-04-24 12:47:04
56歲湖北男子非洲失聯十多天后首次與家人聯系,女兒:父親脖子大片淤青,說話神志不清,連自己都不認識;大使館工作人員:會派人了解情況

56歲湖北男子非洲失聯十多天后首次與家人聯系,女兒:父親脖子大片淤青,說話神志不清,連自己都不認識;大使館工作人員:會派人了解情況

揚子晚報
2026-04-24 19:05:54
毛主席緊急離開武漢,空軍竟不放行,楊成武:不認我這個代總長?

毛主席緊急離開武漢,空軍竟不放行,楊成武:不認我這個代總長?

驚視
2026-04-24 07:32:15
倫敦世乒賽再出新規,禁用塑料瓶裝水,國乒補水習慣迎挑戰!

倫敦世乒賽再出新規,禁用塑料瓶裝水,國乒補水習慣迎挑戰!

乒乓樂園
2026-04-25 00:05:47
報喜!中信證券一季度凈利潤102.16億元,“牛散”付小銅持有8400多萬股,比某些指數基金還多

報喜!中信證券一季度凈利潤102.16億元,“牛散”付小銅持有8400多萬股,比某些指數基金還多

每日經濟新聞
2026-04-24 22:36:32
不怪郭富城忍不住跟她合照。網友:誰不心動

不怪郭富城忍不住跟她合照。網友:誰不心動

情感大頭說說
2026-04-25 01:08:43
女生主動起來有多黏人?網友:這些女的太開放了

女生主動起來有多黏人?網友:這些女的太開放了

帶你感受人間冷暖
2026-01-27 00:20:06
5月1日,人大代表建議取消機關事業單位調休

5月1日,人大代表建議取消機關事業單位調休

談史論天地
2026-04-24 05:18:33
女子被保安扇耳光后續!知情者曝內情,保安身份被扒,學校回應

女子被保安扇耳光后續!知情者曝內情,保安身份被扒,學校回應

180視角
2026-04-23 12:56:07
老球王戴維斯:我不想貶低丁俊暉,但誰都知道趙心童是更好的球員

老球王戴維斯:我不想貶低丁俊暉,但誰都知道趙心童是更好的球員

楊華評論
2026-04-24 03:04:33
果然不出所料,國民黨主席鄭麗文表態了!

果然不出所料,國民黨主席鄭麗文表態了!

達文西看世界
2026-04-24 16:08:18
被網友們的旅行智慧驚艷到!思路打開后,那叫一個實用,學到了

被網友們的旅行智慧驚艷到!思路打開后,那叫一個實用,學到了

室內設計師有料兒
2026-04-21 20:45:45
NBA歐洲聯賽:球星要當老板,5000萬買一張門票

NBA歐洲聯賽:球星要當老板,5000萬買一張門票

綠茵狂熱者
2026-04-25 01:00:46
美國人終于清醒了,質問:特朗普女婿庫什納有什么資格去談判?

美國人終于清醒了,質問:特朗普女婿庫什納有什么資格去談判?

混沌錄
2026-04-23 17:11:07
穆杰塔巴傷情曝光,比外界想象的更嚴重,他用了一招終結斬首戰術

穆杰塔巴傷情曝光,比外界想象的更嚴重,他用了一招終結斬首戰術

阿芒娛樂說
2026-04-25 00:20:17
馬科斯失算了!人民日報攤牌:中國不會救菲律賓,徹底死了這條心

馬科斯失算了!人民日報攤牌:中國不會救菲律賓,徹底死了這條心

奇葩游戲醬
2026-04-24 11:05:40
中方必須無條件割讓領土?美發話后,馬來西亞叫囂:中國放棄南海

中方必須無條件割讓領土?美發話后,馬來西亞叫囂:中國放棄南海

詩酒趁的年華
2026-04-22 05:07:02
天津知名蛋糕店全市倒閉

天津知名蛋糕店全市倒閉

天津人
2026-04-22 19:27:03
一碰就枯萎!河南發現300多株罕見“冥界之花”,每年僅40多天露出地表,是武俠小說中可“起死回生”的仙草

一碰就枯萎!河南發現300多株罕見“冥界之花”,每年僅40多天露出地表,是武俠小說中可“起死回生”的仙草

大象新聞
2026-04-24 21:49:28
中一簽賺38.9萬!“易中天”概念股刷新A股上市首日最貴開盤價

中一簽賺38.9萬!“易中天”概念股刷新A股上市首日最貴開盤價

21世紀經濟報道
2026-04-24 11:35:22
2026-04-25 01:59:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15055文章數 66799關注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

航班提前起飛10分鐘 大學生把海航告了

頭條要聞

航班提前起飛10分鐘 大學生把海航告了

體育要聞

上海男籃23連勝+主場全勝 姚明之后最強一季

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經要聞

LG財閥內斗:百億美元商業帝國爭奪戰

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

態度原創

本地
家居
藝術
公開課
軍事航空

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

家居要聞

自然肌理 溫潤美學

藝術要聞

世界最高20座大樓,你見過幾棟?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美伊陷入互相封鎖僵局

無障礙瀏覽 進入關懷版