无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

DeepSeek V4 震撼發布！實現全球開源領先

2026-04-29 00:02:41　來源: 互聯網思維

北京舉報

0

分享至

就在前幾天，DeepSeek V4真的來了！

那個曾經以一己之力打破閉源模型霸權的DeepSeek，帶著DeepSeek-V4系列預覽版，向全球開發者正式宣告——

百萬級上下文（1M Context）的平民化時代，以及開源Agent能力、世界知識和推理性能上的新巔峰，已經到來。

DeepSeek V4，再度實現國內與開源領域的領先。

V4的技術報告，已經同步發布。

論文地址：

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

01

DeepSeek-V4-Pro

性能比肩頂級閉源模型

DeepSeek-V4 系列包含兩個版本：擁有1.6T總參數、49B激活參數的性能怪獸DeepSeek-V4-Pro，以及專為高效率、經濟性設計的284B總參數、13B激活參數的DeepSeek-V4-Flash。

可以說，DeepSeek-V4-Pro已經達到了開源模型的新巔峰，對標全球頂尖閉源水準。

首先，V4-Pro在Agent能力上實現了跨越式突破，其Agentic Coding水平穩居開源界首位。

實測反饋顯示，其編碼體驗已超越Sonnet 4.5，交付質量直追Opus 4.6（非思考模式），目前已成為公司內部Agent編程的首選模型。

其次，它具備深厚的世界知識儲備。

在知識測評維度，V4-Pro顯著領先同類開源產品，與閉源標桿Gemini-Pro-3.1的差距已縮減至極小范圍。

另外，它還有頂尖的邏輯推理表現。

在數學、STEM及高難度競賽代碼等硬核領域，V4-Pro的表現不僅冠絕開源社區，更具備了挑戰世界最強閉源模型的實戰競爭力。

支撐這兩個模型傲視群雄的，是其底層技術的「三大神技」：

混合注意力機制（CSA + HCA）

DeepSeek-V4 并沒有盲目增加硬件投入，而是開創性地設計了混合注意力架構。

壓縮稀疏注意力（CSA）對KV緩存進行token維度的壓縮并結合DSA稀疏注意力；重壓縮注意力（HCA）則進行更極致的壓縮以維持稠密計算。

這種「長短結合」的策略，讓模型在處理百萬字上下文時，計算量和顯存需求大幅降低。

流形約束超連接（mHC）

為了提升信號傳播的穩定性并增強模型表達力，V4引入了mHC結構，升級了傳統的殘差連接。這讓模型在深層網絡中依然能保持卓越的建模能力。

Muon 優化器

引入全新的Muon優化器，讓訓練過程不僅收斂更快，且更加穩定。

正是這些結構創新，讓DeepSeek-V4在推理效率上實現了質的飛躍。

在100萬token上下文的極端場景下，DeepSeek-V4-Pro的單token推理計算量僅為前代的 27%，KV緩存占用更是縮減到了驚人的10%。

02

DeepSeek-V4-Flash

極致效能與性價比的完美平衡

相比于Pro版本，Flash版則是更快捷高效的經濟之選。

盡管在世界知識的深度上略遜于Pro版本，但DeepSeek-V4-Flash保留了與之接近的邏輯推理水平。

受益于更精簡的參數規模與激活機制，它能為用戶提供響應更快、成本更低的API接入方案。

在處理基礎 Agent 任務時，V4-Flash的表現與Pro版不相上下，但在應對極端復雜任務時仍存在進階空間。

03

架構革新

重塑長上下文效率

DeepSeek-V4引入了革命性的注意力機制，通過在Token維度進行高效壓縮，并結合 DSA稀疏注意力（DeepSeek Sparse Attention）技術，實現了全球頂尖的長文本處理能力。

這種創新大幅削減了對計算資源與顯存的依賴。

即日起，1M（100萬 tokens）超長上下文將成為DeepSeek官方服務的標準配置。

DeepSeek-V4和DeepSeek-V3.2的計算量和顯存容量隨上下文長度的變化

04

Agent能力深度優化

DeepSeek-V4 針對Claude Code、OpenClaw、OpenCode、CodeBuddy等主流 Agent生態進行了深度適配。

在代碼編寫與自動化文檔生成等場景下，其產出效率顯著提升。

V4-Pro在特定Agent框架下自動生成的PPT頁面實例

05

API全面升級，舊版模型倒計時

對于開發者而言，好消息是：API已經同步上線！

只需簡單修改 model_name 即可接入這兩款新旗艦：

追求性能：deepseek-v4-pro
追求效率：deepseek-v4-flash

特別提醒：原有的 deepseek-chat 和 deepseek-reasoner 模型名將作為V4的過渡別名（分別指向 V4-Flash 的非思考與思考模式），但這兩個舊名稱將于2026年7月24日正式停用。

論文解讀

06

兩種壓縮，一套組合拳

V4-Pro中，CSA的壓縮率為4，每4個token的KV緩存合并成一個條目。

壓縮之后再通過Lightning Indexer對壓縮后的KV條目打分，每個query token只選top-1024個條目做注意力計算。索引計算用FP4精度，超長上下文下開銷極低。

HCA走另一條路。壓縮率拉到128，比CSA激進得多，但不做稀疏選擇，所有壓縮后的KV條目都參與計算。極致壓縮換全局視野。

兩種機制交替堆疊，CSA精細檢索，HCA全局感知，再加上每層128 token的滑動窗口捕捉局部依賴，三條路徑協同。

算一筆賬。

以常規BF16 GQA8（頭維度128）作為基線，V4在100萬token下的KV緩存只有基線的約2%。KV條目還采用混合精度存儲，RoPE維度BF16，其余FP8，體積比純BF16再砍一半。

推理端則把壓縮KV和滑動窗口KV分開管理，支持磁盤級緩存存儲，避免共享前綴的重復prefill。

07

mHC，6.7%的代價換來的穩定性

標準HC擴展殘差流寬度來增強信息傳遞，但多層堆疊時數值會炸。

mHC的做法是把殘差映射矩陣約束在雙隨機矩陣流形（Birkhoff多面體）上，確保譜范數不超過1，信號深層傳播不發散。投影通過Sinkhorn-Knopp算法迭代20次實現。

工程代價可控，擴展因子只有4，經過融合kernel和選擇性重計算優化后，額外墻鐘時間僅6.7%。

08

訓練萬億參數的「土辦法」

Muon的核心是對梯度動量做Newton-Schulz正交化，V4用10次混合迭代，前8次快速收斂，后2次精確穩定。

但優化器只是一半的故事。V4報告披露了兩個訓練穩定性技巧。

Anticipatory Routing，把路由索引的計算和主干網絡的更新解耦，用歷史參數提前算好路由并緩存。系統在檢測到loss spike時自動觸發，日常開銷可忽略。

SwiGLU Clamping，把SwiGLU線性分量鉗制在[-10, 10]，門控上界鉗制在10。簡單粗暴但有效。

MoE工程上，V4開源了MegaMoE，把通信和計算融合進單個pipeline kernel，通用場景加速1.5到1.73倍，延遲敏感場景最高1.96倍。

09

專家分訓，蒸餾合一

V4用On-Policy Distillation（OPD）替代了V3.2的混合RL。先獨立訓練數學、代碼、Agent等領域專家，再用一個學生模型對十幾個專家做全詞表logit蒸餾。

工程上的關鍵突破是，不緩存教師logits（顯存放不下），只緩存最后一層隱藏狀態，訓練時按需重建logits，用TileLang專用kernel加速KL散度計算。

V4還引入了Generative Reward Model（GRM），讓actor網絡同時充當獎勵模型，評判和生成能力聯合優化，不再依賴傳統標量獎勵模型。

后訓練階段同步做了FP4量化感知訓練，對MoE專家權重和CSA索引器做FP4量化，且FP4到FP8反量化無損，整個流程復用現有FP8框架。

10

DeepSeek

再度證實開源的力量

從V3的橫空出世到V4的效率革命，DeepSeek始終堅持將最頂級的技術通過開源分享給社區。

DeepSeek-V4的上線，不僅是技術參數的跳躍，更是對「百萬長上下文」和「高性能 Agent」這兩大未來趨勢的有力回應。

它證明了通過架構創新，我們可以在不犧牲性能的前提下，極大降低大模型的門檻。

現在，你可以在官方App或chat.deepseek.com立即開啟1M上下文的全新體驗。

這不僅僅是一個對話框，這是一個能裝下整部百科全書、能理解萬行代碼邏輯的「第二大腦」。

參考資料：

https://huggingface.co/collections/deepseek-ai/deepseek-v4

https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

https://api-docs.deepseek.com/zh-cn/guides/thinking_mode

THE END

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

山西省應急管理廳副廳長張和平接受審查調查

界面新聞 2026-06-10 20:38:30
3090 跟貼 3090
收評：深成指、創業板指雙雙跌超2%

財聯社 2026-06-10 15:06:36
10734 跟貼 10734

又一起！大學生買滑板8個月后申請“僅退款”！老板拒絕，平臺同意退貨退款

上觀新聞 2026-06-10 14:06:09
1492 跟貼 1492

“釘內”到底發生了什么

澎湃新聞 2026-06-10 07:54:28
190 跟貼 190
吉林省明確了！60歲以上，憑身份證免費

吉刻新聞 2026-06-10 20:00:49
13 跟貼 13

挪威沉船發現大量青花瓷：所有人沸騰了

上觀新聞 2026-06-06 20:28:05
487 跟貼 487

股民哽咽詢問比亞迪股價，王傳福回應

界面新聞 2026-06-10 13:35:07
3264 跟貼 3264
40歲單親媽媽靠扛樓養家16年在考場外與女兒緊緊相擁

瀟湘晨報 2026-06-10 12:18:08
1187 跟貼 1187

保加利亞防長稱將停止對烏克蘭軍事援助

澎湃新聞 2026-06-10 01:05:08
2584 跟貼 2584
存貸款利率時隔二十多年迎來大修

北青網-北京青年報 2026-06-10 09:00:04
317 跟貼 317
多位中國公民被拒絕入境，大使館提醒：免簽不等于“無條件入境”

南方都市報 2026-06-10 08:35:33
248 跟貼 248
觀賽費用暴漲五倍，主辦城市貼錢：誰在為FIFA“史上最高收益”買單？

澎湃新聞 2026-06-10 07:06:27
100 跟貼 100
2-4毫克可致死！女子偷喝一口室友的泡腳藥酒，全身麻木癱軟……醫生：毒性和砒霜類似

河南交通廣播 2026-06-10 11:01:00
148 跟貼 148
大猩猩被同伴轟出門，托腮凝視遠方陷入沉思，網友：兄弟，我懂你！

都市快報橙柿互動 2026-06-10 11:01:41
3520 跟貼 3520
享界G9新車申報圖公布

界面新聞 2026-06-10 20:41:06
11 跟貼 11
華坪女高第16屆學生畢業，張桂梅：我努力活著，年年等你們

極目新聞 2026-06-10 08:09:26
261 跟貼 261
追光｜第199次為國出戰，梅西還是那么強

北青網-北京青年報 2026-06-10 12:12:18
59 跟貼 59
女子去醫院看牙被建議做正頜手術，結果臉部歪斜“地包天”加劇！主刀醫師：我喜歡這種面型

大風新聞 2026-06-10 18:03:41
294 跟貼 294
熱點 | 女子拒乘快艇，被兩男子圍堵？景區回應！

天津廣播 2026-06-10 20:55:13
78 跟貼 78
柬埔寨旅游發展與國際合作局：希望2026年到訪的中國游客數量至少增加20%—30%

北京商報 2026-06-07 12:37:05
267 跟貼 267
“湖北宜昌發生爆炸火光沖天”不實（2026·06·10）

今日辟謠 2026-06-10 17:49:08
6 跟貼 6
2026年5月份居民消費價格同比上漲1.2%

央視新聞客戶端 2026-06-10 09:34:27
41 跟貼 41
你的朋友圈，能搜了

學申論的談妹 2026-06-10 17:36:13
75 跟貼 75
0.245Cd！一汽-大眾ID. AURA T6刷新大眾SUV最低風阻記錄

環球網資訊 2026-06-10 14:28:12
40 跟貼 40
微言｜16元，“鵝腿阿姨”賣你人生一堂課

上觀新聞 2026-06-11 00:36:03
0 跟貼 0
空帖“張家口”33瀏覽0回復竟上首頁，虎撲推薦邏輯遭質疑

赴一場山海啊 2026-06-11 00:34:13
0 跟貼 0
北京沙河廢棄帖曝出3大詭異疑點，1篇空白帖竟引千人圍觀

淺遇時光 2026-06-11 00:33:36
0 跟貼 0

高考人大附“廳里廳氣哥”采訪走紅：看了他才知道，為啥很多公司看重第一學歷

高考人大附“廳里廳氣哥”采訪走紅：看了他才知道，為啥很多公司看重第一學歷

閱讀第一

2026-06-10 08:38:43

小馬云樣貌大變，和女友高調官宣戀情，曬合照秀恩愛

小馬云樣貌大變，和女友高調官宣戀情，曬合照秀恩愛

微微熱評

2026-05-28 14:37:46

13.8%+21.6%！一場比賽沒打就少賺6500萬美金，火箭隊還是怕了

13.8%+21.6%！一場比賽沒打就少賺6500萬美金，火箭隊還是怕了

籃球圈里的那些事

2026-06-10 21:56:58

去了一趟日本，才發現：在日本老人眼里，中國游客原來是這種印象

去了一趟日本，才發現：在日本老人眼里，中國游客原來是這種印象

老特有話說

2026-06-09 15:44:28

見證歷史！燃油車首次徹底退出國內乘用車銷量前十榜單

見證歷史！燃油車首次徹底退出國內乘用車銷量前十榜單

TechWeb

2026-06-10 16:57:03

“鵝腿阿姨”回應：曾考慮說明情況未找到契機，如有處罰愿意接受，希望向學生道歉；本人微信已無法登錄，兒子否認年收入百萬

“鵝腿阿姨”回應：曾考慮說明情況未找到契機，如有處罰愿意接受，希望向學生道歉；本人微信已無法登錄，兒子否認年收入百萬

極目新聞

2026-06-10 20:10:25

馬特·達蒙《傳染病》翻紅登頂，15年前神預言再應驗

馬特·達蒙《傳染病》翻紅登頂，15年前神預言再應驗

赴一場山海啊

2026-06-10 00:36:12

研究表明：性生活次數不達標，不管男女容易早衰且癌癥風險增高！

研究表明：性生活次數不達標，不管男女容易早衰且癌癥風險增高！

番外行

2026-05-11 08:49:20

心理學上說：帶孩子見世面要去生產端，而不是只在消費端

心理學上說：帶孩子見世面要去生產端，而不是只在消費端

德魯克博雅管理

2026-06-09 17:06:12

周總理只是讓他去經商，為黨賺取經費，他卻給組織賺回個商業帝國

周總理只是讓他去經商，為黨賺取經費，他卻給組織賺回個商業帝國

文史達觀

2026-04-18 09:29:56

用慣國產手機換成三星，上手一周才發現，差別比想象中大太多

用慣國產手機換成三星，上手一周才發現，差別比想象中大太多

小柱解說游戲

2026-06-09 16:30:50

現貨黃金再次跌超3%

每日經濟新聞

2026-06-10 23:10:19

吳千語施伯雄在上海新家拍大片，4層別墅公開，老錢風裝修好高級

吳千語施伯雄在上海新家拍大片，4層別墅公開，老錢風裝修好高級

草莓信箱

2026-06-09 20:31:25

中國男籃21人大名單出爐，楊瀚森領銜，周琦、張鎮麟，趙睿落選

中國男籃21人大名單出爐，楊瀚森領銜，周琦、張鎮麟，趙睿落選

云隱南山

2026-06-11 00:17:33

真交流還是假把式？沈伯洋稱最想拜會北京，國臺辦：不值一評

真交流還是假把式？沈伯洋稱最想拜會北京，國臺辦：不值一評

離離言幾許

2026-06-11 00:15:01

首個援助菲律賓的國家出現，萬萬沒想到，既不是日本，也不是美國

首個援助菲律賓的國家出現，萬萬沒想到，既不是日本，也不是美國

影孖看世界

2026-06-10 23:44:56

葉一茜談23歲巔峰期嫁人原因，不是沖動，是普通人最頂級的清醒

葉一茜談23歲巔峰期嫁人原因，不是沖動，是普通人最頂級的清醒

觀魚聽雨

2026-06-09 23:44:50

人的一生，要闖三關。第一關，送父母終老；第三關，守好自己的命

人的一生，要闖三關。第一關，送父母終老；第三關，守好自己的命

富書

2026-05-31 21:32:50

又一起吃他汀猝死！醫生再三勸告：夏季吃他汀的人，要警惕這5點

又一起吃他汀猝死！醫生再三勸告：夏季吃他汀的人，要警惕這5點

路醫生健康科普

2026-06-09 15:37:52

考場外哭倒一片！2026高考數學到底多難？官方終于發話了

考場外哭倒一片！2026高考數學到底多難？官方終于發話了

鬼菜生活

2026-06-10 07:38:59

互聯網思維

每天推送精選互聯網圈深度文章

6114文章數 87234關注度

往期回顧全部

科技要聞

史上最大IPO將至：1.8萬億美元的信仰豪賭

頭條要聞

杭州店主回應2188元天價面:一天200個電話不分晝夜罵

頭條要聞

杭州店主回應2188元天價面:一天200個電話不分晝夜罵

體育要聞

2026世界杯，我們看什么？

娛樂要聞

蒙淇淇發文開撕白鹿！輿論再次反轉

財經要聞

SpaceX IPO或誕生4000名百萬富翁

汽車要聞

埃安i60 530寧德時代版上市限時煥新價10.36萬起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

房產

親子

教育

公開課

手機要聞

蘋果自研基帶+折疊屏雙箭齊發，卻迎來一好一壞消息！

房產要聞

方案曝光，三亞又一地王級豪宅要出！

親子要聞

擺爛不上學、令你痛苦萬分的孩子，是家里的大恩人！

教育要聞

屬于高考的“超級杠桿”時代，過去了

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版