網易首頁 > 網易號 > 正文 申請入駐

DeepSeek V4重磅發布,百萬上下文成標配,華為昇騰率先適配!

0
分享至

4 月 24 日的 AI 技術圈再次因大模型的升級而沸騰。

整理 | 屠敏

出品 | CSDN(ID:CSDNnews)

就在 OpenAI 于凌晨剛推出 版本之后的幾個小時,國產大模型也迎來了重磅時刻——DeepSeek-V4 預覽版官宣上線,并同步開源

官方發布 58 頁完整技術報告,讓開源大模型邁入百萬 token 高效上下文時代,徹底重構長文本大模型的效率與能力邊界。


開源地址:

  • https://huggingface.co/collections/deepseek-ai/deepseek-v4

  • https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

技術報告:

  • https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf


雙模型齊發:1.6T 旗艦與 284B 輕量版,均支持百萬字上下文

最新發布的 DeepSeek-V4 系列一次性推出兩款全新的 MoE 架構大模型,全部支持 百萬字超長上下文,按照模型大小來分:

  • DeepSeek-V4-Pro:總參數量為 1.6T、激活參數為 49B, 在知識、推理、代碼、智能體、長文檔理解上比肩頂級閉源模型;

  • DeepSeek?V4?Flash:總參數 284B,激活參數為 13B,以極小激活參數量實現逼近旗艦的推理性能。


官方表示,兩款模型在 Agent 能力、世界知識和推理性能上均實現國內與開源領域的領先。 即日起,登錄 DeepSeek 官網 chat.deepseek.com 或官方App,就可以直接體驗最新的 DeepSeek-V4 能力。

此外,API 服務已同步更新,通過修改 model_name 為 deepseek-v4-pro 或 deepseek-v4-flash 即可調用。



架構升級,關鍵技術創新大幅提高上下文效率

從技術架構層面來看,DeepSeek?V4 沒有停留在堆參數、擴數據的傳統路線,而是從注意力機制、殘差連接、優化器三大底層維度,進行了技術升級。

簡單來看,與 DeepSeek-V3 架構相比,DeepSeek-V4 系列保留了 DeepSeekMoE 框架和多詞元預測(MTP)策略,同時在架構和優化方面引入了多項關鍵創新:

  • 采用混合注意力架構,將壓縮稀疏注意力(CSA)和重壓縮注意力(HCA)結合,用于提升長上下文處理效率。CSA 沿序列維度壓縮鍵值緩存,然后執行 DeepSeek 稀疏注意力(DSA),而 HCA 對鍵值緩存應用更激進的壓縮,但保持了密集注意力;

  • 為了增強建模能力,DeepSeek 也在架構中引入了流形約束超連接(mHC),在傳統殘差連接基礎上進一步增強信息傳遞能力;

  • 以及 Muon 優化器被引入了 DeepSeek-V4 系列的訓練中,用于加快收斂速度并提升訓練穩定性。


在訓練維度,DeepSeek 在超過 32T 高質量、多樣化的 token 上對兩個模型進行了預訓練,并在此基礎上引入了一整套完整的后訓練流程,進一步增強模型能力。

同時,據技術報告顯示,DeepSeek-V4 系列在長上下文場景下也表現出極高的效率。在百萬 Token 的上下文設置下,DeepSeek-V4-Pro 僅需 DeepSeek-V3.2 的 27% 單 Token 推理 FLOP,KV cache 占用僅為 10%。

正因此,DeepSeek 能夠將“百萬 token 上下文”作為常規能力來支持,從而顯著提升長時序任務的可行性,并為測試階段的進一步擴展提供了空間。正如官方所說:“從現在開始,1M(一百萬)上下文將是 DeepSeek 所有官方服務的標配。



性能比肩頂級閉源模型

值得注意的是,DeepSeek-V4-ProMax 是 DeepSeek-V4-Pro 的最高推理模式,重新定義了開放模型的性能標準,在核心任務上超越了其前代產品。

另外,DeepSeek-V4 系列的性能在多個維度都有了全面的提升:

  • 在廣義世界知識評估中,DeepSeek-V4-Pro 的最高推理模式 DeepSeek-V4-Pro-Max,在 SimpleQA 和 Chinese-SimpleQA 等基準測試上,顯著優于主流開源模型。


在教育類知識評估方面(包括 MMLU-Pro、HLE 和 GPQA),DeepSeek-V4-Pro-Max 相較開源模型仍保持小幅領先。同時,它與領先的閉源模型 Gemini-3.1-Pro 的差距已經大幅縮小,但在這些知識類測試中仍略遜一籌。


  • 在推理維度,通過增加推理 token 的投入,DeepSeek-V4-Pro-Max 在標準推理基準上展現出優于 GPT-5.2 和 Gemini-3.0-Pro 的表現。

    不過,其性能仍略低于 GPT-5.4 和 Gemini-3.1-Pro,這表明其整體發展水平大約落后最前沿模型 3 到 6 個月。

    此外,DeepSeek-V4-Flash-Max 在復雜推理任務中達到了接近 GPT-5.2 和 Gemini-3.0-Pro 的表現,體現出較高的性價比。

  • Agent 能力上,在公開基準測試中,DeepSeek-V4-Pro-Max 與領先開源模型(如 Kimi-K2.6 和 GLM-5.1)表現相當,但略遜于頂級閉源模型。在內部評測中,DeepSeek-V4-Pro-Max 超過了 Claude Sonnet 4.5,并接近 Claude Opus 4.5 的水平。

  • 在支持 100 萬 token 上下文窗口的情況下,DeepSeek-V4-Pro-Max 在合成任務和真實場景中均表現出色,甚至在學術基準測試中超過了 Gemini-3.1-Pro。


相比 DeepSeek-V4-Pro-Max,DeepSeek-V4-Flash-Max 由于參數規模更小, 在知識類評估中的表現略低。但在給予更大思考預算時,其推理任務表現可以接近 DeepSeek-V4-Pro-Max。

在 Agent 評測中,DeepSeek-V4-Flash-Max 在部分基準上能夠與 DeepSeek-V4-Pro-Max 持平,但在更復雜、高難度任務中仍存在差距。


算力支持

值得注意的是,對于行業最關注的國產算力落地,DeepSeek 在技術報告中指出,他們在 NVIDIA GPU 和華為 Ascend NPU 平臺上,對細粒度 EP(Expert Parallelism)方案進行了驗證。

另一方面,華為昇騰超節點系列產品也宣布全面支持,本次通過雙方芯模技術緊密協同,實現異騰超節點全系列產品支持 DeepSeek V4 系列模型。



API 同步開放:無縫兼容主流接口,一鍵接入最強開源長上下文

時下 DeepSeek?V4 API 已同步上線,支持 OpenAI ChatCompletions 與 Anthropic 接口規范。

訪問新模型時,base_url 不變, model 參數需要改為 deepseek-v4-pro 或 deepseek-v4-flash。


另外,DeepSeek 官方還提到,舊有的 API 接口的兩個模型名 deepseek-chat 與deepseek-reasoner 將于三個月后(2026-07-24)停止使用。當前階段內,這兩個模型名分別指向 deepseek-v4-flash 的非思考模式與思考模式。

普通用戶可直接登錄 DeepSeek 官網或官方 App,體驗 100 萬 Token 上下文帶來的震撼能力:一次性上傳整本書、整個項目代碼、整份合同文檔,實現真正的 “一次性讀懂、全程記憶、深度推理”。

DeepSeek?V4 的到來,不只是一次模型升級,更是開源大模型進入 “百萬上下文高效時代” 的標志。它用架構創新證明:超長上下文不必靠暴力算力,小激活參數也能擁有頂級推理。

開源地址:

  • https://huggingface.co/collections/deepseek-ai/deepseek-v4

  • https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

技術報告:

  • https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

「粉絲專屬回饋:60+ 頂級大廠 AI 實戰 PPT 限時領!」

2026 奇點智能技術大會·上海站圓滿落幕!整整兩天,CSDN 與奇點智能研究院攜手,把“AI 正在如何重塑軟件開發”徹底攤開講透了。

這不僅僅是一場會議,更是一份關于未來的答案。從 NVIDIA、微軟、Google 的全球視野,到華為、阿里、騰訊、京東、網易、快手、昆侖萬維的本土實踐;從月之暗面、階躍星辰、MiniMax 的獨角獸洞察,再到北大、智源、奇點智能研究院的前沿探索。

Agent 正在成為新入口,軟件形態正在被重寫。

錯過了現場?沒關系!為回饋粉絲,我們特將本次大會的高質量演講 PPT 完整打包。

領取方式: 在公眾號后臺私信發送 「奇點」 二字,即可一鍵獲取全套干貨。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
嫁給諶龍后,國羽女神生下一娃,如今實現財富自由,已是北體博士

嫁給諶龍后,國羽女神生下一娃,如今實現財富自由,已是北體博士

秋姐居
2026-04-24 19:44:29
身體8大異常信號,警惕大病預警

身體8大異常信號,警惕大病預警

財經早餐
2026-04-25 06:35:37
扮豬吃虎?隱忍四個月,委代總統撕下面具,率幾十萬大軍硬剛美國

扮豬吃虎?隱忍四個月,委代總統撕下面具,率幾十萬大軍硬剛美國

萬物知識圈
2026-04-24 12:13:57
定了,DeepSeek V4首發華為芯片!國產AI開始打破英偉達「壟斷」

定了,DeepSeek V4首發華為芯片!國產AI開始打破英偉達「壟斷」

愛范兒
2026-04-24 14:19:37
以色列,突然空襲!內塔尼亞胡最新表態!國際油價大跳水

以色列,突然空襲!內塔尼亞胡最新表態!國際油價大跳水

數據寶
2026-04-25 13:17:19
二百多名軍官被槍斃、撤職、處分,長津湖戰役中失職的志愿軍88師

二百多名軍官被槍斃、撤職、處分,長津湖戰役中失職的志愿軍88師

云霄紀史觀
2026-03-25 12:16:14
聯想把充電寶做成"方胖子",349元賣的是什么

聯想把充電寶做成"方胖子",349元賣的是什么

碳基打工人
2026-04-24 10:19:52
“畸胎瘤殘留在咽喉”,有軟骨有脂肪!6歲男孩飲食習慣不對勁,上海醫生一查驚了……

“畸胎瘤殘留在咽喉”,有軟骨有脂肪!6歲男孩飲食習慣不對勁,上海醫生一查驚了……

環球網資訊
2026-04-24 18:36:17
“保姆縱火案”8年后,再婚得子的林生斌現狀曝光,反噬終于來了

“保姆縱火案”8年后,再婚得子的林生斌現狀曝光,反噬終于來了

姩姩有娛
2025-10-10 19:01:25
你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

夜深愛雜談
2026-02-21 21:37:02
男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知出現驚人現象

男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知出現驚人現象

詭譎怪談
2025-04-01 17:37:59
央國企倒查追責,再次升級!

央國企倒查追責,再次升級!

細說職場
2026-04-22 15:35:36
孫楊:張豆豆每天都在埋怨,一個勁數落自己

孫楊:張豆豆每天都在埋怨,一個勁數落自己

現代快報
2026-04-24 22:38:03
斯馬特加時賽拿下8分,97年以來湖人球員僅次于科比

斯馬特加時賽拿下8分,97年以來湖人球員僅次于科比

懂球帝
2026-04-25 12:50:45
妻子去世后,遲重瑞近況曝光,他走上了陳麗華“安排的后路”

妻子去世后,遲重瑞近況曝光,他走上了陳麗華“安排的后路”

阿廢冷眼觀察所
2026-04-25 05:55:28
王濛隔空喊話黎明:“節目關注度到這程度,希望黎明大哥看見”

王濛隔空喊話黎明:“節目關注度到這程度,希望黎明大哥看見”

韓小娛
2026-04-25 15:36:23
菲政壇迎來大洗牌,親華副總統出走,中方不愿看到的局面或將出現

菲政壇迎來大洗牌,親華副總統出走,中方不愿看到的局面或將出現

叮當當科技
2026-04-25 17:38:53
觸目驚心!央視曝光上海一中醫館:從醫生到病人全是演員!

觸目驚心!央視曝光上海一中醫館:從醫生到病人全是演員!

番外行
2026-04-24 08:59:12
王治郅和二婚妻子近照,亮相名人堂,為他生2娃,依舊美麗動人

王治郅和二婚妻子近照,亮相名人堂,為他生2娃,依舊美麗動人

大西體育
2026-04-24 21:59:33
互聯網是有記憶的,她的黑歷史一大堆啊!

互聯網是有記憶的,她的黑歷史一大堆啊!

BenSir本色說
2026-04-15 22:38:07
2026-04-25 18:59:00
CSDN incentive-icons
CSDN
成就一億技術人
26482文章數 242272關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

男童7歲18斤被當腦癱治多年 父母查出生病歷發現大問題

頭條要聞

男童7歲18斤被當腦癱治多年 父母查出生病歷發現大問題

體育要聞

火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

娛樂要聞

鄧超最大的幸運,就是遇見孫儷

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

親子
游戲
房產
本地
軍事航空

親子要聞

太晚跟娃分床睡,有三個“壞影響”在等,分享成功分床的三個妙招

徐靜雨直播怒批寶可夢老掉牙 力挺洛克王國絕非抄襲

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

軍事要聞

美防長:戰事不會“沒完沒了”

無障礙瀏覽 進入關懷版