網易首頁 > 網易號 > 正文申請入駐

DeepSeek-V4發布！邁入百萬上下文時代華為昇騰超節點全面支持

2026-04-24 15:07:07　來源: 財聯社

上海舉報

分享至

《科創板日報》4月24日訊（記者黃心怡）DeepSeek-V4的預覽版本今日上線并同步開源。DeepSeek-V4模型上下文處理長度由原有的128K顯著擴展至1M，支持百萬字超長上下文。同時，輸出長度最大為384Ktokens。首次增加了KV Cache滑窗和壓縮算法，減少Attention計算和訪存開銷，并通過模型架構創新更好地支持了Agent和Coding場景。

華為昇騰、天數智芯、寒武紀等國產芯片廠商已經支持DeepSeek-V4新模型。華為昇騰超節點全系列產品支持DeepSeek V4系列模型，實現DeepSeek V4-Pro 20ms和DeepSeek V4-Flash 10ms低時延推理。

DeepSeek方面稱，受限于高端算力，目前V4-Pro的服務吞吐仍有限，預計下半年昇騰950超節點批量上市后，Pro價格會大幅下調。

▍百萬上下文成標配

DeepSeek-V4模型按大小分為兩個版本：DeepSeek-V4-Pro（1.6T參數，49B激活）和DeepSeek-V4-Flash（284B參數，13B激活），且同時支持“非思考模式”與“思考模式”，均擁有百萬字超長上下文的能力。

據介紹，V4系列采用DSA稀疏注意力機制，實現token維度壓縮，讓1M（一百萬字）超長上下文成為標配，降低了長文本處理對計算和顯存的需求，為復雜長程任務提供了支撐。

其中，DeepSeek-V4-Pro，相比前代模型，DeepSeek-V4-Pro的Agent能力有所增強。

在Agentic Coding評測中，V4-Pro已達到當前開源模型最佳水平，并在其他Agent相關評測中同樣表現優異。據評測反饋使用體驗優于Sonnet 4.5，交付質量接近Opus4.6非思考模式，但仍與Opus4.6思考模式存在一定差距。

DeepSeek-V4-Pro在世界知識測評中，大幅領先其他開源模型，僅稍遜于頂尖閉源模型Gemini-Pro-3.1。

在數學、STEM、競賽型代碼的測評中，DeepSeek-V4-Pro超越當前所有已公開評測的開源模型，取得了比肩世界頂級閉源模型的成績。

而DeepSeek-V4-Flash模型參數下降至284B，推理成本進一步降低，模型參數和激活更小。

相比DeepSeek-V4-Pro，DeepSeek-V4-Flash在世界知識儲備方面稍遜一籌，但展現出了接近的推理能力。而由于模型參數和激活更小，相較之下V4-Flash能夠提供更加快捷、經濟的API服務。

在Agent測評中，DeepSeek-V4-Flash在簡單任務上與DeepSeek-V4-Pro旗鼓相當，但在高難度任務上仍有差距。

▍華為昇騰、天數智芯、寒武紀等國產芯片支持DeepSeek-V4

目前，華為昇騰超節點全系列產品已支持DeepSeek V4系列模型，實現DeepSeek V4-Pro 20ms和DeepSeek V4-Flash 10ms低時延推理。

據了解，昇騰950、昇騰A3超節點對DeepSeek V4系列模型全面適配。同時為便于用戶快速微調，提供了基于昇騰A3超節點的訓練參考實現。

基于DeepSeekV4-Pro模型，在8K輸入場景，昇騰950超節點可實現TPOT約20ms時單卡Decode吞吐4700TPS。DeepSeek V4-Flash模型，8K長序列輸入場景下可實現TPOT約10ms時單卡Decode吞吐1600TPS。

基于昇騰A3 64卡超節點結合大EP模式部署，DeepSeek V4-Flash模型，8K/1K輸入輸出場景，基于vLLM推理引擎可實現2000+TPS的單卡Decode吞吐。針對DeepSeek V4-Pro模型，昇騰A3同步支持推理部署，性能持續優化中。

國產GPU廠商天數智芯完成了與DeepSeek-V4的Day 0級適配。據悉，天數智芯以天垓系列訓練芯片與智鎧系列推理芯片為核心，承接DeepSeek-V4的全場景應用。

而寒武紀基于vLLM推理框架完成了對此次285B DeepSeek-V4-flash和1.6T DeepSeek-V4-pro兩個版本的Day 0適配，適配代碼已開源到GitHub社區。

▍下半年昇騰950超節點將批量支持DeepSeek V4

根據DeepSeep官方文檔介紹，DeepSeek V4并不是只在英偉達體系內做優化，而是將細粒度專家并行（EP）方案同時在英偉達GPU和華為昇騰NPU上完成驗證，這說明其推理路徑已經具備跨算力平臺的適配能力。但在開源層面，當前釋放的仍主要是基于CUDA的MegaMoE和DeepGEMM，底層實現深度綁定英偉達工具鏈。

從價格看，DeepSeek V4-Pro輸入（緩存命中）是1元/百萬tokens，輸入（緩存未命中）是12元，輸出是24元；V4-Flash輸入（緩存命中）是0.2元/百萬tokens，輸入（緩存未命中）是1元，輸出是2元。

值得一提的是，官方API頁面在小字中提到，受限于高端算力，目前V4-Pro的服務吞吐仍有限，預計下半年昇騰950超節點批量上市后，Pro價格會大幅下調。這意味著，DeepSeek正嘗試把模型運行時從單一硬件依賴中解耦出來。

此外，華為云首發適配了DeepSeek-V4模型。華為云MaaS模型即服務平臺已為開發者提供免部署、一鍵調用DeepSeek-V4-Flash API的Tokens服務。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.