《科創板日報》4月24日訊(記者 黃心怡)DeepSeek-V4的預覽版本今日上線并同步開源。DeepSeek-V4模型上下文處理長度由原有的128K顯著擴展至1M,支持百萬字超長上下文。同時,輸出長度最大為384Ktokens。首次增加了KV Cache滑窗和壓縮算法,減少Attention計算和訪存開銷,并通過模型架構創新更好地支持了Agent和Coding場景。
![]()
華為昇騰、天數智芯、寒武紀等國產芯片廠商已經支持DeepSeek-V4新模型。華為昇騰超節點全系列產品支持DeepSeek V4系列模型,實現DeepSeek V4-Pro 20ms和DeepSeek V4-Flash 10ms低時延推理。
DeepSeek方面稱,受限于高端算力,目前V4-Pro的服務吞吐仍有限,預計下半年昇騰950超節點批量上市后,Pro價格會大幅下調。
▍百萬上下文成標配
DeepSeek-V4模型按大小分為兩個版本:DeepSeek-V4-Pro(1.6T參數,49B激活)和DeepSeek-V4-Flash(284B參數,13B激活),且同時支持“非思考模式”與“思考模式”,均擁有百萬字超長上下文的能力。
據介紹,V4系列采用DSA稀疏注意力機制,實現token維度壓縮,讓1M(一百萬字)超長上下文成為標配,降低了長文本處理對計算和顯存的需求,為復雜長程任務提供了支撐。
其中,DeepSeek-V4-Pro,相比前代模型,DeepSeek-V4-Pro的Agent能力有所增強。
在Agentic Coding評測中,V4-Pro已達到當前開源模型最佳水平,并在其他Agent相關評測中同樣表現優異。據評測反饋使用體驗優于Sonnet 4.5,交付質量接近Opus4.6非思考模式,但仍與Opus4.6思考模式存在一定差距。
DeepSeek-V4-Pro在世界知識測評中,大幅領先其他開源模型,僅稍遜于頂尖閉源模型Gemini-Pro-3.1。
在數學、STEM、競賽型代碼的測評中,DeepSeek-V4-Pro超越當前所有已公開評測的開源模型,取得了比肩世界頂級閉源模型的成績。
而DeepSeek-V4-Flash模型參數下降至284B,推理成本進一步降低,模型參數和激活更小。
相比DeepSeek-V4-Pro,DeepSeek-V4-Flash在世界知識儲備方面稍遜一籌,但展現出了接近的推理能力。而由于模型參數和激活更小,相較之下V4-Flash能夠提供更加快捷、經濟的API服務。
在Agent測評中,DeepSeek-V4-Flash在簡單任務上與DeepSeek-V4-Pro旗鼓相當,但在高難度任務上仍有差距。
▍華為昇騰、天數智芯、寒武紀等國產芯片支持DeepSeek-V4
目前,華為昇騰超節點全系列產品已支持DeepSeek V4系列模型,實現DeepSeek V4-Pro 20ms和DeepSeek V4-Flash 10ms低時延推理。
據了解,昇騰950、昇騰A3超節點對DeepSeek V4系列模型全面適配。同時為便于用戶快速微調,提供了基于昇騰A3超節點的訓練參考實現。
基于DeepSeekV4-Pro模型,在8K輸入場景,昇騰950超節點可實現TPOT約20ms時單卡Decode吞吐4700TPS。DeepSeek V4-Flash模型,8K長序列輸入場景下可實現TPOT約10ms時單卡Decode吞吐1600TPS。
基于昇騰A3 64卡超節點結合大EP模式部署,DeepSeek V4-Flash模型,8K/1K輸入輸出場景,基于vLLM推理引擎可實現2000+TPS的單卡Decode吞吐。針對DeepSeek V4-Pro模型,昇騰A3同步支持推理部署,性能持續優化中。
國產GPU廠商天數智芯完成了與DeepSeek-V4的Day 0級適配。據悉,天數智芯以天垓系列訓練芯片與智鎧系列推理芯片為核心,承接DeepSeek-V4的全場景應用。
而寒武紀基于vLLM推理框架完成了對此次285B DeepSeek-V4-flash和1.6T DeepSeek-V4-pro兩個版本的Day 0適配,適配代碼已開源到GitHub社區。
▍下半年昇騰950超節點將批量支持DeepSeek V4
根據DeepSeep官方文檔介紹,DeepSeek V4并不是只在英偉達體系內做優化,而是將細粒度專家并行(EP)方案同時在英偉達GPU和華為昇騰NPU上完成驗證,這說明其推理路徑已經具備跨算力平臺的適配能力。但在開源層面,當前釋放的仍主要是基于CUDA的MegaMoE和DeepGEMM,底層實現深度綁定英偉達工具鏈。
從價格看,DeepSeek V4-Pro輸入(緩存命中)是1元/百萬tokens,輸入(緩存未命中)是12元,輸出是24元;V4-Flash輸入(緩存命中)是0.2元/百萬tokens,輸入(緩存未命中)是1元,輸出是2元。
值得一提的是,官方API頁面在小字中提到,受限于高端算力,目前V4-Pro的服務吞吐仍有限,預計下半年昇騰950超節點批量上市后,Pro價格會大幅下調。這意味著,DeepSeek正嘗試把模型運行時從單一硬件依賴中解耦出來。
![]()
此外,華為云首發適配了DeepSeek-V4模型。華為云MaaS模型即服務平臺已為開發者提供免部署、一鍵調用DeepSeek-V4-Flash API的Tokens服務。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.