網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek V4滿(mǎn)血版一體機(jī)，你恐怕買(mǎi)不起！

2026-04-28 18:17:15　來(lái)源: AI全球總部

北京舉報(bào)

分享至

又被DeepSeek V4刷屏了吧，但toB老司機(jī)們更開(kāi)心的是：歇了大半年的DeepSeek一體機(jī)又可以搞起來(lái)了。

但先別忙著高興，V4對(duì)一體機(jī)的要求有點(diǎn)變態(tài)。

要求有多高？先給結(jié)論吧↓

跑Flash版：4卡高顯存GPU起步。
跑Pro版滿(mǎn)血：8×B200或者16×H200起步。
跑Pro滿(mǎn)血+百萬(wàn)Token+多并發(fā)Agent+PD分離部署：建議32卡以上超節(jié)點(diǎn)。
以上均以N家為例，國(guó)產(chǎn)卡下面會(huì)逐個(gè)探討。

這個(gè)配置是怎么算出來(lái)的？我們先交代一下基本面↓

DeepSeek V4有兩個(gè)版本：

DeepSeek-V4-Flash：284B 總參數(shù)，13B 激活參數(shù)。

DeepSeek-V4-Pro：1.6T 總參數(shù)，49B 激活參數(shù)。

兩個(gè)都是 MoE 模型，總參數(shù)很大，但每次只激活一部分專(zhuān)家。

而且，這次的放出來(lái)的 V4開(kāi)源版版本還有個(gè)關(guān)鍵設(shè)計(jì)，采用FP4+FP8混合精度。

①最占空間的專(zhuān)家層（MoE experts）用FP4精度。
②對(duì)精度更敏感的注意力和稠密層（attention/dense）用精度更高的FP8。

為了幫助大家降低顯存尋求，DeepSeek這次也是拼了。

Pro版如果全用FP8，大約需要1.6TB顯存。

現(xiàn)在DeepSeek把最吃顯存的MoE專(zhuān)家層壓到FP4了，實(shí)際權(quán)重壓力能降到1TB級(jí)別。

所以粗略估算：

V4-Flash權(quán)重占用：約180GB–260GB。
V4-Pro權(quán)重占用：約 1.0TB–1.4TB。

但很多老卡包括H20/H200以及很多國(guó)產(chǎn)卡，是不支持FP4精度的，還得用FP8，所以老卡要按照滿(mǎn)額。

而且，真正跑生產(chǎn)，還要加KV Cache、運(yùn)行時(shí) buffer、通信 buffer、并發(fā)余量、推理框架開(kāi)銷(xiāo)……，這一攬子都不是省燈的油。

尤其Pro版還要百萬(wàn)上下文，上下文越長(zhǎng)，KV Cache越吃資源。

01 / 如果你有N卡，該怎么配？

其實(shí)，著名推理引擎SGLang官方給出了推薦配置：

https://docs.sglang.io/cookbook/autoregressive/DeepSeek/DeepSeek-V4

DeepSeek-V4-Flash：

單節(jié)點(diǎn)4張H200/B200/GB200/GB300都可以跑。

據(jù)此延展：4×141GB級(jí)別GPU，比如H20，理論可跑。

同時(shí)，8×H200/H20/B200，適合一定并發(fā)。

DeepSeek-V4-Pro：

8×B200或者4×GB300

或者16×H200，用兩臺(tái)8卡機(jī)。（畢竟H200不支持FP4）

這是跑Pro的起步線(xiàn)，理論上16張141G顯存版本的H20也ok。

如果是生產(chǎn)環(huán)境，長(zhǎng)上下文、Think Max、多并發(fā) Agent，那配置要求會(huì)進(jìn)一步拉高：

16×B200：更穩(wěn)。

32×B200：適合高并發(fā)和長(zhǎng)上下文。

GB200 NVL72：旗艦滿(mǎn)血方案。

多說(shuō)一句，另一家推理引擎vLLM給出了更復(fù)雜的部署環(huán)境和對(duì)應(yīng)配置，大家可以自己去看，（包括pd分離等）。

https://recipes.vllm.ai/deepseek-ai/DeepSeek-V4-Pro?features=tool_calling%2Creasoning%2Cspec_decoding&hardware=h100&strategy=pd_cluster

看到這你會(huì)發(fā)現(xiàn)，要是能有高端N卡真是太爽了，無(wú)論從算力還是精度上，足以保證V4飛起。

然鵝，你懂的……

所以，我們還是多寄希望于國(guó)產(chǎn)力量吧。

02 / 華為昇騰950PR能不能跑？

答案是肯定的。

畢竟DeepSeek V4在官方發(fā)布的時(shí)候已經(jīng)cue過(guò)昇騰950了，這幾乎相當(dāng)于聯(lián)合首發(fā)了。而且菊廠(chǎng)也官宣day0適配。

官方說(shuō)的是超節(jié)點(diǎn)，我們算算跑起來(lái)需要幾張卡。

公開(kāi)報(bào)道顯示，華為Ascend 950PR，配112GB HBM，內(nèi)存帶寬約 1.4TB/s，互聯(lián)約2TB/s，并具備 1.56 PFLOPS FP4能力（菊廠(chǎng)這個(gè)MXFP4，比普通FP4精度更好）。

劃重點(diǎn)，112GB HBM，MXFP4支持，這很夯，算一下要幾張卡↓

16×Ascend 950PR：Pro 起步。
24×Ascend 950PR：Pro 更穩(wěn)。
32×Ascend 950PR：百萬(wàn) Token、多并發(fā) Agent。

相信，菊廠(chǎng)和DeepSeek暗通款曲已久，適配和優(yōu)化應(yīng)該比較到位，接下來(lái)昇騰DS超節(jié)點(diǎn)怕是有一波大行情。

03 / 曙光scaleX40能不能跑？

能，而且形態(tài)也很對(duì)路。

scaleX40是40卡超節(jié)點(diǎn)，公開(kāi)口徑是5.62TB+ HBM、FP8總算力超過(guò)28 PFLOPS，Scale-up 全互連。

但估計(jì)不支持FP4精度（未見(jiàn)宣傳），所以無(wú)法享受混合精度的紅利。

跑Flash沒(méi)問(wèn)題。

跑Pro也很適合。

如果scaleX40對(duì)FP4/FP8和DeepSeek-V4的CSA/HCA 注意力做了適配，它也會(huì)是非常合適的國(guó)產(chǎn)一體機(jī)/超節(jié)點(diǎn)形態(tài)。

04 / 昆侖芯超節(jié)點(diǎn)能不能跑？

方向上也很適合跑。

昆侖芯超節(jié)點(diǎn)主打32/64 卡、柜內(nèi)全互聯(lián)、MoE 大模型優(yōu)化。這個(gè)形態(tài)適合DeepSeek V4。

昆侖芯P900顯存按照96GB，精度按照FP8來(lái)算（存疑），無(wú)論32卡還是64卡的昆侖芯超節(jié)點(diǎn)，都能扛起DeepSeek-V4-Pro。

32卡穩(wěn)定跑，64卡高并發(fā)。當(dāng)然，具體還要看優(yōu)化和適配情況。

05 / 阿里真武810E如何？

阿里這款芯片公開(kāi)規(guī)格里比較明確的是：96GB HBM2e、700GB/s 片間互聯(lián)。

但目前沒(méi)有看到明確的FP4/FP8官方精度表，從對(duì)標(biāo)H20的宣傳看，大概率是支持FP8的。

所以，算起來(lái)與昆侖芯類(lèi)似，Pro滿(mǎn)血版用32卡就能穩(wěn)定跑。但阿里系的超節(jié)點(diǎn)規(guī)格較大，比如磐久128，云商自用可以，可能不太適合一般規(guī)模的企業(yè)落地。

另外，寒王也宣布了Day0支持DeepSeek V4，如果以其思元MLU590為例，單卡顯存96GB，F(xiàn)P8精度。

推算起來(lái)情況與百度和阿里的芯片也基本相當(dāng)，也是32卡可以穩(wěn)定跑Pro的水準(zhǔn)。

接下來(lái)，DeepSeek V4 Pro滿(mǎn)血版的企業(yè)本地化落地，傳統(tǒng)8卡機(jī)恐怕靠邊站了，要么組團(tuán)，要么讓超節(jié)點(diǎn)上位！

所以，你準(zhǔn)備好了嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.