又被DeepSeek V4刷屏了吧,但toB老司機(jī)們更開(kāi)心的是:歇了大半年的DeepSeek一體機(jī)又可以搞起來(lái)了。
但先別忙著高興,V4對(duì)一體機(jī)的要求有點(diǎn)變態(tài)。
![]()
要求有多高?先給結(jié)論吧↓
跑Flash版:4卡高顯存GPU起步。
跑Pro版滿(mǎn)血:8×B200或者16×H200起步。
跑Pro滿(mǎn)血+百萬(wàn)Token+多并發(fā)Agent+PD分離部署:建議32卡以上超節(jié)點(diǎn)。
以上均以N家為例,國(guó)產(chǎn)卡下面會(huì)逐個(gè)探討。
這個(gè)配置是怎么算出來(lái)的?我們先交代一下基本面↓
DeepSeek V4有兩個(gè)版本:
DeepSeek-V4-Flash:284B 總參數(shù),13B 激活參數(shù)。
DeepSeek-V4-Pro:1.6T 總參數(shù),49B 激活參數(shù)。
兩個(gè)都是 MoE 模型,總參數(shù)很大,但每次只激活一部分專(zhuān)家。
而且,這次的放出來(lái)的 V4開(kāi)源版版本還有個(gè)關(guān)鍵設(shè)計(jì),采用FP4+FP8混合精度。
①最占空間的專(zhuān)家層(MoE experts)用FP4精度。
②對(duì)精度更敏感的注意力和稠密層(attention/dense)用精度更高的FP8。
為了幫助大家降低顯存尋求,DeepSeek這次也是拼了。
![]()
Pro版如果全用FP8,大約需要1.6TB顯存。
現(xiàn)在DeepSeek把最吃顯存的MoE專(zhuān)家層壓到FP4了,實(shí)際權(quán)重壓力能降到1TB級(jí)別。
所以粗略估算:
V4-Flash權(quán)重占用:約180GB–260GB。
V4-Pro權(quán)重占用:約 1.0TB–1.4TB。
但很多老卡包括H20/H200以及很多國(guó)產(chǎn)卡,是不支持FP4精度的,還得用FP8,所以老卡要按照滿(mǎn)額。
而且,真正跑生產(chǎn),還要加KV Cache、運(yùn)行時(shí) buffer、通信 buffer、并發(fā)余量、推理框架開(kāi)銷(xiāo)……,這一攬子都不是省燈的油。
尤其Pro版還要百萬(wàn)上下文,上下文越長(zhǎng),KV Cache越吃資源。
![]()
01 / 如果你有N卡,該怎么配?
其實(shí),著名推理引擎SGLang官方給出了推薦配置:
![]()
https://docs.sglang.io/cookbook/autoregressive/DeepSeek/DeepSeek-V4
DeepSeek-V4-Flash:
單節(jié)點(diǎn)4張H200/B200/GB200/GB300都可以跑。
據(jù)此延展:4×141GB級(jí)別GPU,比如H20,理論可跑。
同時(shí),8×H200/H20/B200,適合一定并發(fā)。
DeepSeek-V4-Pro:
8×B200或者4×GB300
或者16×H200,用兩臺(tái)8卡機(jī)。(畢竟H200不支持FP4)
這是跑Pro的起步線(xiàn),理論上16張141G顯存版本的H20也ok。
如果是生產(chǎn)環(huán)境,長(zhǎng)上下文、Think Max、多并發(fā) Agent,那配置要求會(huì)進(jìn)一步拉高:
16×B200:更穩(wěn)。
32×B200:適合高并發(fā)和長(zhǎng)上下文。
GB200 NVL72:旗艦滿(mǎn)血方案。
多說(shuō)一句,另一家推理引擎vLLM給出了更復(fù)雜的部署環(huán)境和對(duì)應(yīng)配置,大家可以自己去看,(包括pd分離等)。
![]()
https://recipes.vllm.ai/deepseek-ai/DeepSeek-V4-Pro?features=tool_calling%2Creasoning%2Cspec_decoding&hardware=h100&strategy=pd_cluster
看到這你會(huì)發(fā)現(xiàn),要是能有高端N卡真是太爽了,無(wú)論從算力還是精度上,足以保證V4飛起。
![]()
然鵝,你懂的……
所以,我們還是多寄希望于國(guó)產(chǎn)力量吧。
02 / 華為昇騰950PR能不能跑?
答案是肯定的。
畢竟DeepSeek V4在官方發(fā)布的時(shí)候已經(jīng)cue過(guò)昇騰950了,這幾乎相當(dāng)于聯(lián)合首發(fā)了。而且菊廠(chǎng)也官宣day0適配。
![]()
官方說(shuō)的是超節(jié)點(diǎn),我們算算跑起來(lái)需要幾張卡。
公開(kāi)報(bào)道顯示,華為Ascend 950PR,配112GB HBM,內(nèi)存帶寬約 1.4TB/s,互聯(lián)約2TB/s,并具備 1.56 PFLOPS FP4能力(菊廠(chǎng)這個(gè)MXFP4,比普通FP4精度更好)。
劃重點(diǎn),112GB HBM,MXFP4支持,這很夯,算一下要幾張卡↓
16×Ascend 950PR:Pro 起步。
24×Ascend 950PR:Pro 更穩(wěn)。
32×Ascend 950PR:百萬(wàn) Token、多并發(fā) Agent。
相信,菊廠(chǎng)和DeepSeek暗通款曲已久,適配和優(yōu)化應(yīng)該比較到位,接下來(lái)昇騰DS超節(jié)點(diǎn)怕是有一波大行情。
![]()
03 / 曙光scaleX40能不能跑?
能,而且形態(tài)也很對(duì)路。
scaleX40是40卡超節(jié)點(diǎn),公開(kāi)口徑是5.62TB+ HBM、FP8總算力超過(guò)28 PFLOPS,Scale-up 全互連。
但估計(jì)不支持FP4精度(未見(jiàn)宣傳),所以無(wú)法享受混合精度的紅利。
跑Flash沒(méi)問(wèn)題。
跑Pro也很適合。
如果scaleX40對(duì)FP4/FP8和DeepSeek-V4的CSA/HCA 注意力做了適配,它也會(huì)是非常合適的國(guó)產(chǎn)一體機(jī)/超節(jié)點(diǎn)形態(tài)。
![]()
04 / 昆侖芯超節(jié)點(diǎn)能不能跑?
方向上也很適合跑。
昆侖芯超節(jié)點(diǎn)主打32/64 卡、柜內(nèi)全互聯(lián)、MoE 大模型優(yōu)化。這個(gè)形態(tài)適合DeepSeek V4。
昆侖芯P900顯存按照96GB,精度按照FP8來(lái)算(存疑),無(wú)論32卡還是64卡的昆侖芯超節(jié)點(diǎn),都能扛起DeepSeek-V4-Pro。
32卡穩(wěn)定跑,64卡高并發(fā)。當(dāng)然,具體還要看優(yōu)化和適配情況。
![]()
05 / 阿里真武810E如何?
阿里這款芯片公開(kāi)規(guī)格里比較明確的是:96GB HBM2e、700GB/s 片間互聯(lián)。
但目前沒(méi)有看到明確的FP4/FP8官方精度表,從對(duì)標(biāo)H20的宣傳看,大概率是支持FP8的。
所以,算起來(lái)與昆侖芯類(lèi)似,Pro滿(mǎn)血版用32卡就能穩(wěn)定跑。但阿里系的超節(jié)點(diǎn)規(guī)格較大,比如磐久128,云商自用可以,可能不太適合一般規(guī)模的企業(yè)落地。
![]()
另外,寒王也宣布了Day0支持DeepSeek V4,如果以其思元MLU590為例,單卡顯存96GB,F(xiàn)P8精度。
推算起來(lái)情況與百度和阿里的芯片也基本相當(dāng),也是32卡可以穩(wěn)定跑Pro的水準(zhǔn)。
接下來(lái),DeepSeek V4 Pro滿(mǎn)血版的企業(yè)本地化落地,傳統(tǒng)8卡機(jī)恐怕靠邊站了,要么組團(tuán),要么讓超節(jié)點(diǎn)上位!
![]()
所以,你準(zhǔn)備好了嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.