網易首頁 > 網易號 > 正文 申請入駐

DeepSeek-V4-Flash 本地部署,2 x H20(96GB版本),性能簡測

0
分享至

繼續看看 V4,本文看下 DeepSeek-V4-Flash 本地部署

我的設備

  • CPU :Intel Xeon Platinum 8457C

  • 內存 :480 GiB

  • GPU :2 x NVIDIA H20,單卡顯存 96 GB

  • 驅動版本:580.126.09

  • CUDA 版本:13.0

  • 系統盤:100G

  • 數據盤:1T

1、模型下載

模型文件 160GB

國內網絡,模型下載

modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local_dir /data/models/DeepSeek-V4-Flash
2、vLLM Docker 鏡像準備

安裝vllm-nightly我從沒有成功過,只有Docker最省心

docker pull vllm/vllm-openai:deepseekv4-cu129

3、啟動腳本

大家也看到了,即便是 Flash,能跑得起的設備也很少,AMD 全軍覆沒

看了幾個 issues,消費級英偉達顯卡也都不配

上面的啟動腳本我的 2xH20 自然也不配,啟動 N 次,都是 OOM


不斷試錯之后,實際使用的腳本:

docker run -d \
--name vllm-deepseek-v4-flash \
--restart unless-stopped \
--gpus all \
--privileged \
--ipc=host \
-p 8000:8000 \
-v /data/models:/models:ro \
-e VLLM_ENGINE_READY_TIMEOUT_S=3600 \
vllm/vllm-openai:deepseekv4-cu129 \
/models/DeepSeek-V4-Flash \
--trust-remote-code \
--kv-cache-dtype fp8 \
--block-size 256 \
--enable-expert-parallel \
--data-parallel-size 2 \
--gpu-memory-utilization 0.95 \
--max-model-len 7000 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 \
--enable-auto-tool-choice \
--enforce-eager

模型默認 max seq len1048576,完全搞不動,所以我這里 --max-model-len 只設 7K


啟動正常,幾個日志關鍵信息分享一下:

1、模型原始 Safetensors 權重文件高達 148.66 GiB(EXT4 文件系統顯示的 size),但在啟用 FP8 量化 和 Expert Parallelism(EP) 后,單個 Worker 進程(Rank)加載的權重被壓縮到了 77.6 GiB

2、扣除權重和系統預留后,只剩下了約 9.29 GiB 用于緩存

3、并發能力,日志顯示 Maximum concurrency for 7,000 tokens perrequest: 3.72x。這意味著在長文本(7k tokens)情況下,系統僅能支持約 3.72 個并發請求

4、模型總共有 256 個專家,通過并行配置,每個 Worker 維護 128 個。這樣做既利用了多卡的算力,又分攤了專家權重的顯存壓力

5、日志顯示 Using DeepSeek's fp8_ds_mla KV cacheformat。這是 DeepSeek 的“獨門絕技”,通過低秩壓縮技術(Multi-head Latent Attention),在 FP8 模式下極大地緩解了內存帶寬壓力(擴展閱讀:)

6、日志還可以看到 TileLang 完成了 mhc_pre_big_fuse_tilelang 等內核的編譯

7、啟動速度:整個引擎初始化(Profile + Cache 創建 + Warmup)耗時約 233 秒。對于這種規模的模型,這個速度表現尚可,大部分時間花在了 DeepGEMM warmup(2 分 36 秒)


性能情況

效果就別追求了,看看性能


平均生成速度 8.33!!!遙遙領先的卡嗎?

哦哦,不對是 H20

難以置信,要知道我測試

關閉思考

查了一下 DeepSeek API 文檔,可以關閉思考


寫了一個腳本再測、,對比思考與非思考下性能,各跑 10 次取平均,同樣的 prompt,max_tokens=1024

結果如下:


再見,浪費了寶貴的幾個小時!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
誰能相信啊!天賦滿滿的狀元郎,29歲被交易,30歲又要被交易?

誰能相信啊!天賦滿滿的狀元郎,29歲被交易,30歲又要被交易?

球毛鬼胎
2026-04-26 12:58:38
蘇翊鳴朱易4年戀情結束!雙方互相取關,女方曬眼淚照喊話向前走

蘇翊鳴朱易4年戀情結束!雙方互相取關,女方曬眼淚照喊話向前走

萌神木木
2026-04-24 11:41:28
從“圍著學”到“自主C位”:透過北京車展,看車企話語權互換的質變

從“圍著學”到“自主C位”:透過北京車展,看車企話語權互換的質變

證券時報e公司
2026-04-24 23:59:02
戴著媽媽的項鏈去面試,被董事長看到,董事長震驚問:你媽媽是誰

戴著媽媽的項鏈去面試,被董事長看到,董事長震驚問:你媽媽是誰

千秋文化
2026-04-18 19:08:36
罕見!醫生撥打12345舉報自己,官方通報出爐,真相太無奈!

罕見!醫生撥打12345舉報自己,官方通報出爐,真相太無奈!

醫客
2026-04-25 12:02:47
膽大包天!伊朗33艘快艇閃電突襲:美軍來不及出動,眼睜睜吃敗仗

膽大包天!伊朗33艘快艇閃電突襲:美軍來不及出動,眼睜睜吃敗仗

嘆知
2026-04-26 16:56:30
世錦賽戰報:9-13!39歲丁俊暉無緣大滿貫,中國11人參賽9人出局

世錦賽戰報:9-13!39歲丁俊暉無緣大滿貫,中國11人參賽9人出局

球場沒跑道
2026-04-26 19:46:22
年僅26歲!江西吳開婷去世,前后6個月傾家蕩產,倆女兒不愿放手

年僅26歲!江西吳開婷去世,前后6個月傾家蕩產,倆女兒不愿放手

閱微札記
2026-04-26 14:58:08
“10分鐘的商務座,你拍了9分鐘的照”,窮養女炫富,反被群嘲

“10分鐘的商務座,你拍了9分鐘的照”,窮養女炫富,反被群嘲

妍妍教育日記
2026-04-15 08:25:03
嘲笑德國派出掃雷艦?地中海距霍爾木茲還有2000海里,這是啥意思

嘲笑德國派出掃雷艦?地中海距霍爾木茲還有2000海里,這是啥意思

寰球經緯所
2026-04-26 20:37:59
女乒2人或退役,曾經給了10次機會,一次也沒抓住

女乒2人或退役,曾經給了10次機會,一次也沒抓住

酷侃體壇
2026-04-24 23:11:57
中國國民黨前主席洪秀柱:我沒有刻意追求流行,只是選擇中華美學時尚

中國國民黨前主席洪秀柱:我沒有刻意追求流行,只是選擇中華美學時尚

上觀新聞
2026-04-26 06:53:04
吳邦國致法大60周年信曝光,書法天賦引熱議!

吳邦國致法大60周年信曝光,書法天賦引熱議!

書畫相約
2026-04-25 07:56:42
1979年越南女兵炸毀我軍坦克,羅興元端起高壓噴火槍,將千度烈焰灌進了十米外的地道

1979年越南女兵炸毀我軍坦克,羅興元端起高壓噴火槍,將千度烈焰灌進了十米外的地道

寄史言志
2026-04-24 22:21:06
沈伯洋換發型同框蔣萬安,戰臺北市箭在弦上?

沈伯洋換發型同框蔣萬安,戰臺北市箭在弦上?

郭茂辰海峽傳真
2026-04-25 22:00:35
肺癌開始時,四肢可能會有3個跡象,哪怕有了1個,都應該重視!

肺癌開始時,四肢可能會有3個跡象,哪怕有了1個,都應該重視!

墜入二次元的海洋
2026-04-26 15:35:13
50萬的車預訂量破2.5萬臺,問界M9這次真的把BBA打懵了

50萬的車預訂量破2.5萬臺,問界M9這次真的把BBA打懵了

小南看車
2026-04-25 23:08:49
1955年,潘漢年在北京飯店被秘密逮捕,陳毅怒斥:糊涂,不可原諒

1955年,潘漢年在北京飯店被秘密逮捕,陳毅怒斥:糊涂,不可原諒

歷史龍元閣
2026-04-26 17:15:07
秦嶺是一座怎樣的山

秦嶺是一座怎樣的山

霖霆1
2026-04-23 06:18:18
又是 F-35:伊朗徹底打破美國防務裝備 “無敵神話”。

又是 F-35:伊朗徹底打破美國防務裝備 “無敵神話”。

健身狂人
2026-04-26 20:18:48
2026-04-26 21:31:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3353文章數 11139關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

僅次《指環王》的美劇,有第二季

財經要聞

事關新就業群體,中辦、國辦發文

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

健康
藝術
家居
公開課
軍事航空

干細胞如何讓燒燙傷皮膚"再生"?

藝術要聞

18幅 列賓美院教師Artem Tikhonov風景寫生

家居要聞

自然肌理 溫潤美學

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗總統:不會在壓力、威脅下進行談判

無障礙瀏覽 進入關懷版