網易首頁 > 網易號 > 正文申請入駐

DeepSeek-V4-Flash 本地部署，2 x H20（96GB版本），性能簡測

2026-04-26 00:10:33　來源: Ai學習的老章

北京舉報

分享至

繼續看看 V4，本文看下 DeepSeek-V4-Flash 本地部署

我的設備

CPU ：Intel Xeon Platinum 8457C
內存：480 GiB
GPU ：2 x NVIDIA H20，單卡顯存 96 GB
驅動版本：580.126.09
CUDA 版本：13.0
系統盤：100G
數據盤：1T

1、模型下載

模型文件 160GB

國內網絡，模型下載

modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local_dir /data/models/DeepSeek-V4-Flash

2、vLLM Docker 鏡像準備

安裝vllm-nightly我從沒有成功過，只有Docker最省心

docker pull vllm/vllm-openai:deepseekv4-cu129

3、啟動腳本

大家也看到了，即便是 Flash，能跑得起的設備也很少，AMD 全軍覆沒

看了幾個 issues，消費級英偉達顯卡也都不配

上面的啟動腳本我的 2xH20 自然也不配，啟動 N 次，都是 OOM

不斷試錯之后，實際使用的腳本：

docker run -d \
  --name vllm-deepseek-v4-flash \
  --restart unless-stopped \
  --gpus all \
  --privileged \
  --ipc=host \
  -p 8000:8000 \
  -v /data/models:/models:ro \
  -e VLLM_ENGINE_READY_TIMEOUT_S=3600 \
  vllm/vllm-openai:deepseekv4-cu129 \
  /models/DeepSeek-V4-Flash \
  --trust-remote-code \
  --kv-cache-dtype fp8 \
  --block-size 256 \
  --enable-expert-parallel \
  --data-parallel-size 2 \
  --gpu-memory-utilization 0.95 \
  --max-model-len 7000 \
  --tokenizer-mode deepseek_v4 \
  --tool-call-parser deepseek_v4 \
  --enable-auto-tool-choice \
  --enforce-eager

模型默認 max seq len 是 1048576，完全搞不動，所以我這里 --max-model-len 只設 7K

啟動正常，幾個日志關鍵信息分享一下：

1、模型原始 Safetensors 權重文件高達 148.66 GiB（EXT4 文件系統顯示的 size），但在啟用 FP8 量化和 Expert Parallelism(EP) 后，單個 Worker 進程（Rank）加載的權重被壓縮到了 77.6 GiB

2、扣除權重和系統預留后，只剩下了約 9.29 GiB 用于緩存

3、并發能力，日志顯示 Maximum concurrency for 7,000 tokens perrequest: 3.72x。這意味著在長文本（7k tokens）情況下，系統僅能支持約 3.72 個并發請求

4、模型總共有 256 個專家，通過并行配置，每個 Worker 維護 128 個。這樣做既利用了多卡的算力，又分攤了專家權重的顯存壓力

5、日志顯示 Using DeepSeek's fp8_ds_mla KV cacheformat。這是 DeepSeek 的“獨門絕技”，通過低秩壓縮技術（Multi-head Latent Attention），在 FP8 模式下極大地緩解了內存帶寬壓力（擴展閱讀：）

6、日志還可以看到 TileLang 完成了 mhc_pre_big_fuse_tilelang 等內核的編譯

7、啟動速度：整個引擎初始化（Profile + Cache 創建 + Warmup）耗時約 233 秒。對于這種規模的模型，這個速度表現尚可，大部分時間花在了 DeepGEMM warmup（2 分 36 秒）

性能情況

效果就別追求了，看看性能

平均生成速度 8.33！！！遙遙領先的卡嗎？

哦哦，不對是 H20

難以置信，要知道我測試

關閉思考

查了一下 DeepSeek API 文檔，可以關閉思考

寫了一個腳本再測、，對比思考與非思考下性能，各跑 10 次取平均，同樣的 prompt，max_tokens=1024

結果如下：

再見，浪費了寶貴的幾個小時！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.