繼續看看 V4,本文看下 DeepSeek-V4-Flash 本地部署
我的設備
CPU :Intel Xeon Platinum 8457C
內存 :480 GiB
GPU :2 x NVIDIA H20,單卡顯存 96 GB
驅動版本:580.126.09
CUDA 版本:13.0
系統盤:100G
數據盤:1T
模型文件 160GB
國內網絡,模型下載
modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local_dir /data/models/DeepSeek-V4-Flash
2、vLLM Docker 鏡像準備安裝vllm-nightly我從沒有成功過,只有Docker最省心
docker pull vllm/vllm-openai:deepseekv4-cu129
3、啟動腳本 ![]()
大家也看到了,即便是 Flash,能跑得起的設備也很少,AMD 全軍覆沒
看了幾個 issues,消費級英偉達顯卡也都不配
上面的啟動腳本我的 2xH20 自然也不配,啟動 N 次,都是 OOM
![]()
不斷試錯之后,實際使用的腳本:
docker run -d \
--name vllm-deepseek-v4-flash \
--restart unless-stopped \
--gpus all \
--privileged \
--ipc=host \
-p 8000:8000 \
-v /data/models:/models:ro \
-e VLLM_ENGINE_READY_TIMEOUT_S=3600 \
vllm/vllm-openai:deepseekv4-cu129 \
/models/DeepSeek-V4-Flash \
--trust-remote-code \
--kv-cache-dtype fp8 \
--block-size 256 \
--enable-expert-parallel \
--data-parallel-size 2 \
--gpu-memory-utilization 0.95 \
--max-model-len 7000 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 \
--enable-auto-tool-choice \
--enforce-eager
模型默認 max seq len 是 1048576,完全搞不動,所以我這里 --max-model-len 只設 7K
![]()
啟動正常,幾個日志關鍵信息分享一下:
1、模型原始 Safetensors 權重文件高達 148.66 GiB(EXT4 文件系統顯示的 size),但在啟用 FP8 量化 和 Expert Parallelism(EP) 后,單個 Worker 進程(Rank)加載的權重被壓縮到了 77.6 GiB
2、扣除權重和系統預留后,只剩下了約 9.29 GiB 用于緩存
3、并發能力,日志顯示 Maximum concurrency for 7,000 tokens perrequest: 3.72x。這意味著在長文本(7k tokens)情況下,系統僅能支持約 3.72 個并發請求
4、模型總共有 256 個專家,通過并行配置,每個 Worker 維護 128 個。這樣做既利用了多卡的算力,又分攤了專家權重的顯存壓力
5、日志顯示 Using DeepSeek's fp8_ds_mla KV cacheformat。這是 DeepSeek 的“獨門絕技”,通過低秩壓縮技術(Multi-head Latent Attention),在 FP8 模式下極大地緩解了內存帶寬壓力(擴展閱讀:)
6、日志還可以看到 TileLang 完成了 mhc_pre_big_fuse_tilelang 等內核的編譯
7、啟動速度:整個引擎初始化(Profile + Cache 創建 + Warmup)耗時約 233 秒。對于這種規模的模型,這個速度表現尚可,大部分時間花在了 DeepGEMM warmup(2 分 36 秒)
![]()
性能情況
效果就別追求了,看看性能
![]()
平均生成速度 8.33!!!遙遙領先的卡嗎?
哦哦,不對是 H20
難以置信,要知道我測試
關閉思考
查了一下 DeepSeek API 文檔,可以關閉思考
![]()
寫了一個腳本再測、,對比思考與非思考下性能,各跑 10 次取平均,同樣的 prompt,max_tokens=1024
結果如下:
![]()
再見,浪費了寶貴的幾個小時!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.