vLLM 是咱們公眾號的常客了,關于它我之前寫過:
今天聊點新消息——vLLM 真的贏完了
Artificial Analysis 把全球推理供應商按吞吐速度做了個排行榜,DigitalOcean 用 vLLM 跑出來的部署直接登頂,三個前沿開源模型上全部第一
![]()
vLLM 登頂 Artificial Analysis 數據
上周 DigitalOcean 自己發了一篇推理基準測試,涉及三個前沿開源模型:
DeepSeek V3.2:單用戶輸出速度峰值 230 TPS,是大多數供應商的 4 倍以上
Qwen 3.5 397B:在 Artificial Analysis 測的 12 家供應商里第一,10,000 token prompt 的 TTFT 小于 1 秒
MiniMax-M2.5:同樣登頂
底下跑的引擎是誰?vLLM
老章感受:
"開源引擎打贏閉源全家桶"這件事,以前大家覺得是理想,現在變成了榜單事實
而且關鍵是——這些優化全在 vLLM main 分支或正在合入,不是私有 fork
所以你拿 vLLM 自己部署,理論上能復現這些數字
vLLM 怎么做到的
按模型一一拆,每個模型一個瓶頸,一個對應解法:
1. DeepSeek V3.2:低 batch 下的內核融合
在低 batch size 下,DeepSeek V3.2 卡在 GPU kernel launch overhead,不是算力
每層 Transformer 要發 30 多個獨立 kernel——歸一化、rotary embedding、量化、KV cache 寫入,每個 kernel 本身在 GPU 上是微秒級,但 launch 成本疊起來比計算還大
vLLM 的做法是沿 attention 路徑做 op fusion,把 Q/KV 歸一化、Q/KV 的 rotary embedding、indexer 的 layer norm + rotary、FP8 量化、KV cache 寫入合到兩個 fused kernel里
![]()
DSv3.2 attention-path fusion
每層 kernel 數從 ~33 砍到 ~10,batch size 1 時 1.28× 加速(85.8 → 109.3 tok/s on 4× GB200,無 MTP)
在 8× B300 單節點 concurrency=1 下:
不開 MTP(TP=8):125 tok/s
開 MTP=1(TP=8):234 tok/s(draft 接受率約 90%)
prefill/decode disaggregation(TP=4 + TP=4 + MTP=3): 262 tok/s
外加:
新的 router GEMM kernel ,專門為 DSv3 MoE routing 維度優化,batch 1 再加 6%(PR )
稀疏 attention 的 TopK kernel ,按 sequence length 自動選算法,單 CUDA graph 適配所有情況,128K 上下文 decode 單 token 延遲 下降17%(PR )
這套同樣喂給了 vLLM 的 DeepSeek V4 支持,Q RoPE + quant 和 QK norm 的 fusion 直接復用
下圖是 Artificial Analysis 上 DeepSeek V3.2 各供應商的 output speed 對比,vLLM 那條直接拉爆:
![]()
DSv3.2 Non-Reasoning
DSv3.2 Reasoning
2. MiniMax-M2.5:EAGLE3 + 定向 kernel fusion
針對 MiniMax-M2.5 自帶的特殊架構,vLLM 團隊做了:
定向 kernel fusion
自訓的 EAGLE3 draft model :用開源的 TorchSpec + vLLM 訓出來,雖然主模型架構獨特,但 draft 模型流程是通用的
關鍵彩蛋: 同一個 draft 也能用在 M2.7 上 ,因為架構一致
3. Qwen 3.5 397B:attention + normalization 路徑融合
針對 Qwen 3.5 的 linear-attention 路徑做定向 fusion,配合 attention 和 normalization 優化,吃下榜單第一
為什么這件事重要
業界常見的假設是:生產級推理性能要靠私有棧
這次 Artificial Analysis 的榜單直接打臉——一個社區驅動的開源引擎,跑在同樣的 NVIDIA Blackwell Ultra 硬件上,把所有商業方案按在地上
而且優化方法完全公開——你想知道為什么快,去看 vLLM PR
總接
vLLM 這一年的進化路徑大家都看在眼里:
從"性能不輸 TGI"
到"吃下 LLaMA / Qwen / DeepSeek / MiniMax"
到"Omni 全模態"
到現在"Artificial Analysis 排行第一"
它做對了一件事——性能優化的代碼留在主倉
任何商業方案最大的誘惑都是私有化補丁,vLLM 團隊這一年頂住了這個誘惑,結果就是社區粘性越來越強,企業貢獻 PR 越來越多,性能也水漲船高
如果你還在用閉源推理服務,可以認真重新評估一下了
如果你是企業自部署,這是 vLLM 的最佳時機
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.