網易首頁 > 網易號 > 正文申請入駐

vLLM v0.18.0 更新，KV Cache 迎來大升級

2026-03-21 15:45:53　來源: Ai學習的老章

北京舉報

分享至

上周剛寫完 v0.17.1 的補丁，vLLM v0.17.1 緊急補丁，修了一個讓 Qwen3.5 越跑越蠢的隱形 Bug，v0.18.0 就來了。

兄弟們總是問這個圖哪來的，就是 vllm 官網 vllm.ai

不只是功能堆疊，這次有幾個變化會直接影響你的部署配置。

先看全貌：v0.18.0 改了什么

變更

類型

Ray 從默認依賴中移除

?? 破壞性變更

gRPC 服務支持

（--grpc標志）

新功能

GPU-less 渲染服務

（vllm launch render）

新功能

NGram 投機解碼遷移至 GPU

? 性能提升

KV Cache 智能 CPU 卸載

? 性能提升

FlexKV 卸載后端

新功能

彈性專家并行 Milestone 2

（NIXL-EP）

新功能

FlashInfer 升級至 0.6.6

?? 依賴升級

Responses API 流式工具調用

新功能

ASR 在線 Beam Search

新功能

FA4 用于 MLA Prefill

（DeepSeek V3）

? 性能提升

新架構

：Sarvam MoE、OLMo Hybrid、Kimi-Audio-7B 等

模型支持

1. Ray 被請出默認依賴

這是最需要注意的一條。

從 v0.18.0 開始，Ray 不再作為默認依賴安裝。

# 以前安裝 vLLM，Ray 會自動裝進來
pip install vllm


 # 現在如果你需要 Ray（多節點/Ray Cluster），需要顯式安裝
pip install vllm ray

為什么移除？Ray 是個重型依賴，安裝慢、體積大，但絕大多數單機部署場景根本用不到它。拆開之后，單機部署的安裝速度和鏡像體積都會明顯改善。

什么情況下你還需要 Ray？

使用 Ray Cluster 做多節點分布式推理
用 Ray Data Pipeline 做批量推理
依賴ray serve做服務編排

如果你只是在單機跑 vLLM，這個變化對你透明，什么都不用改。

2. gRPC 服務支持

一行 flag 開啟 gRPC：

vllm serve meta-llama/Llama-3.1-8B-Instruct --grpc

同時開啟 HTTP 和 gRPC：兩個接口獨立運行，互不干擾。

為什么 gRPC 比 HTTP/REST 更快？

HTTP/REST 每次請求需要解析文本格式的 JSON，頭部字段冗余多，長連接復用效率低。gRPC 基于 HTTP/2，用 Protocol Buffers 做二進制序列化，同一連接可以多路復用，延遲和吞吐都有明顯優勢。

在高并發、低延遲的場景（比如內部微服務互調、Agent Pipeline）里，gRPC 的優勢會被明顯放大。

目前 gRPC 端口默認是8001，HTTP 保持8000不變。

3. KV Cache 智能 CPU 卸載 + FlexKV

這一版對 KV Cache 的卸載邏輯做了兩個升級。

3.1 只卸載"值得卸載"的 block

之前的 CPU offloading 是無差別的——只要顯存緊張就往 CPU 搬。

現在加了一個復用頻率門控（reuse-frequency-gated）：只有被多次復用的 block才會寫入 CPU。

邏輯很直接：一個 block 如果只被用了一次，把它寫到 CPU 再讀回來，開銷比收益大。只有那些在 prefix cache 里高頻命中的 block，才值得花帶寬卸載到 CPU 保留。

這對長對話、系統 prompt 固定的場景幫助很大——那些高頻復用的 prefix 塊會被優先保留，冷塊直接丟棄，減少無效 CPU?GPU 傳輸。

3.2 FlexKV：新的卸載后端

FlexKV 作為全新的 KV Cache 卸載后端引入，支持更靈活的存儲策略（不只是 CPU 內存，還可以擴展到 SSD 等介質）。

目前是實驗性功能，通過--kv-transfer-config指定：

vllm serve your-model \
  --kv-transfer-config '{"kv_connector":"FlexKVConnector","kv_role":"kv_both"}'

配合多 KV group 支持（--kv-groups），對 PD 分離架構的部署有直接幫助。

4. NGram 投機解碼遷移至 GPU

NGram 是一種不依賴草稿模型的投機解碼方法——直接從輸入 prompt 里找 n-gram 模式來預測后續 token。

以前這個匹配邏輯在 CPU 上跑，每一步都需要 CPU→GPU 數據傳輸，開銷抵消了不少收益。

現在整個 NGram 匹配遷移到 GPU 上，同時兼容 async scheduler，spec decode 的額外開銷大幅下降。

適合用 NGram 的場景：代碼補全、文檔續寫、固定模板生成——這些場景里 prompt 和輸出之間有大量重復 n-gram，投機命中率高。不需要單獨加載一個草稿模型，只要加一個 flag：

vllm serve your-model \
  --speculative-model "[ngram]" \
  --num-speculative-tokens 5 \
  --ngram-prompt-lookup-max 4

5. 彈性專家并行 Milestone 2：NIXL-EP 集成

這一版是彈性專家并行（Elastic EP）的第二個里程碑，核心變化是引入了NIXL-EP 集成。

對于跑 MoE 大模型（DeepSeek、Qwen3.5 MoE、Mixtral 等）的用戶，這意味著什么？

之前：EP（Expert Parallelism）的 GPU 數量在啟動時就固定了，擴縮容需要重啟服務。

現在：通過 NIXL（NVIDIA Interconnect eXtension Library）做專家權重的動態調度，GPU 可以動態加入/移出集群，不需要完全重啟。

另外新增--enable-ep-weight-filterflag，啟動時只加載本地 GPU 負責的專家權重，跳過不需要的參數：

vllm serve deepseek-ai/DeepSeek-V3 \
  --tensor-parallel-size 8 \
  --enable-ep-weight-filter

大模型加載速度會有明顯提升，尤其是 EP 節點數多的時候。

6. FA4 用于 MLA Prefill

DeepSeek 系列用了MLA（Multi-head Latent Attention）架構——把 KV cache 壓縮到低秩空間，顯存占用大幅下降，但也帶來了額外的矩陣運算。

這一版為 MLA 的 prefill 階段引入了FlashAttention 4（FA4）內核，同時還有：

Triton MLA decode 的 FP8 KV cache 支持
DeepSeek-V3.2 向量化 MLA query concat kernel
context parallel 下 FP8 KV cache gather 優化

對于在生產環境跑 DeepSeek V3/V3.2 的用戶，這些內核優化疊加下來，prefill 吞吐會有可觀的提升。

7. GPU-less 渲染服務

這是一個架構解耦的新玩法。

# 啟動一個純 CPU 的預處理節點，不需要 GPU
vllm launch render --model your-model

背后的邏輯：多模態推理（圖像/音頻/視頻）的預處理（圖像解碼、resize、特征提取）和 GPU 推理之間其實是解耦的。

把預處理從 GPU 節點拆出來，單獨用 CPU 節點跑，GPU 只專注計算：

CPU 節點可以水平擴展，處理高并發的媒體上傳
GPU 不再被預處理任務占用
有助于降低整體服務成本

8. Responses API 支持流式工具調用

OpenAI Responses API 現在支持流式（streaming）的工具/函數調用了。

這對 Agent 類應用很關鍵——工具調用的結果不再需要等整個響應生成完才返回，可以在生成過程中實時 stream 出來，大幅降低 Agent 的感知延遲。

模型支持更新

新增支持

類型

Sarvam MoE

新架構

OLMo Hybrid

新架構

HyperCLOVAX-SEED-Think-32B VLM

新架構

Kimi-Audio-7B-Instruct

音頻模型

ColPali 延遲交互檢索

RAG 檢索

Eagle3 for Qwen3.5

投機解碼

Eagle3 for Kimi K2.5 MLA

投機解碼

Whisper LoRA

LoRA

FP8 LoRA dense kernel

量化

另外修了一批國內常用模型的 bug：DeepSeek-V3.2 tokenizer 空格截斷、Qwen3.5 工具調用、Qwen3-VL 時間戳不一致、MiniCPM-V 音頻推理等。

該不該升？

跑 MoE 大模型（DeepSeek、Qwen3.5 MoE）+ 多 GPU：建議升。FA4 MLA 內核 + Elastic EP Milestone 2 是實實在在的提升。

用 NGram 投機解碼的：必須升。GPU 化之后性能質變。

用 Ray 管多節點集群的：升級前先確認pip install ray已在你的部署腳本里，否則啟動會報找不到 Ray。

用 KV Cache CPU offloading 的：升級可以順手用上智能門控，省掉無效的 CPU 寫入。

單機小模型部署：穩定性修復 + FlashInfer 0.6.6，升級無壞處。

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

華晨宇哭了損失大了，在云南投資上億拿下地皮，如今緊急叫停

以茶帶書

2026-04-25 16:22:06

王石真的老了！突然現身大梅沙，他赤裸著上半身，貼著胰島素針頭

火山詩話

2026-04-26 06:11:32

5月1日起，有房有車有身份證的人，或要吃大虧了！

小談食刻美食

2026-04-26 09:09:28

趙麗穎在上海某高檔餐廳被偶遇，瘦是真的瘦，素顏依然很美

一盅情懷

2026-04-25 19:36:00

中國第四艘航母官宣：是核動力！舷號19，命名大概率是“江蘇號”

福建睿平

2026-04-26 10:53:36

小米：李某華已被行拘

南方都市報

2026-04-26 12:01:47

曝球球退出陳翔六點半！疑細節原因曝光，否認與“蘑菇頭”是夫妻

橙星文娛

2026-04-26 14:26:26

華為余承東：尊界新車價格在200萬左右

界面新聞

2026-04-26 13:08:56

馬齒莧立功！研究發現：其天然成分4周降脂33%，還能減少血管斑塊

思思夜話

2026-04-25 11:16:17

網友開盒掛出“深圳派出所煙男”名單，微博官方：嚴重違規，已關號處理

極目新聞

2026-04-26 17:45:26

月入過萬！“崩老頭”登上熱搜，80后90后男性，成為年輕女性目標

火山詩話

2026-04-26 15:18:10

全變味了？蘇超開幕不到半月，不對勁的一幕上演，輿論風向又變了

墨印齋

2026-04-25 18:07:43

飯店老板被顧客踹續：一腳踹出三米遠，強喂服務員吃菜，警方介入

奇思妙想草葉君

2026-04-25 15:02:47

斯諾克世錦賽：吳宜澤出師不利！2局僅得1分，塞爾比狂轟2破百！

劉姚堯的文字城堡

2026-04-26 17:56:36

田馥甄曬3人合體爬山，陳嘉樺帶包子接地氣，任家萱現在最沒星味

離離言幾許

2026-04-25 20:49:13

手機拍完相機拍白宮晚宴槍擊現場男子淡定記錄

看看新聞Knews

2026-04-26 12:48:06

白宮晚宴槍擊案全網最全細節：特工疑與槍手互開數槍，特朗普在臺上十分淡定

爆角追蹤

2026-04-26 10:29:13

網紅女主播因父親重病去世失聯停播，公司要求其支付違約金：親人去世值得同情，但違約事實已發生；經法院調解，公司降低違約金數額

魯中晨報

2026-04-26 15:40:06

孩子脫臼復位只收100元，家長舉報亂收費！衛健委：應收110元，你還少給了！家長拒繳費后離開！

醫脈圈

2026-04-25 20:04:06

結束了！再見愛德華茲！NBA最慘季后賽球隊

籃球實戰寶典

2026-04-26 19:48:57

Ai學習的老章

3352文章數 11139關注度

往期回顧全部

科技要聞

漲價浪潮下，DeepSeek推動AI“價格戰”

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

體育要聞

森林狼3比1掘金：逆境中殺出了多孫穆？！

娛樂要聞

僅次《指環王》的美劇，有第二季

財經要聞

事關新就業群體，中辦、國辦發文

汽車要聞

預售19.38萬元起哈弗猛龍PLUS七座版亮相

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

健康

房產

本地

公開課

家居要聞

干細胞如何讓燒燙傷皮膚"再生"？

房產要聞

新一輪教育大爆發來了！海口，開始瘋狂建學校！

本地新聞

云游中國｜逛世界風箏都留學生探秘中國傳統文化

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

vLLM v0.18.0 更新，KV Cache 迎來大升級

漲價浪潮下，DeepSeek推動AI“價格戰”

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

森林狼3比1掘金：逆境中殺出了多孫穆？！

僅次《指環王》的美劇，有第二季

事關新就業群體，中辦、國辦發文

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

自然肌理 溫潤美學

干細胞如何讓燒燙傷皮膚"再生"？

新一輪教育大爆發來了！海口，開始瘋狂建學校！

云游中國｜逛世界風箏都 留學生探秘中國傳統文化

預售19.38萬元起哈弗猛龍PLUS七座版亮相

自然肌理溫潤美學

云游中國｜逛世界風箏都留學生探秘中國傳統文化