網易首頁 > 網易號 > 正文 申請入駐

vLLM v0.17.1 緊急補丁,修復 Qwen3.5 越跑越蠢的隱形 Bug

0
分享至

上周剛寫了 vLLM v0.17.0 的更新,,墨跡未干,v0.17.1 就來了,一個很小但是很重要的一次更新。

先看全貌:v0.17.1 改了什么

變更

類型

新增 Nemotron 3 Super 模型支持

新模型

[Mamba][Qwen3.5] Zero freed SSM cache blocks on GPU(#35219)

關鍵修復

Fix activation_type 傳遞到 TRTLLM fused MoE NVFP4/FP8(#36017)

修復

恢復 nongated fused moe triton 支持(#36412)

修復

重新啟用 trtllm MoE FP8 backend 的 EP(#36494)

修復

Fix TRTLLM Block FP8 MoE Monolithic(#36296)

修復

[DSV3.2][MTP] 優化 Indexer MTP handling(#36723)

? 性能優化


重點:35219 修了一個"越跑越蠢"的 Bug

這個 bug 針對的是 Qwen3.5-397B-A17B 這類混合架構模型

Qwen3.5 的 MoE 模型用了 Mamba + Attention 的混合架構,兩種層共享同一套 GPU block pool。

Mamba 層往 block 里寫的是fp32狀態數據,attention 層用的是fp8fp16的 KV cache。

問題就出在 block 復用上

一個 block 先被 Mamba 層用過,留下了fp32的位模式。后來這個 block 被回收,又分配給了 attention 層。attention 層的數據類型更窄,fp32殘留的 bit pattern 在新類型下直接變成了NaNInf

最坑的是 attention kernel 的掩碼機制,很多 attention kernel(FlashAttn3、FlashInfer-TRTLLM 等)處理未使用位置時,采用的是乘零掩碼——把不需要的位置乘以 0。正常情況下沒問題,但0 × NaN = NaN,這些臟數據沿著 KV cache block 一路擴散,所有共享這個 block 的請求全部中招。

時間一長,輸出質量持續下降

這個 Bug 有多隱蔽

看下 Issue #35138 里的復現條件:

  • 模型:Qwen/Qwen3.5-397B-A17B-FP8

  • 硬件:8 × NVIDIA B200

  • 后端:FlashInfer Attention backend

  • 現象:用同一套評測腳本跑兩輪,第二輪準確率就出問題了

重點是第一輪完全正常

服務剛啟動,所有 block 都是干凈的,看什么都好好的。

跑一陣子,block 開始回收和復用,臟數據慢慢滲透,精度悄悄下滑

這種 bug 在生產環境里排查起來極其痛苦。

模型沒掛、顯存沒炸、API 正常返回,就是結果在變差。

你可能以為是 prompt 的問題、數據的問題、甚至模型本身的問題,但誰能想到是緩存塊復用帶來的浮點臟數據污染

修復方案

新分配給 attention 層的 block,用之前先在 GPU 上清零

但做得很克制:

  • 只針對帶 Mamba 層的 hybrid models——純 attention 模型完全不受影響

  • 只處理新分配出來的 blocks——prefix cache 命中的不動

  • 只清 FullAttentionSpec blocks——Mamba 自己的 block 不管,因為 Mamba 每步都會完整覆寫狀態

實現上用了一個 Triton kernel 批量清零,提前預計算好所有 KV cache segment 的絕對字節地址,通過 pinned memory 傳 block ID 到 GPU,和 kernel launch 做 overlap,避免同步等待。

性能開銷

官方 PR 給了 B200 上的實測數據:

階段

清零 blocks 數

延遲

占 forward step 比例

Prefill(BS ~8K)

~515 blocks(~920 MiB)

~170 μs

Decode

~30 blocks

~15 μs

端到端吞吐測試,輸出 tokens/s 波動在 ±2% 噪聲范圍內,代價幾乎為零

Nemotron 3 Super:這次被寫進 release notes 了

v0.17.1 另一個值得注意的變更是新增了Nemotron 3 Super模型支持。

前幾天我剛寫過這個模型:

總結

跑 Qwen3.5 混合架構模型的:必須升

.5

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
7國南海搞軍演,轉頭求中國救急?中方一句話:不會拉你一把

7國南海搞軍演,轉頭求中國救急?中方一句話:不會拉你一把

墨印齋
2026-04-23 12:35:16
日媒報道北京國際車展,比亞迪9分鐘充電震撼全場!日本網友炸鍋了...

日媒報道北京國際車展,比亞迪9分鐘充電震撼全場!日本網友炸鍋了...

今日日本
2026-04-26 10:03:45
為啥越來越多男生不主動幫女生搬行李?網友:最怕來一句不加微信

為啥越來越多男生不主動幫女生搬行李?網友:最怕來一句不加微信

夜深愛雜談
2026-04-26 07:36:03
觸目驚心!央視曝光上海一中醫館:從醫生到病人全是演員!

觸目驚心!央視曝光上海一中醫館:從醫生到病人全是演員!

番外行
2026-04-24 08:59:12
山東校長崔玉軍被查,巨額回扣損害教育公平,家長心聲引發關注!

山東校長崔玉軍被查,巨額回扣損害教育公平,家長心聲引發關注!

金哥說新能源車
2026-04-26 08:47:09
33歲章澤天風格大變!穿艷俗紗裙、副乳突出,比實際年齡成熟10歲

33歲章澤天風格大變!穿艷俗紗裙、副乳突出,比實際年齡成熟10歲

阿訊說天下
2026-04-18 14:53:39
東方甄選全員告別:這場逼宮為何徹底失控?

東方甄選全員告別:這場逼宮為何徹底失控?

時尚的弄潮
2026-04-26 06:43:56
電力央企違法違規典型問題被通報!

電力央企違法違規典型問題被通報!

能見
2026-04-26 12:07:39
倆女子大鬧上海地鐵,拳打薅頭滿臉血,攔都攔不住,結局令人舒適

倆女子大鬧上海地鐵,拳打薅頭滿臉血,攔都攔不住,結局令人舒適

奇思妙想草葉君
2026-04-26 02:02:15
58歲江珊差點認不出,膀大腰圓,身材壯碩,滿頭白發太真實

58歲江珊差點認不出,膀大腰圓,身材壯碩,滿頭白發太真實

林輕吟
2026-04-25 07:44:35
突發!臺高層已抵達非洲,大陸徹底看清:特朗普的最壞打算是什么

突發!臺高層已抵達非洲,大陸徹底看清:特朗普的最壞打算是什么

愛下廚的阿釃
2026-04-26 03:10:11
“都絕戶了,還拼命掙錢干嘛?”看見父親50歲就躺平,我崩潰了

“都絕戶了,還拼命掙錢干嘛?”看見父親50歲就躺平,我崩潰了

素十三兒
2026-04-13 07:12:36
052D過橫當水道后,遼寧艦抵臺海,日本向中國抗議,不滿東海行動

052D過橫當水道后,遼寧艦抵臺海,日本向中國抗議,不滿東海行動

老赳說歷史
2026-04-23 16:08:53
人的命,天注定,這10句話,人越活越信

人的命,天注定,這10句話,人越活越信

金沛的國學筆記
2026-04-24 14:22:27
民進黨高層竟敢偷偷離臺,大陸火速行動!美國來陰的,鄭麗文拼了

民進黨高層竟敢偷偷離臺,大陸火速行動!美國來陰的,鄭麗文拼了

致敬明天的太陽
2026-04-26 17:14:46
同是影視巨頭,為何萬達有人接盤,華誼卻無人相救?真相太扎心

同是影視巨頭,為何萬達有人接盤,華誼卻無人相救?真相太扎心

八斗小先生
2026-04-25 11:47:21
網紅莫氏雞煲涼透了!從通宵排隊到空無一人,終究逃不過曇花一現

網紅莫氏雞煲涼透了!從通宵排隊到空無一人,終究逃不過曇花一現

阿郎娛樂
2026-04-23 15:28:38
1949年傅作義上西柏坡會見毛主席,臨行前:我得拿些哈德門做禮物

1949年傅作義上西柏坡會見毛主席,臨行前:我得拿些哈德門做禮物

海佑講史
2026-04-26 19:20:05
時間有變!趙心童VS丁俊暉,央視更改直播頻道,誰能進世錦賽8強

時間有變!趙心童VS丁俊暉,央視更改直播頻道,誰能進世錦賽8強

體育大學僧
2026-04-26 08:50:39
一場4-1,讓中超負分清零第8隊誕生!火爆齊魯德比,海牛掀翻泰山

一場4-1,讓中超負分清零第8隊誕生!火爆齊魯德比,海牛掀翻泰山

小彭美識
2026-04-26 19:21:41
2026-04-26 20:03:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3352文章數 11139關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

僅次《指環王》的美劇,有第二季

財經要聞

事關新就業群體,中辦、國辦發文

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

教育
時尚
房產
本地
健康

教育要聞

休學率上漲,驚到很多人!北大六院醫生直言:這背后其實是夫妻關系和家庭關系……

IU的臉,真的有自己的時間線

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

干細胞如何讓燒燙傷皮膚"再生"?

無障礙瀏覽 進入關懷版