无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

vLLM 贏完了:登頂開源推理引擎No1

0
分享至

vLLM 是咱們公眾號的常客了,關于它我之前寫過:

今天聊點新消息——vLLM 真的贏完了

Artificial Analysis 把全球推理供應商按吞吐速度做了個排行榜,DigitalOcean 用 vLLM 跑出來的部署直接登頂,三個前沿開源模型上全部第一


vLLM 登頂 Artificial Analysis 數據

上周 DigitalOcean 自己發了一篇推理基準測試,涉及三個前沿開源模型:

DeepSeek V3.2:單用戶輸出速度峰值 230 TPS,是大多數供應商的 4 倍以上

Qwen 3.5 397B:在 Artificial Analysis 測的 12 家供應商里第一,10,000 token prompt 的 TTFT 小于 1 秒

MiniMax-M2.5:同樣登頂

底下跑的引擎是誰?vLLM

老章感受:

"開源引擎打贏閉源全家桶"這件事,以前大家覺得是理想,現在變成了榜單事實

而且關鍵是——這些優化全在 vLLM main 分支或正在合入,不是私有 fork

所以你拿 vLLM 自己部署,理論上能復現這些數字

vLLM 怎么做到的

按模型一一拆,每個模型一個瓶頸,一個對應解法:

1. DeepSeek V3.2:低 batch 下的內核融合

在低 batch size 下,DeepSeek V3.2 卡在 GPU kernel launch overhead,不是算力

每層 Transformer 要發 30 多個獨立 kernel——歸一化、rotary embedding、量化、KV cache 寫入,每個 kernel 本身在 GPU 上是微秒級,但 launch 成本疊起來比計算還大

vLLM 的做法是沿 attention 路徑做 op fusion,把 Q/KV 歸一化、Q/KV 的 rotary embedding、indexer 的 layer norm + rotary、FP8 量化、KV cache 寫入合到兩個 fused kernel


DSv3.2 attention-path fusion

每層 kernel 數從 ~33 砍到 ~10,batch size 1 時 1.28× 加速(85.8 → 109.3 tok/s on 4× GB200,無 MTP)

在 8× B300 單節點 concurrency=1 下:

  • 不開 MTP(TP=8):125 tok/s

  • 開 MTP=1(TP=8):234 tok/s(draft 接受率約 90%)

  • prefill/decode disaggregation(TP=4 + TP=4 + MTP=3): 262 tok/s

外加:

  • 新的 router GEMM kernel ,專門為 DSv3 MoE routing 維度優化,batch 1 再加 6%(PR )

  • 稀疏 attention 的 TopK kernel ,按 sequence length 自動選算法,單 CUDA graph 適配所有情況,128K 上下文 decode 單 token 延遲 下降17%(PR )

這套同樣喂給了 vLLM 的 DeepSeek V4 支持,Q RoPE + quant 和 QK norm 的 fusion 直接復用

下圖是 Artificial Analysis 上 DeepSeek V3.2 各供應商的 output speed 對比,vLLM 那條直接拉爆:


DSv3.2 Non-Reasoning DSv3.2 Reasoning

2. MiniMax-M2.5:EAGLE3 + 定向 kernel fusion

針對 MiniMax-M2.5 自帶的特殊架構,vLLM 團隊做了:

  • 定向 kernel fusion

  • 自訓的 EAGLE3 draft model :用開源的 TorchSpec + vLLM 訓出來,雖然主模型架構獨特,但 draft 模型流程是通用的

  • 關鍵彩蛋: 同一個 draft 也能用在 M2.7 上 ,因為架構一致

3. Qwen 3.5 397B:attention + normalization 路徑融合

針對 Qwen 3.5 的 linear-attention 路徑做定向 fusion,配合 attention 和 normalization 優化,吃下榜單第一

為什么這件事重要

業界常見的假設是:生產級推理性能要靠私有棧

這次 Artificial Analysis 的榜單直接打臉——一個社區驅動的開源引擎,跑在同樣的 NVIDIA Blackwell Ultra 硬件上,把所有商業方案按在地上

而且優化方法完全公開——你想知道為什么快,去看 vLLM PR

總接

vLLM 這一年的進化路徑大家都看在眼里:

  • 從"性能不輸 TGI"

  • 到"吃下 LLaMA / Qwen / DeepSeek / MiniMax"

  • 到"Omni 全模態"

  • 到現在"Artificial Analysis 排行第一"

它做對了一件事——性能優化的代碼留在主倉

任何商業方案最大的誘惑都是私有化補丁,vLLM 團隊這一年頂住了這個誘惑,結果就是社區粘性越來越強,企業貢獻 PR 越來越多,性能也水漲船高

如果你還在用閉源推理服務,可以認真重新評估一下了

如果你是企業自部署,這是 vLLM 的最佳時機

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
華為申請“世界”汽車類商標,已拿下“仙界”“天界”等商標

華為申請“世界”汽車類商標,已拿下“仙界”“天界”等商標

IT之家
2026-06-17 16:30:31
15元買數百萬Token,但一句“你好”燒掉5萬!運營商的“低價”算力套餐,開發者為何直呼“用不起”

15元買數百萬Token,但一句“你好”燒掉5萬!運營商的“低價”算力套餐,開發者為何直呼“用不起”

每日經濟新聞
2026-06-17 18:38:38
蘇醒:今天是我看梅西踢球20年來最生氣的一天 他不干自己該干的事

蘇醒:今天是我看梅西踢球20年來最生氣的一天 他不干自己該干的事

風過鄉
2026-06-17 20:49:38
梅西帽子戲法不到24小時,惡心的一幕發生了,口碑兩極分化嚴重

梅西帽子戲法不到24小時,惡心的一幕發生了,口碑兩極分化嚴重

往史過眼云煙
2026-06-17 16:54:13
人奶背后的“吃人”邏輯

人奶背后的“吃人”邏輯

布衣亂彈
2026-06-17 18:31:01
雷軍武漢吃面引全網熱評:是誰策劃這場滑稽的跟風模仿?

雷軍武漢吃面引全網熱評:是誰策劃這場滑稽的跟風模仿?

李晚書
2026-06-17 18:58:54
最新消息:3000億美元伊朗重建基金已落實一半!到底誰出錢?特朗普:美國不出;萬斯:海灣國家出!伊朗380萬桶原油通過美軍封鎖線

最新消息:3000億美元伊朗重建基金已落實一半!到底誰出錢?特朗普:美國不出;萬斯:海灣國家出!伊朗380萬桶原油通過美軍封鎖線

每日經濟新聞
2026-06-17 09:27:07
姆巴佩球衣和隊友不一樣?這是由于一條鮮為人知的國際足聯規則

姆巴佩球衣和隊友不一樣?這是由于一條鮮為人知的國際足聯規則

夜白侃球
2026-06-17 12:53:27
61帽!梅西封神:世界杯16球超越大羅 歷史第1 球迷起立膜拜

61帽!梅西封神:世界杯16球超越大羅 歷史第1 球迷起立膜拜

葉青足球世界
2026-06-17 10:49:25
5月消費慘不忍睹

5月消費慘不忍睹

Yuichi的宏觀金融筆記
2026-06-17 09:29:07
美媒靈魂發問:沒有中國參加的G7峰會,就像五星巴西缺席了世界杯

美媒靈魂發問:沒有中國參加的G7峰會,就像五星巴西缺席了世界杯

不掉線電波
2026-06-17 08:23:31
“敢打,我就敢送!”曾放出狠話鼻子朝天的郭臺銘,如今怎么樣了

“敢打,我就敢送!”曾放出狠話鼻子朝天的郭臺銘,如今怎么樣了

秋姐居
2026-06-17 19:28:51
高市早苗在G7峰會會場“轉椅子”畫面引爭議,日本網民:沒教養,真丟人

高市早苗在G7峰會會場“轉椅子”畫面引爭議,日本網民:沒教養,真丟人

環球網資訊
2026-06-17 09:58:22
國際足聯崩潰了:中國6000萬砍下世界杯版權,印度直接打官司

國際足聯崩潰了:中國6000萬砍下世界杯版權,印度直接打官司

蜉蝣說
2026-06-17 17:34:52
范志毅對佛得角門將的評價,刷新了國足文化的恥辱底線

范志毅對佛得角門將的評價,刷新了國足文化的恥辱底線

大魚簡科
2026-06-17 17:05:10
今晚世界杯繼續開打,4場比分精準預測,有1場大概率爆冷

今晚世界杯繼續開打,4場比分精準預測,有1場大概率爆冷

生活新鮮市
2026-06-17 20:52:03
央媒罕見連發三問!4400萬輛電車免費用路,公平的天平何時能平?

央媒罕見連發三問!4400萬輛電車免費用路,公平的天平何時能平?

混沌錄
2026-06-16 19:23:06
金價一夜大變天!2026年6月17日,國內各大金店品牌黃金、足金最新價格

金價一夜大變天!2026年6月17日,國內各大金店品牌黃金、足金最新價格

花小貓的美食日常
2026-06-17 15:02:29
39歲梅西連進3球,登頂世界杯歷史射手王,賽前用中文發帖!41歲C羅明天登場!德國隊營地遭毒蛇入侵,隊員受驚:每走一步都要低頭看腳下

39歲梅西連進3球,登頂世界杯歷史射手王,賽前用中文發帖!41歲C羅明天登場!德國隊營地遭毒蛇入侵,隊員受驚:每走一步都要低頭看腳下

每日經濟新聞
2026-06-17 11:57:19
100萬股東狂喜!之前六年沒漲停過,最近一個月漲停4次

100萬股東狂喜!之前六年沒漲停過,最近一個月漲停4次

新浪財經
2026-06-17 18:51:33
2026-06-18 01:47:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3435文章數 11165關注度
往期回顧 全部

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

頭條要聞

美媒:馬克龍想借中國在G7制衡美國 跟特朗普討價還價

頭條要聞

美媒:馬克龍想借中國在G7制衡美國 跟特朗普討價還價

體育要聞

梅西帽子戲法:紀錄厚重,球王輕盈

娛樂要聞

陳紅一反常態保持沉默

財經要聞

拉加德警告:AI可能引爆下一場金融危機

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態度原創

藝術
旅游
手機
公開課
軍事航空

藝術要聞

235米!曼谷地標“金字塔”動工,BIG操刀

旅游要聞

1800余場端午活動打造城市游樂園

手機要聞

蘋果iPhone傳四喜:辟謠、漲內存、漲影像、紀念版也有新變化!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美被指拒絕以色列看美伊諒解備忘錄

無障礙瀏覽 進入關懷版