網易首頁 > 網易號 > 正文 申請入駐

三大推理框架vLLM、llama.cpp、MLX 全部跟進!!!

0
分享至

本文是續集,看下主流推理框架跟進了情況

全面開花:誰在做,做到了什么程度?

先給一張全景圖,讓你 30 秒掌握當前進展:

框架

平臺

狀態

核心亮點

oMLX

Apple Silicon

? 已發布(v0.2.21)

128K 上下文 KV 省 79%,一鍵開啟

mlx-vlm

Apple Silicon

PR 進行中

Metal kernel 實現,解碼速度逼近全精度

llama.cpp

全平臺

實驗中

已有可編譯分支,社區在推進

vLLM

CUDA

方案已出

完整 6 步集成計劃,等 PR


oMLX:Mac 用戶已經可以用了

這是目前進度最快的——oMLX v0.2.21 已經把 TurboQuant KV Cache 作為實驗功能正式發布了


oMLX TurboQuant KV Cache 功能界面

先簡單說說 oMLX 是什么:這是一個專為 Mac 優化的本地 LLM 推理服務器,支持菜單欄管理、連續批處理、熱/冷兩級 KV Cache(內存+SSD),還有漂亮的 Admin Dashboard。用 Homebrew 裝完就能跑,OpenAI API 兼容,Claude Code、OpenCode 都能直接對接。

更具體介紹請看:

TurboQuant 在 oMLX 里的實現思路很巧妙:

Prefill 階段完全用 fp16,零質量損失。第一個 decode token 生成時,才把累積的 KV Cache 量化成 3-bit 或 4-bit 的 codebook 索引。Decode 注意力用的是一個 fused 兩遍 Flash Attention Metal kernel,直接從 packed 索引讀取——不需要反量化,不需要 fp16 中間張量。

這個設計太聰明了,Prefill 不碰你的精度,decode 階段才壓縮,而且 kernel 直接操作壓縮后的數據,不走解壓再算的老路。

實測大海撈針(Qwen3.5-35B-A3B,3-bit TurboQuant):

上下文長度

Baseline

TurboQuant

KV 內存節省

32K

735MB → 195MB(省 73%)

64K

1407MB → 327MB(省 77%)

128K

2749MB → 589MB(省 79%)

128K 上下文,KV Cache 從 2.7GB 壓到 589MB,質量零損失。

對于 Mac 用戶來說,這意味著你的機器一下子能裝下更長的上下文了。

速度方面也很穩:

模型

Prefill 速度

Decode 速度

Qwen3.5-35B-A3B

fp16 的 95%

fp16 的 87%

Qwen3.5-27B

fp16 的 97%

fp16 的 95%

用起來也簡單——Admin UI → 模型設置 → 實驗功能 → 打開 TurboQuant KV Cache 開關,完事。

# 安裝 oMLX
brew tap jundot/omlx https://github.com/jundot/omlx
brew install omlx


# 啟動服務
brew services start omlx

順便提一句,這個版本還帶了 **oQ+**——在 oQ 的混合精度量化基礎上加了 GPTQ 權重優化。對 MoE 模型做了批處理算法加速,Qwen3.5-35B-A3B(256 experts × 40 layers)6 分鐘搞定,比順序處理快 15 倍。

mlx-vlm:Metal Kernel 正在逼近全精度

mlx-vlm 的作者 Blaizzy 在 PR [1] 里提交了一套完整的 TurboQuant Metal kernel 實現。

這個 PR 一共提了 5 個 commit,逐步構建了完整的 TurboQuant 推理鏈路:

基礎 kernel:

  • _mse_score_kernel—— MSE 評分

  • _pack_lowbit_kernel/_unpack_lowbit_kernel—— 低位打包/解包

  • _qjl_score_kernel—— QJL 1-bit 殘差糾偏

  • _prod_score_kernel—— 內積計算

多頭優化 kernel:

  • _prod_score_multi_kernel—— 多頭批處理

  • _mse_weighted_rot_multi_kernel—— 加權旋轉多頭處理

  • _prod_score_repeat_kernel—— 重復模式優化

4-bit PolarQuant 路徑:

  • _polar_prod_score_kernel—— 極坐標內積

  • _polar_turbo_score_repeat_kernel—— 極坐標重復模式

同時scaled_dot_product_attention函數也做了適配,針對單 query 輸入走 TurboQuant 快速解碼路徑。

從已知數據看,MLX TurboQuant kernel 的解碼速度已經追到全精度的 **70-85%**,還在繼續優化。這個 PR 合進去之后,所有用 mlx-vlm 的項目都能直接受益。

llama.cpp:Issue 已開,社區在推

llama.cpp 這邊,Issue [2] 已經有人開了 feature request。

更值得關注的是,開發者 @mudler 已經在動手了——他 fork 了一個 feat/turbo-quant 分支[3],目前已經能編譯和啟動,正在評估效果。

llama.cpp 一旦正式支持 TurboQuant,影響面是最大的。

因為 llama.cpp 是目前本地部署生態的基石——Ollama、LM Studio、GPT4All 等等一大堆上層應用都依賴它。

llama.cpp 支持了,意味著整個本地部署生態都支持了。

vLLM:方案最詳細,等 PR

vLLM 這邊開的 Issue [4] 信息量最大,直接給出了一份 6 步集成方案:

  1. 擴展 Cache 配置—— 在CacheDType里加"turboquant"

  2. 創建 TurboQuantConfig 類—— 用@register_quantization_config裝飾器

  3. 實現 KV Cache Method—— 繼承BaseKVCacheMethod,注冊 codebook 參數

  4. 更新量化檢測—— 讓is_quantized_kv_cache()識別 TurboQuant

  5. 實現 CUDA/Triton Kernel—— 編碼 kernel(量化存儲)+ 解碼 kernel(注意力計算前還原)

  6. 內存管理更新—— 適配 codebook 額外開銷和可變壓縮率

這個 Issue 寫得像一份小型技術設計文檔,給后來接手的開發者鋪好了路。

對于跑云端推理的場景,vLLM + TurboQuant 的組合會非常有沖擊力——4-5 倍 KV Cache 壓縮,意味著同樣的 H100 能撐更多并發、更長上下文。

2026 年的本地 AI 體驗,會因為 TurboQuant 而躍遷一個檔次。我很期待。

.cpp

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個 ,謝謝你看我的文章,我們下篇再見!

參考資料

PR : https://github.com/Blaizzy/mlx-vlm/pull/858

Issue : https://github.com/ggml-org/llama.cpp/issues/20977

feat/turbo-quant 分支: https://github.com/mudler/llama.cpp/tree/feat/turbo-quant

Issue : https://github.com/vllm-project/vllm/issues/38171

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

以茶帶書
2026-04-25 16:22:06
王石真的老了!突然現身大梅沙,他赤裸著上半身,貼著胰島素針頭

王石真的老了!突然現身大梅沙,他赤裸著上半身,貼著胰島素針頭

火山詩話
2026-04-26 06:11:32
5月1日起,有房有車有身份證的人,或要吃大虧了!

5月1日起,有房有車有身份證的人,或要吃大虧了!

小談食刻美食
2026-04-26 09:09:28
趙麗穎在上海某高檔餐廳被偶遇,瘦是真的瘦,素顏依然很美

趙麗穎在上海某高檔餐廳被偶遇,瘦是真的瘦,素顏依然很美

一盅情懷
2026-04-25 19:36:00
中國第四艘航母官宣:是核動力!舷號19,命名大概率是“江蘇號”

中國第四艘航母官宣:是核動力!舷號19,命名大概率是“江蘇號”

福建睿平
2026-04-26 10:53:36
小米:李某華已被行拘

小米:李某華已被行拘

南方都市報
2026-04-26 12:01:47
曝球球退出陳翔六點半!疑細節原因曝光,否認與“蘑菇頭”是夫妻

曝球球退出陳翔六點半!疑細節原因曝光,否認與“蘑菇頭”是夫妻

橙星文娛
2026-04-26 14:26:26
華為余承東:尊界新車價格在200萬左右

華為余承東:尊界新車價格在200萬左右

界面新聞
2026-04-26 13:08:56
馬齒莧立功!研究發現:其天然成分4周降脂33%,還能減少血管斑塊

馬齒莧立功!研究發現:其天然成分4周降脂33%,還能減少血管斑塊

思思夜話
2026-04-25 11:16:17
網友開盒掛出“深圳派出所煙男”名單,微博官方:嚴重違規,已關號處理

網友開盒掛出“深圳派出所煙男”名單,微博官方:嚴重違規,已關號處理

極目新聞
2026-04-26 17:45:26
月入過萬!“崩老頭”登上熱搜,80后90后男性,成為年輕女性目標

月入過萬!“崩老頭”登上熱搜,80后90后男性,成為年輕女性目標

火山詩話
2026-04-26 15:18:10
全變味了?蘇超開幕不到半月,不對勁的一幕上演,輿論風向又變了

全變味了?蘇超開幕不到半月,不對勁的一幕上演,輿論風向又變了

墨印齋
2026-04-25 18:07:43
飯店老板被顧客踹續:一腳踹出三米遠,強喂服務員吃菜,警方介入

飯店老板被顧客踹續:一腳踹出三米遠,強喂服務員吃菜,警方介入

奇思妙想草葉君
2026-04-25 15:02:47
斯諾克世錦賽:吳宜澤出師不利!2局僅得1分,塞爾比狂轟2破百!

斯諾克世錦賽:吳宜澤出師不利!2局僅得1分,塞爾比狂轟2破百!

劉姚堯的文字城堡
2026-04-26 17:56:36
田馥甄曬3人合體爬山,陳嘉樺帶包子接地氣,任家萱現在最沒星味

田馥甄曬3人合體爬山,陳嘉樺帶包子接地氣,任家萱現在最沒星味

離離言幾許
2026-04-25 20:49:13
手機拍完相機拍 白宮晚宴槍擊現場男子淡定記錄

手機拍完相機拍 白宮晚宴槍擊現場男子淡定記錄

看看新聞Knews
2026-04-26 12:48:06
白宮晚宴槍擊案全網最全細節:特工疑與槍手互開數槍,特朗普在臺上十分淡定

白宮晚宴槍擊案全網最全細節:特工疑與槍手互開數槍,特朗普在臺上十分淡定

爆角追蹤
2026-04-26 10:29:13
網紅女主播因父親重病去世失聯停播,公司要求其支付違約金:親人去世值得同情,但違約事實已發生;經法院調解,公司降低違約金數額

網紅女主播因父親重病去世失聯停播,公司要求其支付違約金:親人去世值得同情,但違約事實已發生;經法院調解,公司降低違約金數額

魯中晨報
2026-04-26 15:40:06
孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

醫脈圈
2026-04-25 20:04:06
結束了!再見愛德華茲!NBA最慘季后賽球隊

結束了!再見愛德華茲!NBA最慘季后賽球隊

籃球實戰寶典
2026-04-26 19:48:57
2026-04-26 20:00:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3352文章數 11139關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

僅次《指環王》的美劇,有第二季

財經要聞

事關新就業群體,中辦、國辦發文

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

親子
旅游
數碼
游戲
公開課

親子要聞

#健康躍動生活#孩子碰頭別大意,出現這5種情況,立刻就醫

旅游要聞

昨日1.78萬人次在廣富林文化遺址體驗壯鄉風情,“五一”期間還有精彩節目等你來

數碼要聞

一加120W充電寶有多猛?30分鐘充68%

傳言稱索尼PS5數字版游戲需要每30天在線驗證一次

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版