无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Unsloth 給 Qwen3.6 上了MTP,本地推理速度起飛,消費級顯卡輕松跑

0
分享至

前文:


話音剛落,就看到 Unsloth 放出了 Qwen3.6-27B-MTP-GGUF 和 Qwen3.6-35B-A3B-MTP-GGUF

先放出它們的顯存需求


unsloth/Qwen3.6-27B-MTP-GGUF unsloth/Qwen3.6-35B-A3B-MTP-GGUF 簡介

先把概念捋清楚:什么是 MTP?

傳統大模型解碼是「一次預測一個 token」,串行往后吐字,慢得讓人著急

MTP 的思路是:訓練時讓模型同時學會預測未來好幾個 token,推理時拿這幾個預測當 draft(草稿),一次性塞回主模型校驗。校驗通過的就直接接受,不通過的回退到正常生成

說白了,這是把 投機解碼(Speculative Decoding) 從「需要額外訓一個小模型當 draft」簡化成了「主模型自己當 draft」,省心、省顯存

Qwen3.6 這一代在訓練階段就內置了 MTP

unsloth 把這部分權重也量化進了 GGUF,再加上 llama.cpp 端的 kernel 支持,就有了今天這個 1.5–2 倍 解碼加速的成果

核心亮點:

  • 解碼速度 ~1.5-2x 提升 :這是 unsloth 官方給的數字,實測有人在 1 張 5090 上跑 Qwen3.6-27B Q4_0,從 63.72 tok/s 直接干到 105.47 tok/s (詳見后文 PR 實測數據)

  • 草稿接受率 ~80%: MTP 自己當 draft,省去了維護小模型的麻煩,接受率比傳統 EAGLE/Medusa 那套通常還高

  • 預填充略有代價 :MTP 頭會讓 prompt 處理階段多吃點算力,長上下文場景請權衡

  • 覆蓋兩個尺寸 :27B 稠密 + 35B-A3B(256 專家 / 激活 8+1),消費級顯卡和服務器都能挑

安裝

前置:必須用這個特定分支的 llama.cpp(主倉的 PR 還沒合,寫這篇時是 PR #22673)

apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y


git clone -b mtp-clean https://github.com/am17an/llama.cpp.git
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp

CPU / Mac Metal 用戶把 -DGGML_CUDA=ON 改成 -DGGML_CUDA=OFF

使用

跑 27B 版本(推薦配置):

export LLAMA_CACHE="unsloth/Qwen3.6-27B-GGUF-MTP"


./llama.cpp/llama-server \
-hf unsloth/Qwen3.6-27B-MTP-GGUF:UD-Q4_K_XL \
-ngl 99 -c 8192 -fa on -np 1 \
--spec-type mtp --spec-draft-n-max 3

跑 35B-A3B(MoE)版本:

export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-GGUF-MTP"


./llama.cpp/llama-server \
-hf unsloth/Qwen3.6-35B-A3B-MTP-GGUF:UD-Q4_K_XL \
-ngl 99 -c 8192 -fa on -np 1 \
--spec-type mtp --spec-draft-n-max 3

兩個關鍵參數解釋:

  • --spec-type mtp :啟用 MTP 投機解碼

  • --spec-draft-n-max 3 :每次最多猜 3 個 token,再多收益邊際遞減

?? 有兩個坑提前說:

  • -np > 1 (并行槽位)暫不支持

  • --mmproj (多模態)暫不支持

也就是說,目前 MTP 主要適合單用戶、本地純文本場景,多并發 server 部署得等后續更新

實測

社區里已經有人在 1 張 5090 上跑了實測,用的是 Qwen3.6-27B + Q4_0 量化、KV cache 也走 Q4_0、prompt 是「寫一個 flappy bird 克隆」

開啟 MTP:

prompt eval: 253.34 tok/s
eval (decode): 105.47 tok/s
draft acceptance rate: 79.7% (4169 / 5229)
total: 5929 tokens / 56.1s

關閉 MTP(相同模型、相同配置):

prompt eval: 174.20 tok/s
eval (decode): 63.72 tok/s
total: 6587 tokens / 103.2s

解碼從 63.72 提到 105.47,整整快了 65%,草稿接受率接近 80%——這說明 MTP 頭訓得很扎實,「猜得準」是大頭

至于預填充,這一組數據看著 MTP 還更快,但這通常是因為緩存差異;按 unsloth 官方說法和 MTP 原理,長上下文 prefill 階段會因為多算了一份 MTP 頭而略有損耗,10% 上下的開銷是合理預期

老章觀點:

  • 本地單用戶日常對話 / 寫代碼 這類「解碼占大頭」的場景,MTP 幾乎是白送的速度,沒理由不開

  • 長文檔總結 / RAG 檢索后回答 這種 prompt 動輒幾萬 token 的場景,prefill 拖累會被放大,需要權衡

  • 5090 跑 27B 都能 100+ tok/s,4090 / 3090 用戶也基本能踩到「日常無感」線

  • MoE 的 35B-A3B 只激活 3B,顯存占用比 27B 稠密版還友好(實際 4bit 量化下大概 20G 出頭),單卡 24G 就能上

一個小細節:為什么 unsloth 這次值得關注?

之前我們用 GGUF,基本就是「量化 + 跑」兩件事

這次 unsloth 把 訓練時就要保留的 MTP 頭權重也一并量化打包,這意味著:

模型原生 MTP 頭  →  GGUF 量化保留  →  llama.cpp kernel 適配  →  端側投機解碼

整條鏈路打通了,普通用戶不需要懂什么 EAGLE、Medusa、Lookahead,一行參數就能開

這就是 unsloth 的價值——把模型團隊埋的金礦,挖出來給普通人用


總結

如果你:

  • 在本地跑 Qwen3.6 系列

  • 主要是單用戶對話、代碼生成場景

  • 用得起 24G+ 顯存的 N 卡(或 Mac M 系列)

那這個 MTP 版的 GGUF 基本是無腦切,65% 的解碼提速是肉眼可見的爽

如果你:

  • 跑長文檔 RAG / 大量 prefill 任務

  • 需要多并發 server

  • 用 mmproj 多模態

那再等等,等 PR 合并主線、并發支持補齊再用

.6 .cpp

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
華為申請“世界”汽車類商標,已拿下“仙界”“天界”等商標

華為申請“世界”汽車類商標,已拿下“仙界”“天界”等商標

IT之家
2026-06-17 16:30:31
15元買數百萬Token,但一句“你好”燒掉5萬!運營商的“低價”算力套餐,開發者為何直呼“用不起”

15元買數百萬Token,但一句“你好”燒掉5萬!運營商的“低價”算力套餐,開發者為何直呼“用不起”

每日經濟新聞
2026-06-17 18:38:38
蘇醒:今天是我看梅西踢球20年來最生氣的一天 他不干自己該干的事

蘇醒:今天是我看梅西踢球20年來最生氣的一天 他不干自己該干的事

風過鄉
2026-06-17 20:49:38
梅西帽子戲法不到24小時,惡心的一幕發生了,口碑兩極分化嚴重

梅西帽子戲法不到24小時,惡心的一幕發生了,口碑兩極分化嚴重

往史過眼云煙
2026-06-17 16:54:13
人奶背后的“吃人”邏輯

人奶背后的“吃人”邏輯

布衣亂彈
2026-06-17 18:31:01
雷軍武漢吃面引全網熱評:是誰策劃這場滑稽的跟風模仿?

雷軍武漢吃面引全網熱評:是誰策劃這場滑稽的跟風模仿?

李晚書
2026-06-17 18:58:54
最新消息:3000億美元伊朗重建基金已落實一半!到底誰出錢?特朗普:美國不出;萬斯:海灣國家出!伊朗380萬桶原油通過美軍封鎖線

最新消息:3000億美元伊朗重建基金已落實一半!到底誰出錢?特朗普:美國不出;萬斯:海灣國家出!伊朗380萬桶原油通過美軍封鎖線

每日經濟新聞
2026-06-17 09:27:07
姆巴佩球衣和隊友不一樣?這是由于一條鮮為人知的國際足聯規則

姆巴佩球衣和隊友不一樣?這是由于一條鮮為人知的國際足聯規則

夜白侃球
2026-06-17 12:53:27
61帽!梅西封神:世界杯16球超越大羅 歷史第1 球迷起立膜拜

61帽!梅西封神:世界杯16球超越大羅 歷史第1 球迷起立膜拜

葉青足球世界
2026-06-17 10:49:25
5月消費慘不忍睹

5月消費慘不忍睹

Yuichi的宏觀金融筆記
2026-06-17 09:29:07
美媒靈魂發問:沒有中國參加的G7峰會,就像五星巴西缺席了世界杯

美媒靈魂發問:沒有中國參加的G7峰會,就像五星巴西缺席了世界杯

不掉線電波
2026-06-17 08:23:31
“敢打,我就敢送!”曾放出狠話鼻子朝天的郭臺銘,如今怎么樣了

“敢打,我就敢送!”曾放出狠話鼻子朝天的郭臺銘,如今怎么樣了

秋姐居
2026-06-17 19:28:51
高市早苗在G7峰會會場“轉椅子”畫面引爭議,日本網民:沒教養,真丟人

高市早苗在G7峰會會場“轉椅子”畫面引爭議,日本網民:沒教養,真丟人

環球網資訊
2026-06-17 09:58:22
國際足聯崩潰了:中國6000萬砍下世界杯版權,印度直接打官司

國際足聯崩潰了:中國6000萬砍下世界杯版權,印度直接打官司

蜉蝣說
2026-06-17 17:34:52
范志毅對佛得角門將的評價,刷新了國足文化的恥辱底線

范志毅對佛得角門將的評價,刷新了國足文化的恥辱底線

大魚簡科
2026-06-17 17:05:10
今晚世界杯繼續開打,4場比分精準預測,有1場大概率爆冷

今晚世界杯繼續開打,4場比分精準預測,有1場大概率爆冷

生活新鮮市
2026-06-17 20:52:03
央媒罕見連發三問!4400萬輛電車免費用路,公平的天平何時能平?

央媒罕見連發三問!4400萬輛電車免費用路,公平的天平何時能平?

混沌錄
2026-06-16 19:23:06
金價一夜大變天!2026年6月17日,國內各大金店品牌黃金、足金最新價格

金價一夜大變天!2026年6月17日,國內各大金店品牌黃金、足金最新價格

花小貓的美食日常
2026-06-17 15:02:29
39歲梅西連進3球,登頂世界杯歷史射手王,賽前用中文發帖!41歲C羅明天登場!德國隊營地遭毒蛇入侵,隊員受驚:每走一步都要低頭看腳下

39歲梅西連進3球,登頂世界杯歷史射手王,賽前用中文發帖!41歲C羅明天登場!德國隊營地遭毒蛇入侵,隊員受驚:每走一步都要低頭看腳下

每日經濟新聞
2026-06-17 11:57:19
100萬股東狂喜!之前六年沒漲停過,最近一個月漲停4次

100萬股東狂喜!之前六年沒漲停過,最近一個月漲停4次

新浪財經
2026-06-17 18:51:33
2026-06-18 01:47:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3435文章數 11165關注度
往期回顧 全部

數碼要聞

Silicon Motion明年推PCIe 6.0 SSD控制器

頭條要聞

美媒:馬克龍想借中國在G7制衡美國 跟特朗普討價還價

頭條要聞

美媒:馬克龍想借中國在G7制衡美國 跟特朗普討價還價

體育要聞

梅西帽子戲法:紀錄厚重,球王輕盈

娛樂要聞

陳紅一反常態保持沉默

財經要聞

拉加德警告:AI可能引爆下一場金融危機

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態度原創

藝術
時尚
健康
本地
數碼

藝術要聞

235米!曼谷地標“金字塔”動工,BIG操刀

1分鐘1萬塊:我在飯圈,交易人性

營養師:粽子怎么吃美味又健康?

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

數碼要聞

谷歌發布新一代Google Home智能音箱,售價100美元

無障礙瀏覽 進入關懷版