无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Qwen3.6 MTP加速,本地部署加速1.5倍,驅動 Claude Code

0
分享至

昨天,Daniel Han(UnslothAI 創始人)又把完整 Qwen3.6+MTP Guide 補全了,包括需要哪個 PR 分支、怎么編譯、不同模式的參數、官方 benchmarks

我感覺這是本地部署+Claude Code一個極佳選擇,雖然之前介紹的已經很詳細了,忍不住把整個流程串起來再分享一下

? Qwen3.6 27B 現在能跑到 140 tokens/s,35B-A3B 能跑到 220 tokens/s,相比原始 GGUF 直接 >1.4x 加速、精度不變
MTP 是什么、為什么能更快

簡單一句話:MTP(Multi Token Prediction)= 投機解碼的「自帶 draft model」版本

普通投機解碼要你額外維護一個小模型當 draft,挺麻煩。Qwen3.6 在訓練時就內置了 MTP 頭:

  1. 模型一次性預測「未來幾個 token」

  2. 主模型并行把這幾個 token 驗證一遍

  3. 接受率高的部分直接吐出去,少跑幾次前向

實際跑下來:

  • dense 模型 (27B):draft tokens = 2 時平均 1.4x 加速

  • MoE 模型 (35B-A3B):平均 1.15–1.2x 加速

下圖是 Unsloth 官方給出的 MTP 加速曲線和吞吐對比:


Qwen3.6 MTP 加速曲線 Qwen3.6 MTP 吞吐對比

為什么 --spec-draft-n-max 卡在 2?官方測了一下:draft tokens 從 2 漲到 4 時,接受率從 **83% 直接掉到 50%**,前向開銷反而把收益吃光

所以別貪心

編譯:必須用特定的 llama.cpp PR 分支

這是最容易踩的坑 —— 不能直接用 master 的 llama.cpp

MTP 的支持還在合并中,要用 Aman 的 PR 分支(ggml-org/llama.cpp#22673)

完整編譯命令(Linux / WSL,要 CUDA 改 -DGGML_CUDA=ON):

apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone -b mtp-clean https://github.com/am17an/llama.cpp.git
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp

Mac / Metal 設備改成 -DGGML_CUDA=OFF 即可,Metal 默認就開

?? CUDA 13.2 千萬別用,NVIDIA 自己確認有 bug,會輸出亂碼

跑起來:27B 與 35B-A3B 的實操命令

27B MTP(thinking 模式,通用任務):

export LLAMA_CACHE="unsloth/Qwen3.6-27B-MTP-GGUF"
./llama.cpp/llama-cli \
-hf unsloth/Qwen3.6-27B-GGUF:UD-Q4_K_XL \
--temp 1.0 --top-p 0.95 --top-k 20 \
--presence-penalty 1.5 --min-p 0.00 \
--spec-type mtp --spec-draft-n-max 2

35B-A3B MTP(non-thinking 模式起 server,方便對接 OpenAI 兼容客戶端):

export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-MTP-GGUF"
./llama.cpp/llama-server \
-hf unsloth/Qwen3.6-35B-A3B-MTP-GGUF:UD-Q4_K_XL \
--temp 0.7 --top-p 0.8 --top-k 20 \
--presence-penalty 1.5 --min-p 0.00 \
--spec-type mtp --spec-draft-n-max 2 \
--chat-template-kwargs '{"enable_thinking":false}'

一些容易忽略的參數:

  • thinking 模式temperature=1.0, top_p=0.95, presence_penalty=1.5

  • non-thinking 模式temperature=0.7, top_p=0.8, presence_penalty=1.5

  • 精確編程任務統一壓到 temperature=0.6/1.0presence_penalty=0.0

  • 想關掉 thinking: --chat-template-kwargs '{"enable_thinking":false}'

  • 輸出亂碼大概率是上下文長度太小,或者加上 --cache-type-k bf16 --cache-type-v bf16 試試

顯存需求一覽 unsloth/Qwen3.6-27B-MTP-GGUF unsloth/Qwen3.6-35B-A3B-MTP-GGUF

按總內存(VRAM + 系統 RAM 或 unified memory)算:

模型

2-bit

4-bit (UD-Q4_K_XL)

8-bit

BF16

Qwen3.6-27B

15 GB

18 GB

30 GB

55 GB

Qwen3.6-35B-A3B

17 GB

23 GB

38 GB

70 GB

不夠的話 llama.cpp 還能 SSD/HDD offload,只是會慢

?? 目前 Ollama 跑不了 Qwen3.6 GGUF(mmproj 視覺文件是分開的),用 llama.cpp 路線就對了

One More Thing:用本地 Qwen3.6 驅動 Claude Code

跑起來不接 Agent 就有點虧。Unsloth 在 docs/basics/claude-code 里把整條流水線寫得很完整,我把關鍵步驟拎出來

第一步:裝 Claude Code

curl -fsSL https://claude.ai/install.sh | bash
cd ~/projects/my-project
claude

第二步:起本地 llama-server(接前面 35B-A3B 的命令)

./llama.cpp/llama-server \
--model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf \
--alias "unsloth/Qwen3.6-35B-A3B" \
--temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 \
--ctx-size 16384 --port 8001

第三步:踩坑預警 —— 一個讓推理慢 90% 的隱藏開關

這是文檔里我覺得全網最值得抄的一條

? Claude Code 最近開始往請求里加一個 Claude Code Attribution Header,這玩意兒會讓 KV Cache 失效,本地模型推理直接慢 90%

而且更坑的是 export CLAUDE_CODE_ATTRIBUTION_HEADER=0不管用

必須改 ~/.claude/settings.json,在 env 段里加:

{
"env": {
"CLAUDE_CODE_ATTRIBUTION_HEADER": "0"
}
}

第四步:把 Claude Code 指向本地端口

export ANTHROPIC_BASE_URL="http://127.0.0.1:8001"
export ANTHROPIC_AUTH_TOKEN="sk-no-key-required"
export ANTHROPIC_MODEL="unsloth/Qwen3.6-35B-A3B"

claude 就能在終端用本地 Qwen3.6 跑 Agent 了。Unsloth Studio 那條路(帶 web UI + 自帶 API key + 自愈式 tool calling)也寫得很清楚,喜歡圖形界面的可以走那條:

總結

挑重點:

  • MTP 不是新模型,是一種 draft-free 的投機解碼 ,靠 Qwen3.6 訓練時自帶的 MTP 頭實現

  • --spec-draft-n-max 2 是甜點位,多了反而慢

  • 必須用 Aman 的 PR 分支,不能用 master

  • CUDA 13.2 別碰

  • 接 Claude Code 一定記得改 ~/.claude/settings.json 關掉 Attribution Header,不然你本地速度優化全白做

適合誰:

  • 24GB 顯存的本地玩家 :27B MTP + Q4 量化是新甜點

  • 小作坊和私有化部署 :拿 35B-A3B 跑 server 接 Claude Code,足夠日常代碼 Agent

  • 不接受 Ollama 短板的用戶 :直接 llama.cpp + MTP

.6

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
蘋果20周年大招曝光:新機無劉海無挖孔

蘋果20周年大招曝光:新機無劉海無挖孔

高科技愛好者
2026-06-17 23:03:06
新華社權威快報丨未來五年,就業優先這樣干

新華社權威快報丨未來五年,就業優先這樣干

新華社
2026-06-17 17:01:33
梅西戴帽贏得阿根廷名宿齊贊,阿圭羅和特維斯頂禮膜拜

梅西戴帽贏得阿根廷名宿齊贊,阿圭羅和特維斯頂禮膜拜

慢歌輕步謠
2026-06-17 13:08:50
特朗普罵奧巴馬“蠢貨”,《觀點》主持人群嘲:你的協議更爛?

特朗普罵奧巴馬“蠢貨”,《觀點》主持人群嘲:你的協議更爛?

追星雷達站
2026-06-18 01:00:22
楊溢帶女友泰國度假,八塊腹肌,19歲進廣東一隊,女友是大美女

楊溢帶女友泰國度假,八塊腹肌,19歲進廣東一隊,女友是大美女

喜歡歷史的阿繁
2026-06-15 18:57:57
圖解|遼寧省人民政府關于調整一?...

圖解|遼寧省人民政府關于調整一?...

新浪財經
2026-06-16 17:02:25
理想王牌官宣定檔!51度電池+全新前臉+四雷達,24.98萬起掀桌?

理想王牌官宣定檔!51度電池+全新前臉+四雷達,24.98萬起掀桌?

娛樂圈的筆娛君
2026-06-17 04:36:07
被困電梯施救時墜亡后續:妹妹當時也跟著跳下去,電梯保修員發聲

被困電梯施救時墜亡后續:妹妹當時也跟著跳下去,電梯保修員發聲

奇葩游戲醬
2026-06-17 16:56:10
隆江豬腳飯!曾經的打工人神飯,如今快涼透了

隆江豬腳飯!曾經的打工人神飯,如今快涼透了

草莓甜甜
2026-05-25 15:55:15
成都一小孩口渴了,母親拿了一瓶水先讓孩子喝。喝完后,母親拿著空瓶去買單,老板卻認為母親的行為是盜竊,要求偷一賠十!

成都一小孩口渴了,母親拿了一瓶水先讓孩子喝。喝完后,母親拿著空瓶去買單,老板卻認為母親的行為是盜竊,要求偷一賠十!

大愛三湘
2026-06-17 20:24:41
世界杯一瓶水54元!30°C高溫禁止帶水: 誰進了安檢門被宰了一刀

世界杯一瓶水54元!30°C高溫禁止帶水: 誰進了安檢門被宰了一刀

南方健哥
2026-06-17 18:37:28
烏軍在多戰場取得重大突破,俄軍節節敗退。

烏軍在多戰場取得重大突破,俄軍節節敗退。

世界探索發現
2026-04-22 01:08:43
無作品卻年入千萬,遭李伯清嫌棄星爺開除,與謝娜相似

無作品卻年入千萬,遭李伯清嫌棄星爺開除,與謝娜相似

悅君兮君不知
2026-06-16 15:07:54
把瑜伽褲穿成日常的松弛感美女

把瑜伽褲穿成日常的松弛感美女

只要高興就好
2026-04-13 14:30:30
高校,瘋狂擴招了

高校,瘋狂擴招了

城市財經
2026-06-15 11:45:40
被監管約談后,山姆中國迎來關鍵換防,首席采購官張青將離任

被監管約談后,山姆中國迎來關鍵換防,首席采購官張青將離任

時代周報
2026-06-17 15:16:05
中方的提醒還在耳邊,蒙古國就向日本表心意,第三鄰國注定一場空

中方的提醒還在耳邊,蒙古國就向日本表心意,第三鄰國注定一場空

小曙說娛
2026-06-18 01:55:42
MLCC升級迭代帶來價值量躍升 MLCC陶瓷粉體價格彈性可期

MLCC升級迭代帶來價值量躍升 MLCC陶瓷粉體價格彈性可期

財聯社
2026-06-17 08:37:33
美股芯片股盤前走強 美光科技漲近5%

美股芯片股盤前走強 美光科技漲近5%

財聯社
2026-06-17 16:31:29
梅西賽后一句話,讓所有追數據的人突然安靜了

梅西賽后一句話,讓所有追數據的人突然安靜了

帶你逛體壇
2026-06-17 16:41:36
2026-06-18 04:32:52
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3435文章數 11165關注度
往期回顧 全部

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊史世界杯首分

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊史世界杯首分

體育要聞

梅西帽子戲法:紀錄厚重,球王輕盈

娛樂要聞

陳紅一反常態保持沉默

財經要聞

拉加德警告:AI可能引爆下一場金融危機

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態度原創

時尚
家居
親子
公開課
軍事航空

1分鐘1萬塊:我在飯圈,交易人性

家居要聞

綠意盎然 自然之境

親子要聞

你把我也嚇一跳,真的沒必要

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美被指拒絕以色列看美伊諒解備忘錄

無障礙瀏覽 進入關懷版