无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Qwen3.6-35B,量化、蒸餾版本推薦

0
分享至

一文中我已經把這個模型和部署(原版 + 量化版)介紹的很清楚了,閑逛又發現幾個版本(4bit 量化版、推理加速版、Claude Opus 蒸餾版)很亮眼,推薦給大家。

第一路:三個 4bit 量化版本

Qwen3.6 發布還沒捂熱,社區已經搞出了三個 4bit 量化版本

目標很明確:把顯存需求壓下來,讓消費級顯卡能跑起來

1. cyankiwi/Qwen3.6-35B-A3B-AWQ-4bit

AWQ(Activation-aware Weight Quantization)量化,可以用 vLLM 0.19 直接拉起來

網友測試 2x4060 可以跑出 83tok/s


2. QuantTrio/Qwen3.6-35B-A3B-AWQ

同樣是 AWQ 量化,這個版本出自 QuantTrio 團隊,量化后模型大小約 24GB

有詳細的 vLLM 啟動腳本,支持 MTP(Multi-Token Prediction)推測解碼

啟動命令參考:

vllm serve QuantTrio/Qwen3.6-35B-A3B-AWQ \
--served-model-name MY_MODEL \
--max-model-len 32768 \
--gpu-memory-utilization 0.9 \
--tensor-parallel-size 4 \
--enable-expert-parallel \
--reasoning-parser qwen3 \
--speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}' \
--trust-remote-code

注意 TP=8 時要加--enable-expert-parallel,否則專家參數分片不均勻會出問題。

效果在線


3. RedHatAI/Qwen3.6-35B-A3B-NVFP4

這個來自 Red Hat AI 團隊,用的是 NVFP4 格式——權重和激活都量化到 FP4

用 llm-compressor 工具做的量化

初步評測結果有個小驚喜:

模型

GSM8K Platinum 準確率

Qwen3.6-35B-A3B(原版)

95.62%

Qwen3.6-35B-A3B-NVFP4

96.28%

恢復率

100.69%

量化后準確率居然還漲了一點點

當然 Red Hat 團隊也說了這只是初步結果,更嚴格的評測還在進行中

三個量化版本怎么選?

版本

量化格式

特點

推薦場景

cyankiwi

AWQ 4bit

快速可用

想嘗鮮、快速驗證

QuantTrio

AWQ

文檔詳細、附啟動腳本

生產部署參考

RedHatAI

NVFP4

權重 + 激活雙量化、官方團隊出品

追求更極致壓縮

三個版本都兼容 vLLM 0.19+,直接vllm serve就能跑

第二路:DFlash 推理加速版

DFlash 我介紹過兩次了,老讀者應該不陌生

簡單回顧一下:DFlash 是一種基于塊擴散模型(Block Diffusion)的推測解碼方法。傳統推測解碼(比如 EAGLE-3)的草稿模型還是自回歸的,一次只能預測一個 token。DFlash 換了個思路——用一個輕量的擴散模型,一次并行生成一整個 block 的 token

核心技巧在于:DFlash 不讓小模型從零開始預測,而是從目標大模型的隱層特征中提取上下文信息,注入到草稿模型的每一層 KV Cache 中。這樣即使草稿模型很小,也能"借用"大模型的推理能力。

在 Qwen3-8B 上的實測數據:

基準測試

原版

EAGLE-3 加速

DFlash 加速

GSM8K

2.13×

5.20×

MATH-500

2.18×

6.17×

HumanEval

2.48×

5.20×

MBPP

2.27×

4.75×

EAGLE-3 大概 2-2.5 倍加速,DFlash 直接拉到 5-6 倍

而且這是完全無損的——輸出跟原版一模一樣

現在 z-lab 團隊第一時間跟進了 Qwen3.6:

? z-lab/Qwen3.6-35B-A3B-DFlash

需要注意的是,這個草稿模型還在訓練中(目前 2000 步),所以效果還會繼續提升。

使用方式也很簡單,vLLM 一行命令:

vllm serve Qwen/Qwen3.6-35B-A3B \
--speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.6-35B-A3B-DFlash", "num_speculative_tokens": 15}' \
--attention-backend flash_attn \
--max-num-batched-tokens 32768

SGLang 也已經支持了:

python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-35B-A3B \
--speculative-algorithm DFLASH \
--speculative-draft-model-path z-lab/Qwen3.6-35B-A3B-DFlash \
--speculative-num-draft-tokens 16 \
--tp-size 1 \
--attention-backend fa3 \
--mem-fraction-static 0.75 \
--trust-remote-code

早期測試的接受長度(Accept Length)數據:

數據集

接受長度

GSM8K

6.5

Math500

7.2

HumanEval

6.2

MBPP

5.6

MT-Bench

5.0

接受長度越高意味著加速比越大

Math500 上平均每次能接受 7.2 個 token,這個數字相當可觀


第三路:Claude Opus 4.6 蒸餾版

這條路線大家也應該很熟悉了,我一直在追

Jackrong 在 Qwen3.5 上做的 Claude Opus 蒸餾系列我介紹過 V2 和 V3,每一版都有明顯提升

現在社區開發者 hesamation 把這套思路搬到了 Qwen3.6 上:

? hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled

核心思路:保留 Qwen3.6 強大的 Agentic Coding 底座,同時注入 Claude Opus 4.6 風格的結構化推理能力

訓練方式是用 LoRA 做有監督微調(SFT),然后合并回完整模型

訓練數據來自三個公開數據集:

數據集

樣本量

用途

nohurry/Opus-4.6-Reasoning-3000x-filtered

3,900

Claude Opus 推理軌跡

Jackrong/Qwen3.5-reasoning-700x

700

精選 Qwen 推理樣本

Roman1111111/claude-opus-4.6-10000x

9,633

更多 Claude Opus 推理示例

總共約 14,000 條數據,規模不大,但質量很高——都是經過篩選的鏈式推理(Chain-of-Thought)示例。

訓練配置:

配置項

微調方法

LoRA(僅 Attention 模塊)

LoRA rank / alpha

32 / 32

梯度累積

32

訓練輪次

2

最終訓練 loss

最大序列長度

初步評測數據很亮眼:

基準測試

Base 模型

蒸餾后

提升

MMLU-Pro(70 題子集)

42.86%

75.71%+32.85pp

當然,作者也說了這只是 70 道題的小規模測試(14 個學科各 5 題),應該當做 smoke test 看,不是完整評測。但 +32.85 個百分點的提升還是很說明問題的——Claude Opus 的推理數據確實能顯著增強模型的結構化推理能力。

值得注意的是,這個微調是純文本的。Qwen3.6 底座雖然自帶視覺編碼器,但這輪訓練沒有用到圖像/視頻數據,所以多模態能力基本就是繼承自 base model。

三路并行,選哪個?

需求

推薦方案

顯存有限,想跑 Qwen3.6

AWQ/NVFP4 量化版

追求推理速度,愿意多占點顯存

DFlash 加速版

需要更強的推理/分析能力

Claude Opus 蒸餾版

又想快又想省顯存

量化版 + DFlash(理論可疊加,待驗證)

這三條路線其實不沖突

量化解決的是"跑得起"的問題

DFlash 解決的是"跑得快"的問題

蒸餾解決的是"跑得好"的問題

我的看法

  1. 評測數據普遍不夠充分。蒸餾版只跑了 70 道 MMLU-Pro 題,NVFP4 版只有一個 GSM8K 分數,量化版基本沒有獨立評測。社區還需要更多人來做嚴格的 benchmark

  2. DFlash 版本還在訓練中。2000 步的草稿模型效果肯定不是最終水平,現階段的性能數據參考價值有限

  3. Qwen3.6 的 base model 本身也是新出的。官方 benchmark 看著很強,但實際使用中的表現還需要時間檢驗

總的來說,開源 AI 社區圍繞一個模型形成了量化→加速→蒸餾的完整優化鏈,每條路線都有獨立團隊在推進。

這種分布式協作的效率和活力,可能比任何單個模型的發布都更值得關注

.6

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
口交、肛交等進入式性服務是賣淫行為嗎?最高院定調了!

口交、肛交等進入式性服務是賣淫行為嗎?最高院定調了!

黯泉
2026-06-02 11:54:54
中國男籃停止歸化,懷特塞德事件七月份出說明,新疆續約沙拉木

中國男籃停止歸化,懷特塞德事件七月份出說明,新疆續約沙拉木

中國籃壇快訊
2026-06-17 19:08:34
上映僅五天票房破億!這部硬核港風動作片憑口碑逆襲院線

上映僅五天票房破億!這部硬核港風動作片憑口碑逆襲院線

喜歡歷史的阿繁
2026-06-16 18:13:49
性張力拉滿,這部尺度新劇拍的太欲了

性張力拉滿,這部尺度新劇拍的太欲了

來看美劇
2026-06-15 19:03:49
警惕!大量印度人瞄準中國移民定居,前車之鑒在前,真的不能大意

警惕!大量印度人瞄準中國移民定居,前車之鑒在前,真的不能大意

魔都姐姐雜談
2026-06-16 20:17:43
男人最高級的床上魅力:不只是持久,更是這兩大“節奏技巧”

男人最高級的床上魅力:不只是持久,更是這兩大“節奏技巧”

精彩分享快樂
2026-06-04 12:00:16
周杰倫《女兒殿下》MV上線 復古舞步混搭萌娃“瘋”玩親子日常

周杰倫《女兒殿下》MV上線 復古舞步混搭萌娃“瘋”玩親子日常

縱相新聞
2026-06-17 17:34:45
山姆首席采購官張青辭職,將于6月底正式離任

山姆首席采購官張青辭職,將于6月底正式離任

紅星資本局
2026-06-17 17:02:14
這和不穿有啥區別?徐璐真空上陣,身材火辣,搶了所有女星風頭!

這和不穿有啥區別?徐璐真空上陣,身材火辣,搶了所有女星風頭!

川渝視覺
2026-05-27 22:29:45
二手油車兩個月掉了過去兩年的價!車商哭訴:同款車型僅兩月就貶值了4萬

二手油車兩個月掉了過去兩年的價!車商哭訴:同款車型僅兩月就貶值了4萬

中國能源網
2026-06-15 11:14:10
十全十美的美女,有誰見過嗎

十全十美的美女,有誰見過嗎

老吳教育課堂
2026-06-12 20:23:49
如今看誰還敢動臺灣?中國曾當著全世界的面,掀了美日韓的桌子!

如今看誰還敢動臺灣?中國曾當著全世界的面,掀了美日韓的桌子!

范瞼舍長
2026-02-13 01:01:40
新加坡卸下偽裝,公然站隊美日,瘋狂對華放箭,這是逼中國出手?

新加坡卸下偽裝,公然站隊美日,瘋狂對華放箭,這是逼中國出手?

隱龍天下
2026-06-16 22:37:36
SpaceX跌幅擴大至4%

SpaceX跌幅擴大至4%

界面新聞
2026-06-17 22:07:10
中央5臺直播世界杯時間表:6月18日CCTV5直播,葡萄牙英格蘭出戰

中央5臺直播世界杯時間表:6月18日CCTV5直播,葡萄牙英格蘭出戰

薇說體育
2026-06-17 14:10:57
針對媒體反映山東高速信息集團有限公司承建的某新基建項目問題,山東省發改委、住建廳、交通廳、國資委,組成聯合調查組

針對媒體反映山東高速信息集團有限公司承建的某新基建項目問題,山東省發改委、住建廳、交通廳、國資委,組成聯合調查組

大風新聞
2026-06-17 21:33:42
8年要被交易8次!史上最慘FMVP了!

8年要被交易8次!史上最慘FMVP了!

貴圈真亂
2026-06-17 13:02:10
一度漲超400%!又見中概股暴漲

一度漲超400%!又見中概股暴漲

證券時報
2026-06-17 23:10:08
為什么要往死里掃黃打非?網友的分享一針見血!

為什么要往死里掃黃打非?網友的分享一針見血!

燈錦年
2026-06-17 20:30:31
葡媒:C羅世界杯獲得前所未有的主教練信任度,不可或缺性超梅西

葡媒:C羅世界杯獲得前所未有的主教練信任度,不可或缺性超梅西

楊華評論
2026-06-17 08:09:52
2026-06-18 03:39:03
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3435文章數 11165關注度
往期回顧 全部

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊史世界杯首分

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊史世界杯首分

體育要聞

梅西帽子戲法:紀錄厚重,球王輕盈

娛樂要聞

陳紅一反常態保持沉默

財經要聞

拉加德警告:AI可能引爆下一場金融危機

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態度原創

游戲
時尚
本地
藝術
軍事航空

終于又有好游戲玩啦!這10款獨立游戲新作創意拉滿,強推入庫!

1分鐘1萬塊:我在飯圈,交易人性

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

藝術要聞

235米!曼谷地標“金字塔”動工,BIG操刀

軍事要聞

美被指拒絕以色列看美伊諒解備忘錄

無障礙瀏覽 進入關懷版