網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Claude Opus 蒸餾Qwen3.6-35B-A3B，開(kāi)源了，消費(fèi)級(jí)顯卡輕松跑

2026-05-12 07:21:23　來(lái)源: Ai學(xué)習(xí)的老章

北京舉報(bào)

分享至

兄弟們，Claude Opus 蒸餾 Qwen3.6-35B-A3B 來(lái)了——Qwopus3.6-35B-A3B-v1，名字看著像是 Qwen 和 Opus 談了場(chǎng)戀愛(ài)生的孩子，跑在單張 5090 上能飆到 161.9 tok/s

模型主頁(yè)：huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1

Qwen3.6-35B-A3B 底模是什么

總參數(shù) 35B ，實(shí)際激活參數(shù)只有 3B
共有 256 個(gè)專家（experts）
原生支持 262k 超長(zhǎng)上下文
架構(gòu)特點(diǎn)： Gated DeltaNet 線性注意力 + 標(biāo)準(zhǔn)門控注意力混合
定位：高性能 Agent 編碼、深度推理、多模態(tài)任務(wù)
對(duì)比同門 27B 稠密版，吞吐直接起飛

MoE 架構(gòu)的好處在這里體現(xiàn)得很明顯：推理時(shí)只激活一小部分參數(shù)，速度快、顯存省

Base Model Benchmark 精調(diào)做了什么

Jackrong 在Qwen3.6-35B-A3B上用三階段課程學(xué)習(xí) SFT 做了精調(diào)：

第一階段（格式建立）
短到中等長(zhǎng)度的格式穩(wěn)定推理樣本，主要任務(wù)是把輸出格式和基本推理路徑固定下來(lái)，避免底模的風(fēng)格被破壞

第二階段（復(fù)雜度提升 + 多教師蒸餾）
逐步加大復(fù)雜推理樣本比例，蒸餾數(shù)據(jù)來(lái)自一個(gè) 27B 教師模型——刻意選了跟底模風(fēng)格接近的，防止能力跨度太大導(dǎo)致學(xué)不進(jìn)去

第三階段（長(zhǎng)上下文強(qiáng)化 + 抗漂移）
強(qiáng)化長(zhǎng)上下文推理，同時(shí)保留 10% 短樣本回放，防止模型忘掉基本指令跟隨能力（災(zāi)難性遺忘）

訓(xùn)練方法：LoRA 精調(diào)，可訓(xùn)參數(shù)約占總參數(shù)的 9%

? 作者自己也寫(xiě)了：9% 是個(gè)有風(fēng)險(xiǎn)的配置——MoE 架構(gòu)下這么高的可訓(xùn)參數(shù)比例，訓(xùn)練不穩(wěn)定和權(quán)重合并沖突的概率會(huì)顯著上升

關(guān)鍵測(cè)評(píng)數(shù)據(jù)

Evaluation Screenshot 1

Evaluation Screenshot 2

Evaluation Screenshot 3

Evaluation Screenshot 4

Evaluation Screenshot 5

Evaluation Screenshot 6

速度是最大亮點(diǎn)：

RTX 5090 單卡 平均 161.9 tok/s
比同量級(jí) 27B 密集模型快 2.6 倍
對(duì)消費(fèi)級(jí)單卡來(lái)說(shuō)，這個(gè)吞吐率相當(dāng)驚人

特別擅長(zhǎng)的場(chǎng)景：

一鍵生成 HTML/CSS 前端 ：評(píng)測(cè)報(bào)告說(shuō)這是目前最強(qiáng)的開(kāi)源 one-shot 前端生成模型之一，生成的頁(yè)面帶復(fù)雜微交互和動(dòng)效組件，功能完整、可直接用
復(fù)雜推理 + 長(zhǎng)上下文 JSON 提取 ：修復(fù)了早期版本的 "thinking starvation" 問(wèn)題，多步 Agent 規(guī)劃的結(jié)構(gòu)化輸出更穩(wěn)定
原生 Vision + Tool Calling ：如果要開(kāi)視覺(jué)能力，需要把 mmproj.gguf 放到主 .gguf 同目錄下
262K 上下文 + 顯存基本不漲 ：歸功于 Gated DeltaNet 的線性注意力，序列拉再長(zhǎng)，顯存也不會(huì)爆炸

還放出了 GGUF 量化版，本地跑非常省事

地址：Jackrong/Qwopus3.6-35B-A3B-v1-GGUF

?? 一個(gè)坑要先說(shuō)清楚

如果你想在本地做 LoRA 微調(diào)或合并權(quán)重，注意：

? PEFT/LoRA + Transformers 5.x + Unsloth 補(bǔ)丁三者之間有已知兼容性問(wèn)題

合并 LoRA 權(quán)重時(shí)可能報(bào)錯(cuò)，類似：

ModuleNotFoundError: Could not import module 'Qwen3_5MoeForContinualGeneration'

MoE 專家層的權(quán)重結(jié)構(gòu)跟普通密集模型差很多，容易觸發(fā)結(jié)構(gòu)不匹配。如果要在本地精調(diào)，做好手動(dòng)打補(bǔ)丁或降級(jí)特定庫(kù)版本的心理準(zhǔn)備

老章怎么看

這個(gè)模型的價(jià)值點(diǎn)在于：把 35B 規(guī)模的 MoE 在消費(fèi)級(jí)單卡上跑出了接近專業(yè)級(jí)的吞吐

對(duì)做 UI 生成、Agent 編排、長(zhǎng)上下文推理的開(kāi)發(fā)者來(lái)說(shuō)，這個(gè)模型值得試一試。精調(diào)質(zhì)量加上 MoE 的速度優(yōu)勢(shì)，在同類社區(qū)模型里算是比較亮眼的

制作不易，如果這篇文章覺(jué)得對(duì)你有用，可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊：點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè)，謝謝你看我的文章，我們下篇再見(jiàn)！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.