兄弟們,Claude Opus 蒸餾 Qwen3.6-35B-A3B 來(lái)了——Qwopus3.6-35B-A3B-v1,名字看著像是 Qwen 和 Opus 談了場(chǎng)戀愛(ài)生的孩子,跑在單張 5090 上能飆到 161.9 tok/s
模型主頁(yè):huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1
Qwen3.6-35B-A3B 底模是什么
總參數(shù) 35B ,實(shí)際激活參數(shù)只有 3B
共有 256 個(gè)專家(experts)
原生支持 262k 超長(zhǎng)上下文
架構(gòu)特點(diǎn): Gated DeltaNet 線性注意力 + 標(biāo)準(zhǔn)門控注意力混合
定位:高性能 Agent 編碼、深度推理、多模態(tài)任務(wù)
對(duì)比同門 27B 稠密版,吞吐直接起飛
MoE 架構(gòu)的好處在這里體現(xiàn)得很明顯:推理時(shí)只激活一小部分參數(shù),速度快、顯存省
![]()
Base Model Benchmark 精調(diào)做了什么
Jackrong 在Qwen3.6-35B-A3B上用三階段課程學(xué)習(xí) SFT 做了精調(diào):
第一階段(格式建立)
短到中等長(zhǎng)度的格式穩(wěn)定推理樣本,主要任務(wù)是把輸出格式和基本推理路徑固定下來(lái),避免底模的風(fēng)格被破壞
第二階段(復(fù)雜度提升 + 多教師蒸餾)
逐步加大復(fù)雜推理樣本比例,蒸餾數(shù)據(jù)來(lái)自一個(gè) 27B 教師模型——刻意選了跟底模風(fēng)格接近的,防止能力跨度太大導(dǎo)致學(xué)不進(jìn)去
第三階段(長(zhǎng)上下文強(qiáng)化 + 抗漂移)
強(qiáng)化長(zhǎng)上下文推理,同時(shí)保留 10% 短樣本回放,防止模型忘掉基本指令跟隨能力(災(zāi)難性遺忘)
訓(xùn)練方法:LoRA 精調(diào),可訓(xùn)參數(shù)約占總參數(shù)的 9%
? 作者自己也寫(xiě)了:9% 是個(gè)有風(fēng)險(xiǎn)的配置——MoE 架構(gòu)下這么高的可訓(xùn)參數(shù)比例,訓(xùn)練不穩(wěn)定和權(quán)重合并沖突的概率會(huì)顯著上升關(guān)鍵測(cè)評(píng)數(shù)據(jù)
速度是最大亮點(diǎn):
RTX 5090 單卡 平均 161.9 tok/s
比同量級(jí) 27B 密集模型快 2.6 倍
對(duì)消費(fèi)級(jí)單卡來(lái)說(shuō),這個(gè)吞吐率相當(dāng)驚人
特別擅長(zhǎng)的場(chǎng)景:
一鍵生成 HTML/CSS 前端 :評(píng)測(cè)報(bào)告說(shuō)這是目前最強(qiáng)的開(kāi)源 one-shot 前端生成模型之一,生成的頁(yè)面帶復(fù)雜微交互和動(dòng)效組件,功能完整、可直接用
復(fù)雜推理 + 長(zhǎng)上下文 JSON 提取 :修復(fù)了早期版本的 "thinking starvation" 問(wèn)題,多步 Agent 規(guī)劃的結(jié)構(gòu)化輸出更穩(wěn)定
原生 Vision + Tool Calling :如果要開(kāi)視覺(jué)能力,需要把
mmproj.gguf放到主.gguf同目錄下262K 上下文 + 顯存基本不漲 :歸功于 Gated DeltaNet 的線性注意力,序列拉再長(zhǎng),顯存也不會(huì)爆炸
還放出了 GGUF 量化版,本地跑非常省事
地址:Jackrong/Qwopus3.6-35B-A3B-v1-GGUF
![]()
?? 一個(gè)坑要先說(shuō)清楚
如果你想在本地做 LoRA 微調(diào)或合并權(quán)重,注意:
? PEFT/LoRA + Transformers 5.x + Unsloth 補(bǔ)丁三者之間有已知兼容性問(wèn)題
合并 LoRA 權(quán)重時(shí)可能報(bào)錯(cuò),類似:
ModuleNotFoundError: Could not import module 'Qwen3_5MoeForContinualGeneration'
MoE 專家層的權(quán)重結(jié)構(gòu)跟普通密集模型差很多,容易觸發(fā)結(jié)構(gòu)不匹配。如果要在本地精調(diào),做好手動(dòng)打補(bǔ)丁或降級(jí)特定庫(kù)版本的心理準(zhǔn)備
老章怎么看
這個(gè)模型的價(jià)值點(diǎn)在于:把 35B 規(guī)模的 MoE 在消費(fèi)級(jí)單卡上跑出了接近專業(yè)級(jí)的吞吐
對(duì)做 UI 生成、Agent 編排、長(zhǎng)上下文推理的開(kāi)發(fā)者來(lái)說(shuō),這個(gè)模型值得試一試。精調(diào)質(zhì)量加上 MoE 的速度優(yōu)勢(shì),在同類社區(qū)模型里算是比較亮眼的
制作不易,如果這篇文章覺(jué)得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見(jiàn)!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.