網易首頁 > 網易號 > 正文 申請入駐

Claude-Opus-4.6 蒸餾 Qwen3.5 V2 來了

0
分享至

大家好,我是Ai學習的老章

Claude-Opus-4.6 蒸餾 Qwen3.5 我一直很關注:


現在 v2 來了,這次的升級重點不是"更準",而是"更快更省"——同樣的準確率,思維鏈縮短了 24%,每個 Token 產出的正確答案多了 31.6%。


部署條件沒變,Qwen3.5-27B 4bit 單張 4090 即可本地跑起


v2 到底改了啥?

先看核心數據:

指標

v1

v2

變化

HumanEval pass@1

96.95%

96.91%

基本持平

思維鏈長度

基準

縮短 ~24%

顯著減少

每 Token 正確率

基準

+31.6%

大幅提升

HumanEval+

基準

-1.24%

微降

MMLU-Pro

基準

-7.2%

有所下降

簡單說就是:代碼能力幾乎沒掉,但思考效率提升了三成

這意味著什么?同樣一道編程題,v2 想的更少、答得更快,但正確率一樣。對于跑本地模型的人來說,生成速度本來就是瓶頸,少生成 24% 的 Token 就等于快了 24%——還不用加任何硬件。




怎么做到的?

v2 的訓練數據是關鍵。作者 Jackrong 用了14,000 條 Claude 4.6 Opus 風格的通用推理樣本,注意是"通用推理"——數學題、邏輯推理、文字題,不是代碼題

這個設計思路很有意思:不針對代碼刷分,而是讓模型學會一種更高效的"思考腳手架"。結果在 HumanEval(代碼測試)上照樣拿了 96.91%,說明底層推理能力的提升是可以跨任務遷移的

具體來說,v2 學到的推理模式長這樣:

Let me analyze this request carefully:


1. Identify the core objective of the problem.
2. Break the task into clearly defined subcomponents.
3. Evaluate constraints and edge cases.
4. Formulate a step-by-step solution plan.
5. Execute the reasoning sequentially and verify consistency.

對比 v1 的長篇大論式思考,v2 更像一個有經驗的工程師——先列大綱再下手,不會在簡單問題上反復糾結。這就是 Claude Opus 的推理風格:結構化、有條理、不廢話


訓練細節

技術棧和 v1 一脈相承:

  • 基座模型:Qwen3.5-27B

  • 訓練框架:Unsloth + LoRA SFT

  • 訓練方式:Response-Only Training,只對 assistant 的思考部分做監督

  • 數據量:~14,000 條篩選后的高質量推理軌跡

Base Model (Qwen3.5-27B)


Qwen3.5-27B fine-tuned with Unsloth


Supervised Fine-Tuning (SFT) + LoRA
(Response-Only Training masked on "<|im_start|>assistant\n " )


Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

數據來源包括幾個公開的 Claude 4.6 Opus 蒸餾數據集:

數據集

用途

Opus-4.6-Reasoning-3000x-filtered

Claude 4.6 Opus 推理軌跡

claude-opus-4.6-10000x

大規模通用推理遷移

claude-4.5-opus-high-reasoning-250x

高強度結構化推理

Qwen3.5-reasoning-700x

補充多樣性推理樣本


代價是什么?

說完優點,也得說缺點。

v2 在 **MMLU-Pro 上掉了 7.2%**,也就是通用知識推理能力有所下降。Jackrong也很坦誠地說了,由于 SFT 數據主要是通用推理類,對長上下文理解和復雜多步推理場景可能不如原版 Qwen3.5。

我的理解是:這是一個典型的"專精 vs 通用"的權衡。如果你主要用來寫代碼、做邏輯推理、解數學題,v2 毫無疑問更好——又快又準。但如果你需要一個什么都能聊的通用模型,原版 Qwen3.5 或者 v1 可能更穩。


怎么跑?

跟之前一樣,GGUF 格式直接用 LM Studio、llama.cpp、Ollama 這些工具跑就行。HuggingFace 上提供了多種量化版本:

模型地址:Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF

之前我用 4090 跑 v1 的 27B 能到 46 Token/s,v2 思維鏈短了 24%,等效推理速度還能再快不少。

總結

v2 的核心價值就一句話:用更少的 Token 辦同樣的事

  • 代碼準確率不掉:HumanEval 96.91%

  • 思維鏈縮短 24%:生成更快,成本更低

  • 每 Token 正確率 +31.6%:推理效率質的飛躍

  • 代價:通用知識推理(MMLU-Pro)下降 7.2%

對于本地部署場景,這種"推理效率優化"比單純提升準確率更有實際價值——畢竟我們的瓶頸往往不是模型不夠聰明,而是它想得太慢。

.5

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

以茶帶書
2026-04-25 16:22:06
王石真的老了!突然現身大梅沙,他赤裸著上半身,貼著胰島素針頭

王石真的老了!突然現身大梅沙,他赤裸著上半身,貼著胰島素針頭

火山詩話
2026-04-26 06:11:32
5月1日起,有房有車有身份證的人,或要吃大虧了!

5月1日起,有房有車有身份證的人,或要吃大虧了!

小談食刻美食
2026-04-26 09:09:28
趙麗穎在上海某高檔餐廳被偶遇,瘦是真的瘦,素顏依然很美

趙麗穎在上海某高檔餐廳被偶遇,瘦是真的瘦,素顏依然很美

一盅情懷
2026-04-25 19:36:00
中國第四艘航母官宣:是核動力!舷號19,命名大概率是“江蘇號”

中國第四艘航母官宣:是核動力!舷號19,命名大概率是“江蘇號”

福建睿平
2026-04-26 10:53:36
小米:李某華已被行拘

小米:李某華已被行拘

南方都市報
2026-04-26 12:01:47
曝球球退出陳翔六點半!疑細節原因曝光,否認與“蘑菇頭”是夫妻

曝球球退出陳翔六點半!疑細節原因曝光,否認與“蘑菇頭”是夫妻

橙星文娛
2026-04-26 14:26:26
華為余承東:尊界新車價格在200萬左右

華為余承東:尊界新車價格在200萬左右

界面新聞
2026-04-26 13:08:56
馬齒莧立功!研究發現:其天然成分4周降脂33%,還能減少血管斑塊

馬齒莧立功!研究發現:其天然成分4周降脂33%,還能減少血管斑塊

思思夜話
2026-04-25 11:16:17
網友開盒掛出“深圳派出所煙男”名單,微博官方:嚴重違規,已關號處理

網友開盒掛出“深圳派出所煙男”名單,微博官方:嚴重違規,已關號處理

極目新聞
2026-04-26 17:45:26
月入過萬!“崩老頭”登上熱搜,80后90后男性,成為年輕女性目標

月入過萬!“崩老頭”登上熱搜,80后90后男性,成為年輕女性目標

火山詩話
2026-04-26 15:18:10
全變味了?蘇超開幕不到半月,不對勁的一幕上演,輿論風向又變了

全變味了?蘇超開幕不到半月,不對勁的一幕上演,輿論風向又變了

墨印齋
2026-04-25 18:07:43
飯店老板被顧客踹續:一腳踹出三米遠,強喂服務員吃菜,警方介入

飯店老板被顧客踹續:一腳踹出三米遠,強喂服務員吃菜,警方介入

奇思妙想草葉君
2026-04-25 15:02:47
斯諾克世錦賽:吳宜澤出師不利!2局僅得1分,塞爾比狂轟2破百!

斯諾克世錦賽:吳宜澤出師不利!2局僅得1分,塞爾比狂轟2破百!

劉姚堯的文字城堡
2026-04-26 17:56:36
田馥甄曬3人合體爬山,陳嘉樺帶包子接地氣,任家萱現在最沒星味

田馥甄曬3人合體爬山,陳嘉樺帶包子接地氣,任家萱現在最沒星味

離離言幾許
2026-04-25 20:49:13
手機拍完相機拍 白宮晚宴槍擊現場男子淡定記錄

手機拍完相機拍 白宮晚宴槍擊現場男子淡定記錄

看看新聞Knews
2026-04-26 12:48:06
白宮晚宴槍擊案全網最全細節:特工疑與槍手互開數槍,特朗普在臺上十分淡定

白宮晚宴槍擊案全網最全細節:特工疑與槍手互開數槍,特朗普在臺上十分淡定

爆角追蹤
2026-04-26 10:29:13
網紅女主播因父親重病去世失聯停播,公司要求其支付違約金:親人去世值得同情,但違約事實已發生;經法院調解,公司降低違約金數額

網紅女主播因父親重病去世失聯停播,公司要求其支付違約金:親人去世值得同情,但違約事實已發生;經法院調解,公司降低違約金數額

魯中晨報
2026-04-26 15:40:06
孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

醫脈圈
2026-04-25 20:04:06
結束了!再見愛德華茲!NBA最慘季后賽球隊

結束了!再見愛德華茲!NBA最慘季后賽球隊

籃球實戰寶典
2026-04-26 19:48:57
2026-04-26 20:00:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3352文章數 11139關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

僅次《指環王》的美劇,有第二季

財經要聞

事關新就業群體,中辦、國辦發文

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

親子
游戲
家居
本地
公開課

親子要聞

#健康躍動生活#孩子碰頭別大意,出現這5種情況,立刻就醫

傳言稱索尼PS5數字版游戲需要每30天在線驗證一次

家居要聞

自然肌理 溫潤美學

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版