網易首頁 > 網易號 > 正文 申請入駐

實測 Claude-Opus-4.6蒸餾版Qwen3.5,9B 已能打,用LM-Studio本地跑,對接 Claude Code

0
分享至

Qwen3.5 系列繼續:

上篇文章介紹了 Jackrong 和 TeichAI 兩個團隊做的 Claude Opus 4.6 蒸餾版 Qwen3.5-27B,發完之后好多網友在評論區催我:光說不練假把式,能不能實際跑一下?

今天就拿 Jackrong 放出的GGUF 量化版,用 LM Studio 在本地實測一把,看看這個號稱"平替 Opus"的蒸餾模型到底幾斤幾兩。


我選擇 Jackrong 的版本,原因無他,開發者用腳投票,它曾經登錄過 Huggingface 熱榜第一


熱榜第一.png

2B、9B、27B、35B 都有,豐儉由人了可以說

其中 2B 版本模型文件只有 2GB


https://modelscope.cn/models/Jackrong/Qwen3.5-2B-Claude-4.6-Opus-Reasoning-Distilled-GGUF

Q4_K_M 只有 1.2GB


這個大家別試了,很多任務都無法完成,給他現成的 Skills 也不行


接入到 Claude Code


它花了 8 分鐘才找全可用 skills,指定了也無法完全調用


一定要說優點:它是 256K 上下文,而且有 Vision 能力,生成速度 40+t/s


還有它翻譯還可以


也不精神錯亂


9B 版本 6GB

我是 16G 的 MacMini M4

所以本文只測試了 2B 和 9B

我建議大家能力尚可 從 27B 開始,我的機器其實也可以上 27B Q3,但是下載,測試,太耗時了,我幾乎半天都耗在測試了,時長氣的腦仁疼


35-A3B 36GB,這也是為何它干不過 27B 的原因之一


為什么選 GGUF + LM Studio?

GGUF是目前本地部署大模型最主流的格式,基于 llama.cpp 生態,對 CPU 和消費級 GPU 都非常友好。相比原始的 safetensors 權重動輒 50+GB,GGUF 量化后最低 10GB 就能跑 27B 模型,這才是我們普通玩家的菜。

LM Studio就不用多介紹了吧,之前專門寫過一篇

一句話概括:圖形界面一鍵下載運行 + OpenAI/Anthropic 雙兼容 API + CLI 命令行 + 遠程 LM Link,從小白到開發者全覆蓋。

用它來測模型,門檻最低、體驗最好

模型概覽

Jackrong 在 HuggingFace 上放出了27B完整的 GGUF 量化家族:

量化版本

文件大小

顯存占用(估算)

推薦場景

Q2_K

10.1 GB

~12 GB

極致省內存,精度有損

Q3_K_S

12.1 GB

~14 GB

內存緊張時的折中選擇

Q3_K_M

13.3 GB

~15 GB

Q3 里精度最好的

Q4_K_S

15.6 GB

~17 GB

性價比之選

Q4_K_M

16.5 GB

~18 GB

精度與體積最佳平衡Q8_0

28.6 GB

~30 GB

追求精度,顯存充裕時用

社區大佬 @ 在單卡 RTX 3090(24GB 顯存)上實測 Q4_K_M 版本的數據:

  • 顯存占用約 16.5 GB,3090/4090 毫無壓力

  • 生成速度 29–35 tok/s,日常使用足夠絲滑

  • 完整保留 262K 上下文窗口,沒有打折

  • 修復了官方模型 Jinja 模板不支持developerrole 的崩潰問題

我的建議:閉眼選 Q4_K_M。24GB 顯存的卡(3090/4090)輕松裝下,精度損失可以忽略。如果你是 Mac 用戶,統一內存 32GB 以上也能跑。

本文測試 9B 實屬無奈

Jackrong 的蒸餾版有什么特別的?

回顧一下上篇文章講過的核心要點

這個模型的訓練方法很"暴力":

  1. 數據來源:大約 3,280 條高質量的 Claude Opus 4.6 推理數據,外加 TeichAI 和 Jackrong 自己整理的補充數據集

  2. 訓練策略train_on_responses_only——Loss 只在 思考過程和最終答案上計算,逼模型去模仿 Claude 那種深度結構化思考

  3. 微調方式:Unsloth + LoRA(Rank=64),非常高效

蒸餾完的模型在推理時會主動展開思維鏈:

 

Let me analyze this request carefully:
1. Identify the core objective of the problem.
2. Break the task into clearly defined subcomponents.
3. Evaluate constraints and edge cases.
4. Formulate a step-by-step solution plan.
5. Execute the reasoning sequentially and verify consistency...


和原版 Qwen3.5-27B 容易在簡單問題上"繞圈子"不同,這個蒸餾版學到了 Claude 的風格——先分析、再拆解、再執行,推理效率明顯更高。

而且社區測試發現,它在 AI 代碼智能體場景(Claude Code、OpenCode)中表現極其穩定:連續自主運行超過 9 分鐘不中斷,能自動讀報錯、改代碼、寫 README,中途不卡頓不死機。

這一點確實可以,2B/9B 版都能做到。

原版模型在這種場景下經常半途卡住,差距很明顯。

LM Studio 部署步驟

用 LM Studio 跑這個模型,總共就三步:

第一步:下載模型

打開 LM Studio,在搜索欄直接搜索Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF,或者在 Discover 頁面找到它。


如果你更喜歡命令行,也可以用lmsCLI:

lms get Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF --file Qwen3.5-9B.Q4_K_M.gguf

或者用 huggingface-cli 手動下載到 LM Studio 的模型目錄:

huggingface-cli download Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF \
--include "Qwen3.5-9B.Q4_K_M.gguf" \
--local-dir ~/.cache/lm-studio/models/Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF

網絡不通可以使用 modelscope

pip install modelcope
modelscope download --model Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Qwen3.5-9B.Q4_K_M.gguf --local_dir ~/.cache/lm-studio/models/Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF


第二步:加載模型

下載完成后,在 LM Studio 左側模型列表中找到它,點擊加載

加載時建議調整幾個參數:

  • GPU Offload:拉滿(如果你有獨立 GPU)

  • Context Length:先設 8192 或 16384 試試,夠用再加,我上 262144

  • Max Concurrent Predictions:保持默認 1 即可

第三步:開聊

加載完成后直接在 Chat 界面對話

模型會自動啟用思維鏈模式,你會看到 ... 標簽包裹的推理過程。

我用看家測試題目,背影閱讀理解+svg 代碼生成+審美測試題測它

令我吃驚的是,它完全可以理解到


就是速度差點意思,13t/s

這是曾經一種旗艦模型都可能滑鐵盧的


生成的 svg 也只能說能看吧


進階:當 API 服務器用

LM Studio 加載模型后,點擊左側的Developer標簽,開啟本地服務器(默認端口 1234)。然后你就能用 OpenAI SDK 直接調用:

from openai import OpenAI

client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="lmstudio"
)

response = client.chat.completions.create(
model="Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF",
messages=[
{"role": "user", "content": "用Python寫一個LRU緩存,要求線程安全"}
],
temperature=0.6,
top_p=0.95,
max_tokens=8192
)

print(response.choices[0].message.content)

甚至可以直接對接 Claude Code:

    "ANTHROPIC_AUTH_TOKEN": "lm-studio-local",
"ANTHROPIC_BASE_URL": "http://localhost:1234",
"ANTHROPIC_DEFAULT_HAIKU_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled",
"ANTHROPIC_DEFAULT_OPUS_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled",
"ANTHROPIC_DEFAULT_SONNET_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled",
"ANTHROPIC_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled"

本地蒸餾模型驅動 Claude Code,白嫖到底,就問你香不香。


工具調用能力

請在當前目錄下創建一個名為 debug_test.py 的 Python 腳本,代碼內容是計算 1 到 10
的平均值,但請在代碼中故意留下一個邏輯錯誤(比如除以 或者變量名寫錯)。接著運行這個腳本,捕獲錯誤日志,分析原因并自動修復它,最后再次運行以確保輸出正確的平均值

結果write_file、run_shell_command、read_file、write_file、run_shell_command一路下來都是 ok 的


能不能干點稍微重點的活兒呢?

有點難,比如查找 skills 調用 skills

看起來是瞎編的


本地有的 他也要 web search


除非你特殊強調


它很慢,又特別能思考,我實在沒有精力等下去了,一下午荒廢了。。。

算是幫大家踩過了,看的腦仁疼

總結

可以玩玩,但是能力有限,需要勞心費神

或許 27B 會好很多,至少評論區這么說

再挖個坑吧


-Opus .5

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

以茶帶書
2026-04-25 16:22:06
王石真的老了!突然現身大梅沙,他赤裸著上半身,貼著胰島素針頭

王石真的老了!突然現身大梅沙,他赤裸著上半身,貼著胰島素針頭

火山詩話
2026-04-26 06:11:32
5月1日起,有房有車有身份證的人,或要吃大虧了!

5月1日起,有房有車有身份證的人,或要吃大虧了!

小談食刻美食
2026-04-26 09:09:28
趙麗穎在上海某高檔餐廳被偶遇,瘦是真的瘦,素顏依然很美

趙麗穎在上海某高檔餐廳被偶遇,瘦是真的瘦,素顏依然很美

一盅情懷
2026-04-25 19:36:00
中國第四艘航母官宣:是核動力!舷號19,命名大概率是“江蘇號”

中國第四艘航母官宣:是核動力!舷號19,命名大概率是“江蘇號”

福建睿平
2026-04-26 10:53:36
小米:李某華已被行拘

小米:李某華已被行拘

南方都市報
2026-04-26 12:01:47
曝球球退出陳翔六點半!疑細節原因曝光,否認與“蘑菇頭”是夫妻

曝球球退出陳翔六點半!疑細節原因曝光,否認與“蘑菇頭”是夫妻

橙星文娛
2026-04-26 14:26:26
華為余承東:尊界新車價格在200萬左右

華為余承東:尊界新車價格在200萬左右

界面新聞
2026-04-26 13:08:56
馬齒莧立功!研究發現:其天然成分4周降脂33%,還能減少血管斑塊

馬齒莧立功!研究發現:其天然成分4周降脂33%,還能減少血管斑塊

思思夜話
2026-04-25 11:16:17
網友開盒掛出“深圳派出所煙男”名單,微博官方:嚴重違規,已關號處理

網友開盒掛出“深圳派出所煙男”名單,微博官方:嚴重違規,已關號處理

極目新聞
2026-04-26 17:45:26
月入過萬!“崩老頭”登上熱搜,80后90后男性,成為年輕女性目標

月入過萬!“崩老頭”登上熱搜,80后90后男性,成為年輕女性目標

火山詩話
2026-04-26 15:18:10
全變味了?蘇超開幕不到半月,不對勁的一幕上演,輿論風向又變了

全變味了?蘇超開幕不到半月,不對勁的一幕上演,輿論風向又變了

墨印齋
2026-04-25 18:07:43
飯店老板被顧客踹續:一腳踹出三米遠,強喂服務員吃菜,警方介入

飯店老板被顧客踹續:一腳踹出三米遠,強喂服務員吃菜,警方介入

奇思妙想草葉君
2026-04-25 15:02:47
斯諾克世錦賽:吳宜澤出師不利!2局僅得1分,塞爾比狂轟2破百!

斯諾克世錦賽:吳宜澤出師不利!2局僅得1分,塞爾比狂轟2破百!

劉姚堯的文字城堡
2026-04-26 17:56:36
田馥甄曬3人合體爬山,陳嘉樺帶包子接地氣,任家萱現在最沒星味

田馥甄曬3人合體爬山,陳嘉樺帶包子接地氣,任家萱現在最沒星味

離離言幾許
2026-04-25 20:49:13
手機拍完相機拍 白宮晚宴槍擊現場男子淡定記錄

手機拍完相機拍 白宮晚宴槍擊現場男子淡定記錄

看看新聞Knews
2026-04-26 12:48:06
白宮晚宴槍擊案全網最全細節:特工疑與槍手互開數槍,特朗普在臺上十分淡定

白宮晚宴槍擊案全網最全細節:特工疑與槍手互開數槍,特朗普在臺上十分淡定

爆角追蹤
2026-04-26 10:29:13
網紅女主播因父親重病去世失聯停播,公司要求其支付違約金:親人去世值得同情,但違約事實已發生;經法院調解,公司降低違約金數額

網紅女主播因父親重病去世失聯停播,公司要求其支付違約金:親人去世值得同情,但違約事實已發生;經法院調解,公司降低違約金數額

魯中晨報
2026-04-26 15:40:06
孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

醫脈圈
2026-04-25 20:04:06
結束了!再見愛德華茲!NBA最慘季后賽球隊

結束了!再見愛德華茲!NBA最慘季后賽球隊

籃球實戰寶典
2026-04-26 19:48:57
2026-04-26 20:00:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3352文章數 11139關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

僅次《指環王》的美劇,有第二季

財經要聞

事關新就業群體,中辦、國辦發文

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

數碼
房產
親子
健康
教育

數碼要聞

一加120W充電寶有多猛?30分鐘充68%

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

親子要聞

#健康躍動生活#孩子碰頭別大意,出現這5種情況,立刻就醫

干細胞如何讓燒燙傷皮膚"再生"?

教育要聞

休學率上漲,驚到很多人!北大六院醫生直言:這背后其實是夫妻關系和家庭關系……

無障礙瀏覽 進入關懷版