網易首頁 > 網易號 > 正文 申請入駐

Qwen3.5 系列,最優選擇 27B,最優精度 Q6

0
分享至

我之前也寫過

工具調用(Tool Calling / Function Calling)是大模型從"能聊天"進化到"能干活"的關鍵能力,沒有這個能力,Agent 就是空中樓閣

問題來了:Qwen3.5 系列這么多模型,從 0.8B 一路到 397B,到底哪個尺寸真的能可靠地調用工具?

ToolCall-15:15 道題,照出模型真面目

這個ToolCall-15開源基準測試框架(github.com/stevibe/ToolCall-15),專門測試 LLM 的工具調用能力:

  • 15 個場景,覆蓋 5 大類能力(每類 3 個)

  • 12 個工具,模型每次都能看到全部工具

  • 模擬響應,確保結果確定性、可復現

  • Temperature 設為 0,排除隨機性干擾

  • 不挑測試,全部跑完,沒有選擇性地只跑好看的

下面是 ToolCall-15 的測試看板:


ToolCall-15 測試看板 五大考核維度,全是實戰場景

ToolCall-15 測的不是什么花里胡哨的學術指標,全是真實場景下模型會遇到的問題:

類別

測試內容

舉例

工具選擇

能不能選對工具?

問柏林天氣,該用get_weather還是web_search

參數精度

參數傳對了嗎?

用戶要華氏溫度,你傳了fahrenheit沒?

多步鏈式

能不能串聯多個工具?

搜文件 → 讀內容 → 查聯系人 → 發郵件

克制與拒絕

不該用工具時能忍住嗎?

"二戰哪年結束?" 你別去web_search

? 錯誤恢復

工具報錯了怎么辦?

搜索沒結果,是放棄還是換個關鍵詞重試?

每個場景評分:? 滿分(2分)、?? 半分(1分)、? 零分

Qwen3.5 全家桶測試結果:27B 獨占鰲頭

原作者 stevibe 把 Qwen3.5 全系列模型都拉出來溜了一遍——從 0.8B 到 397B,甚至還包括了 Jackrong 的蒸餾版本

結果出來,我直接震驚了,397B 的巨無霸打不過 27B:

模型

通過數

Qwen3.5-27B15/15

唯一滿分的原版模型

Qwen3.5-27B 蒸餾版15/15

蒸餾也滿分,工具調用能力保留完整

Qwen3.5-397B

13/15

兩個測試未通過

Qwen3.5-122B

14/15

一個測試未通過

Qwen3.5-35B

13/15

兩個測試未通過

小參數模型(0.8B~14B)

大量超時

陷入工具調用死循環


最暴露模型的一道題

15 個場景里,最有意思的是第 15 題(TC-15):

"搜索冰島的人口數量,然后計算其 2% "

看起來簡單吧?先搜索,拿到數據,再算個乘法。但就這道題,暴露了不同尺寸模型的致命弱點

  • 小模型(0.8B~14B):直接編數據,連搜索都不做,或者陷入死循環反復調用同一個工具,直到 30 秒超時

  • 大模型(35B、122B、397B):明明搜索結果返回了精確數字 372,520,它們偏偏用自己腦子里的"大約 370,000"去算。搜了,但不信

  • ?27B:老老實實搜索,拿到 372,520,傳給計算器算372520 * 0.02 = 7450.4,完美

一句話總結:

小模型會憑空捏造數據,大模型會忽略數據,27B 直接串行處理了。

這其實揭示了一個深層問題:大參數模型因為"見多識廣",反而更傾向于依賴自己的記憶,對工具返回的實際數據產生了某種"不信任"

量化測試:Q6 是最佳選擇

確定了 27B 是最能打的模型后,下一個問題來了:該用哪個量化版本?

stevibe 繼續測試了 Unsloth 提供的所有量化版本,從 Q2_K_XL 到 Q8_K_XL:


Qwen3.5-27B 量化版本

量化級別

通過數

Q8

15/15 ?

Q615/15

Q5

14/15

Q4

14/15

Q3

14/15

Q2

13/15

結論很清晰:Q6 是最佳甜蜜點

跟 Q8 拿到了一模一樣的滿分,但占用空間更小,推理速度更快

Q5 往下就開始丟分了,說明量化到一定程度確實會損失工具調用的精確性

更有意思的是,測試結果幾乎呈線性下降,這說明 ToolCall-15 這個基準測試確實在測量一些真實的東西,分數變化不是隨機噪聲

下面是量化版本的詳細對比圖:


量化版本測試結果對比

有人質疑:用 Temperature 0 測試是否公平,日常使用不都是 Temp 1 嗎?

stevibe 解釋:Temp 1 確實是通用場景下的默認設置,但對于工具調用而言,Temperature 0 表現更好。Databricks 的研究發現,在函數調用任務中,Temp 0 和 0.7 之間的準確率可能相差高達 10%。

這很好理解——工具調用本質上是結構化輸出:選對工具、傳對參數、按對格式。你需要的是確定性,而不是創造性。這跟你用低 Temperature 生成 JSON 或代碼是一個道理。

伯克利大學的 BFCL和 Databricks 的評估中,都使用較低的溫度來測試函數調用能力,可重復性基本上要求這樣做。當然,如果你的使用場景包含創意元素,0.7+ 完全合理,目標不同。

總結:"Qwen3.5-27B 它緊湊、推理能力強、工具調用出色,Q6 精度 YYDS"

加上更是如有神助了!

ToolCall-15 這個開源項目本身也值得一玩,如果你想評估自己本地部署的模型在工具調用上到底行不行,直接拿來用就好。

.5

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

以茶帶書
2026-04-25 16:22:06
王石真的老了!突然現身大梅沙,他赤裸著上半身,貼著胰島素針頭

王石真的老了!突然現身大梅沙,他赤裸著上半身,貼著胰島素針頭

火山詩話
2026-04-26 06:11:32
5月1日起,有房有車有身份證的人,或要吃大虧了!

5月1日起,有房有車有身份證的人,或要吃大虧了!

小談食刻美食
2026-04-26 09:09:28
趙麗穎在上海某高檔餐廳被偶遇,瘦是真的瘦,素顏依然很美

趙麗穎在上海某高檔餐廳被偶遇,瘦是真的瘦,素顏依然很美

一盅情懷
2026-04-25 19:36:00
中國第四艘航母官宣:是核動力!舷號19,命名大概率是“江蘇號”

中國第四艘航母官宣:是核動力!舷號19,命名大概率是“江蘇號”

福建睿平
2026-04-26 10:53:36
小米:李某華已被行拘

小米:李某華已被行拘

南方都市報
2026-04-26 12:01:47
曝球球退出陳翔六點半!疑細節原因曝光,否認與“蘑菇頭”是夫妻

曝球球退出陳翔六點半!疑細節原因曝光,否認與“蘑菇頭”是夫妻

橙星文娛
2026-04-26 14:26:26
華為余承東:尊界新車價格在200萬左右

華為余承東:尊界新車價格在200萬左右

界面新聞
2026-04-26 13:08:56
馬齒莧立功!研究發現:其天然成分4周降脂33%,還能減少血管斑塊

馬齒莧立功!研究發現:其天然成分4周降脂33%,還能減少血管斑塊

思思夜話
2026-04-25 11:16:17
網友開盒掛出“深圳派出所煙男”名單,微博官方:嚴重違規,已關號處理

網友開盒掛出“深圳派出所煙男”名單,微博官方:嚴重違規,已關號處理

極目新聞
2026-04-26 17:45:26
月入過萬!“崩老頭”登上熱搜,80后90后男性,成為年輕女性目標

月入過萬!“崩老頭”登上熱搜,80后90后男性,成為年輕女性目標

火山詩話
2026-04-26 15:18:10
全變味了?蘇超開幕不到半月,不對勁的一幕上演,輿論風向又變了

全變味了?蘇超開幕不到半月,不對勁的一幕上演,輿論風向又變了

墨印齋
2026-04-25 18:07:43
飯店老板被顧客踹續:一腳踹出三米遠,強喂服務員吃菜,警方介入

飯店老板被顧客踹續:一腳踹出三米遠,強喂服務員吃菜,警方介入

奇思妙想草葉君
2026-04-25 15:02:47
斯諾克世錦賽:吳宜澤出師不利!2局僅得1分,塞爾比狂轟2破百!

斯諾克世錦賽:吳宜澤出師不利!2局僅得1分,塞爾比狂轟2破百!

劉姚堯的文字城堡
2026-04-26 17:56:36
田馥甄曬3人合體爬山,陳嘉樺帶包子接地氣,任家萱現在最沒星味

田馥甄曬3人合體爬山,陳嘉樺帶包子接地氣,任家萱現在最沒星味

離離言幾許
2026-04-25 20:49:13
手機拍完相機拍 白宮晚宴槍擊現場男子淡定記錄

手機拍完相機拍 白宮晚宴槍擊現場男子淡定記錄

看看新聞Knews
2026-04-26 12:48:06
白宮晚宴槍擊案全網最全細節:特工疑與槍手互開數槍,特朗普在臺上十分淡定

白宮晚宴槍擊案全網最全細節:特工疑與槍手互開數槍,特朗普在臺上十分淡定

爆角追蹤
2026-04-26 10:29:13
網紅女主播因父親重病去世失聯停播,公司要求其支付違約金:親人去世值得同情,但違約事實已發生;經法院調解,公司降低違約金數額

網紅女主播因父親重病去世失聯停播,公司要求其支付違約金:親人去世值得同情,但違約事實已發生;經法院調解,公司降低違約金數額

魯中晨報
2026-04-26 15:40:06
孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

醫脈圈
2026-04-25 20:04:06
結束了!再見愛德華茲!NBA最慘季后賽球隊

結束了!再見愛德華茲!NBA最慘季后賽球隊

籃球實戰寶典
2026-04-26 19:48:57
2026-04-26 20:00:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3352文章數 11139關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

僅次《指環王》的美劇,有第二季

財經要聞

事關新就業群體,中辦、國辦發文

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

本地
游戲
數碼
時尚
公開課

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

傳言稱索尼PS5數字版游戲需要每30天在線驗證一次

數碼要聞

一加120W充電寶有多猛?30分鐘充68%

IU的臉,真的有自己的時間線

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版