網易首頁 > 網易號 > 正文 申請入駐

21GB模型跑贏Claude:開源AI的意外勝利

0
分享至

一個21GB的量化模型,在筆記本電腦上畫出的鵜鶘騎自行車,居然打敗了Anthropic最新旗艦。Simon Willison的"鵜鶘基準測試"今天出了怪結果——Qwen3.6-35B-A3B的SVG代碼不僅更干凈,連自行車車架都沒畫歪。

這個玩笑測試,為什么突然值得認真看


Willison從去年10月開始用"鵜鶘騎自行車"當模型測試。初衷是諷刺:當所有人都在比數學推理、代碼能力、多模態理解時,找個荒謬任務反而能暴露模型的真實性格。

詭異的是,這個玩笑居然成立了。2024年10月的第一批鵜鶘"完全是垃圾"。之后每次主流模型更新,鵜鶘質量確實在提升——Gemini 3.1 Pro已經能畫出"真的能用"的插圖。

直到今天,這條規律被打破了。

Qwen3.6-35B-A3B是阿里巴巴開源的混合專家模型(Mixture-of-Experts,MoE),總參數量235B,但每次前向傳播只激活35B。Willison跑的是Unsloth團隊量化的4bit版本,文件體積壓到20.9GB,用LM Studio在MacBook Pro M5本地部署。

Claude Opus 4.7則是Anthropic當天發布的閉源旗艦,API定價遠高于Qwen的開源權重。

結果:Opus 4.7的自行車車架結構錯誤,第二輪用thinking_level: max參數重試,"也沒好多少"。Qwen的火烈鳥獨輪車測試還額外貢獻了「」的注釋彩蛋。

正方:開源量化模型的工程勝利

這件事首先說明量化技術(Quantization,將模型權重從高精度壓縮到低精度)已經成熟到不損核心能力的地步。

Unsloth的GGUF格式把235B參數的MoE模型壓進21GB,消費級筆記本能流暢運行。一年前這是不可想象的——當時70B模型量化后還會嚴重失真。

MoE架構的本地部署效率也被驗證。35B激活參數意味著推理成本可控,而總參數量保證了知識容量。Willison的測試場景恰好擊中MoE的甜點:創意生成任務對絕對精度要求不高,但需要足夠的知識廣度來組合"鵜鶘"+"自行車"這種罕見概念。

更深層看,這是開源生態的系統性優勢。Qwen權重開放后,Unsloth可以立即優化量化方案,LM Studio可以快速集成,社區能自發形成"筆記本本地跑SOTA模型"的完整工具鏈。閉源模型的迭代再快,也繞不過API延遲和成本結構。

反方:一個插圖測試說明不了什么

Willison自己承認,"非常懷疑21GB量化版本比Anthropic最新閉源版本更強大或更有用"。

鵜鶘測試的樣本量極小,且SVG生成是特定技能。Opus 4.7可能在長文本推理、復雜工具調用、多輪對話一致性等維度全面領先——這些才是企業付費的核心場景。

Anthropic的thinking_level參數設計也耐人尋味。max模式意味著模型會投入更多計算資源做內部推理,但Willison的測試顯示"沒好多少"。這可能暴露Opus 4.7在視覺-空間理解上的真實短板,也可能只是該參數對插圖任務不適用。

更關鍵的質疑:如果實驗室真的針對流行基準做訓練,為什么偏偏漏掉Willison的鵜鶘?他的"秘密備份測試"火烈鳥獨輪車,Qwen依然勝出——但這只有兩個數據點。

我的判斷:能力評估的范式正在崩潰

這件事的真正價值,不在于證明Qwen>Opus,而在于暴露了我們根本沒有可靠的模型評估體系。

當21GB本地模型能在特定任務擊敗API旗艦,"參數規模=能力"的敘事就破產了。MoE架構讓總參數和激活參數脫鉤,量化技術讓部署規模和原始性能脫鉤,開源生態讓迭代速度和發布日期脫鉤。

Willison的鵜鶘玩笑之所以有效,恰恰因為它測試的是"未經優化的原始能力"——沒有公開訓練數據、沒有針對性微調、沒有提示工程陷阱。這種"野生測試"反而可能比MMLU、HumanEval等標準基準更真實,因為后者已被過度擬合。

對從業者的直接啟示:評估模型必須回歸具體場景。如果你需要批量生成SVG插圖,本地部署的量化Qwen可能是成本最優解;如果你需要處理200頁法律文檔的跨頁引用,Opus的上下文窗口和推理深度可能不可替代。

沒有 universal 的更好,只有 contextual 的更適合。

阿里巴巴Qwen團隊的開源策略正在收獲復利。從Qwen2到Qwen3.6,他們持續釋放可商用的權重,允許社區進行二次開發。這種"基礎設施化"的定位,與Anthropic的"高端服務"定位形成差異化競爭。

最終,鵜鶘騎自行車的荒謬畫面,成了AI行業最誠實的鏡子:當技術迭代速度超過評估體系進化速度,所有排名都是臨時的,所有結論都是局部的,所有"勝利"都需要加一串限定詞才能成立。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
57歲李穎近況曝光!和母親住上海豪宅 ,如今風韻猶存卻婚姻成謎

57歲李穎近況曝光!和母親住上海豪宅 ,如今風韻猶存卻婚姻成謎

代軍哥哥談娛樂
2026-04-24 13:44:21
羅翔:如果一個人突然努力工作,業余時間開始學習,不再參加社交活動,那么,身邊的人可能不僅不會幫他,還會拉他下來,原因就一個!

羅翔:如果一個人突然努力工作,業余時間開始學習,不再參加社交活動,那么,身邊的人可能不僅不會幫他,還會拉他下來,原因就一個!

譚老師地理大課堂
2026-04-22 00:03:57
國家電網第二批錄了10500人,清華才7個,一所你沒聽過的學校進了444人

國家電網第二批錄了10500人,清華才7個,一所你沒聽過的學校進了444人

老滿說高考
2026-04-24 20:13:49
26歲設計師凌晨猝死辦公室,1個月加班19天!人社局拒認工傷:睡前打游戲

26歲設計師凌晨猝死辦公室,1個月加班19天!人社局拒認工傷:睡前打游戲

上觀新聞
2026-04-24 11:39:06
祖墳冒煙!家屬鬧大后,被賣電詐園女大學生將回國父親仍覺不對勁

祖墳冒煙!家屬鬧大后,被賣電詐園女大學生將回國父親仍覺不對勁

伴君終老a
2026-04-25 05:20:58
便攜式氣象站應用場景與綜合價值

便攜式氣象站應用場景與綜合價值

測控技術有限公司
2026-03-10 15:55:30
特朗普徹底失算!霍爾木茲海峽被鎖,中國不僅沒斷油還降價了?

特朗普徹底失算!霍爾木茲海峽被鎖,中國不僅沒斷油還降價了?

小正說娛樂
2026-04-25 07:01:59
1995年,49歲的特朗普來到香港,懷中抱著一位神秘女人,她是誰?

1995年,49歲的特朗普來到香港,懷中抱著一位神秘女人,她是誰?

文史達觀
2025-01-26 06:45:03
醫生1分鐘復位收100元被舉報,衛健委回懟:應收110,你還少給了!家長拒繳溜走!

醫生1分鐘復位收100元被舉報,衛健委回懟:應收110,你還少給了!家長拒繳溜走!

醫客
2026-04-23 12:09:21
俄羅斯為什么刪除20年法院數據:審判記錄一夜清空

俄羅斯為什么刪除20年法院數據:審判記錄一夜清空

律法刑道
2026-04-22 08:53:34
今夏合同到期!郭昊文場均20.6分加冕25-26賽季常規賽本土得分王

今夏合同到期!郭昊文場均20.6分加冕25-26賽季常規賽本土得分王

狼叔評論
2026-04-24 23:52:05
分析:騎士隊在第三場比賽中慘敗給猛龍隊,主要責任人是誰?

分析:騎士隊在第三場比賽中慘敗給猛龍隊,主要責任人是誰?

好火子
2026-04-24 23:34:40
在醫院你遭遇過最羞恥的事是什么?網友:一個比一個炸裂啊

在醫院你遭遇過最羞恥的事是什么?網友:一個比一個炸裂啊

解讀熱點事件
2026-02-04 00:05:07
巴基斯坦迎來一貴客,美國激動壞了

巴基斯坦迎來一貴客,美國激動壞了

牛彈琴
2026-04-25 07:38:46
南海毒計:菲軍戰機迷惑解放軍,美軍F-22后方狙擊

南海毒計:菲軍戰機迷惑解放軍,美軍F-22后方狙擊

宋垀搞笑配音
2026-04-23 19:56:31
為什么說"飛機最安全",是一個精心設計的統計學陷阱?

為什么說"飛機最安全",是一個精心設計的統計學陷阱?

半解智士
2026-04-22 14:35:15
隨著諾丁漢森林5-0碾壓高排名對手,英超最新積分榜出爐

隨著諾丁漢森林5-0碾壓高排名對手,英超最新積分榜出爐

凌空倒鉤
2026-04-25 05:27:56
女子乘高鐵被掉落行李箱砸到,索賠600元無果,箱子主人:已付CT檢查費,該數額超過我應承擔責任范圍

女子乘高鐵被掉落行李箱砸到,索賠600元無果,箱子主人:已付CT檢查費,該數額超過我應承擔責任范圍

環球網資訊
2026-04-23 15:04:09
菲律賓局勢突變?副總統莎拉緊急出國!杜特爾特家族大勢已去?

菲律賓局勢突變?副總統莎拉緊急出國!杜特爾特家族大勢已去?

新時代精神
2026-04-25 07:53:01
美軍:數十年來首次三艘航母部署中東,中使館緊急提醒中國公民盡快撤離 消息人士:美伊預計將舉行第二輪談判

美軍:數十年來首次三艘航母部署中東,中使館緊急提醒中國公民盡快撤離 消息人士:美伊預計將舉行第二輪談判

每日經濟新聞
2026-04-24 23:30:16
2026-04-25 08:43:00
算力游俠
算力游俠
游走在API與報錯之間,用魔法(AI)打敗魔法的非硬核玩家。
1752文章數 21關注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

兩屆奧運冠軍、中國羽協主席張軍"失聯" 知情人士發聲

頭條要聞

兩屆奧運冠軍、中國羽協主席張軍"失聯" 知情人士發聲

體育要聞

上海男籃23連勝+主場全勝 姚明之后最強一季

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經要聞

LG財閥內斗:百億美元商業帝國爭奪戰

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

態度原創

旅游
教育
時尚
健康
軍事航空

旅游要聞

去景區走野路挖筍鼻梁被筍戳穿 竟起訴景區賠償

教育要聞

“只顧自己紋眉,不管女兒死活?”14歲女孩生日照,臉上全是槽點

朱珠到底為什么接這部劇?

干細胞如何讓燒燙傷皮膚"再生"?

軍事要聞

美防長:戰事不會“沒完沒了”

無障礙瀏覽 進入關懷版