AI范兒 · 產品拆解
今天整個 AI 圈的注意力都在 Claude Mythos 上,智譜也發了個 GLM-5.1。
看版本號就是個小更新,我也沒太當回事。
結果等我空下來,順手點開官方博客一看,好家伙,我以為我看錯了。
它在 SWE-Bench Pro 上的得分(編碼能力),居然超過了目前公認的天花板 Claude Opus 4.6???
![]()
一個開源模型,寫代碼干翻了天花板 Opus 4.6??
這我必須仔細看看到底怎么回事。
于是我把官方博客從頭到尾啃了一遍,翻譯成人話給大家拆解一下。
01代碼能力,真超了 Opus?
智譜拿了業界最認的三個代碼評測來跑:SWE-Bench Pro(在真實 GitHub 倉庫里修復高難度 Bug)、Terminal-Bench 2.0(用命令行解決問題)、NL2Repo(從零建一個完整代碼倉庫)。
先看三項綜合成績的柱狀圖:
編碼能力三項綜合均分 SWE-Bench Pro + Terminal-Bench 2.0 + NL2Repo 55 50 58.0 GPT-5.4 57.5 Opus 4.6 54.9 GLM-5.1 52.0 Gemini 3.1 52.0 Qwen3.6+ 51.0 MiniMax ▲ 全球 #3 · 國產 #1 · 開源 #1
綜合排第三,但有意思的是單項。
其中最硬的 SWE-Bench Pro,GLM-5.1 拿了58.4 分,全球最高,超了 GPT-5.4(57.7)和 Opus 4.6(57.3)。
編碼能力三項單項成績 GLM-5.1 Opus 4.6 GPT-5.4 SWE-Bench Pro · 修復真實 GitHub 工程 Bug 58.4 GLM-5.1 ← 全球第一 57.7 GPT-5.4 57.3 Opus 4.6 NL2Repo · 從零構建完整代碼倉庫 49.8 Opus 4.6 ← Opus 領先 7 分 42.7 GLM-5.1 41.3 GPT-5.4 Terminal-Bench 2.0 · 終端環境運維開發 68.5 Gemini 3.1 ← Gemini 最強項 65.4 Opus 4.6 63.5 GLM-5.1 56.2 GLM-5 三項綜合:GPT-5.4 (58.0) >Opus (57.5) >GLM-5.1 (54.9)
但 NL2Repo(從零建倉庫)被 Opus 拉開了 7 分,Terminal-Bench 也差了一點。
三項平均下來 54.9,排在 GPT-5.4 和 Opus 后面。
單科冠軍,不是全能冠軍。但這個單科恰恰是開發者最關心的科目。
當然,跑分歸跑分,實際好不好用還得自己上手試了才知道。
評測榜單上差兩三分的模型,用起來的感受差別可能比分數大得多,也可能根本感覺不出來。
數字只是參考,別迷信。
02真正炸裂的能力:連續干活8小時。
看完代碼跑分,我覺得厲害但不至于"驚了"。
真正讓我覺得不一樣的,是官方博客里花了大篇幅講的另一件事:長程任務。
打個比方,以前的模型像考試型選手,一道一道題做得飛快。但你給它一個完整項目說"從頭做到尾",它二十分鐘就開始原地轉圈了。
你給它更多時間也沒用,它的招已經用完了。
GLM-5.1 想解決的就是這個問題:不只是更聰明,而是更能扛。
智譜在博客里展示了三個場景,我挑最有意思的一個重點說。
655輪
迭代優化 · 6000+ 次工具調用
向量數據庫搜索速度:3,547 → 21,500 QPS,翻了6倍
這個場景是讓 GLM-5.1 優化一個搜索引擎的核心零件(向量數據庫的近似搜索)。
之前 Opus 4.6 在 50 輪限制下跑出 3,547 分。GLM-5.1 沒有輪數限制,最終干到了 21,500 分。
但最值得說的不是數字,而是它的優化路徑。
官方放了一張曲線圖,不是平滑上升,而是"階梯形"。每到一個平臺期,它自己分析日志、定位瓶頸,然后主動切換策略。一共轉了六次方向:
優化軌跡:6次策略躍升 優化輪次 → QPS → IVF分桶 量化粗排 兩級路由 u8量化 提前剪枝 3.5k 21.5k ↓短暫下降
每次切換策略的時候成績還會短暫下降,因為新方向還沒調好。但它扛住了,調回來之后就上了一個新臺階。
這種"碰壁、分析、換方向、恢復"的循環,看著已經有點像一個真人工程師的工作模式了。
另外兩個場景也很猛:
8小時從零搭了一套 Linux 桌面系統。大部分模型做這個任務,搭個空架子放兩個占位窗口就宣布"我完成了"。
跟那些到公司先泡杯茶再摸半天魚的同事一個德性。
GLM-5.1 跑了 1200 多步,交出了窗口管理器、終端、文件瀏覽器、計算器,甚至游戲庫。
它還自己給自己寫了回歸測試,而且跑過了。
24小時優化50個機器學習任務。自己寫 GPU 優化代碼、跑測試、分析結果、重寫方案,拿到 3.6 倍加速。
不過這個場景里 Opus 4.6 跑出了 4.2 倍,還是更強。智譜自己在博客里大方承認了差距。
給模型更多時間不難,難的是讓第8個小時的活兒依然不是在摸魚。
03不只會寫代碼,其他科目考得怎樣?
官方放了一張很大的跑分表,我挑幾個普通人能感知到的維度,用 GLM-5.1 和 Opus 4.6 做個正面對比:
GLM-5.1 vs Opus 4.6 正面對決 GLM-5.1 Opus 4.6 數學推理 AIME 2026 · 數學競賽題 95.3 GLM-5.1 95.6 Opus 4.6 ≈ 持平 BrowseComp · 上網查資料完成任務 84.0 Opus 4.6 ← Opus 領先 79.3 GLM-5.1 CyberGym · 網絡安全攻防 68.7 GLM-5.1 ← GLM 贏 66.6 Opus 4.6 Vending Bench 2 · 模擬做生意 $8,017 Opus 4.6 ← Opus 領先 $5,634 GLM-5.1 安全攻防 GLM 贏,推理持平,智能體和賺錢能力 Opus 更強
一句話判斷:代碼和智能體是全球前三水平,推理不拉胯但沒領先,綜合實力跟 GPT-5.4 和 Gemini 3.1 Pro 比還差一口氣。
但對一個開源模型來說,能跟這些閉源巨頭站在一張表里逐項 PK,本身就已經說明段位了。
04怎么用,花多少錢?
MIT 協議完全開源,代碼在 GitHub 和 HuggingFace 上都能下到。
如果你在用 Claude Code 或者小龍蝦(OpenClaw),直接改一下模型名就能切過去。
所有 GLM Coding Plan 套餐用戶都能用,包括最便宜的 Lite。
3x
高峰期額度消耗 · 14:00-18:00
非高峰限時 1x(優惠到 4 月底)· 日常簡單活用 GLM-4.7 省額度
官方鏈接:
z.ai/blog/glm-5.1
github.com/zai-org/GLM-5
另外一個信號:伴隨這次發布,智譜又漲價 10% 了。半年內第三次漲。
(有點 Claude 內味兒了,我們就是強,你愛用不用。)
一年前國產模型還在打骨折搶用戶,現在價格快跟 Claude Sonnet 4.6 對齊了。
以前是"我便宜所以你用我",現在是"我真能干活所以我敢貴"。國產模型終于從拼多多畢業了。
智譜在博客里提了一個新標準:以前比誰更聰明,接下來比誰能干更久。
仔細想想還挺有意思的。
我們現在用模型,大部分時間還是"問一句答一句"的模式。但如果模型真的能獨立干 8 小時的活,那用法就徹底變了,不是"對話",而是"交代任務"。
當然以上所有數據都來自官方博客,實際表現怎么樣,還得自己上手用了才知道。
跑分這東西,看看就好,別太當真。
不過有一個問題我挺好奇的:如果你有一個能連續工作 8 小時的 AI,你第一個想甩給它的任務是什么?
如果你有一個能干 8 小時的 AI,你第一個任務會交什么?評論區說說,看誰的需求最"社畜"覺得有用 → 點個??在看轉給還不知道的朋友點個贊 告訴我你看完了關注「AI范兒」,下次更新第一時間收到
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.