網易首頁 > 網易號 > 正文申請入駐

國產開源的 GLM-5.1 寫代碼超了 Opus？我把官方博客啃完了，真相是這樣的

2026-04-08 15:52:42　來源: AI范兒

上海舉報

分享至

AI范兒 · 產品拆解

今天整個 AI 圈的注意力都在 Claude Mythos 上，智譜也發了個 GLM-5.1。

看版本號就是個小更新，我也沒太當回事。

結果等我空下來，順手點開官方博客一看，好家伙，我以為我看錯了。

它在 SWE-Bench Pro 上的得分（編碼能力），居然超過了目前公認的天花板 Claude Opus 4.6？？？

一個開源模型，寫代碼干翻了天花板 Opus 4.6？？

這我必須仔細看看到底怎么回事。

于是我把官方博客從頭到尾啃了一遍，翻譯成人話給大家拆解一下。

01代碼能力，真超了 Opus？

智譜拿了業界最認的三個代碼評測來跑：SWE-Bench Pro（在真實 GitHub 倉庫里修復高難度 Bug）、Terminal-Bench 2.0（用命令行解決問題）、NL2Repo（從零建一個完整代碼倉庫）。

先看三項綜合成績的柱狀圖：

編碼能力三項綜合均分 SWE-Bench Pro + Terminal-Bench 2.0 + NL2Repo 55 50 58.0 GPT-5.4 57.5 Opus 4.6 54.9 GLM-5.1 52.0 Gemini 3.1 52.0 Qwen3.6+ 51.0 MiniMax ▲ 全球 #3 · 國產 #1 · 開源 #1

綜合排第三，但有意思的是單項。

其中最硬的 SWE-Bench Pro，GLM-5.1 拿了58.4 分，全球最高，超了 GPT-5.4（57.7）和 Opus 4.6（57.3）。

編碼能力三項單項成績 GLM-5.1 Opus 4.6 GPT-5.4 SWE-Bench Pro · 修復真實 GitHub 工程 Bug 58.4 GLM-5.1 ← 全球第一 57.7 GPT-5.4 57.3 Opus 4.6 NL2Repo · 從零構建完整代碼倉庫 49.8 Opus 4.6 ← Opus 領先 7 分 42.7 GLM-5.1 41.3 GPT-5.4 Terminal-Bench 2.0 · 終端環境運維開發 68.5 Gemini 3.1 ← Gemini 最強項 65.4 Opus 4.6 63.5 GLM-5.1 56.2 GLM-5 三項綜合：GPT-5.4 (58.0) >Opus (57.5) >GLM-5.1 (54.9)

但 NL2Repo（從零建倉庫）被 Opus 拉開了 7 分，Terminal-Bench 也差了一點。

三項平均下來 54.9，排在 GPT-5.4 和 Opus 后面。

單科冠軍，不是全能冠軍。但這個單科恰恰是開發者最關心的科目。

當然，跑分歸跑分，實際好不好用還得自己上手試了才知道。

評測榜單上差兩三分的模型，用起來的感受差別可能比分數大得多，也可能根本感覺不出來。

數字只是參考，別迷信。

02真正炸裂的能力：連續干活8小時。

看完代碼跑分，我覺得厲害但不至于"驚了"。

真正讓我覺得不一樣的，是官方博客里花了大篇幅講的另一件事：長程任務。

打個比方，以前的模型像考試型選手，一道一道題做得飛快。但你給它一個完整項目說"從頭做到尾"，它二十分鐘就開始原地轉圈了。

你給它更多時間也沒用，它的招已經用完了。

GLM-5.1 想解決的就是這個問題：不只是更聰明，而是更能扛。

智譜在博客里展示了三個場景，我挑最有意思的一個重點說。

655輪

迭代優化 · 6000+ 次工具調用

向量數據庫搜索速度：3,547 → 21,500 QPS，翻了6倍

這個場景是讓 GLM-5.1 優化一個搜索引擎的核心零件（向量數據庫的近似搜索）。

之前 Opus 4.6 在 50 輪限制下跑出 3,547 分。GLM-5.1 沒有輪數限制，最終干到了 21,500 分。

但最值得說的不是數字，而是它的優化路徑。

官方放了一張曲線圖，不是平滑上升，而是"階梯形"。每到一個平臺期，它自己分析日志、定位瓶頸，然后主動切換策略。一共轉了六次方向：

優化軌跡：6次策略躍升優化輪次 → QPS → IVF分桶量化粗排兩級路由 u8量化提前剪枝 3.5k 21.5k ↓短暫下降

每次切換策略的時候成績還會短暫下降，因為新方向還沒調好。但它扛住了，調回來之后就上了一個新臺階。

這種"碰壁、分析、換方向、恢復"的循環，看著已經有點像一個真人工程師的工作模式了。

另外兩個場景也很猛：

8小時從零搭了一套 Linux 桌面系統。大部分模型做這個任務，搭個空架子放兩個占位窗口就宣布"我完成了"。

跟那些到公司先泡杯茶再摸半天魚的同事一個德性。

GLM-5.1 跑了 1200 多步，交出了窗口管理器、終端、文件瀏覽器、計算器，甚至游戲庫。

它還自己給自己寫了回歸測試，而且跑過了。

24小時優化50個機器學習任務。自己寫 GPU 優化代碼、跑測試、分析結果、重寫方案，拿到 3.6 倍加速。

不過這個場景里 Opus 4.6 跑出了 4.2 倍，還是更強。智譜自己在博客里大方承認了差距。

給模型更多時間不難，難的是讓第8個小時的活兒依然不是在摸魚。

03不只會寫代碼，其他科目考得怎樣？

官方放了一張很大的跑分表，我挑幾個普通人能感知到的維度，用 GLM-5.1 和 Opus 4.6 做個正面對比：

GLM-5.1 vs Opus 4.6 正面對決 GLM-5.1 Opus 4.6 數學推理 AIME 2026 · 數學競賽題 95.3 GLM-5.1 95.6 Opus 4.6 ≈ 持平 BrowseComp · 上網查資料完成任務 84.0 Opus 4.6 ← Opus 領先 79.3 GLM-5.1 CyberGym · 網絡安全攻防 68.7 GLM-5.1 ← GLM 贏 66.6 Opus 4.6 Vending Bench 2 · 模擬做生意 $8,017 Opus 4.6 ← Opus 領先 $5,634 GLM-5.1 安全攻防 GLM 贏，推理持平，智能體和賺錢能力 Opus 更強

一句話判斷：代碼和智能體是全球前三水平，推理不拉胯但沒領先，綜合實力跟 GPT-5.4 和 Gemini 3.1 Pro 比還差一口氣。

但對一個開源模型來說，能跟這些閉源巨頭站在一張表里逐項 PK，本身就已經說明段位了。

04怎么用，花多少錢？

MIT 協議完全開源，代碼在 GitHub 和 HuggingFace 上都能下到。

如果你在用 Claude Code 或者小龍蝦（OpenClaw），直接改一下模型名就能切過去。

所有 GLM Coding Plan 套餐用戶都能用，包括最便宜的 Lite。

高峰期額度消耗 · 14:00-18:00

非高峰限時 1x（優惠到 4 月底）· 日常簡單活用 GLM-4.7 省額度

官方鏈接：

z.ai/blog/glm-5.1

github.com/zai-org/GLM-5

另外一個信號：伴隨這次發布，智譜又漲價 10% 了。半年內第三次漲。

（有點 Claude 內味兒了，我們就是強，你愛用不用。）

一年前國產模型還在打骨折搶用戶，現在價格快跟 Claude Sonnet 4.6 對齊了。

以前是"我便宜所以你用我"，現在是"我真能干活所以我敢貴"。國產模型終于從拼多多畢業了。

智譜在博客里提了一個新標準：以前比誰更聰明，接下來比誰能干更久。

仔細想想還挺有意思的。

我們現在用模型，大部分時間還是"問一句答一句"的模式。但如果模型真的能獨立干 8 小時的活，那用法就徹底變了，不是"對話"，而是"交代任務"。

當然以上所有數據都來自官方博客，實際表現怎么樣，還得自己上手用了才知道。

跑分這東西，看看就好，別太當真。

不過有一個問題我挺好奇的：如果你有一個能連續工作 8 小時的 AI，你第一個想甩給它的任務是什么？

如果你有一個能干 8 小時的 AI，你第一個任務會交什么？評論區說說，看誰的需求最"社畜"覺得有用 → 點個??在看轉給還不知道的朋友點個贊告訴我你看完了關注「AI范兒」，下次更新第一時間收到

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.