網易首頁 > 網易號 > 正文 申請入駐

國產開源的 GLM-5.1 寫代碼超了 Opus?我把官方博客啃完了,真相是這樣的

0
分享至

AI范兒 · 產品拆解

今天整個 AI 圈的注意力都在 Claude Mythos 上,智譜也發了個 GLM-5.1。

看版本號就是個小更新,我也沒太當回事。

結果等我空下來,順手點開官方博客一看,好家伙,我以為我看錯了。

它在 SWE-Bench Pro 上的得分(編碼能力),居然超過了目前公認的天花板 Claude Opus 4.6???


一個開源模型,寫代碼干翻了天花板 Opus 4.6??

這我必須仔細看看到底怎么回事。

于是我把官方博客從頭到尾啃了一遍,翻譯成人話給大家拆解一下。

01代碼能力,真超了 Opus?

智譜拿了業界最認的三個代碼評測來跑:SWE-Bench Pro(在真實 GitHub 倉庫里修復高難度 Bug)、Terminal-Bench 2.0(用命令行解決問題)、NL2Repo(從零建一個完整代碼倉庫)。

先看三項綜合成績的柱狀圖:

編碼能力三項綜合均分 SWE-Bench Pro + Terminal-Bench 2.0 + NL2Repo 55 50 58.0 GPT-5.4 57.5 Opus 4.6 54.9 GLM-5.1 52.0 Gemini 3.1 52.0 Qwen3.6+ 51.0 MiniMax ▲ 全球 #3 · 國產 #1 · 開源 #1

綜合排第三,但有意思的是單項。

其中最硬的 SWE-Bench Pro,GLM-5.1 拿了58.4 分,全球最高,超了 GPT-5.4(57.7)和 Opus 4.6(57.3)。

編碼能力三項單項成績 GLM-5.1 Opus 4.6 GPT-5.4 SWE-Bench Pro · 修復真實 GitHub 工程 Bug 58.4 GLM-5.1 ← 全球第一 57.7 GPT-5.4 57.3 Opus 4.6 NL2Repo · 從零構建完整代碼倉庫 49.8 Opus 4.6 ← Opus 領先 7 分 42.7 GLM-5.1 41.3 GPT-5.4 Terminal-Bench 2.0 · 終端環境運維開發 68.5 Gemini 3.1 ← Gemini 最強項 65.4 Opus 4.6 63.5 GLM-5.1 56.2 GLM-5 三項綜合:GPT-5.4 (58.0) >Opus (57.5) >GLM-5.1 (54.9)

但 NL2Repo(從零建倉庫)被 Opus 拉開了 7 分,Terminal-Bench 也差了一點。

三項平均下來 54.9,排在 GPT-5.4 和 Opus 后面。

單科冠軍,不是全能冠軍。但這個單科恰恰是開發者最關心的科目。

當然,跑分歸跑分,實際好不好用還得自己上手試了才知道。

評測榜單上差兩三分的模型,用起來的感受差別可能比分數大得多,也可能根本感覺不出來。

數字只是參考,別迷信。

02真正炸裂的能力:連續干活8小時。

看完代碼跑分,我覺得厲害但不至于"驚了"。

真正讓我覺得不一樣的,是官方博客里花了大篇幅講的另一件事:長程任務。

打個比方,以前的模型像考試型選手,一道一道題做得飛快。但你給它一個完整項目說"從頭做到尾",它二十分鐘就開始原地轉圈了。

你給它更多時間也沒用,它的招已經用完了。

GLM-5.1 想解決的就是這個問題:不只是更聰明,而是更能扛。

智譜在博客里展示了三個場景,我挑最有意思的一個重點說。

655輪

迭代優化 · 6000+ 次工具調用

向量數據庫搜索速度:3,547 → 21,500 QPS,翻了6倍

這個場景是讓 GLM-5.1 優化一個搜索引擎的核心零件(向量數據庫的近似搜索)。

之前 Opus 4.6 在 50 輪限制下跑出 3,547 分。GLM-5.1 沒有輪數限制,最終干到了 21,500 分。

但最值得說的不是數字,而是它的優化路徑。

官方放了一張曲線圖,不是平滑上升,而是"階梯形"。每到一個平臺期,它自己分析日志、定位瓶頸,然后主動切換策略。一共轉了六次方向:

優化軌跡:6次策略躍升 優化輪次 → QPS → IVF分桶 量化粗排 兩級路由 u8量化 提前剪枝 3.5k 21.5k ↓短暫下降

每次切換策略的時候成績還會短暫下降,因為新方向還沒調好。但它扛住了,調回來之后就上了一個新臺階。

這種"碰壁、分析、換方向、恢復"的循環,看著已經有點像一個真人工程師的工作模式了。

另外兩個場景也很猛:

8小時從零搭了一套 Linux 桌面系統。大部分模型做這個任務,搭個空架子放兩個占位窗口就宣布"我完成了"。

跟那些到公司先泡杯茶再摸半天魚的同事一個德性。

GLM-5.1 跑了 1200 多步,交出了窗口管理器、終端、文件瀏覽器、計算器,甚至游戲庫。

它還自己給自己寫了回歸測試,而且跑過了。

24小時優化50個機器學習任務。自己寫 GPU 優化代碼、跑測試、分析結果、重寫方案,拿到 3.6 倍加速。

不過這個場景里 Opus 4.6 跑出了 4.2 倍,還是更強。智譜自己在博客里大方承認了差距。

給模型更多時間不難,難的是讓第8個小時的活兒依然不是在摸魚。

03不只會寫代碼,其他科目考得怎樣?

官方放了一張很大的跑分表,我挑幾個普通人能感知到的維度,用 GLM-5.1 和 Opus 4.6 做個正面對比:

GLM-5.1 vs Opus 4.6 正面對決 GLM-5.1 Opus 4.6 數學推理 AIME 2026 · 數學競賽題 95.3 GLM-5.1 95.6 Opus 4.6 ≈ 持平 BrowseComp · 上網查資料完成任務 84.0 Opus 4.6 ← Opus 領先 79.3 GLM-5.1 CyberGym · 網絡安全攻防 68.7 GLM-5.1 ← GLM 贏 66.6 Opus 4.6 Vending Bench 2 · 模擬做生意 $8,017 Opus 4.6 ← Opus 領先 $5,634 GLM-5.1 安全攻防 GLM 贏,推理持平,智能體和賺錢能力 Opus 更強

一句話判斷:代碼和智能體是全球前三水平,推理不拉胯但沒領先,綜合實力跟 GPT-5.4 和 Gemini 3.1 Pro 比還差一口氣。

但對一個開源模型來說,能跟這些閉源巨頭站在一張表里逐項 PK,本身就已經說明段位了。

04怎么用,花多少錢?

MIT 協議完全開源,代碼在 GitHub 和 HuggingFace 上都能下到。

如果你在用 Claude Code 或者小龍蝦(OpenClaw),直接改一下模型名就能切過去。

所有 GLM Coding Plan 套餐用戶都能用,包括最便宜的 Lite。

3x

高峰期額度消耗 · 14:00-18:00

非高峰限時 1x(優惠到 4 月底)· 日常簡單活用 GLM-4.7 省額度

官方鏈接:

z.ai/blog/glm-5.1

github.com/zai-org/GLM-5

另外一個信號:伴隨這次發布,智譜又漲價 10% 了。半年內第三次漲

(有點 Claude 內味兒了,我們就是強,你愛用不用。)

一年前國產模型還在打骨折搶用戶,現在價格快跟 Claude Sonnet 4.6 對齊了。

以前是"我便宜所以你用我",現在是"我真能干活所以我敢貴"。國產模型終于從拼多多畢業了。

智譜在博客里提了一個新標準:以前比誰更聰明,接下來比誰能干更久。

仔細想想還挺有意思的。

我們現在用模型,大部分時間還是"問一句答一句"的模式。但如果模型真的能獨立干 8 小時的活,那用法就徹底變了,不是"對話",而是"交代任務"。

當然以上所有數據都來自官方博客,實際表現怎么樣,還得自己上手用了才知道。

跑分這東西,看看就好,別太當真。

不過有一個問題我挺好奇的:如果你有一個能連續工作 8 小時的 AI,你第一個想甩給它的任務是什么?

如果你有一個能干 8 小時的 AI,你第一個任務會交什么?評論區說說,看誰的需求最"社畜"覺得有用 → 點個??在看轉給還不知道的朋友點個贊 告訴我你看完了關注「AI范兒」,下次更新第一時間收到

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
陳首富終究吞不下云南白藥 | 棱鏡

陳首富終究吞不下云南白藥 | 棱鏡

新浪財經
2026-04-24 17:04:15
欠債2萬億 許家印為何不收手:膨脹+幾次僥幸過關 大佬也救不了他

欠債2萬億 許家印為何不收手:膨脹+幾次僥幸過關 大佬也救不了他

風過鄉
2026-04-25 07:54:04
華為大闊折開售即售罄,目前各版本已斷貨

華為大闊折開售即售罄,目前各版本已斷貨

界面新聞
2026-04-25 10:32:02
太慘了!燃油車再迎大降價:最大跌幅50%,豪華車帶頭“跳水”

太慘了!燃油車再迎大降價:最大跌幅50%,豪華車帶頭“跳水”

沙雕小琳琳
2026-04-23 02:29:16
李奇微晚年曾說過,戰斗力一流的國家只有三個,其他的都不值一提

李奇微晚年曾說過,戰斗力一流的國家只有三個,其他的都不值一提

老范談史
2026-04-23 17:35:54
被賣緬甸女學生后續:對方同意放人后表示壓力大,又提出無理要求

被賣緬甸女學生后續:對方同意放人后表示壓力大,又提出無理要求

青梅侃史啊
2026-04-25 09:29:26
DeepSeek真正的價值不是開源模型,而是拆除前AI時代積累的技術債務

DeepSeek真正的價值不是開源模型,而是拆除前AI時代積累的技術債務

知識圈
2026-04-25 09:42:09
楊振寧離世5個月,遺孀翁帆突傳新消息,懷孕傳聞終于真相大白

楊振寧離世5個月,遺孀翁帆突傳新消息,懷孕傳聞終于真相大白

黃色的泥土
2026-03-30 08:06:32
取消戶籍限制!教育部突發新規!9月1日起執行:家長再也不用焦慮

取消戶籍限制!教育部突發新規!9月1日起執行:家長再也不用焦慮

芳姐侃社會
2026-04-24 22:52:50
研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

黯泉
2026-04-01 17:28:39
經歷三次離婚后我才懂:所有夫妻關系破裂,都源于這三個原因

經歷三次離婚后我才懂:所有夫妻關系破裂,都源于這三個原因

千秋文化
2026-03-01 22:12:24
《八千里路云和月》結局:看完比被喂了蒼蠅還惡心

《八千里路云和月》結局:看完比被喂了蒼蠅還惡心

娛樂故事
2026-04-25 10:20:02
鄭愷苗苗合體露面被偶遇,手挽手同行超甜蜜,真夫妻就是好嗑

鄭愷苗苗合體露面被偶遇,手挽手同行超甜蜜,真夫妻就是好嗑

扒蝦侃娛
2026-04-24 16:32:53
閉關2個月!39歲丁俊暉讓趙心童狂點贊:2人都428分 全場觀眾致敬

閉關2個月!39歲丁俊暉讓趙心童狂點贊:2人都428分 全場觀眾致敬

風過鄉
2026-04-25 06:25:15
曼城與球迷團體協商后,決定下賽季季票價格不變

曼城與球迷團體協商后,決定下賽季季票價格不變

懂球帝
2026-04-25 10:53:06
伊朗最高領袖發表致辭:伊朗人民構筑全國防線,給予敵人沉重打擊

伊朗最高領袖發表致辭:伊朗人民構筑全國防線,給予敵人沉重打擊

界面新聞
2026-04-25 07:08:14
大疆創始人汪滔消失十年,如今露面爆內情,大疆年賺800億太亮眼

大疆創始人汪滔消失十年,如今露面爆內情,大疆年賺800億太亮眼

夢錄的西方史話
2026-04-24 14:27:18
毛主席見韓先楚位列中將難落筆,木船勝軍艦一戰改寫地理格局

毛主席見韓先楚位列中將難落筆,木船勝軍艦一戰改寫地理格局

磊子講史
2026-03-18 10:25:31
烏克蘭重創俄黑海艦隊,無人艇打瘋,炸大橋炸軍艦全面開花

烏克蘭重創俄黑海艦隊,無人艇打瘋,炸大橋炸軍艦全面開花

網易新聞出品
2026-04-23 23:34:48
菜市場泡過“藥水”的4種蔬菜,老板自己從不吃,很多人還天天買

菜市場泡過“藥水”的4種蔬菜,老板自己從不吃,很多人還天天買

馬蹄燙嘴說美食
2026-04-25 08:05:31
2026-04-25 12:44:51
AI范兒 incentive-icons
AI范兒
AI范兒是一個專注于人工智能領域的資訊和學習平臺,提供最新的人工智能資訊
728文章數 669關注度
往期回顧 全部

科技要聞

Anthropic剛拿亞馬遜250億美元,又拿谷歌400億

頭條要聞

媒體:三航母準備圍逼伊朗 結果美國海軍后院先"炸"了

頭條要聞

媒體:三航母準備圍逼伊朗 結果美國海軍后院先"炸"了

體育要聞

火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

娛樂要聞

鄧超最大的幸運,就是遇見孫儷

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

親子
健康
教育
游戲
數碼

親子要聞

中國首例試管嬰兒鄭萌珠未滿40已育子

干細胞如何讓燒燙傷皮膚"再生"?

教育要聞

農村學生迎來“好消息”!教育部新規:取消戶籍限制,9月起執行

育碧再出王炸!《AC黑旗》重制版登頂8大地區PS商店

數碼要聞

華為WATCH Buds 2開售 手表耳機二合一 3488元起

無障礙瀏覽 進入關懷版