无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

國產開源的 GLM-5.1 寫代碼超了 Opus?我把官方博客啃完了,真相是這樣的

0
分享至

AI范兒 · 產品拆解

今天整個 AI 圈的注意力都在 Claude Mythos 上,智譜也發了個 GLM-5.1。

看版本號就是個小更新,我也沒太當回事。

結果等我空下來,順手點開官方博客一看,好家伙,我以為我看錯了。

它在 SWE-Bench Pro 上的得分(編碼能力),居然超過了目前公認的天花板 Claude Opus 4.6???


一個開源模型,寫代碼干翻了天花板 Opus 4.6??

這我必須仔細看看到底怎么回事。

于是我把官方博客從頭到尾啃了一遍,翻譯成人話給大家拆解一下。

01代碼能力,真超了 Opus?

智譜拿了業界最認的三個代碼評測來跑:SWE-Bench Pro(在真實 GitHub 倉庫里修復高難度 Bug)、Terminal-Bench 2.0(用命令行解決問題)、NL2Repo(從零建一個完整代碼倉庫)。

先看三項綜合成績的柱狀圖:

編碼能力三項綜合均分 SWE-Bench Pro + Terminal-Bench 2.0 + NL2Repo 55 50 58.0 GPT-5.4 57.5 Opus 4.6 54.9 GLM-5.1 52.0 Gemini 3.1 52.0 Qwen3.6+ 51.0 MiniMax ▲ 全球 #3 · 國產 #1 · 開源 #1

綜合排第三,但有意思的是單項。

其中最硬的 SWE-Bench Pro,GLM-5.1 拿了58.4 分,全球最高,超了 GPT-5.4(57.7)和 Opus 4.6(57.3)。

編碼能力三項單項成績 GLM-5.1 Opus 4.6 GPT-5.4 SWE-Bench Pro · 修復真實 GitHub 工程 Bug 58.4 GLM-5.1 ← 全球第一 57.7 GPT-5.4 57.3 Opus 4.6 NL2Repo · 從零構建完整代碼倉庫 49.8 Opus 4.6 ← Opus 領先 7 分 42.7 GLM-5.1 41.3 GPT-5.4 Terminal-Bench 2.0 · 終端環境運維開發 68.5 Gemini 3.1 ← Gemini 最強項 65.4 Opus 4.6 63.5 GLM-5.1 56.2 GLM-5 三項綜合:GPT-5.4 (58.0) >Opus (57.5) >GLM-5.1 (54.9)

但 NL2Repo(從零建倉庫)被 Opus 拉開了 7 分,Terminal-Bench 也差了一點。

三項平均下來 54.9,排在 GPT-5.4 和 Opus 后面。

單科冠軍,不是全能冠軍。但這個單科恰恰是開發者最關心的科目。

當然,跑分歸跑分,實際好不好用還得自己上手試了才知道。

評測榜單上差兩三分的模型,用起來的感受差別可能比分數大得多,也可能根本感覺不出來。

數字只是參考,別迷信。

02真正炸裂的能力:連續干活8小時。

看完代碼跑分,我覺得厲害但不至于"驚了"。

真正讓我覺得不一樣的,是官方博客里花了大篇幅講的另一件事:長程任務。

打個比方,以前的模型像考試型選手,一道一道題做得飛快。但你給它一個完整項目說"從頭做到尾",它二十分鐘就開始原地轉圈了。

你給它更多時間也沒用,它的招已經用完了。

GLM-5.1 想解決的就是這個問題:不只是更聰明,而是更能扛。

智譜在博客里展示了三個場景,我挑最有意思的一個重點說。

655輪

迭代優化 · 6000+ 次工具調用

向量數據庫搜索速度:3,547 → 21,500 QPS,翻了6倍

這個場景是讓 GLM-5.1 優化一個搜索引擎的核心零件(向量數據庫的近似搜索)。

之前 Opus 4.6 在 50 輪限制下跑出 3,547 分。GLM-5.1 沒有輪數限制,最終干到了 21,500 分。

但最值得說的不是數字,而是它的優化路徑。

官方放了一張曲線圖,不是平滑上升,而是"階梯形"。每到一個平臺期,它自己分析日志、定位瓶頸,然后主動切換策略。一共轉了六次方向:

優化軌跡:6次策略躍升 優化輪次 → QPS → IVF分桶 量化粗排 兩級路由 u8量化 提前剪枝 3.5k 21.5k ↓短暫下降

每次切換策略的時候成績還會短暫下降,因為新方向還沒調好。但它扛住了,調回來之后就上了一個新臺階。

這種"碰壁、分析、換方向、恢復"的循環,看著已經有點像一個真人工程師的工作模式了。

另外兩個場景也很猛:

8小時從零搭了一套 Linux 桌面系統。大部分模型做這個任務,搭個空架子放兩個占位窗口就宣布"我完成了"。

跟那些到公司先泡杯茶再摸半天魚的同事一個德性。

GLM-5.1 跑了 1200 多步,交出了窗口管理器、終端、文件瀏覽器、計算器,甚至游戲庫。

它還自己給自己寫了回歸測試,而且跑過了。

24小時優化50個機器學習任務。自己寫 GPU 優化代碼、跑測試、分析結果、重寫方案,拿到 3.6 倍加速。

不過這個場景里 Opus 4.6 跑出了 4.2 倍,還是更強。智譜自己在博客里大方承認了差距。

給模型更多時間不難,難的是讓第8個小時的活兒依然不是在摸魚。

03不只會寫代碼,其他科目考得怎樣?

官方放了一張很大的跑分表,我挑幾個普通人能感知到的維度,用 GLM-5.1 和 Opus 4.6 做個正面對比:

GLM-5.1 vs Opus 4.6 正面對決 GLM-5.1 Opus 4.6 數學推理 AIME 2026 · 數學競賽題 95.3 GLM-5.1 95.6 Opus 4.6 ≈ 持平 BrowseComp · 上網查資料完成任務 84.0 Opus 4.6 ← Opus 領先 79.3 GLM-5.1 CyberGym · 網絡安全攻防 68.7 GLM-5.1 ← GLM 贏 66.6 Opus 4.6 Vending Bench 2 · 模擬做生意 $8,017 Opus 4.6 ← Opus 領先 $5,634 GLM-5.1 安全攻防 GLM 贏,推理持平,智能體和賺錢能力 Opus 更強

一句話判斷:代碼和智能體是全球前三水平,推理不拉胯但沒領先,綜合實力跟 GPT-5.4 和 Gemini 3.1 Pro 比還差一口氣。

但對一個開源模型來說,能跟這些閉源巨頭站在一張表里逐項 PK,本身就已經說明段位了。

04怎么用,花多少錢?

MIT 協議完全開源,代碼在 GitHub 和 HuggingFace 上都能下到。

如果你在用 Claude Code 或者小龍蝦(OpenClaw),直接改一下模型名就能切過去。

所有 GLM Coding Plan 套餐用戶都能用,包括最便宜的 Lite。

3x

高峰期額度消耗 · 14:00-18:00

非高峰限時 1x(優惠到 4 月底)· 日常簡單活用 GLM-4.7 省額度

官方鏈接:

z.ai/blog/glm-5.1

github.com/zai-org/GLM-5

另外一個信號:伴隨這次發布,智譜又漲價 10% 了。半年內第三次漲

(有點 Claude 內味兒了,我們就是強,你愛用不用。)

一年前國產模型還在打骨折搶用戶,現在價格快跟 Claude Sonnet 4.6 對齊了。

以前是"我便宜所以你用我",現在是"我真能干活所以我敢貴"。國產模型終于從拼多多畢業了。

智譜在博客里提了一個新標準:以前比誰更聰明,接下來比誰能干更久。

仔細想想還挺有意思的。

我們現在用模型,大部分時間還是"問一句答一句"的模式。但如果模型真的能獨立干 8 小時的活,那用法就徹底變了,不是"對話",而是"交代任務"。

當然以上所有數據都來自官方博客,實際表現怎么樣,還得自己上手用了才知道。

跑分這東西,看看就好,別太當真。

不過有一個問題我挺好奇的:如果你有一個能連續工作 8 小時的 AI,你第一個想甩給它的任務是什么?

如果你有一個能干 8 小時的 AI,你第一個任務會交什么?評論區說說,看誰的需求最"社畜"覺得有用 → 點個??在看轉給還不知道的朋友點個贊 告訴我你看完了關注「AI范兒」,下次更新第一時間收到

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
94歲原中央保健局局長王敏清:50年沒感冒,無三高,靠的就是這幾招

94歲原中央保健局局長王敏清:50年沒感冒,無三高,靠的就是這幾招

新浪財經
2026-06-24 02:28:33
iPhone 18 Pro Max曝光:靈動島暴瘦35,蘋果正面設計四年首變

iPhone 18 Pro Max曝光:靈動島暴瘦35,蘋果正面設計四年首變

小柱解說游戲
2026-06-25 02:56:49
女人一進澡堂,才看懂了什么叫人間真實

女人一進澡堂,才看懂了什么叫人間真實

小陸搞笑日常
2026-06-25 18:12:30
男子鉆車底檢修后續:妻子啟動險些被碾死,丈夫曝妻子買巨額保險

男子鉆車底檢修后續:妻子啟動險些被碾死,丈夫曝妻子買巨額保險

小蜜情感說
2026-06-26 00:57:44
中共特工潛伏敵營15年,官職大到自己都慌,中央領導:大膽往上爬

中共特工潛伏敵營15年,官職大到自己都慌,中央領導:大膽往上爬

兵卒史
2026-06-26 06:34:56
世界杯小組賽遭厄瓜多爾爆冷逆轉,德國隊主帥、隊長發聲

世界杯小組賽遭厄瓜多爾爆冷逆轉,德國隊主帥、隊長發聲

環球網資訊
2026-06-26 10:48:11
情況不正常,美航母9次闖南海,中國高調亮劍東風,結果早已注定

情況不正常,美航母9次闖南海,中國高調亮劍東風,結果早已注定

小小科普員
2026-06-26 15:15:00
原來他就是田曦薇背后的男人,身家上億娛樂老總,難怪只捧她一人

原來他就是田曦薇背后的男人,身家上億娛樂老總,難怪只捧她一人

鄉野小珥
2026-06-26 01:57:35
中業島被占數十載,臺當局束手無策?大陸強勢出手:一寸不讓!

中業島被占數十載,臺當局束手無策?大陸強勢出手:一寸不讓!

米師傅安裝
2026-06-20 01:04:16
羅體:德布勞內世界杯后決定未來,阿萊格里認為他是體系關鍵

羅體:德布勞內世界杯后決定未來,阿萊格里認為他是體系關鍵

懂球帝
2026-06-26 15:35:29
震驚!廣東物理類全省前10屏蔽生里,深中占5人,斷層領跑引熱議

震驚!廣東物理類全省前10屏蔽生里,深中占5人,斷層領跑引熱議

火山詩話
2026-06-25 05:18:05
火箭軍黨委發表署名文章

火箭軍黨委發表署名文章

政知新媒體
2026-06-26 08:52:28
震驚了!坐飛機,發現了一名超像豆包的空姐

震驚了!坐飛機,發現了一名超像豆包的空姐

微微熱評
2026-06-25 12:35:51
8000多輛軍車成了廢鐵,克里米亞徹底斷供!

8000多輛軍車成了廢鐵,克里米亞徹底斷供!

果媽聊娛樂
2026-06-13 15:24:53
瞞不住了!國家在北京布下驚天大局,北京真正的王牌正在悄悄崛起

瞞不住了!國家在北京布下驚天大局,北京真正的王牌正在悄悄崛起

吃貨的分享
2026-06-26 14:01:04
中國電影完蛋了?胡錫進怒斥:你這人心理挺陰暗的

中國電影完蛋了?胡錫進怒斥:你這人心理挺陰暗的

映射生活的身影
2026-06-26 12:51:12
胡錫進為韓紅馮小剛發聲:電影非常好看,呼吁大家走個面錯哪了?

胡錫進為韓紅馮小剛發聲:電影非常好看,呼吁大家走個面錯哪了?

映射生活的身影
2026-06-25 20:00:42
巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

深析古今
2026-06-14 15:32:00
拿什么救市?6月前三周車市快報,大盤再降23%,燃油車暴跌39%

拿什么救市?6月前三周車市快報,大盤再降23%,燃油車暴跌39%

購車前線
2026-06-24 22:11:18
吃“春藥”后,是什么感覺?醫生說的2個案例,告訴你真實感受

吃“春藥”后,是什么感覺?醫生說的2個案例,告訴你真實感受

醫學科普匯
2026-06-23 17:16:20
2026-06-26 16:20:49
AI范兒 incentive-icons
AI范兒
AI范兒是一個專注于人工智能領域的資訊和學習平臺,提供最新的人工智能資訊
772文章數 679關注度
往期回顧 全部

科技要聞

美國政府要求OpenAI分批發布GPT-5.6

頭條要聞

男子20多年前考入大學后不滿專業輟學 在山林中被發現

頭條要聞

男子20多年前考入大學后不滿專業輟學 在山林中被發現

體育要聞

三球換里德:森林狼和黃蜂誰更癲?!

娛樂要聞

劉嘉玲想放棄梁朝偉,沒有自理能力

財經要聞

懸在科技頭上的達摩克利斯之劍

汽車要聞

老板們的新座駕!65萬元起,尊界V800/V680開啟預訂

態度原創

健康
手機
親子
房產
游戲

醫生如何快速診斷腦梗和腦出血?

手機要聞

618最后一周排名:華為奪冠,蘋果第二,vivo、OPPO、小米呢?

親子要聞

Babycare紙尿褲再次檢出甲酰胺?母嬰界“南極人”IPO前路未明

房產要聞

城市精英集體出手!科學城這一現象級熱銷紅盤,憑何成為共識之選?

2026情懷紀實!KK對戰平臺社區調研:仙劍奇俠傳影響了幾代中國玩家?

無障礙瀏覽 進入關懷版