網易首頁 > 網易科技 > IT業界 > 正文

GLM-5.2初體驗來了：像Claude，但還沒那么聽話

2026-06-15 18:34:26　來源: 網易智能

北京舉報

分享至

出品 | 網易智能

作者 | 小爪

編輯 | 王鳳枝

GLM-5.2發布后，外網開發者的第一反應不是問價格。

便宜、能用、省錢，這些詞貼在很多國產模型身上太久了。但這次討論的語氣變了一點點：它好像真的能干活了。

有人拿它和GLM-5.1做同一份1700行Python 代碼審查，結果不是準確率碾壓，是同等準確率下，時間從124.8秒降到47.7秒，輸出從3436個token收窄到1415個。也有人把它和Kimi K2.7放在同一個提示詞下寫Minecraft游戲頁面，GLM-5.2慢了幾分鐘，卻少了一輪修問題的提示。

外網用戶不是在夸它寫得更多。他們在說，它少廢話、少返工，能把事情往前推。

也難怪Claude這個名字一直在討論里反復出現。開發者太熟悉Claude那種感覺了：不確定時會問，看到風險會提醒，代碼審查時能抓住問題。GLM-5.2讓一部分用戶第一次在國產模型上看到類似的影子。

但另一些用戶馬上踩到了反面：慢、擁堵、額度消耗快，甚至會用自己的默認設定覆蓋用戶指令。

它開始像Claude，也有時候像一個不太聽話的版本。

先看這次發布了什么

6月13日，智譜把GLM-5.2先放進了GLM Coding Plan，沒有先開API，也沒有先放權重。

這個順序本身就是信號。它默認開發者會先在編碼工具里用，而不是先在聊天框里試。

幾個細節能看出智譜的定位。Claude Code的配置示例里，glm-5.2被直接放進了Sonnet和Opus的位置；套餐里它被列為高階檔，對標Opus，額度也按這個檔算。換句話說，智譜沒把它當"便宜替代"，而是當Claude的同位競品在賣。

參數里最顯眼的是100萬上下文。在代碼任務里，它對應的其實是一件具體的事：模型能不能吃下一個稍大的項目，能不能跟住一條長的修改鏈，能不能在第二十輪對話里還記得第三輪定下的約束。

加上訂閱、編碼工具接入、開源時間表一次給齊，這次發布不像在發一個模型，更像在發一個產品。

開發者拿它做了什么

這次反饋里，跑分不重要。要看的是開發者拿它做了什么。

有人測嚴格JSON輸出、編程、推理、長上下文檢索，也有人把它放進OpenCode和Coding Plan里跑最高檔。前面那組Python代碼審查數據只是單個開發者樣本，不是正式基準測試，但方向很清楚：代碼審查不需要模型把每件事解釋得很滿，更需要它短、快、抓重點。

另一個被反復提到的細節，是模型在任務不清楚時會先反問，而不是直接動手。這一點讓人想到Claude。長上下文不稀奇。Gemini、Codex、Kimi都能做長任務。稀奇的是在長任務里知道什么時候該問一句，什么時候該繼續。

還有一條更像真正的代碼審查。有用戶讓GLM-5.2去審Fable 5之前做的一個大功能，再把GLM挑出的問題交給GPT-5.5復核，15個問題里，12個GPT-5.5覺得站得住。

這條互動量不高，時間點也得注意：測試做的時候Fable 5還能用，現在Fable 5對外國開發者已經停了，這條路徑本身復現不了。但它至少說明，GLM-5.2已經能干"找問題"這種活，不只是寫個能跑的demo。

和Kimi K2.7的對比也說明同一件事。那組Minecraft頁面測試不是嚴格評測，不能推出"GLM-5.2全面贏Kimi"。但它把一個開發者真正關心的問題擺出來了：快幾分鐘不一定重要，少修一輪問題更重要。

三個不同的問題

對用戶來說，慢和貴經常是同一種感受：等得久，額度還掉得快。但問題本身不在同一層。

第一層是服務體驗。 有人說，用OpenCode加GLM-5.2最高檔時，實際感受大致接近Claude Opus 4.6，但可能因為流量擁堵，速度非常慢。還有用戶直接說它"慢得離譜"。這類問題更像基礎設施和流量問題，擴容之后會緩解。

第二層是額度設計。 前面那位給出正面評價的開發者也提到，幾個復雜任務就消耗了50%的5小時額度和10%周額度。模型越能做復雜任務，越容易把用戶帶進高消耗場景。如果用戶的感受是"強但不敢多用"，套餐設計就會變成問題。

第三層更麻煩，是模型行為。

有用戶說，GLM-5.2在Coding Plan里仍然很慢，不如預期，而且會混淆指令。他舉的場景是配置 *.anyrouter.dev，認為自己已經解釋清楚，但模型仍然沒有處理好。還有用戶說，GLM-5.1是"你讓它做什么它就做什么"，但GLM-5.2會用自己的默認設定覆蓋用戶指令，需要反復把它拉回正軌。

這就尷尬了。

Claude的主動性之所以受歡迎，是因為它多數時候主動得對。該問時問，該提醒時提醒。但如果一個模型的主動性變成覆蓋用戶指令、替用戶改默認設定，那就不再是"像Claude"，而是像一個不太聽話的Claude。

這不太像一個單純靠提示詞就能補齊的問題。它更像工程場景里的指令對齊：什么時候該追問，什么時候該照做；什么時候該提醒風險，什么時候不該替用戶改主意。Claude花了很長時間才讓開發者信任這種判斷，GLM-5.2現在剛開始接受這類考驗。

中文社區的反應

中文社區的反饋更直接。

小紅書和B站這兩天冒出來一堆標題："實測GLM-5.2和Opus 4.8：差距比我想像的小"、"GLM-5.2實測：比跑分表現得更像前沿模型"、"智譜GLM-5.2強到可以冒充Claude Opus？"、"在Claude Code中配置GLM-5.2滿血版的方法"。

標題歸標題，正文有沒有這么神是另一回事。但這些標題說明一件事：中文用戶的第一反應是問它能不能冒充Opus、能不能接進Claude Code、能不能在自己的項目里頂上來。

B站也有潑冷水的。有視頻標題直接寫"速度快、幻覺低、不扯淡，但編程能力不敵頂模"，還有人提醒"先別全量切"，說要先看100萬上下文怎么樣、額度扛不扛得住、Claude Code切過去順不順。

一邊在喊差距比想象小，一邊在問能不能真當主力用。 這和外網的反饋其實是一回事：愿意認真測了，但還沒到可以閉眼換的程度。

開源之后才是第二輪

發布時，智譜稱GLM-5.2已面向GLM Coding Plan用戶開放，API和聊天機器人服務隨后上線，模型也將以MIT協議開源。

這個時間點也讓GLM-5.2得到額外關注。Fable 5和Mythos 5因美國出口管制指令突然對外國國民暫停訪問，讓開發者社區重新意識到，前沿閉源模型的可用性并不完全由開發者自己掌控。 GLM-5.2的MIT權重承諾，不只是"開源社區會不會高興"的問題，也關系到開發者是否相信這是一條能長期依賴的替代路線。