智譜突然宣布自家的GLM-5.2模型上線并開源。
隨后不久,整個AI圈都在傳同一張榜單圖片。
![]()
圖源:智譜
在大模型盲測平臺競技場的Code Arena上,GLM-5.2拿下了1595分的高分,排名總榜第二,僅次于Anthropic的Claude Fable 5,在全球可用模型中排名第一。那個排第一的模型因為出口管制,普通開發者已經用不了了。而能用的模型里,GLM-5.2是全世界最強的。
不只是編程。在專門評測模型審美品味的Design Arena上,GLM-5.2更是直接拿下了全球第一。
這是中國AI公司第一次在Coding這個最硬核的賽道上,跟Claude和OpenAI平起平坐。
![]()
GLM-5.2有啥亮點
GLM-5.2最讓峰哥感到驚喜的地方,是真正可用的1M無損上下文。
1M上下文是什么概念?100萬個Token,大約相當于可以一口氣讀完數百萬字的長篇巨著、數百頁的復雜PDF,或者一個中大型軟件項目的完整代碼庫。
并且不一樣的是,很多模型宣稱支持長上下文,可一旦文本長度超過幾十萬Token,模型就開始遺忘前面的內容,讀到后面忘了前面,理解能力斷崖式下跌。
而自2025年初起,智譜便集中力量攻關代碼基座,相繼推出GLM-4.5與GLM-4.7。到了GLM-5.2,通過擴展Coding Agent的訓練環境,有效解決了長文本劣化問題。以至于達到“無損”,即模型可穩定、無損地處理100萬Token長度的文本。
![]()
圖源:智譜
據了解,智譜技術團隊花了幾個月時間擴展1M Coding Agent的訓練環境,覆蓋自動化研究、性能優化等多個領域,使得GLM-5.2在1M上下文的solid表現有時甚至超過Claude Opus。
官方透露,在FrontierSWE(測試AI是否能夠像軟件工程師在數小時尺度上完成復雜技術項目的測試集)中,GLM-5.2 僅比 Opus 4.8 落后 1%,比 GPT-5.5 和 Opus 4.7 分別高出 1% 和 11%。
![]()
圖源:智譜
而在實際測試中,GLM-5.2更是一次性完成了覆蓋Web、移動端與小程序的完整應用開發交付,累計處理88萬Token,幾乎用滿了1M窗口。
為什么要死磕這件事?
過去一年,行業衡量模型智能的標準正在遷移,大家不僅在乎“答得多好”,更在乎模型“能獨立工作多久”。AI正在從對話者變成執行者。
一個持續工作數小時的智能體,要經歷數千次工具調用、讀寫數萬行代碼、積累大量中間狀態。上下文窗口不夠長,模型就被迫不斷壓縮、丟棄、再回憶。每一次壓縮都是信息損耗,每一次遺忘都可能讓任務在第N步偏離第2步定下的約束。
長程任務的失敗,很多時候不是模型不夠聰明,而是它忘了。GLM-5.2的1M上下文,就是解決這個問題的基礎設施。
根據官方描述,GLM-5.2只需用一句話描述需求,它就能自主完成開發、聯調、測試到打包上線,幾小時內交付一個網頁、手機、小程序都能用的完整應用。而這些,過去往往需要一支團隊干上數周。時代真的變了。
智譜強調,GLM-5.2專為長程任務能力打造,讓模型在跨越數周、數月乃至數年的規劃與執行中不健忘,更貼合程序員群體的使用需求。
![]()
數據是實打實的
僅從目前已公布的實測數據來看,GLM-5.2性能基本可以對標世界最前沿模型,實打實的國產之光。
除了前面提到的FrontierSWE基準測試,在Terminal-Bench 2.1評測中,GLM-5.2得分81.0,較前代GLM-5.1的63.5分大幅提升了17.5個百分點;在SWE-bench Pro評測中,GLM-5.2得分62.1。
![]()
圖源:智譜
在Artificial Analysis綜合榜單上,GLM-5.2更是取得51分,位列開源模型SOTA(STATE OF THE ART,代表某領域最先進的技術或成果)。
根據該榜單,Anthropic、OpenAI、智譜已經形成了“新御三家”格局。
要知道,此前提到AI界的御三家,大概率指向的是Claude、OpenAI和谷歌。但這次,從實打實的榜單能力來看,谷歌的Gemini實實在在地被GLM超越了。
![]()
圖源:Artificial Analysis
而在Design Arena上,GLM-5.2以1360的高分位居全球第一。
可以說,在寫代碼和審美品味這兩個截然不同的維度上,GLM-5.2都站上了全球最頂尖的位置。
![]()
圖源:X
有開發者打趣道:“以后通過中轉站用Opus的用戶得面對一個新問題:如果Opus是GLM-5.2冒充的,那用戶可能真的分辨不出來。”這雖然是玩笑,但也從側面說明了GLM-5.2在編程能力上已經達到了讓開發者難以分辨的水準。
但也有開發者強調,目前從自己跑出來的數據和體感來看,GLM-5.2還遠遠談不上世界第一。不少用戶反饋存在自主性不強,運行擁堵、額度消耗快等問題。
好在瑕不掩瑜。
![]()
圖源:X
下一步,智譜將瞄向完全自治的智能體系統(Autonomous Agent System)。讓AI能夠自主驅動、協同作業,構建7×24小時運轉的智能體群體,實現“自動駕駛”級別的數字生產力。
這可不是智譜一家在畫餅。今年1月,紅杉資本公開喊話,稱“長時程Agent實際上是通用人工智能(AGI),2026年將是他們的一年”。LangChain CEO也明確提出2026年是“長時程Agents元年”。
智譜創始人唐杰曾判斷,這一能力將推動行業從“一人公司”快速演進至“無員工公司”,自主智能體系統將成為下一個技術前沿。從完成長周期任務到實現完全自主運行,每一個行業都將被重塑,不管是安全、金融、法律還是電商。
同樣的,智譜團隊還很清醒,他們明確意識到,在這個過程中,還需攻克Memory(記憶機制)、持續學習(Continual Learning)、自我評判(Self-Judge)等核心技術。
![]()
MIT協議開源,國產算力Day 0適配,時機踩得剛剛好
當然,技術強是一回事,讓多少人能用是另一回事。GLM-5.2在這件事上做得比大多數對手都徹底。
模型權重以最寬松的MIT協議開源,已上線Hugging Face與ModelScope,支持自由下載、部署與商用。
MIT協議意味著什么?沒有地域限制,沒有使用限制,沒有任何附加條件。企業可以拿去做商業產品,開發者可以自由微調,不用向任何人報備。
更關鍵的是算力基礎設施。GLM-5.2在Day 0完成了與華為昇騰、平頭哥、摩爾線程、寒武紀、昆侖芯、沐曦、海光、壁仞等國產算力平臺的推理適配。
這意味著,中國企業可以在完全國產的算力集群上部署和運行GLM-5.2,不依賴任何海外GPU。
據透露,下半年昇騰950超節點上市后,也將成為GLM-5.2強勁的算力底座。
而且智譜還在同步強化Infra優化,在1M上下文長度下,將單位Token的FLOPs降低至2.9倍。
更重要的是,GLM-5.2發布的時機,讓人很難不懷疑是不是特意計算過的。
要知道就在前幾天,美國AI公司Anthropic受緊急出口管制指令影響,暫停了Claude Fable 5、Mythos 5兩款最新模型向全世界的開放。
而這邊,智譜卻又立刻宣布GLM-5.2全量開放。官方聲明里寫了一句話:“前沿智能不應只屬于少數人,也不應被少數規則隨時收回。它應該開放、可用、可構建,并服務于每一位開發者。”
當閉源海外大模型的服務可得性與合規性遭到沖擊時,智譜釋出了一個供給可控、可本地化部署且能力相當的選項。這個時間差,讓GLM-5.2在發布之前就已經積累了極高的關注度。
在閉源巨頭壟斷編程模型話語權,并且隨時可能收回訪問權限的當下,GLM-5.2用開源將選擇權交還給了廣大開發者。
從智能助手走向數字員工,從一人公司走向無人公司,GLM-5.2只是這條路上的一個站點,但它的意義在于讓中國AI第一次站到了通往這個終局的最前排。
最后,如果你想體驗這款模型,可以關注下智譜官方的GLM Coding Plan以及官方API平臺。當然,網頁端的GLM-5.2目前也已上線。
作者| 劉峰
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.