網易首頁 > 網易號 > 正文申請入駐

葬AI基準測試發(fā)布：GLM 5.2第一，超越Opus 4.8

2026-06-17 10:03:33　來源: 葬AI

北京舉報

分享至

「唐神梁圣」

這是葬AI起號以來工作量最大的一篇文章。

為了嚴肅評測國產模型的能力，我自研了一個Benchmark，完整測試了智譜、Qwen、Kimi、Minimax、Deepseek這些最新國產模型，還引入了境外勢力Claude作對照組。

現在大模型評測的問題是什么？

就是所有模型廠都在刷分，還都刷的SWE-bench那幾個基準測試。這導致你從榜單根本看不出來區(qū)分度，反正新模型都會號稱自己全球第三、國產第一。

所有模型廠都刷相同的基準測試還帶來了另一個大問題，就是模型同質化。所有模型都以刷高分為目標，所有模型都卷編程（coding）和長程任務/工具調用（agentic）這兩種能力。

那模型就是不會有人味，不會有風格。模型的差距只存在于跑編程任務的成功率。

甚至，卷編程會損害寫作能力。因為編程能力是有標準答案的，所有模型都會出現過度抓細節(jié)、思考過程結構化、生成回答冗長這些趨勢。

語言簡潔、有人味的Claude Sonnet 3.5一去不復返了。卷編程之后，Claude的寫作能力越來越差勁，這直接影響了對話體驗。我現在和Claude APP對話，時常感覺自己在用ChatGPT，回答都在穩(wěn)穩(wěn)地接住你。

我想知道不同的模型在真實工程任務上的表現——不是跑榜單刷分，而是讓它們獨立完成一個完整的網站重構：從讀取本地數據、寫代碼、生成頁面，到最終產出可以直接瀏覽的網站。

先放測試結果，GLM 5.2得分第一，甚至略微超越了Claude Opus 4.8。

然后依次是Qwen 3.7 Max、Kimi K2.7-code、MiniMax M3和DeepSeek V4 Pro。

測試過程是這樣的。

葬AI有一個美麗的網站funeralai.cc，這個網站會同步我們的所有文章，并且把文章跑成知識圖譜。

我把網站的完整本地數據——103 篇文章正文、600 節(jié)點/1546 條邊的知識圖譜——作為輸入，給每個模型一份完全相同的執(zhí)行方案，要求它們重構一個包含首頁、知識圖譜頁、文章列表和 103 篇詳情頁的完整靜態(tài)網站。

為了保證公平，每個模型跑 10 輪，每輪都是獨立的全新Opencode 會話，不存在對話記憶。一共生成了60個網站。

評分環(huán)節(jié)，再由Agent來逐個在瀏覽器打開查看。使用一樣的評分框架，從五個維度，包括基礎完整性（15%）、圖譜質量（35%）、文章完整性（15%）、視覺（20%）、交互穩(wěn)定性（15%），來逐個獨立打分，最后加權算平均分。

我在葬AI網站上開源了完整的測試方法，也把這些模型測試生成60個網頁都部署上線。

funeralai.cc/test

這個網站里有本次測試的所有產物、詳細分析報告和Github鏈接。你可以挨個點進去看60個測試網頁。

結果總體不算出人意料，符合我對這些模型的使用體感。

讓我們來挨個分析一下。

GLM系列是公認的國產模型編程第一。唯一讓人驚訝的是，GLM 5.2得分（85.5）略微超越了Claude Opus 4.8（85.2）。

這兩個模型生成的網站都質量很高，功能該有的都有，知識圖譜都能一次性渲染完成，并且交互都復刻得不錯。

比如這是Claude Opus 4.8得分最高的產物，功能完整，知識圖譜都可以交互。只是視覺沒有完全復刻扣了點分。

funeralai.cc/test/r1/claude-opus-4-8

而這是GLM 5.2生成的較好的網站，明顯視覺復刻更到位，只是交互有點問題，節(jié)點之間互相遮擋扣了分。

funeralai.cc/test/r5/glm-x-preview

總之，分別跑了10個輪次下來，GLM 5.2和Opus 4.8 區(qū)別不大。前者勝在產出穩(wěn)定，沒有極端案例。后者主要是因為有一輪圖譜沒有渲染成功，導致拉低了均分。

我和身邊朋友也是這個體感。在前端和業(yè)務邏輯一次性生成的案例上，GLM 5.2的表現完全不遜色Opus 4.8。

我的朋友凱一在拿幾個模型復刻LibTV之后，大呼GLM無敵，連畫布頁面都復刻得有模有樣，一眼超越了沒生成出畫布的Codex和Kimi。于是他當即關掉了Kimi會員自動續(xù)費。

但也有人反映，GLM 5.2還是沒有達到Opus 4.6水平。眾所周知，Opus 4.8在很多方面不如4.6，這是A畜特有的負面更新。

除了GLM 5.2牛逼外，我的另一個重大發(fā)現是，Qwen 3.7 Max（82.4分）很行。

主要勝在工程能力穩(wěn)定，幾乎沒有大的錯誤，圖譜基本能穩(wěn)定渲染?？鄯种饕獊碜砸曈X和交互波動：有幾輪 CSS 變量和設計系統很弱，導致視覺分明顯下滑。

Qwen 3.7 Max是全場工程能力最穩(wěn)定的模型，并且與前兩個模型體感相差不大，在日常工作中完全可用。

這其實是一件很難得的事情，因為Qwen系列一向的特點是沒有最強模型，大家想到Qwen都是開源中小尺寸模型，但Qwen 3.7系列達到了完全可用的水平。

然后就是我們親愛的最會做產品的Kimi（80.3分）。

Kimi K2.7-code最主要的問題是產出質量不穩(wěn)定。好的輪次能到高分，但也有3個輪次沒有渲染出圖譜，直接拉低了均分。比如下面這輪就只產出了個空殼。

https://funeralai.cc/test/r4/kimi-k2-7-code

這里必須多說一句，測試中，Kimi是僅次于 Claude 的第二貴模型。

Claude跑一輪測試花了我202.5元人民幣。Kimi跑完測試居然花了164.6元。遠高于花費23.5元的Qwen和23.2元的MiniMax，更是被只花了17.1塊錢的DeepSeek當場薄紗。

我看到賬單十分震驚，專門拉了日志分析，原來Kimi API消耗中，絕大部分都花在了緩存命中，測試產生了104.7M緩存命中token，這部分就花了136.2元。

DS也這個情況，它測試產生了191M緩存命中token。但勝在DS緩存命中超級無敵便宜，只有Kimi價格的1/52。所以DS實際成本才這么便宜。

然后這兩個模型緩存命中非常夸張的原因是，調用次數特別多。測試中，Kimi K2.7-code發(fā)生了1046 次請求，DeepSeek v4-pro 有 1129 次請求。這是因為模型一次性生成的做不對，Agent就會多次請求，反復修。

這就和Qwen形成了鮮明對比，整個測試，Qwen 3.7 Max只產生了288 次請求，導致緩存命中量少，所以成本偏低。不愧是工程能力最穩(wěn)定的模型

不過，雖然DeepSeek V4 Pro（67.1分）生成質量最不穩(wěn)定。有高分輪次，但低分輪次過低，導致均分最低。

但你梁圣真的很便宜。那句話怎么說來著，DS賣Token只收你電費，剩下的研發(fā)成本你別管，工作日9:30-15:00梁圣自有辦法解決。

而且DS主要是穩(wěn)定性不行，如果是我自己使用，通過多輪次交互，DS用起來也不是不行。過去一個多月，我一直用Opencode接DS干日常工作，也沒遇到啥問題。

所以，確實存在一條DeepSeek斬殺線，價格更貴、質量好得不明顯的模型就會被淘汰。

MiniMax M3（77.4分）就在逼近這條斬殺線。

MiniMax的視覺設計是明顯優(yōu)勢，CSS 變量和頁面質感經常很好。但在最考驗工程能力的圖譜頁上，10輪只成功了3輪，導致均分被拉低。

下圖就是一個空殼圖譜頁的典型例子。

https://funeralai.cc/test/r3/minimax-m3

同樣的成本，我可以用工程能力更穩(wěn)定的Qwen 3.7 Max。所以，MiniMax的生態(tài)位到底在哪里呢？

MiniMax和Kimi的問題很相似，都是前端完成度不錯，但工程能力不穩(wěn)定。Kimi情況好很多，不至于被DS斬殺。

但有編程能力最強的GLM 5.2和價格相對便宜、工程能力穩(wěn)定的Qwen 3.7Max，為什么要用這么貴的Kimi 2.7 code呢？

我就不過多舉例了，反正60個測試網頁都上線了葬AI網站，你可以挨個查看各個模型產出物的優(yōu)劣，一目了然。

最后總結一下吧。

這個基準測試的緣起是我要寫Qwen。我又不想空口扯組織戰(zhàn)略，那不成純純阿里味了。

為了嚴肅評測Qwen 3.7 Max的能力，我想到了用自己相對復雜的工程任務葬AI網站，作為基準來評價各個模型能力。

核心原因是模型廠都刷榜，導致最有名的幾個基準測試都沒有區(qū)分度了。而且如果你看過SWE-bench題目的話，就能發(fā)現他的思路是找Github上的Issue，給AI真實的人類編程遇到的問題，看AI能不能解決問題。

這個思路和葬AI基準測試是一樣的。我也是給AI完整的倉庫，叫它重構一個帶有圖譜的相對復雜的網站，然后對比原版網站來評分。

并且，這個測試思路可以泛化。我認識不少干產品、技術的朋友都有自己的私人評測集，大概是幾個他工作中真實遇到的工程問題，每次出新模型就跑一下這幾個問題。

這是好事啊，大家應該有自己的Benchmark來評測這些模型。

因為一套榜單不能代表所有需求。重點不是找出全世界最強模型，而是找到對你的真實工作最有用的模型。

比如GLM雖然得分更高，但寫作不如DeepSeek靈活。而根據我的體感，現在所有模型的寫作水平，可能都不如一年多前發(fā)布的Claude Sonnet 4.0。

我開源了葬AI基準測試的思路，核心是把你日常真正會做的工作抽象成一個可重復任務，然后讓不同模型來多輪完成，并且評分。

github.com/FrichXi/personal-work-benchmark

可以把鏈接發(fā)給你的Agent，叫它參考這個思路制作對你自己有可信度的Benchmark。

當然了，我這次跑出來的得分可能也就圖一樂。

雖然我盡力控制變量，但還是遇到了一些其他因素，比如我沒買到GLM會員，所以GLM 5.2調用的是智譜家人提供的內測接口，加不加智不知道，但肯定不是降智版本。

要是過兩天我買到GLM 5.2會員，跑出來不是這個分，我也將向家人們道歉并痛斥智譜詐騙（希望不要）。

而Claude Opus 4.8，我走的是中轉站API。雖然這是一個榮登Anthropic報告的大中轉站，還是原價API，但是不是完全正版也不好說。

評測得出的細微分數差距沒有意義，看個大概結論就行。

結論就是GLM 5.2牛逼，真達到了Opus 4.8水平。Qwen 3.7 Max其次，最有工程穩(wěn)定性。

Kimi尤其需要加強infra，多向梁圣學習降本增效，你這緩存價格我真用不起。最需要努力的是MiniMax，快往前跑孩子，別一不留神跌落斬殺線了

最后聲明一下，本篇文章沒有接受任何贊助，完全是客觀評測結果和主觀使用體驗的結合。

雖然看起來很像智譜廣告，但我確實沒收智譜或者任何人錢，比心??

敬請期待我們后續(xù)把Qwen、智譜等模型廠挨個寫一遍。

（本文封面由ChatGPT生成，純人工寫作）

歡迎訂閱我們的Substack

funeralai.substack.com

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

AI大廠，正在互相設防

虎嗅APP 2026-07-03 03:59:26
0 跟貼 0
Claude Fable 5省錢秘訣來了：調成Low檔比Opus更便宜

量子位 2026-06-11 16:23:55
3 跟貼 3

Anthropic欽點8款模型名單曝光

新智元 2026-07-02 10:11:28
20 跟貼 20

滿分的「差」，Qwen與復旦等揭示編程智能體獎勵設計的結構性困境

機器之心Pro 2026-07-02 18:16:12
0 跟貼 0
視頻生成模型會「推理」嗎？303道題全面揭示世界模型的推理短板

機器之心Pro 2026-06-28 18:29:07
0 跟貼 0

1美元Token撬動4800美元收益!百萬美元級基準,最賺錢Agent出現了

機器之心Pro 2026-03-10 10:06:03
0 跟貼 0

我把昨晚的夢輸入AI，它居然直接把我拉進去玩兒了一把？！

量子位 2026-06-19 16:40:27
3 跟貼 3
GaussianDWM：用3D高斯表示統一自動駕駛場景理解與多模態(tài)生成

機器之心Pro 2026-06-14 19:24:09
0 跟貼 0

給世界模型加上因果，她要讓機器人真正理解“為什么”

DeepTech深科技 2026-06-20 11:32:15
3 跟貼 3
奧特曼預言與現實相差幾何？12個頂級模型“創(chuàng)業(yè)”一年，僅3個存活

鈦媒體APP 2026-04-03 17:11:08
1 跟貼 1
跨會話不再「失憶」：openJiuwen社區(qū)開源 AutoGenetic Memory

機器之心Pro 2026-07-02 12:30:04
0 跟貼 0
大神程序員蒸餾自己，用16個skill給AI注入軟件工程之魂

量子位 2026-05-12 03:08:58
0 跟貼 0
靠“硅膠娃娃”破圈，優(yōu)必選急了？

鈦媒體APP 2026-07-03 09:56:14
0 跟貼 0
奇點之前，一場關于Physical AI的閉門會議

DeepTech深科技 2026-07-03 09:50:11
0 跟貼 0
“AI領域最被濫用的術語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0
AI時代，商學院到底在培養(yǎng)什么人？

芥末堆看教育 2026-07-03 09:44:44
0 跟貼 0
SemiAnalysis駁斥“算力過剩論”：Meta算力擴張遠超想象，明年資本開支將“高得驚人”

華爾街見聞官方 2026-07-03 10:03:36
0 跟貼 0
Fable 5解禁即翻車！寫一行代碼就降智，開發(fā)者破防

新智元 2026-07-02 19:16:00
22 跟貼 22
獨家內幕：美團如何用5萬張國產卡訓出“龍貓”萬億級模型？

智東西 2026-07-02 18:54:20
0 跟貼 0
四大AI預測西班牙vs奧地利：三家支持斗牛士，Kimi猜有冷門

懂球帝 2026-07-02 17:05:34
14 跟貼 14
四大AI預測瑞士vs阿爾及利亞：Kimi看好瑞士，豆包猜平局

懂球帝 2026-07-02 17:05:34
12 跟貼 12
林志穎捂了12年的kimi，首次公開正面照，網友：這臉，判若倆人

In風尚 2026-07-03 06:05:27
2 跟貼 2
Opencode力推GLM 5.2免費體驗！

大壯的小生活 2026-07-03 03:54:06
1 跟貼 1
你點開的那個“十二歲”，只是請你訂閱

溫一壺月光啊 2026-07-03 00:16:34
0 跟貼 0
小米前備箱裝水，測試結果萬萬沒想到，雷軍拯救了中國汽車

幽默狂歡營 2026-06-30 09:00:47
0 跟貼 0
Anthropic CEO：如果我是25歲，不會選編程，會選

機器之心Pro 2026-04-18 12:00:00
0 跟貼 0
中國機器人又進化了，美國客戶不相信不要編程，在這直接大開眼界

怪獸愛逗樂 2026-07-01 13:31:29
1 跟貼 1
7月1日起，江蘇最低生活保障標準上調！

環(huán)球網 2026-07-02 10:47:00
868 跟貼 868
前端工程師最不想看到的開源項目出現了，一行命令克隆任意網站

量子位 2026-06-28 15:53:49
146 跟貼 146
金屬大黃蜂拼裝！314零件可動！高端禮品超酷#模型拼裝 #大黃蜂模型

制造科技 2026-06-30 21:37:21
0 跟貼 0
景區(qū)掛蘋果讓猴子體驗覓食，聰明的猴子懂得利用三角形穩(wěn)定性

時空融媒 2026-06-30 18:40:14
2 跟貼 2
泰山景區(qū)回應修建滾筒式刀片刺繩隔離鐵絲網：與正常游覽路線不交叉不重疊

北京日報客戶端 2026-07-02 08:55:17
20357 跟貼 20357
開了一次就“頭暈”？看到機器上的英文單詞，他覺得自己被罵了

北青網-北京青年報 2026-06-28 14:48:24
1827 跟貼 1827
徹底殺死提示詞比賽，Agent Loop是什么鬼？

雷科技 2026-07-03 00:05:18
0 跟貼 0
扎哈羅娃：馮德萊恩是個“出色的騙子”

參考消息 2026-07-02 14:14:08
13030 跟貼 13030
靜態(tài)品鑒尊界V800，國產頂奢MPV，重塑百萬豪華標桿

電動邦 2026-06-29 10:23:08
6 跟貼 6
WTT美國大滿貫｜女雙半決賽將上演中國德比

北青網-北京青年報 2026-07-02 20:00:04
238 跟貼 238
AI寫完AI審，AI審完AI看

人間小愜意啊 2026-07-01 07:00:07
0 跟貼 0
探店啟源A06 前排按摩通風與后排躺椅靜態(tài)完整體驗

鬼斗車 2026-07-01 20:11:00
4 跟貼 4
歐洲主要國家現已接受船舶通過霍爾木茲海峽將不可避免需要付費

財聯社 2026-07-02 23:23:04
342 跟貼 342

葬AI

整點真實

113文章數 24關注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

本地

旅游

手機

數碼

家居要聞

手機 / 數碼

房產 / 家居

葬AI基準測試發(fā)布：GLM 5.2第一，超越Opus 4.8

特斯拉交付超預期7.4萬輛，股價卻大跌7.5%

克羅地亞絕平球無效 官方放賽事用球內置芯片檢測畫面

克羅地亞絕平球無效 官方放賽事用球內置芯片檢測畫面

韓國人，為什么恨透了洪明甫？

黃曉明深夜約會美女，分手原因曝光

AI“鬼故事”不斷，市場開始重估？

有純電有增程 還有二代VLA支持 小鵬MONA L03預售價14.38萬起

態(tài)度原創(chuàng)

傳奇筑 日常詩

這場穿越酉陽的光影之旅，張張都是壁紙！

河南洛陽：黃河古都一號旅游公路美如畫

iPhone 18 Pro系列混用閃存 大存儲版本降配

專業(yè)無線麥克風也卡顏了？DJI Mic Mini 2S體驗

特斯拉交付超預期7.4萬輛，股價卻大跌7.5%

克羅地亞絕平球無效官方放賽事用球內置芯片檢測畫面

克羅地亞絕平球無效官方放賽事用球內置芯片檢測畫面

韓國人，為什么恨透了洪明甫？

黃曉明深夜約會美女，分手原因曝光

AI“鬼故事”不斷，市場開始重估？

有純電有增程還有二代VLA支持小鵬MONA L03預售價14.38萬起

傳奇筑日常詩

這場穿越酉陽的光影之旅，張張都是壁紙！

iPhone 18 Pro系列混用閃存大存儲版本降配