无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

葬AI基準測試發(fā)布:GLM 5.2第一,超越Opus 4.8

0
分享至


「唐神梁圣

這是葬AI起號以來工作量最大的一篇文章。

為了嚴肅評測國產模型的能力,我自研了一個Benchmark,完整測試了智譜、Qwen、Kimi、Minimax、Deepseek這些最新國產模型,還引入了境外勢力Claude作對照組。

現在大模型評測的問題是什么?

就是所有模型廠都在刷分,還都刷的SWE-bench那幾個基準測試。這導致你從榜單根本看不出來區(qū)分度,反正新模型都會號稱自己全球第三、國產第一。

所有模型廠都刷相同的基準測試還帶來了另一個大問題,就是模型同質化。所有模型都以刷高分為目標,所有模型都卷編程(coding)和長程任務/工具調用(agentic)這兩種能力。

那模型就是不會有人味,不會有風格。模型的差距只存在于跑編程任務的成功率。

甚至,卷編程會損害寫作能力。因為編程能力是有標準答案的,所有模型都會出現過度抓細節(jié)、思考過程結構化、生成回答冗長這些趨勢。

語言簡潔、有人味的Claude Sonnet 3.5一去不復返了。卷編程之后,Claude的寫作能力越來越差勁,這直接影響了對話體驗。我現在和Claude APP對話,時常感覺自己在用ChatGPT,回答都在穩(wěn)穩(wěn)地接住你。

我想知道不同的模型在真實工程任務上的表現——不是跑榜單刷分,而是讓它們獨立完成一個完整的網站重構:從讀取本地數據、寫代碼、生成頁面,到最終產出可以直接瀏覽的網站。

先放測試結果,GLM 5.2得分第一,甚至略微超越了Claude Opus 4.8。

然后依次是Qwen 3.7 Max、Kimi K2.7-code、MiniMax M3和DeepSeek V4 Pro。


測試過程是這樣的。

葬AI有一個美麗的網站funeralai.cc,這個網站會同步我們的所有文章,并且把文章跑成知識圖譜。


我把網站的完整本地數據——103 篇文章正文、600 節(jié)點/1546 條邊的知識圖譜——作為輸入,給每個模型一份完全相同的執(zhí)行方案,要求它們重構一個包含首頁、知識圖譜頁、文章列表和 103 篇詳情頁的完整靜態(tài)網站。

為了保證公平,每個模型跑 10 輪,每輪都是獨立的全新Opencode 會話,不存在對話記憶。一共生成了60個網站。

評分環(huán)節(jié),再由Agent來逐個在瀏覽器打開查看。使用一樣的評分框架,從五個維度,包括基礎完整性(15%)、圖譜質量(35%)、文章完整性(15%)、視覺(20%)、交互穩(wěn)定性(15%),來逐個獨立打分,最后加權算平均分。

我在葬AI網站上開源了完整的測試方法,也把這些模型測試生成60個網頁都部署上線。

funeralai.cc/test


這個網站里有本次測試的所有產物、詳細分析報告和Github鏈接。你可以挨個點進去看60個測試網頁。

結果總體不算出人意料,符合我對這些模型的使用體感。

讓我們來挨個分析一下。

GLM系列是公認的國產模型編程第一。唯一讓人驚訝的是,GLM 5.2得分(85.5)略微超越了Claude Opus 4.8(85.2)。

這兩個模型生成的網站都質量很高,功能該有的都有,知識圖譜都能一次性渲染完成,并且交互都復刻得不錯。

比如這是Claude Opus 4.8得分最高的產物,功能完整,知識圖譜都可以交互。只是視覺沒有完全復刻扣了點分。


funeralai.cc/test/r1/claude-opus-4-8

而這是GLM 5.2生成的較好的網站,明顯視覺復刻更到位,只是交互有點問題,節(jié)點之間互相遮擋扣了分。


funeralai.cc/test/r5/glm-x-preview

總之,分別跑了10個輪次下來,GLM 5.2和Opus 4.8 區(qū)別不大。前者勝在產出穩(wěn)定,沒有極端案例。后者主要是因為有一輪圖譜沒有渲染成功,導致拉低了均分。

我和身邊朋友也是這個體感。在前端和業(yè)務邏輯一次性生成的案例上,GLM 5.2的表現完全不遜色Opus 4.8。

我的朋友凱一在拿幾個模型復刻LibTV之后,大呼GLM無敵,連畫布頁面都復刻得有模有樣,一眼超越了沒生成出畫布的Codex和Kimi。于是他當即關掉了Kimi會員自動續(xù)費。

但也有人反映,GLM 5.2還是沒有達到Opus 4.6水平。眾所周知,Opus 4.8在很多方面不如4.6,這是A畜特有的負面更新。

除了GLM 5.2牛逼外,我的另一個重大發(fā)現是,Qwen 3.7 Max(82.4分)很行。

主要勝在工程能力穩(wěn)定,幾乎沒有大的錯誤,圖譜基本能穩(wěn)定渲染??鄯种饕獊碜砸曈X和交互波動:有幾輪 CSS 變量和設計系統很弱,導致視覺分明顯下滑。

Qwen 3.7 Max是全場工程能力最穩(wěn)定的模型,并且與前兩個模型體感相差不大,在日常工作中完全可用。

這其實是一件很難得的事情,因為Qwen系列一向的特點是沒有最強模型,大家想到Qwen都是開源中小尺寸模型,但Qwen 3.7系列達到了完全可用的水平。

然后就是我們親愛的最會做產品的Kimi(80.3分)。

Kimi K2.7-code最主要的問題是產出質量不穩(wěn)定。好的輪次能到高分,但也有3個輪次沒有渲染出圖譜,直接拉低了均分。比如下面這輪就只產出了個空殼。


https://funeralai.cc/test/r4/kimi-k2-7-code

這里必須多說一句,測試中,Kimi是僅次于 Claude 的第二貴模型。

Claude跑一輪測試花了我202.5元人民幣。Kimi跑完測試居然花了164.6元。遠高于花費23.5元的Qwen和23.2元的MiniMax,更是被只花了17.1塊錢的DeepSeek當場薄紗。

我看到賬單十分震驚,專門拉了日志分析,原來Kimi API消耗中,絕大部分都花在了緩存命中,測試產生了104.7M緩存命中token,這部分就花了136.2元。

DS也這個情況,它測試產生了191M緩存命中token。但勝在DS緩存命中超級無敵便宜,只有Kimi價格的1/52。所以DS實際成本才這么便宜。

然后這兩個模型緩存命中非常夸張的原因是,調用次數特別多。測試中,Kimi K2.7-code發(fā)生了1046 次請求,DeepSeek v4-pro 有 1129 次請求。這是因為模型一次性生成的做不對,Agent就會多次請求,反復修。

這就和Qwen形成了鮮明對比,整個測試,Qwen 3.7 Max只產生了288 次請求,導致緩存命中量少,所以成本偏低。不愧是工程能力最穩(wěn)定的模型

不過,雖然DeepSeek V4 Pro(67.1分)生成質量最不穩(wěn)定。有高分輪次,但低分輪次過低,導致均分最低。

但你梁圣真的很便宜。那句話怎么說來著,DS賣Token只收你電費,剩下的研發(fā)成本你別管,工作日9:30-15:00梁圣自有辦法解決。

而且DS主要是穩(wěn)定性不行,如果是我自己使用,通過多輪次交互,DS用起來也不是不行。過去一個多月,我一直用Opencode接DS干日常工作,也沒遇到啥問題。

所以,確實存在一條DeepSeek斬殺線,價格更貴、質量好得不明顯的模型就會被淘汰。

MiniMax M3(77.4分)就在逼近這條斬殺線。

MiniMax的視覺設計是明顯優(yōu)勢,CSS 變量和頁面質感經常很好。但在最考驗工程能力的圖譜頁上,10輪只成功了3輪,導致均分被拉低。

下圖就是一個空殼圖譜頁的典型例子。


https://funeralai.cc/test/r3/minimax-m3

同樣的成本,我可以用工程能力更穩(wěn)定的Qwen 3.7 Max。所以,MiniMax的生態(tài)位到底在哪里呢?

MiniMax和Kimi的問題很相似,都是前端完成度不錯,但工程能力不穩(wěn)定。Kimi情況好很多,不至于被DS斬殺。

但有編程能力最強的GLM 5.2和價格相對便宜、工程能力穩(wěn)定的Qwen 3.7Max,為什么要用這么貴的Kimi 2.7 code呢?

我就不過多舉例了,反正60個測試網頁都上線了葬AI網站,你可以挨個查看各個模型產出物的優(yōu)劣,一目了然。

最后總結一下吧。

這個基準測試的緣起是我要寫Qwen。我又不想空口扯組織戰(zhàn)略,那不成純純阿里味了。

為了嚴肅評測Qwen 3.7 Max的能力,我想到了用自己相對復雜的工程任務葬AI網站,作為基準來評價各個模型能力。

核心原因是模型廠都刷榜,導致最有名的幾個基準測試都沒有區(qū)分度了。而且如果你看過SWE-bench題目的話,就能發(fā)現他的思路是找Github上的Issue,給AI真實的人類編程遇到的問題,看AI能不能解決問題。

這個思路和葬AI基準測試是一樣的。我也是給AI完整的倉庫,叫它重構一個帶有圖譜的相對復雜的網站,然后對比原版網站來評分。

并且,這個測試思路可以泛化。我認識不少干產品、技術的朋友都有自己的私人評測集,大概是幾個他工作中真實遇到的工程問題,每次出新模型就跑一下這幾個問題。

這是好事啊,大家應該有自己的Benchmark來評測這些模型。

因為一套榜單不能代表所有需求。重點不是找出全世界最強模型,而是找到對你的真實工作最有用的模型。

比如GLM雖然得分更高,但寫作不如DeepSeek靈活。而根據我的體感,現在所有模型的寫作水平,可能都不如一年多前發(fā)布的Claude Sonnet 4.0。

我開源了葬AI基準測試的思路,核心是把你日常真正會做的工作抽象成一個可重復任務,然后讓不同模型來多輪完成,并且評分。

github.com/FrichXi/personal-work-benchmark

可以把鏈接發(fā)給你的Agent,叫它參考這個思路制作對你自己有可信度的Benchmark。

當然了,我這次跑出來的得分可能也就圖一樂。

雖然我盡力控制變量,但還是遇到了一些其他因素,比如我沒買到GLM會員,所以GLM 5.2調用的是智譜家人提供的內測接口,加不加智不知道,但肯定不是降智版本。

要是過兩天我買到GLM 5.2會員,跑出來不是這個分,我也將向家人們道歉并痛斥智譜詐騙(希望不要)。

而Claude Opus 4.8,我走的是中轉站API。雖然這是一個榮登Anthropic報告的大中轉站,還是原價API,但是不是完全正版也不好說。

評測得出的細微分數差距沒有意義,看個大概結論就行。

結論就是GLM 5.2牛逼,真達到了Opus 4.8水平。Qwen 3.7 Max其次,最有工程穩(wěn)定性。

Kimi尤其需要加強infra,多向梁圣學習降本增效,你這緩存價格我真用不起。最需要努力的是MiniMax,快往前跑孩子,別一不留神跌落斬殺線了

最后聲明一下,本篇文章沒有接受任何贊助,完全是客觀評測結果和主觀使用體驗的結合。

雖然看起來很像智譜廣告,但我確實沒收智譜或者任何人錢,比心??

敬請期待我們后續(xù)把Qwen、智譜等模型廠挨個寫一遍。

(本文封面由ChatGPT生成,純人工寫作)

??

歡迎訂閱我們的Substack

funeralai.substack.com

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
恭喜高市早苗,上任不到一年,就讓日本成為全球餐桌上的“肥羊”

恭喜高市早苗,上任不到一年,就讓日本成為全球餐桌上的“肥羊”

健身狂人
2026-07-02 15:36:59
葡萄牙2-1晉級16強,C羅當選全場MVP惹爭議,球迷:有點離譜了

葡萄牙2-1晉級16強,C羅當選全場MVP惹爭議,球迷:有點離譜了

側身凌空斬
2026-07-03 09:36:05
氣質出眾,巴薩女足傳奇普特利亞斯現場觀戰(zhàn)西班牙隊比賽

氣質出眾,巴薩女足傳奇普特利亞斯現場觀戰(zhàn)西班牙隊比賽

懂球帝
2026-07-03 04:14:23
喬治告別費城:感謝能穿上這件球衣,我會帶著回憶開啟新篇章

喬治告別費城:感謝能穿上這件球衣,我會帶著回憶開啟新篇章

懂球帝
2026-07-03 09:46:14
世界杯:澳大利亞vs埃及

世界杯:澳大利亞vs埃及

足球賽事交流解析
2026-07-03 09:00:05
別被降價蒙蔽雙眼!理想、蔚來、小鵬集體換二線電池,真相扎心了

別被降價蒙蔽雙眼!理想、蔚來、小鵬集體換二線電池,真相扎心了

趣味萌寵的日常
2026-07-02 14:21:33
貪官末日來了!中央反腐新規(guī)已落地,無論在職退休一律終身追責

貪官末日來了!中央反腐新規(guī)已落地,無論在職退休一律終身追責

職場資深秘書
2026-07-02 19:16:37
塞內加爾出局后內幕被扒:足協高層夜夜笙歌,主教練被欠薪5個月

塞內加爾出局后內幕被扒:足協高層夜夜笙歌,主教練被欠薪5個月

全景體育V
2026-07-03 08:24:53
2000萬人將參加哈梅內伊葬禮,全世界捏著一把汗:以色列或突襲?

2000萬人將參加哈梅內伊葬禮,全世界捏著一把汗:以色列或突襲?

兵國大事
2026-07-02 17:32:17
克羅地亞絕殺無效!世界杯殘酷1幕:C羅點射,葡萄牙2-1殺進16強

克羅地亞絕殺無效!世界杯殘酷1幕:C羅點射,葡萄牙2-1殺進16強

足球評論大家談
2026-07-03 09:10:00
博主曝上海400元自助,海膽暢吃變限量,店長多次冷笑,網友炸鍋

博主曝上海400元自助,海膽暢吃變限量,店長多次冷笑,網友炸鍋

另子維愛讀史
2026-07-02 20:46:17
他若不死,國民黨不會敗退臺灣!蔣介石痛悔親手殺了這個人

他若不死,國民黨不會敗退臺灣!蔣介石痛悔親手殺了這個人

歷史人文2
2026-07-02 20:30:03
有沒有手撕綠茶的超爽經歷?網友:我必須給她上一課

有沒有手撕綠茶的超爽經歷?網友:我必須給她上一課

另子維愛讀史
2026-07-02 21:02:00
Papi醬把公司全關了,只留七個人

Papi醬把公司全關了,只留七個人

盧松松
2026-06-30 15:54:25
老友對決!C羅“魔笛”緊緊相擁

老友對決!C羅“魔笛”緊緊相擁

大象新聞
2026-07-03 08:26:03
韓紅基金會發(fā)聲明回應購置電腦、相機等設備、工作人員薪酬等八項質疑

韓紅基金會發(fā)聲明回應購置電腦、相機等設備、工作人員薪酬等八項質疑

界面新聞
2026-07-02 22:42:49
至少4次攻擊太空通訊中心!俄版“星鏈”將取得突破,全力阻止?

至少4次攻擊太空通訊中心!俄版“星鏈”將取得突破,全力阻止?

鷹眼Defence
2026-07-02 17:05:49
泰山2500萬刺網拆除后,公眾仍在追問:這筆公共賬,最后誰買單

泰山2500萬刺網拆除后,公眾仍在追問:這筆公共賬,最后誰買單

川渝視覺
2026-07-02 09:04:15
運-30試飛來了:被斷供逼出來的“中國心”,比原裝進口還猛!

運-30試飛來了:被斷供逼出來的“中國心”,比原裝進口還猛!

觀察者小海風
2026-07-03 07:27:31
汽油連跌均降超500元/噸后,7月3日調價,95汽油或跌破7.8元/升!

汽油連跌均降超500元/噸后,7月3日調價,95汽油或跌破7.8元/升!

豬友巴巴
2026-07-02 18:30:03
2026-07-03 10:52:49
葬AI
葬AI
整點真實
113文章數 24關注度
往期回顧 全部

科技要聞

特斯拉交付超預期7.4萬輛,股價卻大跌7.5%

頭條要聞

克羅地亞絕平球無效 官方放賽事用球內置芯片檢測畫面

頭條要聞

克羅地亞絕平球無效 官方放賽事用球內置芯片檢測畫面

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

黃曉明深夜約會美女,分手原因曝光

財經要聞

AI“鬼故事”不斷,市場開始重估?

汽車要聞

有純電有增程 還有二代VLA支持 小鵬MONA L03預售價14.38萬起

態(tài)度原創(chuàng)

家居
本地
旅游
手機
數碼

家居要聞

傳奇筑 日常詩

本地新聞

這場穿越酉陽的光影之旅,張張都是壁紙!

旅游要聞

河南洛陽:黃河古都一號旅游公路美如畫

手機要聞

iPhone 18 Pro系列混用閃存 大存儲版本降配

數碼要聞

專業(yè)無線麥克風也卡顏了?DJI Mic Mini 2S體驗

無障礙瀏覽 進入關懷版