SWE-Bench Pro排行榜上周悄悄變天。一個MIT開源許可證的模型把GPT-5.4和Claude Opus 4.6同時擠了下去,而它的API價格只有前者的七分之一。
這個叫GLM-5.1的模型來自智譜,國內(nèi)用戶可能更熟悉它的中文名。測試者花了兩天時間跑真實任務,發(fā)現(xiàn)benchmark上的分數(shù)和實際體驗是兩回事——有些模型分數(shù)漂亮,遇到復雜代碼庫卻開始胡言亂語。
「它在處理遺留代碼時的表現(xiàn),比分數(shù)差距顯示的還要穩(wěn)。」測試者在報告中寫道。GLM-5.1的上下文窗口是128K,支持32K輸出,對于需要啃大型代碼庫的場景,這算是剛需配置。
價格對比更刺眼。GLM-5.1每百萬token收費0.3美元,Claude Opus 4.6是2.35美元,GPT-5.4更高。換算下來,跑同樣任務的成本差出將近8倍。對于每天燒掉幾千美元API調(diào)用的創(chuàng)業(yè)公司,這筆賬不難算。
不過測試者也留了后路:排行榜是排行榜,生產(chǎn)環(huán)境是生產(chǎn)環(huán)境。有些模型在特定語言上表現(xiàn)突出,換一門語言可能翻車。GLM-5.1的代碼能力是否泛化到所有場景,還需要更多人踩坑驗證。
智譜官方還沒大規(guī)模宣傳這次登頂。但在開發(fā)者群里,已經(jīng)有團隊開始遷移測試環(huán)境——畢竟同樣的預算,能跑八倍調(diào)用量,這對現(xiàn)金流緊張的中廠來說,誘惑實在不小。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.