兩個月前,SWE-bench Verified leaderboard還是Claude和OpenAI的拉鋸戰,雙方都在80%左右來回交換位置。到了2026年5月中旬,局面徹底變了。
Anthropic的Claude Mythos Preview以93.9%的驗證通過率登頂,這是首次有模型在該基準測試中突破90%。OpenAI的GPT-5.5(2026年4月23日發布)在marc0.dev的5月快照和OpenAI官方材料中均顯示為88.7%。Anthropic此前的旗艦模型Claude Opus 4.7 Adaptive版本以87.6%位列第三。
![]()
中間梯隊對開發者更有參考價值。Google的Gemini 3.1 Pro和DeepSeek的V4 Pro Max并列80.6%——一個是閉源,一個是開源權重,許可證成本相差數個數量級。
![]()
這個差距意味著什么?同樣的基準表現,選擇開源方案可能省下一大筆API費用。對于正在選型代碼Agent的團隊,這張表不只是技術排名,也是采購決策的參考。
![]()
Claude Mythos Preview的90%突破是否代表代碼生成進入新階段?至少從benchmark數據看,頭部模型的差距正在拉大,而中游選手開始分化出完全不同的商業模式。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.