无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

<small id="189fk"></small><small id="189fk"><tbody id="189fk"></tbody></small>

<source id="189fk"></source>

<td id="189fk"></td>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Claude首次破90%：代碼Agent leaderboard變天了

2026-05-19 02:15:31　來源: 碳基打工人

北京舉報

0

分享至

兩個月前，SWE-bench Verified leaderboard還是Claude和OpenAI的拉鋸戰，雙方都在80%左右來回交換位置。到了2026年5月中旬，局面徹底變了。

Anthropic的Claude Mythos Preview以93.9%的驗證通過率登頂，這是首次有模型在該基準測試中突破90%。OpenAI的GPT-5.5（2026年4月23日發布）在marc0.dev的5月快照和OpenAI官方材料中均顯示為88.7%。Anthropic此前的旗艦模型Claude Opus 4.7 Adaptive版本以87.6%位列第三。

中間梯隊對開發者更有參考價值。Google的Gemini 3.1 Pro和DeepSeek的V4 Pro Max并列80.6%——一個是閉源，一個是開源權重，許可證成本相差數個數量級。

這個差距意味著什么？同樣的基準表現，選擇開源方案可能省下一大筆API費用。對于正在選型代碼Agent的團隊，這張表不只是技術排名，也是采購決策的參考。

Claude Mythos Preview的90%突破是否代表代碼生成進入新階段？至少從benchmark數據看，頭部模型的差距正在拉大，而中游選手開始分化出完全不同的商業模式。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

ICLR 2026 | PIL：基于線性代理的不可學習樣本生成方法

機器之心Pro 2026-02-24 19:36:33
0 跟貼 0
CMU開源首份Agentic Search日志數據，把Agent拆開給你看

機器之心Pro 2026-02-09 12:05:13
0 跟貼 0

高潮從第幾秒開始？GaMMA 讓多模態大模型真正「聽懂」音樂時間線

機器之心Pro 2026-05-20 13:59:25
0 跟貼 0

馬斯克花 100 億想清楚一件事，不做 coding agent 就是等死

愛范兒 2026-05-18 22:19:15
1 跟貼 1
openJiuwen社區開源新招：發布JiuwenSwarm，拉開群體智能序幕

量子位 2026-05-18 18:19:46
0 跟貼 0

全球排名前三,復旦自進化Harness Engineering讓GPT5.4再漲7個點

機器之心Pro 2026-05-20 17:23:00
0 跟貼 0

公司推行的方案，被大佬拒絕簽字

影中見影 2026-05-17 00:00:00
66 跟貼 66
Agent中的“愛馬仕”來啦：100k+ Star 的開源AI Agent ，正在偷偷給自己升級

鈦媒體APP 2026-04-23 09:27:15
26 跟貼 26

DeepSeek版Claude Code要來了！

智東西 2026-05-20 21:05:33
2 跟貼 2
智能體卷王誕生！干活自動配結項報告，1.5張截圖就把事說清了

量子位 2026-01-10 14:38:21
3 跟貼 3
上海交大的樊同學，是普通人觸及不到的層次

走讀新生 2026-05-20 15:25:48
938 跟貼 938
谷歌狙擊A社/OpenAI？Antigravity 2.0實測：終于不再只是IDE

雷科技 2026-05-20 21:47:44
0 跟貼 0
Cursor新模型，你怎么還在套Kimi？馬斯克你怎么還吆喝上了?

量子位 2026-05-19 14:02:57
2 跟貼 2
6.4k Stars！用Claude Code寫論文的全套流水線，有人打包開源了

量子位 2026-05-17 11:35:32
2 跟貼 2
阿里云能否重寫自己？

鈦媒體APP 2026-05-20 18:27:17
0 跟貼 0
Anthropic又整活，卡片大小的電腦也跑上Claude Code了

機器之心Pro 2026-05-18 12:48:25
2 跟貼 2
孫子兵法?形篇：稱的思維定勢是左右決策的重要稱砣

陳相靈TALK 2026-05-16 19:50:11
0 跟貼 0
AI Agent成了中年男人的新網癮。心流是最好的專注

朱常在 2026-05-17 13:06:51
0 跟貼 0
中俄元首簽署聯合聲明

央視新聞 2026-05-20 14:30:22
1432 跟貼 1432
信通院&清華提出FedRE：用「糾纏」搞定聯邦學習三難困境|CVPR 26

量子位 2026-05-18 14:45:09
0 跟貼 0
你的體檢報告，正在變成一張過期的快照

風里藏溫柔啊 2026-05-19 01:21:01
0 跟貼 0
波蘭游戲圈這幫人，開會比寫代碼還能喝

晚星歸航2 2026-05-20 20:29:23
0 跟貼 0
ASC26超算競賽：北大清華獲冠亞軍，世界模型成賽題重點，AI Agent幫選手提效

智東西 2026-05-20 22:55:12
0 跟貼 0
《巔峰對決》也有嘉豪？

SwagFuck 2026-05-20 16:53:10
0 跟貼 0
你的職業本就不該是一條直線

宅家小歡喜 2026-05-21 00:34:58
0 跟貼 0
耿同學，一個退學博士是怎么用AI降維打擊學術圈的？

秦朔朋友圈 2026-05-21 00:10:40
0 跟貼 0
Excel藏了四個神器：功能欄里根本找不到

字節漫游指南 2026-05-18 01:06:03
0 跟貼 0
日賺3609萬的京滬高鐵，又漲價？

中國新聞周刊 2026-05-20 07:36:05
1795 跟貼 1795
龍蝦軍團有了最強「視力」！一眼看圖直接寫代碼-1

機器之心Pro 2026-04-02 16:56:32
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
單Agent時代正式結束：一個干不過，就上300個-3

機器之心Pro 2026-04-22 00:08:00
0 跟貼 0
豪斯的決策導致奇斯生命為在旦夕

無限解說 2026-05-20 14:40:08
1 跟貼 1
樓上在罵AI，樓下在賣AI

版面之外 2026-05-20 22:39:23
0 跟貼 0
美國記者打卡甘肅熔鹽塔式光熱電站 “這就是中國為何能抵御能源沖擊”

海外網 2026-05-20 16:18:21
472 跟貼 472
一買家網購45把一次性雨傘，使用后全損退貨，傘全部損壞且寫有學生姓名

中原網 2026-05-20 17:09:03
185 跟貼 185
木星最被誤解的地方，不是它大，而是它還不夠大

熱點研究 2026-05-18 20:53:26
2 跟貼 2
飛刀老師展示飛鏢，嚇得游客癱坐在地，技術果真是精湛！

爆笑神惡搞 2026-05-19 14:20:26
1 跟貼 1
曝GPT-5.5用上「全球最快芯片」，Claude慌了！

新智元 2026-05-18 18:59:42
1 跟貼 1
選對財務軟件支持：企業合規與效率的關鍵

固件更新中 2026-05-21 01:20:52
0 跟貼 0
C#導出Excel工具橫評：2026年選型指南

閃存獵手 2026-05-19 00:42:58
0 跟貼 0

聞泰科技十一連板跌停，25萬散戶的哀傷

聞泰科技十一連板跌停，25萬散戶的哀傷

東家投閱錄

2026-05-20 11:26:18

從2-0到2-2！斯盧茨基又搞砸了：中超勁旅5場不勝，防守漏洞百出

從2-0到2-2！斯盧茨基又搞砸了：中超勁旅5場不勝，防守漏洞百出

足球狗說

2026-05-20 21:41:06

隨著北京慘敗，季后賽又亂了！上海奪得賽點，趙睿隱身，麥基抽象

隨著北京慘敗，季后賽又亂了！上海奪得賽點，趙睿隱身，麥基抽象

多特體育說

2026-05-20 22:55:34

終于拍桌子了！荷蘭為阿斯麥硬剛美國：不允許對中國進一步限制

終于拍桌子了！荷蘭為阿斯麥硬剛美國：不允許對中國進一步限制

阿淫記錄生活日常

2026-05-19 21:56:04

萬科福建總經理卞文軍，出事了

新浪財經

2026-05-20 10:43:22

7年敗光2億！鄒市明冉瑩穎共同發文：二人最終還是邁出了這一步！

7年敗光2億！鄒市明冉瑩穎共同發文：二人最終還是邁出了這一步！

拳擊時空

2026-04-16 06:04:48

Claude首次破90%：代碼Agent leaderboard變天了

Claude首次破90%：代碼Agent leaderboard變天了

碳基打工人

2026-05-19 02:15:31

女演員自曝：曾流產5次失去7個寶寶，如今43歲仍努力拼二胎！

女演員自曝：曾流產5次失去7個寶寶，如今43歲仍努力拼二胎！

豬小艷吖

2026-04-24 13:49:15

于文華：一婚下嫁李凡，三拒尹相杰，再婚嫁小伙，不生孩子也幸福

于文華：一婚下嫁李凡，三拒尹相杰，再婚嫁小伙，不生孩子也幸福

飄飄然的娛樂匯

2026-05-18 20:05:05

“血栓大戶”被揪出，是肥肉的10倍！醫生：經常吃，血管或扛不住

“血栓大戶”被揪出，是肥肉的10倍！醫生：經常吃，血管或扛不住

39健康網

2026-05-14 21:06:29

央視報道：8艘055大驅換裝高超音速導彈，五角大樓緊急調整

央視報道：8艘055大驅換裝高超音速導彈，五角大樓緊急調整

胖子的勇氣

2026-05-19 20:36:06

老羅看《給阿嬤的情書》犀利點破：這電影為啥漏洞百出還能殺瘋？

老羅看《給阿嬤的情書》犀利點破：這電影為啥漏洞百出還能殺瘋？

動物奇奇怪怪

2026-05-19 09:25:46

從近40萬降到19萬多的沃爾沃XC60，還是2026款，這次真撿漏了！

從近40萬降到19萬多的沃爾沃XC60，還是2026款，這次真撿漏了！

隔壁說車老王

2026-05-19 09:14:41

為什么今年沒人提“消費降級”了？

為什么今年沒人提“消費降級”了？

黯泉

2026-05-20 17:47:21

李時珍行醫一生，臨終前叮囑弟子：觀人壽命，先看其怎么吃飯

李時珍行醫一生，臨終前叮囑弟子：觀人壽命，先看其怎么吃飯

千秋文化

2026-03-06 20:42:44

女生最渴望被刺激的四種生理性欲望，網友稱贊我又學到了

女生最渴望被刺激的四種生理性欲望，網友稱贊我又學到了

那年秋天

2026-04-18 12:30:09

普京訪華專機起飛前，俄方拿出兩份誠意：圖們江出海口和遠東開發

普京訪華專機起飛前，俄方拿出兩份誠意：圖們江出海口和遠東開發

紀中百大事

2026-05-20 09:34:45

王力宏50歲生日與帕梅拉同框健身，這狀態說是30歲我都信

王力宏50歲生日與帕梅拉同框健身，這狀態說是30歲我都信

仙味少女心

2026-05-18 06:49:49

大量戶外mini露營車流入閑魚！來自農夫山泉，全新30元拿走

大量戶外mini露營車流入閑魚！來自農夫山泉，全新30元拿走

閑搞機

2026-05-20 11:04:52

特朗普訪華這件事，可能會載入歷史

特朗普訪華這件事，可能會載入歷史

楓冷慕詩

2026-05-18 18:42:15

碳基打工人

坐標北京，靠咖啡續命，靠小紅書下飯的普通人類。

3283文章數 39關注度

往期回顧全部

科技要聞

一文看懂谷歌I/O2026：谷歌打響智能體大戰

頭條要聞

被普京抱過的中國男孩火了本人最新發聲

頭條要聞

被普京抱過的中國男孩火了本人最新發聲

體育要聞

尼克斯贏下最窒息的一場翻盤，場場都是逆天局

娛樂要聞

王菲“沒事兒”，成年人學不來的松弛

財經要聞

白酒榜|汾酒營收凈利雙增口子窖"造富"

汽車要聞

26.98萬起步看小鵬GX如何詮釋一車多能以及滿配的科技與豪華

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

游戲

數碼

房產

軍事航空

手機要聞

3nm芯片+7寸2K屏+萬級大電池，紅米手機這次讓友商睡不著了！

《地平線6》最大敗筆！特色模式無人問津變“鬼城”

數碼要聞

Gemini 3.5 Flash、Omni、反重力2.0！谷歌I/O 2026發了多少東西

房產要聞

別被中介帶了節奏，你的房子可能比你想的值錢

軍事要聞

俄媒盛贊中國軍人：身姿挺拔站如松柏

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<object id="meufv"></object>

<noscript id="meufv"><div id="meufv"></div></noscript>

<optgroup id="meufv"><strike id="meufv"><tr id="meufv"></tr></strike></optgroup>

<style id="meufv"></style>

<p id="meufv"></p>

<p id="meufv"><ins id="meufv"></ins></p>

<source id="meufv"><tr id="meufv"></tr></source>