網易首頁 > 網易號 > 正文 申請入駐

Claude Opus 4.6和GPT 5.3 Codex同時更新,這波貪了,應該留到春晚再看的

0
分享至

AI圈迎來了新年的第一個雙響炮啊,

Anthropic剛發了Claude Opus 4.6,OpenAI也發了GPT?5.3-Codex,在Codex app里已經能用了。我這稿子寫一半直接重新寫啊。馬上來看看這兩模型的評分,它們強化了那些點,以及除了模型本身,還帶來了什么更新。

先看跑分。

Anthropic是第一次給Opus系列模型上100萬tokens的上下文窗口,在MRCRv2八針1M (大海撈針)測試里,比Sonnet 4.5高了57個點,我第一反應就是我一定要在clawdbot體驗一把Opus 4.6。

除了記憶好,Opus 4.6在GDPval-AA(44個不同崗位的知識工作任務)上也超了GPT5.2 200多分,感覺Cowork又可以升級一波了。


隔壁的GPT?5.3-Codex定位是個編程模型,融合了GPT-5.2-Codex的編碼性能和GPT-5.2的推理能力及專業知識,速度提升了 25%(codex有救了),離譜的是OSWorld-Verified(視覺桌面操作)上提升了快30個點,

夯爆了。


我仔細對比了一下兩張官方表,發現它們重合的數據集只有一個,Terminal-Bench 2.0,是在終端命令行里進行編程的測試。光看這個評分,GPT-5.3-Codex可以說是把Claude Opus 4.6給拉爆了,高了12個點。

其他展示出來的數據不能直接拿來硬比,

SWE-Bench(Agent編程)數據集人OpenAI用的是Pro版本,包含了四種語言。Claude Opus 4.6測評的SWE-Bench Verified只測試Python。

OpenAI測試OSWorld-Verified比Claude Opus 4.6測的OSWorld測評出來的分數會更加可信,因為Verified修復了300多個數據問題。

還是來看看它們單個都更新了啥,

Claude Opus 4.6還在高難度Agent 搜索(DeepSearchQA / BrowseComp)上單 Agent比GPT-5.2 Pro多6個點,在多學科推理(Humanity's Last Exam / ARC AGI 2)上,同樣是工具配置拉滿的狀態下,比GPT5.2Pro多了3個點。



GPT-5.3-Codex有個指標高到離譜,

OSWorld-Verified(視覺桌面操作),

用人話說就是讓AI看截圖換成各種電腦任務,人類基準是72%,GPT-5.2-Codex是38.2%,GPT-5.2是37.9%,

融合這個兩個模型的優勢的GPT-5.3-Codex直接干到64.7%,跟這個比起來,其他的SWE-Bench Pro(Agent編程),Cybersecurity Capture The Flag Challenges(Agent安全攻防)和SWE-Lancer IC Diamond(修bug賺100萬挑戰)的5,6個點的提升都是常規操作了。


再來看看應用案例。

Anthropic這次都沒有放出Claude Opus 4.6跑的case,而且選擇把自家產品線更新了,

Claude Code新功能agent teams(智能體團隊),可以讓多個Agent并行工作,適合用在像大規模代碼檢查之類可以被拆成很多個獨立子任務的場景。

Claude in Excel也更新了,更新了規劃模式,還能給亂七八糟的非結構化數據,自動做一個合適的表格結構。

還給PPT新出了 research preview,Claude能識別公司品牌的ppt模版,保證布局,字體,顏色都不會變,能針對單張幻燈片簡化文本和添加圖表,也可以一次性生成10張幻燈片再微調。


OpenAI把更多時間放在showcase上,

他們放了兩個用GPT-5.3-Codex構建的新游戲,但沒有像GPT-5.2-Codex那樣把完整提示語放出來。

https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html

兩個游戲我都完整打了一把,這個賽車真的不是抄馬里奧賽車的嗎,道具箱里還有泡泡和香蕉。

https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/diving_game.html

潛水我也玩了,本來是想當個超人,一口氣潛到最底的,但是潛到一半就體驗到為什么神秘園會說,那些專業人士潛進去就出不來了。。。

他們還放出來一個我覺得很蠢的網頁case,理由是GPT-5.3-Codex做這個價格頁面的時候,會把年費展示成打個折的月費,而不是總金額。。。

奧特曼沒活了可以去咬個打火機

關于API和定價,Anthropic這次給API加了Adaptive thinking(自適應思考),由Claude 來判斷什么時候打開thinking模式。

還有四檔Effort(努力程度)可選,默認是high(高),還有low(低),medium(中)和max(最大)。

還有一個beta功能,當長期對話或者Agent任務快到打到上下文上限的時候,會自動把上下文壓縮成摘要,用摘要替換上下文。價格我做成表格了,


GPT-5.3-Codex還沒有API,不過在app,CLI,IDE插件and網頁版都能用了,上線就全量,這很不openai。

說句題外話,api形式的gpt4o一周后就沒了,這波屬于是時代的眼淚了。


最后說說安全。

這次兩家都花了不小的篇幅來談安全問題。我們還是用人話來解讀一下。


Anthropic上來先亮了個圖,說這次升級沒有影響我們模型的安全性,這段時間我們做了兩件事。

第一件事,努力搞清楚模型腦子里到底在想什么。

他們在做一種可解釋性的新方法,目標是讓研究人員能看見模型為什么會在某些情況下給出某種回答。這樣做的好處是,很多問題在標準測評里不一定暴露,但當你能追到原因,就更容易提前發現風險,比如模型在某些邊緣場景會突然變得很會誤導人。

第二件事,在模型擅長的領域加了更嚴的防護。

他們發現 Opus 4.6 在網絡安全上能力更強,能修bug,也能拿去攻擊。所以他們做了六個新的網絡安全探針,用來檢測模型有沒有在輸出可能被濫用的內容。

隔壁OpenAI在安全上也下了苦功夫,

他們現在給開源項目免費做體驗,把一些熟悉的壞套路整理成話術識別規則,當我們給gpt發的問題跟某個套路很像的時候,模型就會自動降低問答的詳細程度。

這次模型更新后,

明顯感覺我的預期值變高了,以前更新模型我通常還會去測一下文本,代碼,3D的表現,

但現在隨著Claude Code,Cowork,Clawdbot三連擊,我對于模型的表現處于薛定諤的貓狀態。

太簡單的測起來沒意思,

我們現在用Claude Code加一些模型,

也能夠做到這樣的上限。

太復雜的,我想以Agent的形式,

放到我們已有的工作流里長時間來評估它的差異。

說不定后面模型的更新會成為一種日常的迭代,

發布會也不開了,

開始卷Agent形態了,

我就一個愿望,

別光跟整理桌面較勁了,

我桌面都快沒文件了。

@ 作者 / 卡爾

最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論

如果想要第一時間收到推送,不妨給我個星標

如果你有更有趣的玩法,歡迎在評論區和我聊聊

更多的內容正在不斷填坑中……


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
停火期限即將到來,美伊都做兩手準備,霍爾木茲海峽“開了又關”

停火期限即將到來,美伊都做兩手準備,霍爾木茲海峽“開了又關”

環球網資訊
2026-04-20 06:40:55
天齊鋰業Q1業績“炸裂”!凈利預增15至18倍,鋰價回暖與投資收益雙重共振|財報見聞

天齊鋰業Q1業績“炸裂”!凈利預增15至18倍,鋰價回暖與投資收益雙重共振|財報見聞

華爾街見聞官方
2026-04-20 18:49:14
終其一生,滿是遺憾

終其一生,滿是遺憾

青蘋果sht
2026-04-08 05:13:36
左小青這狀態,鯊瘋了!明媚動人,若隱若現

左小青這狀態,鯊瘋了!明媚動人,若隱若現

只要高興就好
2025-12-10 19:09:26
看哭了!張雪車隊64號頻頻摔車排名墊底原來他的作用根本不是拿獎

看哭了!張雪車隊64號頻頻摔車排名墊底原來他的作用根本不是拿獎

劉哥談體育
2026-04-21 00:06:55
河南平頂山動物園的狼見人就“作揖”討吃的,游客質疑狼被餓著;園方:“作揖”屬正常習性,每天喂一次,一只狼4斤肉

河南平頂山動物園的狼見人就“作揖”討吃的,游客質疑狼被餓著;園方:“作揖”屬正常習性,每天喂一次,一只狼4斤肉

大風新聞
2026-04-20 12:44:10
倒計時1天,賴清德將離臺!鄭麗文已見不到他,國防部下最后通牒

倒計時1天,賴清德將離臺!鄭麗文已見不到他,國防部下最后通牒

易昂楊
2026-04-20 21:11:29
化療康復期女店主遭多名城管圍阻,店招改造引發執法爭議;多方回應

化療康復期女店主遭多名城管圍阻,店招改造引發執法爭議;多方回應

大風新聞
2026-04-20 20:25:06
以牙還牙!解放軍過航日本橫當水道,前鋒朝著日本本土九州!

以牙還牙!解放軍過航日本橫當水道,前鋒朝著日本本土九州!

荊楚寰宇文樞
2026-04-20 23:09:20
世錦賽戰報:中國1領先2落后,00后小將4-5大滿貫!8位種子進16強

世錦賽戰報:中國1領先2落后,00后小將4-5大滿貫!8位種子進16強

小火箭愛體育
2026-04-21 06:13:24
萬斯及美國代表團將在數小時內抵達巴基斯坦

萬斯及美國代表團將在數小時內抵達巴基斯坦

財聯社
2026-04-20 21:33:03
77枚金牌不是萬能,國家隊不再原諒王濛,狂妄自大只會被拋棄

77枚金牌不是萬能,國家隊不再原諒王濛,狂妄自大只會被拋棄

牛牛叨史
2024-07-09 16:59:07
馬蹄露自薦做團長后續!張敬軒粉絲不忍了,開始發文攻擊了

馬蹄露自薦做團長后續!張敬軒粉絲不忍了,開始發文攻擊了

小徐講八卦
2026-04-19 11:27:40
花27萬元拍下周口太昊陵廟會攤位的“標王”攤主已盈利,當事人:每天工作十多個小時賣豬蹄數千只,明年會繼續競拍

花27萬元拍下周口太昊陵廟會攤位的“標王”攤主已盈利,當事人:每天工作十多個小時賣豬蹄數千只,明年會繼續競拍

極目新聞
2026-04-19 22:39:27
被記者問能否留任本菲卡,穆帥:你能保證明年還在這家電視臺嗎

被記者問能否留任本菲卡,穆帥:你能保證明年還在這家電視臺嗎

懂球帝
2026-04-20 10:40:11
浙江震元副總經理被立案調查,年薪43萬元,兼任母公司董事

浙江震元副總經理被立案調查,年薪43萬元,兼任母公司董事

紅星資本局
2026-04-19 15:06:04
牡丹花下死!送走馬蓉又迎馮清,43歲王寶強,終究栽進“女人坑”

牡丹花下死!送走馬蓉又迎馮清,43歲王寶強,終究栽進“女人坑”

小蘭聊歷史
2026-04-13 02:09:34
查到問題根源上 改到群眾心坎里(樹立和踐行正確政績觀)

查到問題根源上 改到群眾心坎里(樹立和踐行正確政績觀)

人民網
2026-04-20 08:45:09
黃圣依17年終錯付,楊子帶23歲新女友見91歲母親,銅錢盆搶鏡

黃圣依17年終錯付,楊子帶23歲新女友見91歲母親,銅錢盆搶鏡

卷史
2026-04-18 13:54:59
宇樹機器人打破人類1500米世界紀錄:1.9公里4分13秒自主跑完

宇樹機器人打破人類1500米世界紀錄:1.9公里4分13秒自主跑完

快科技
2026-04-19 07:47:05
2026-04-21 06:52:49
卡爾的AI沃茨 incentive-icons
卡爾的AI沃茨
前大廠算法工程師,3家科技公司技術總監|致力打造最系統的Al學習體系,讓1萬人通過Al提高生產力
250文章數 126關注度
往期回顧 全部

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

19歲女孩挪用自家1700萬當"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經要聞

利潤暴跌7成,字節到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態度原創

家居
游戲
手機
數碼
軍事航空

家居要聞

自然慢調 慢享時光

大司馬回歸兩個月,某音人氣穩居頂流行列,道出風光背后心酸現狀

手機要聞

華為Pura X Max發布:搭載麒麟9030 Pro芯片,起售價10999元

數碼要聞

華為Pura90系列及Pura X Max折疊屏手機發布:5499元起

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個洞

無障礙瀏覽 進入關懷版