![]()
新智元報道
![]()
【新智元導讀】凌晨2點,Anthropic甩出最能干的Claude Sonnet 5,性能直逼旗艦Opus 4.8,編程直接干翻GPT-5.5!
就在剛剛,Claude Sonnet 5來了!
代號Fennec,耳廓狐,撒哈拉沙漠里體型最小的狐貍。
這是Anthropic迄今為止,Agent能力最強的Sonnet模型,并且性能直逼旗艦Opus 4.8。
即日起,Sonnet 5成為所有Free和Pro用戶的默認模型。
![]()
![]()
它能自主規(guī)劃、調(diào)用瀏覽器和終端工具。
就在幾個月前,這還需要花大價錢調(diào)用超大模型才能做到,現(xiàn)在,Sonnet輕松拿下。
相較于上一代Sonnet 4.6,Sonnet 5在推理、工具使用、編程和知識工作任務中,性能顯著提升。
劃重點:
SWE-bench Pro得分63.2%,反超GPT-5.5的58.6%,略輸Opus 4.8的69.2%
「人類最后的考試」得分57.4%,和Opus 4.8只差0.5個百分點
標準價每百萬token輸入$3/輸出$15,只有Opus 4.8的六成
瀏覽器注入防御0.93%,反殺Mythos 5和Opus 4.8
![]()
有趣的是,F(xiàn)able 5也在同一天被曝出即將回歸。但代價是強制實名驗證,并且極大概率僅限美國用戶。
而Sonnet 5則主打一個毫無保留,全球用戶今天就能敞開用。
![]()
全線逼平Opus 4.8
最強打工AI突襲
這一次,Sonnet 5的突然上線,也算是填補了人們用不上Fable 5的失落。
對于很多開發(fā)者來說,Agent時代的元年,就是從Sonnet開始的。
Claude Sonnet 3.5、3.6、3.7,是最早一批在寫代碼、用工具上展現(xiàn)出驚人能力的模型。
換句話說,「讓AI自己干活」這件事,最早跑通的就是Sonnet「中杯」系列。
但這一年多,最猛的能力躍升,全集中在Opus這條「大杯」線上。Sonnet,直接被旗艦甩在后面。
Sonnet5要做的,就是把這道差距補回來!
Anthropic一句話定調(diào)——Claude Sonnet 5是史上最能「干活」的Sonnet。
從實戰(zhàn)的成績來看,最能說明這一點。
![]()
在傳統(tǒng)強項編程領域,Sonnet 5在SWE-bench Pro上豪取63.2%。而前代Sonnet 4.6只有58.1%,Opus 4.8則憑借69.2%暫時領先。
相比之下,老對手OpenAI的旗艦GPT-5.5在同一個榜上只拿到了58.6%,谷歌的Gemini 3.5 Flash也只有55.1%。
Terminal-Bench 2.1更加兇悍,Sonnet 5直接飆到80.4%,把只有67.0%的Sonnet 4.6狠狠甩在身后,暴漲13個百分點。距離Opus 4.8的82.7%,只差不到2個點。
在號稱「人類最后的考試」的跨學科推理基準Humanity's Last Exam上,Sonnet 5帶工具斬獲57.4%,Opus 4.8是57.9%,只差0.5個百分點。GPT-5.5同一測試只有52.2%,Gemini 3.1 Pro是51.4%。
電腦操控能力方面,Sonnet 5在OSWorld-Verified上的得分是81.2%,同樣超過GPT-5.5的78.7%,直追Opus 4.8的83.4%。
更讓人意外的是知識工作,Sonnet 5更是在GDPval-AA v2上拿到了1618分,直接反超Opus 4.8的1615。
在智能體搜索、工具使用表現(xiàn)中,Sonnet 5能以最低成本,提供了Opus 4.8級的能力。
![]()
![]()
可以說,幾乎每項benchmark,Sonnet 5都落在Opus 4.8的90%到100%區(qū)間。
堪稱是花Sonnet的錢,買Opus九成的腦子。
2美元限時促銷
但埋了個大坑
價格,才是這次的「必殺技」。
API定價方面,Anthropic給出了限時大促:輸入2美元/百萬tokens,輸出10美元/百萬tokens。
8月31日之后,恢復輸入3美元和輸出15美元的原價。
相比之下,Opus 4.8是5美元和25美元,GPT-5.5標準版是5美元和30美元。
促銷期內(nèi),輸入和輸出價格都只有Opus 4.8的四成。恢復標準價后也只到六成。
![]()
不過,Anthropic雖然表面誠意滿滿,細節(jié)里卻藏著小心思。
原因在于Sonnet 5換了全新的tokenizer,同樣一段輸入的token數(shù)量可能會膨脹1.0到1.35倍。
等促銷期一過,$3/$15的原價再疊加tokenizer膨脹效應,真金白銀的花銷肯定要比用Sonnet 4.6肉痛一截。
但即便如此,跟Opus比依然是碾壓級的差距。
反殺全家族旗艦
System Card里藏著Sonnet 5最被低估的一面。
提示注入攻擊成功率0.19%,跟Opus 4.8持平。GPT-5.5是3.08%,Gemini 3.5 Flash是6.66%。
![]()
瀏覽器注入防御上,攻擊成功率只有0.93%,而Mythos 5是29.7%,Opus 4.8是31.5%。
$2的中端模型,反殺了全家族旗艦,開啟防護措施后直接降到0%。
惡意代碼注入上,Sonnet 4.6的攻擊成功率高達45.26%,Sonnet 5降到了0.29%,改善150倍。
Firefox 147漏洞利用測試中,Mythos 5能寫出88.4%的可用exploit,Opus 4.8是8.8%,Sonnet 5是0.0%。能寫頂級業(yè)務代碼,但寫不出一個可用的漏洞利用程序。
![]()
副作用是不對齊行為評分2.53(滿分10),比Sonnet 4.6的2.89有改善,但高于Opus 4.8的2.10和Mythos Preview的1.95。
變強了,也變得更有主見了。
![]()
不爭皇冠,專砍腰部
Sonnet 5卡在一個極其精準的位置上,向上能力逼近Opus 4.8和GPT-5.5,向下價格接近Gemini 3.5 Flash級別。
OpenAI剛把價格相較上代翻了倍,Anthropic轉(zhuǎn)手把Sonnet 5的入門價壓到了3美元。
那些原本猶豫要不要為旗艦付費的開發(fā)者,現(xiàn)在有了一個殺傷力十足的替代選項。
所有人都盯著頂端打的時候,Anthropic在腰部開了一槍。
開發(fā)者錢包,今晚先投了票
如今,Sonnet 5的性能已經(jīng)踩進了旗艦區(qū)間,大部分修bug、補測試、做重構(gòu)的活都能一次搞定。
以前覺得Opus太貴舍不得用、Sonnet又不夠好的尷尬,今天沒了。
價格上更劃算。同樣的預算以前只能跑一個Opus級的Agent,現(xiàn)在可以跑兩到三個并行的Sonnet。
多Agent架構(gòu)的成本門檻,被Sonnet 5一腳踹低了。
Fable 5究竟何時王者歸來還是個未知數(shù)。
但Sonnet 5此刻已經(jīng)穩(wěn)穩(wěn)地站在這里,性能直接懟到了Opus的門檻上。
對于絕大多數(shù)開發(fā)者而言,它就是接下來相當長一段日子里,手邊最能打也最好用的那個Claude。
參考資料:
https://x.com/claudeai/status/2072017450611142835
https://www.anthropic.com/news/claude-sonnet-5
編輯:摩西 桃子
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.