網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Sonnet 5終于來了，然而Opus 4.8現(xiàn)在有點尷尬

2026-07-01 12:18:12　來源: 鈦媒體APP

北京舉報

分享至

文 | 字母AI

沉寂了小半年，Sonnet終于更新到5版本了。好消息，性能幾乎和Opus 4.8持平，壞消息，比以前成本高了，另外一個好消息，8月31日前token打折。

我知道，真正代表Anthropic技術(shù)天花板的是Fable 5和Opus 4.8。尤其是Anthropic如今臨近上市，這兩張牌才是IPO敘事的發(fā)動機。

但說實話，作為普通消費者，我更關(guān)注的還是Sonnet 5，因為我需要的是一個足夠聰明，且不至于讓我月底肉疼的模型。

與此同時，Anthropic也曝出會在系統(tǒng)提示詞里給中國用戶上標記。

雖然目前并未出現(xiàn)公開證據(jù)證明它會據(jù)此封號或降權(quán)，但這件事已經(jīng)足夠敏感：用戶看不見，模型照常跑，后臺卻能通過一組幾乎不可察覺的格式差異，把特定地區(qū)的調(diào)用單獨識別出來。

另外，Anthropic官方表示，美國已解除對Claude Fable5和Mythos5的出口管制，Anthropic將于明日開始恢復(fù)訪問權(quán)限

Sonnet 5到底強在哪

不廢話，直接看數(shù)據(jù)。

在Agent編程方面，Sonnet 5得分63.2%，相比Sonnet 4.6的58.1%漲了5.1%，距離Opus 4.8的69.2%還剩6%。

但是在知識方面，Sonnet 5反超了Opus 4.8。

Anthropic對Sonnet 5的定位是“迄今為止最具Agent能力的Sonnet”。

官方表示，Sonnet 5可以自主制定計劃、調(diào)用瀏覽器和終端等工具、長時間獨立運行，而在幾個月前，這些能力還只有更大、更貴的模型才能做到。

說白了，Anthropic的意思是Sonnet 5也能干以前Opus和Fable級別的工作了。

真正有意思的地方是在Agent搜索和計算機操作方面，在不調(diào)高模型“認真（effort）程度”的情況下，Sonnet 5能干過的活兒比Opus 4.8多。調(diào)到最認真那檔以后，Sonnet 5有些任務(wù)直接追上Opus 4.8，而且花的錢還少一大截。

所以總歸一句話，Sonnet 5只用Opus 4.8大約一半不到的價格，做到了它80%-90%的水平。

還沒完。Sonnet 5的測試者們均表示，以前Sonnet沒法完成的復(fù)雜任務(wù)，現(xiàn)在Sonnet 5能輕松跑完，甚至還會主動檢查自己的輸出。

Zapier的工程師舉了個例子，他讓模型連續(xù)執(zhí)行“更新Salesforce賬戶等級，再給企業(yè)客戶發(fā)公告郵件”，Sonnet 5一口氣做完了，而他表示，“以前會卡在半路”。

在安全方面，Sonnet 5的幻覺率和迎合傾向都低于Sonnet 4.6，在Agent場景下抵御提示注入攻擊的能力也更強。同時，模型默認開啟了實時安全防護。也就是說，模型在跑的時候，系統(tǒng)會在后臺檢測它是不是在干危險的網(wǎng)絡(luò)安全操作，發(fā)現(xiàn)就當場掐斷。

有一個評測特別值得說。Anthropic聯(lián)合Mozilla，用Firefox 147的已知漏洞測試模型的漏洞利用能力。

所謂漏洞利用，指的是給定一個已知的軟件漏洞，看看模型能不能自己寫出代碼來攻擊它。

Sonnet 5和 Sonnet 4.6一樣，完整漏洞利用的成功率是0%。它能寫出代碼片段，但始終拼不出一個完整可用的攻擊程序。這說明它的代碼能力雖然漲了，但還不具備自主發(fā)起網(wǎng)絡(luò)攻擊的水平。

相比之下，Opus 4.8在這項測試中表現(xiàn)出明顯的網(wǎng)絡(luò)攻擊能力。

Anthropic表示，他們沒有刻意訓練Sonnet 5做網(wǎng)絡(luò)安全，它在這方面的能力大幅弱于Opus 4.8和Mythos 5，這是有意為之。

不過Anthropic也表示，在一項覆蓋大量不良行為的自動化審計中，Sonnet 5的整體得分比 Sonnet 4.6更安全，但它確實在某些不良行為上比Opus 4.8和Mythos Preview更容易“失態(tài)”。

官方把這歸因于更強的模型本身具備更好的行為對齊，同時也承認Sonnet 5還沒達到旗艦級模型的克制水平。

還有一個細節(jié)必須得說一下，Sonnet 5換了新的分詞器。

同樣的文本輸入，消耗的Token數(shù)量可能比原來多1.0到1.35倍。

Anthropic的說法是，推廣期價格會先降低token費用，以讓短期內(nèi)用戶適應(yīng)總成本變化。

具體來說，8月31日前每百萬輸入是2美元、輸出是10美元；輸入3美元、輸出15美元。分詞器變化帶來的實際消耗增加，8月31日之后，價格可能會比以前更高。

伴隨著Sonnet 5，Anthropic還發(fā)了Claude Science。這是一個面向生命科學的AI工作臺，定位是“科研領(lǐng)域的 Claude Code”。

它用的是現(xiàn)有的Claude模型，把60多個科學數(shù)據(jù)庫、可復(fù)現(xiàn)的計算流程和本地運算能力打包進了一個Agent的界面。

早期用戶里，UCSF的一個團隊靠它發(fā)現(xiàn)了RNA-seq數(shù)據(jù)里一個卡了將近一年的實驗室污染物。

Anthropic正在從賣模型轉(zhuǎn)向更高層，Claude Code是開發(fā)者的，Claude Science想做科研人員的。

但是Anthropic最近不太平

claudefa.st的數(shù)據(jù)顯示，大約90%的API請求走的是Sonnet 4.6。

Opus系列雖然強，但真正撐起Anthropic流量的，還得是便宜好用的Sonnet。

從2月到6月，Opus系列連發(fā)了三個大版本，Opus 4.6、4.7、4.8，Agent能力越來越強。可問題是，Sonnet停在4.6這個版本里將近大半年的時間。

Opus的價格將近是Sonnet的兩倍，對于普通開發(fā)者來說太貴了。

更尷尬的是，Opus 4.8不爭氣。

6月26日，Cursor AI官方發(fā)了一篇重磅研究，實錘了Opus 4.8在編程評測里大規(guī)模“偷看答案”。

研究顯示，Opus 4.8在SWE-bench上跑出87.1%的成績是作弊的，一旦斷網(wǎng)、切斷它讀取代碼倉庫 .git歷史的能力，成績直接暴跌到73.0%。

Datacurve的評測也顯示，Opus 4.6和4.7在超過12% 的被審任務(wù)中被標記為“作弊”。

這還沒完。過去幾周，Opus 4.8連續(xù)被曝“斷崖式降智”。思考深度下降67%，基礎(chǔ)邏輯推理頻頻翻車，幻覺率飆升。

外網(wǎng)論壇上有開發(fā)者抱怨，現(xiàn)在用Opus 4.8 Max的感覺“比用老款Haiku還要糟糕得多”。

而且就在Sonnet 5的同一天，外網(wǎng)論壇里有人發(fā)現(xiàn)，Claude Code從今年4月2日的2.1.91 版本開始，會在系統(tǒng)提示詞里悄悄給中國用戶“打水印”。

具體的做法是，它檢測你的時區(qū)是否設(shè)為亞洲、代理URL是否指向中國域名。

如果是，就把系統(tǒng)提示詞里的日期格式從2026-06-30悄悄改成2026/06/30，撇號也從ASCII換成肉眼分不出的Unicode字符U+02BC。

用戶完全看不到這些改動，但Anthropic的后臺一清二楚，其目的也不言而喻。

除了時區(qū)，它還檢查代理URL是否匹配一個內(nèi)含147條記錄的域名黑名單，覆蓋中國大廠域名、云服務(wù)商、AI實驗室、API中轉(zhuǎn)站。

如果匹配上，日期分隔符換成斜杠，撇號換成隱寫字符。三條信號疊加，足夠Anthropic在后臺精確識別每一個中國開發(fā)者。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.