文 | 字母AI
沉寂了小半年,Sonnet終于更新到5版本了。好消息,性能幾乎和Opus 4.8持平,壞消息,比以前成本高了,另外一個好消息,8月31日前token打折。
我知道,真正代表Anthropic技術(shù)天花板的是Fable 5和Opus 4.8。尤其是Anthropic如今臨近上市,這兩張牌才是IPO敘事的發(fā)動機。
但說實話,作為普通消費者,我更關(guān)注的還是Sonnet 5,因為我需要的是一個足夠聰明,且不至于讓我月底肉疼的模型。
與此同時,Anthropic也曝出會在系統(tǒng)提示詞里給中國用戶上標記。
雖然目前并未出現(xiàn)公開證據(jù)證明它會據(jù)此封號或降權(quán),但這件事已經(jīng)足夠敏感:用戶看不見,模型照常跑,后臺卻能通過一組幾乎不可察覺的格式差異,把特定地區(qū)的調(diào)用單獨識別出來。
另外,Anthropic官方表示,美國已解除對Claude Fable5和Mythos5的出口管制,Anthropic將于明日開始恢復(fù)訪問權(quán)限
Sonnet 5到底強在哪
不廢話,直接看數(shù)據(jù)。
在Agent編程方面,Sonnet 5得分63.2%,相比Sonnet 4.6的58.1%漲了5.1%,距離Opus 4.8的69.2%還剩6%。
但是在知識方面,Sonnet 5反超了Opus 4.8。
![]()
Anthropic對Sonnet 5的定位是“迄今為止最具Agent能力的Sonnet”。
官方表示,Sonnet 5可以自主制定計劃、調(diào)用瀏覽器和終端等工具、長時間獨立運行,而在幾個月前,這些能力還只有更大、更貴的模型才能做到。
說白了,Anthropic的意思是Sonnet 5也能干以前Opus和Fable級別的工作了。
真正有意思的地方是在Agent搜索和計算機操作方面,在不調(diào)高模型“認真(effort)程度”的情況下,Sonnet 5能干過的活兒比Opus 4.8多。調(diào)到最認真那檔以后,Sonnet 5有些任務(wù)直接追上Opus 4.8,而且花的錢還少一大截。
所以總歸一句話,Sonnet 5只用Opus 4.8大約一半不到的價格,做到了它80%-90%的水平。
還沒完。Sonnet 5的測試者們均表示,以前Sonnet沒法完成的復(fù)雜任務(wù),現(xiàn)在Sonnet 5能輕松跑完,甚至還會主動檢查自己的輸出。
Zapier的工程師舉了個例子,他讓模型連續(xù)執(zhí)行“更新Salesforce賬戶等級,再給企業(yè)客戶發(fā)公告郵件”,Sonnet 5一口氣做完了,而他表示,“以前會卡在半路”。
在安全方面,Sonnet 5的幻覺率和迎合傾向都低于Sonnet 4.6,在Agent場景下抵御提示注入攻擊的能力也更強。同時,模型默認開啟了實時安全防護。也就是說,模型在跑的時候,系統(tǒng)會在后臺檢測它是不是在干危險的網(wǎng)絡(luò)安全操作,發(fā)現(xiàn)就當場掐斷。
有一個評測特別值得說。Anthropic聯(lián)合Mozilla,用Firefox 147的已知漏洞測試模型的漏洞利用能力。
所謂漏洞利用,指的是給定一個已知的軟件漏洞,看看模型能不能自己寫出代碼來攻擊它。
Sonnet 5和 Sonnet 4.6一樣,完整漏洞利用的成功率是0%。它能寫出代碼片段,但始終拼不出一個完整可用的攻擊程序。這說明它的代碼能力雖然漲了,但還不具備自主發(fā)起網(wǎng)絡(luò)攻擊的水平。
相比之下,Opus 4.8在這項測試中表現(xiàn)出明顯的網(wǎng)絡(luò)攻擊能力。
Anthropic表示,他們沒有刻意訓練Sonnet 5做網(wǎng)絡(luò)安全,它在這方面的能力大幅弱于Opus 4.8和Mythos 5,這是有意為之。
不過Anthropic也表示,在一項覆蓋大量不良行為的自動化審計中,Sonnet 5的整體得分比 Sonnet 4.6更安全,但它確實在某些不良行為上比Opus 4.8和Mythos Preview更容易“失態(tài)”。
官方把這歸因于更強的模型本身具備更好的行為對齊,同時也承認Sonnet 5還沒達到旗艦級模型的克制水平。
還有一個細節(jié)必須得說一下,Sonnet 5換了新的分詞器。
同樣的文本輸入,消耗的Token數(shù)量可能比原來多1.0到1.35倍。
Anthropic的說法是,推廣期價格會先降低token費用,以讓短期內(nèi)用戶適應(yīng)總成本變化。
具體來說,8月31日前每百萬輸入是2美元、輸出是10美元;輸入3美元、輸出15美元。分詞器變化帶來的實際消耗增加,8月31日之后,價格可能會比以前更高。
伴隨著Sonnet 5,Anthropic還發(fā)了Claude Science。這是一個面向生命科學的AI工作臺,定位是“科研領(lǐng)域的 Claude Code”。
它用的是現(xiàn)有的Claude模型,把60多個科學數(shù)據(jù)庫、可復(fù)現(xiàn)的計算流程和本地運算能力打包進了一個Agent的界面。
早期用戶里,UCSF的一個團隊靠它發(fā)現(xiàn)了RNA-seq數(shù)據(jù)里一個卡了將近一年的實驗室污染物。
Anthropic正在從賣模型轉(zhuǎn)向更高層,Claude Code是開發(fā)者的,Claude Science想做科研人員的。
但是Anthropic最近不太平
claudefa.st的數(shù)據(jù)顯示,大約90%的API請求走的是Sonnet 4.6。
Opus系列雖然強,但真正撐起Anthropic流量的,還得是便宜好用的Sonnet。
從2月到6月,Opus系列連發(fā)了三個大版本,Opus 4.6、4.7、4.8,Agent能力越來越強。可問題是,Sonnet停在4.6這個版本里將近大半年的時間。
Opus的價格將近是Sonnet的兩倍,對于普通開發(fā)者來說太貴了。
更尷尬的是,Opus 4.8不爭氣。
6月26日,Cursor AI官方發(fā)了一篇重磅研究,實錘了Opus 4.8在編程評測里大規(guī)模“偷看答案”。
研究顯示,Opus 4.8在SWE-bench上跑出87.1%的成績是作弊的,一旦斷網(wǎng)、切斷它讀取代碼倉庫 .git歷史的能力,成績直接暴跌到73.0%。
Datacurve的評測也顯示,Opus 4.6和4.7在超過12% 的被審任務(wù)中被標記為“作弊”。
這還沒完。過去幾周,Opus 4.8連續(xù)被曝“斷崖式降智”。思考深度下降67%,基礎(chǔ)邏輯推理頻頻翻車,幻覺率飆升。
外網(wǎng)論壇上有開發(fā)者抱怨,現(xiàn)在用Opus 4.8 Max的感覺“比用老款Haiku還要糟糕得多”。
而且就在Sonnet 5的同一天,外網(wǎng)論壇里有人發(fā)現(xiàn),Claude Code從今年4月2日的2.1.91 版本開始,會在系統(tǒng)提示詞里悄悄給中國用戶“打水印”。
![]()
具體的做法是,它檢測你的時區(qū)是否設(shè)為亞洲、代理URL是否指向中國域名。
如果是,就把系統(tǒng)提示詞里的日期格式從2026-06-30悄悄改成2026/06/30,撇號也從ASCII換成肉眼分不出的Unicode字符U+02BC。
用戶完全看不到這些改動,但Anthropic的后臺一清二楚,其目的也不言而喻。
除了時區(qū),它還檢查代理URL是否匹配一個內(nèi)含147條記錄的域名黑名單,覆蓋中國大廠域名、云服務(wù)商、AI實驗室、API中轉(zhuǎn)站。
如果匹配上,日期分隔符換成斜杠,撇號換成隱寫字符。三條信號疊加,足夠Anthropic在后臺精確識別每一個中國開發(fā)者。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.