无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Sonnet 5終于來了,然而Opus 4.8現(xiàn)在有點尷尬

0
分享至

文 | 字母AI

沉寂了小半年,Sonnet終于更新到5版本了。好消息,性能幾乎和Opus 4.8持平,壞消息,比以前成本高了,另外一個好消息,8月31日前token打折。

我知道,真正代表Anthropic技術(shù)天花板的是Fable 5和Opus 4.8。尤其是Anthropic如今臨近上市,這兩張牌才是IPO敘事的發(fā)動機。

但說實話,作為普通消費者,我更關(guān)注的還是Sonnet 5,因為我需要的是一個足夠聰明,且不至于讓我月底肉疼的模型。

與此同時,Anthropic也曝出會在系統(tǒng)提示詞里給中國用戶上標記。

雖然目前并未出現(xiàn)公開證據(jù)證明它會據(jù)此封號或降權(quán),但這件事已經(jīng)足夠敏感:用戶看不見,模型照常跑,后臺卻能通過一組幾乎不可察覺的格式差異,把特定地區(qū)的調(diào)用單獨識別出來。

另外,Anthropic官方表示,美國已解除對Claude Fable5和Mythos5的出口管制,Anthropic將于明日開始恢復(fù)訪問權(quán)限

Sonnet 5到底強在哪

不廢話,直接看數(shù)據(jù)。

在Agent編程方面,Sonnet 5得分63.2%,相比Sonnet 4.6的58.1%漲了5.1%,距離Opus 4.8的69.2%還剩6%。

但是在知識方面,Sonnet 5反超了Opus 4.8。


Anthropic對Sonnet 5的定位是“迄今為止最具Agent能力的Sonnet”。

官方表示,Sonnet 5可以自主制定計劃、調(diào)用瀏覽器和終端等工具、長時間獨立運行,而在幾個月前,這些能力還只有更大、更貴的模型才能做到。

說白了,Anthropic的意思是Sonnet 5也能干以前Opus和Fable級別的工作了。

真正有意思的地方是在Agent搜索和計算機操作方面,在不調(diào)高模型“認真(effort)程度”的情況下,Sonnet 5能干過的活兒比Opus 4.8多。調(diào)到最認真那檔以后,Sonnet 5有些任務(wù)直接追上Opus 4.8,而且花的錢還少一大截。

所以總歸一句話,Sonnet 5只用Opus 4.8大約一半不到的價格,做到了它80%-90%的水平。

還沒完。Sonnet 5的測試者們均表示,以前Sonnet沒法完成的復(fù)雜任務(wù),現(xiàn)在Sonnet 5能輕松跑完,甚至還會主動檢查自己的輸出。

Zapier的工程師舉了個例子,他讓模型連續(xù)執(zhí)行“更新Salesforce賬戶等級,再給企業(yè)客戶發(fā)公告郵件”,Sonnet 5一口氣做完了,而他表示,“以前會卡在半路”。

在安全方面,Sonnet 5的幻覺率和迎合傾向都低于Sonnet 4.6,在Agent場景下抵御提示注入攻擊的能力也更強。同時,模型默認開啟了實時安全防護。也就是說,模型在跑的時候,系統(tǒng)會在后臺檢測它是不是在干危險的網(wǎng)絡(luò)安全操作,發(fā)現(xiàn)就當場掐斷。

有一個評測特別值得說。Anthropic聯(lián)合Mozilla,用Firefox 147的已知漏洞測試模型的漏洞利用能力。

所謂漏洞利用,指的是給定一個已知的軟件漏洞,看看模型能不能自己寫出代碼來攻擊它。

Sonnet 5和 Sonnet 4.6一樣,完整漏洞利用的成功率是0%。它能寫出代碼片段,但始終拼不出一個完整可用的攻擊程序。這說明它的代碼能力雖然漲了,但還不具備自主發(fā)起網(wǎng)絡(luò)攻擊的水平。

相比之下,Opus 4.8在這項測試中表現(xiàn)出明顯的網(wǎng)絡(luò)攻擊能力。

Anthropic表示,他們沒有刻意訓練Sonnet 5做網(wǎng)絡(luò)安全,它在這方面的能力大幅弱于Opus 4.8和Mythos 5,這是有意為之。

不過Anthropic也表示,在一項覆蓋大量不良行為的自動化審計中,Sonnet 5的整體得分比 Sonnet 4.6更安全,但它確實在某些不良行為上比Opus 4.8和Mythos Preview更容易“失態(tài)”。

官方把這歸因于更強的模型本身具備更好的行為對齊,同時也承認Sonnet 5還沒達到旗艦級模型的克制水平。

還有一個細節(jié)必須得說一下,Sonnet 5換了新的分詞器。

同樣的文本輸入,消耗的Token數(shù)量可能比原來多1.0到1.35倍。

Anthropic的說法是,推廣期價格會先降低token費用,以讓短期內(nèi)用戶適應(yīng)總成本變化。

具體來說,8月31日前每百萬輸入是2美元、輸出是10美元;輸入3美元、輸出15美元。分詞器變化帶來的實際消耗增加,8月31日之后,價格可能會比以前更高。

伴隨著Sonnet 5,Anthropic還發(fā)了Claude Science。這是一個面向生命科學的AI工作臺,定位是“科研領(lǐng)域的 Claude Code”。

它用的是現(xiàn)有的Claude模型,把60多個科學數(shù)據(jù)庫、可復(fù)現(xiàn)的計算流程和本地運算能力打包進了一個Agent的界面。

早期用戶里,UCSF的一個團隊靠它發(fā)現(xiàn)了RNA-seq數(shù)據(jù)里一個卡了將近一年的實驗室污染物。

Anthropic正在從賣模型轉(zhuǎn)向更高層,Claude Code是開發(fā)者的,Claude Science想做科研人員的。

但是Anthropic最近不太平

claudefa.st的數(shù)據(jù)顯示,大約90%的API請求走的是Sonnet 4.6。

Opus系列雖然強,但真正撐起Anthropic流量的,還得是便宜好用的Sonnet。

從2月到6月,Opus系列連發(fā)了三個大版本,Opus 4.6、4.7、4.8,Agent能力越來越強。可問題是,Sonnet停在4.6這個版本里將近大半年的時間。

Opus的價格將近是Sonnet的兩倍,對于普通開發(fā)者來說太貴了。

更尷尬的是,Opus 4.8不爭氣。

6月26日,Cursor AI官方發(fā)了一篇重磅研究,實錘了Opus 4.8在編程評測里大規(guī)模“偷看答案”。

研究顯示,Opus 4.8在SWE-bench上跑出87.1%的成績是作弊的,一旦斷網(wǎng)、切斷它讀取代碼倉庫 .git歷史的能力,成績直接暴跌到73.0%。

Datacurve的評測也顯示,Opus 4.6和4.7在超過12% 的被審任務(wù)中被標記為“作弊”。

這還沒完。過去幾周,Opus 4.8連續(xù)被曝“斷崖式降智”。思考深度下降67%,基礎(chǔ)邏輯推理頻頻翻車,幻覺率飆升。

外網(wǎng)論壇上有開發(fā)者抱怨,現(xiàn)在用Opus 4.8 Max的感覺“比用老款Haiku還要糟糕得多”。

而且就在Sonnet 5的同一天,外網(wǎng)論壇里有人發(fā)現(xiàn),Claude Code從今年4月2日的2.1.91 版本開始,會在系統(tǒng)提示詞里悄悄給中國用戶“打水印”。


具體的做法是,它檢測你的時區(qū)是否設(shè)為亞洲、代理URL是否指向中國域名。

如果是,就把系統(tǒng)提示詞里的日期格式從2026-06-30悄悄改成2026/06/30,撇號也從ASCII換成肉眼分不出的Unicode字符U+02BC。

用戶完全看不到這些改動,但Anthropic的后臺一清二楚,其目的也不言而喻。

除了時區(qū),它還檢查代理URL是否匹配一個內(nèi)含147條記錄的域名黑名單,覆蓋中國大廠域名、云服務(wù)商、AI實驗室、API中轉(zhuǎn)站。

如果匹配上,日期分隔符換成斜杠,撇號換成隱寫字符。三條信號疊加,足夠Anthropic在后臺精確識別每一個中國開發(fā)者。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
姆巴佩表演凌波微步!詹俊嘆服:太快 像是藍色幻影 對手只能看戲

姆巴佩表演凌波微步!詹俊嘆服:太快 像是藍色幻影 對手只能看戲

風過鄉(xiāng)
2026-07-01 06:40:54
到初中后,不管學校有多近,最好還是接送一下

到初中后,不管學校有多近,最好還是接送一下

好爸育兒
2026-06-30 14:33:05
烏克蘭的天快要塌了!澤連斯基連夜發(fā)出的求救信號

烏克蘭的天快要塌了!澤連斯基連夜發(fā)出的求救信號

叒女紫121
2026-07-01 09:16:40
蜘蛛俠人偶“射出”白色物質(zhì)!荷蘭弟贊達亞看后秒懂笑翻

蜘蛛俠人偶“射出”白色物質(zhì)!荷蘭弟贊達亞看后秒懂笑翻

動物奇奇怪怪
2026-06-30 19:34:39
馬斯克力挺遭歐洲封殺的電影:好萊塢不希望你看到

馬斯克力挺遭歐洲封殺的電影:好萊塢不希望你看到

移光幻影
2026-06-30 08:31:30
全新一代寶馬X5正式發(fā)布,xDrive40版本高清圖來了

全新一代寶馬X5正式發(fā)布,xDrive40版本高清圖來了

阿芒娛樂說
2026-07-01 12:17:16
她和楊紫是同學,畢業(yè)就嫁給了導演李雪,26歲就兒女雙全了!

她和楊紫是同學,畢業(yè)就嫁給了導演李雪,26歲就兒女雙全了!

西樓知趣雜談
2026-06-30 21:21:58
國家出手僅3天,謝娜再迎噩耗,終究是遭到了跨界撈金的反噬

國家出手僅3天,謝娜再迎噩耗,終究是遭到了跨界撈金的反噬

蕭鑟科普解說
2026-07-01 10:57:28
2026年6月銷量榜:比亞迪月銷超50萬輛,小米汽車交付突破3萬

2026年6月銷量榜:比亞迪月銷超50萬輛,小米汽車交付突破3萬

娛樂圈的筆娛君
2026-07-01 11:01:37
寶馬汽車銷售公司因造謠小米被處罰40萬元!

寶馬汽車銷售公司因造謠小米被處罰40萬元!

鞭牛士
2026-06-30 18:49:28
伊朗隊啟程回國,美國安全部長哼歌慶祝,稱伊朗被淘汰很開心,伊朗外長:美國不配主辦國際賽事

伊朗隊啟程回國,美國安全部長哼歌慶祝,稱伊朗被淘汰很開心,伊朗外長:美國不配主辦國際賽事

極目新聞
2026-07-01 07:02:51
巴薩還要被馬競坑多少次才長記性

巴薩還要被馬競坑多少次才長記性

莫地方
2026-07-01 00:35:03
韓媒:韓國男足潰不成軍,洪明甫與克林斯曼卻卷走了超100億韓元

韓媒:韓國男足潰不成軍,洪明甫與克林斯曼卻卷走了超100億韓元

新殺豬的秀才
2026-07-01 00:51:42
阿媒:斯卡洛尼仍在勞塔羅和阿爾瓦雷斯之間猶豫

阿媒:斯卡洛尼仍在勞塔羅和阿爾瓦雷斯之間猶豫

懂球帝
2026-07-01 10:34:17
德媒:格雷茨卡拒絕主罰點球,踢丟關(guān)鍵點球的塔此前從未罰過點

德媒:格雷茨卡拒絕主罰點球,踢丟關(guān)鍵點球的塔此前從未罰過點

懂球帝
2026-06-30 21:10:30
哈蘭德實話說:我真踢不動加時賽了;挪威對陣巴西勝算極其渺茫!

哈蘭德實話說:我真踢不動加時賽了;挪威對陣巴西勝算極其渺茫!

讓心靈得以棲息
2026-07-01 11:48:54
法國隊疑似內(nèi)訌!9000萬歐巨星全程無視德尚+拒絕握手 4場踢55分鐘

法國隊疑似內(nèi)訌!9000萬歐巨星全程無視德尚+拒絕握手 4場踢55分鐘

風過鄉(xiāng)
2026-07-01 10:56:57
上海30歲幼師跳河身亡!工作10年有編制,因兩家長吵架崩潰!

上海30歲幼師跳河身亡!工作10年有編制,因兩家長吵架崩潰!

阿傖說事
2026-07-01 10:04:49
四渡赤水打的是國民黨,電影《四渡》居然要和日本IP作戰(zhàn)……

四渡赤水打的是國民黨,電影《四渡》居然要和日本IP作戰(zhàn)……

影視口碑榜
2026-06-29 13:38:35
上海男籃極限操作!35歲劉錚續(xù)約2年,E類合同完美破解薪資難題

上海男籃極限操作!35歲劉錚續(xù)約2年,E類合同完美破解薪資難題

夕落秋山
2026-07-01 12:06:02
2026-07-01 13:32:49
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經(jīng)科技媒體
135933文章數(shù) 862360關(guān)注度
往期回顧 全部

科技要聞

美國放行,Anthropic兩款頂級模型將恢復(fù)

頭條要聞

日裔藤森慶子當選秘魯總統(tǒng) 專家:她無法遠離忽視中國

頭條要聞

日裔藤森慶子當選秘魯總統(tǒng) 專家:她無法遠離忽視中國

體育要聞

賣球衣救子的門將,把德國撲出了世界杯

娛樂要聞

羅晉大孤山素顏照,禿頂白發(fā)引熱議

財經(jīng)要聞

新氧貸款:宣傳年化15%,實際頂格24%

汽車要聞

交付持續(xù)攀升再破紀錄 零跑6月全球交付93376臺

態(tài)度原創(chuàng)

數(shù)碼
家居
健康
房產(chǎn)
公開課

數(shù)碼要聞

會是音頻硬件么?華碩ROG將推“神秘新品”

家居要聞

傳奇筑 日常詩

狂吃“糯嘰嘰”小心腸梗阻!

房產(chǎn)要聞

突發(fā)!萬億資本巨頭,悄悄殺入海棠灣!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版