无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

A社你解釋下,啥叫Sonnet 5比Fable 5還貴?

0
分享至

  • 克雷西 發自 凹非寺
    量子位 | 公眾號 QbitAI

剛剛,Claude又又又更新了。

但這次不是旗艦,Anthropic推出了新版性價比模型Sonnet 5。

A社把它定位成迄今為止“最能干活”的Sonnet,能自己規劃任務、調用瀏覽器和終端。

其跑分逼近自家最貴的Opus 4.8,價格卻只要后者的六成左右,著實一款“Opus平替”。



具體數字擺在那兒,其agentic coding跑分SWE-bench Pro 63.2%,比上一代Sonnet 4.6高出5個百分點。

標價則是跟4.6比一字不差,從發布會的口徑上看,能力漲了,價格沒漲。

真的沒漲……嗎?

開發者Simon Willison了件簡單的事,把同一段文字分別喂給新舊兩個模型計數。

結果發現,Sonnet 5雖然表面上價格一樣,但賬單上的Token消耗數字偷偷漲了三成。

好你個A÷,擱這玩起偷梁換柱那一套了。

“Opus平替”

Sonnet 5這次升級的重點,是Agentic能力的提升。

模型可以自己拆解任務、調用瀏覽器和終端這類工具,把一件多步驟的活一口氣干完,中間不掉鏈子,干完之后還會主動檢查一遍自己的輸出,不用人提醒。

跑分上能看到具體的臺階。

agentic coding測試SWE-bench Pro,Sonnet 5拿到63.2分,Sonnet 4.6是58.1分,Opus 4.8是69.2分,Sonnet 5站在兩代之間,離Opus只差6分。

computer use測試OSWorld-Verified,Sonnet 5是81.2%,Opus 4.8是83.4%,差距縮到2.2個百分點。

而在知識工作類測試GDPval-AA v2上,Sonnet 5拿到1618分,反而比Opus 4.8的1615分還高出3分。



早期用上這款模型的兩家公司給出的反饋印證了這一點。

AI編程平臺Factory的工程師Zimu Li說,Sonnet 5 給他們的智能體提供了一層扎實的執行能力,能在雜亂的技術環境里持續編碼、調用工具、排查問題,尤其適合那種需要長時間跟進、對技術細節要求高的工作流。

自動化平臺Zapier的工程師Daniel Shepard給了一個更具體的例子,他們交給Sonnet 5一項兩段式任務,先更新Salesforce里的客戶賬戶等級,再給企業客戶發一封產品上線公告郵件。

這種任務過去常??ㄔ谥虚g,比如賬戶等級改完了,公告卻沒發出去,或者反過來。這次Sonnet 5把兩段任務從頭跑到尾,沒有中途停下來等人接手。

Shepard的原話是,對日常自動化來說,這種模型不用多想就該用。



Anthropic同時公布的安全評估結果,跟這條主線是配套的。

Sonnet 5的幻覺率和諂媚傾向都比Sonnet 4.6低,在自主調用工具的場景下,Sonnet 5也更能抵抗提示詞注入這類劫持攻擊。



而且這組性能數字放在價格旁邊看,意味才顯出來。

Opus 4.8的標價是每百萬輸入/出Token要5/25美元,Sonnet 5則是3/15美元,只要Opus的六成左右,疊加8月底前的限時優惠則只要四成。

從賬面上看(記住這五個字,要考),性能夠到對方九成以上,價格卻只要四到六成,Sonnet 5實際上就是一款Opus平替。

Sonnet 5,真的更便宜嗎?

性能這條線講完了,價格這條線開始露出另一面。

Sonnet 5用了一套新的分詞器,也就是模型把文字切成Token的方式。

新的分詞器當中,同一段文字現在被切成了更多份Token,算下來的總費用自然就比以前高。

發現這一點的,是開發者Simon Willison。

他沒有停在官方那句“價格不變”上,轉頭拿自己寫的Token計數工具實測了幾份不同語言的真實文檔。

其中英文版,Sonnet 4.6算出2356個token,Sonnet 5算出3341個,漲了42%,西班牙語版漲了33%。

一份4279行的Python代碼,Token數則是從44014漲到56118,漲了27%。

唯獨簡體中文版幾乎沒動,從3334漲到3360,只多了1%。

同一次分詞器換代,對不同語言的影響差出去四十多個百分點,這個反差本身比漲價這件事更值得多看一眼。



把這幾個數字擺在一起,能看出“單價不變”這句話沒有說謊,但也沒有說全。

同樣一段英文文字現在要花掉的錢,比Sonnet 4.6時代多出四成多。

但這樣算下來,應該也比Opus便宜?結果很快就有開發者來打臉了。

這名開發者發現,實際運行當中,Sonnet的花費比Opus還貴。

跑一個Artificial Analysis Intelligent Index上的任務,Opus 4.8平均(加權)要花1.8美元,而Sonnet 5要2.29美元,多出了27%。



他進一步發現,對于同一個任務,Sonnet 5消耗的Token,竟然高達Opus的兩倍。



如果看跑完整個Benchmark的消耗,那Sonnet 5花的錢,比fable還多了6.8%。



幸好開發者手里有Token計數工具,能把這層差異精確量出來,這也是Willison這次能在發布當晚就把“隱藏式漲價”擺到桌面上的原因。

換成普通用戶,大概率只會在月底賬單上模糊地覺得“這個月怎么花得有點多”,中A÷的計了。

開發者應如何選擇?

把Sonnet 5“明降暗漲”這件事放回到整個行業里看,漲價這件事本身這兩年并不罕見,真正區別在于走哪條路。

OpenAI今年4月給GPT-5.5調價,走的是擺在臺面上那條路,直接把每百萬輸入/出Token的價格從2.5/15美元提到5/30,整整翻了一倍,誰打開價格頁都能看到這個數字變了。

Sonnet 5走的是另一條路,標價那一欄一個字沒動,漲幅藏在分詞器換代這層技術細節里,不主動去量就發現不了。

對要把工作流遷移到Sonnet 5的開發者來說,有一件事比記住“價格表變沒變”更有用,就是先拿自己真實的工作負載,用Token計數工具實測一遍,預估一下實際價格。

畢竟標價表只能告訴你單價,賬單才能告訴你這次升級到底要花多少錢。

那張被悄悄改寫的賬單,“Opus平替”其實是同一件事的兩面。

Sonnet 5確實用更低的價格換來了更接近Opus的能力,只是這次,“更低的價格”五個字背后,藏著一把換了刻度的尺子。

最后,還有開發者指出,把視線放大就會發現,并不是只有Claude一家可以選擇。

這名開發者發現,雖然Sonnet在A÷內部是個性價比之選,但智譜GLM-5.2的性能與Sonnet 5相差無幾。

而價格,GLM-5.2的輸入價格只有Sonnet 5的七成,輸出價格更是連一半都不到。



用這名開發者的話說,何必要花更多的錢買更少的東西呢?


[1]https://www.anthropic.com/news/claude-sonnet-5
[2]https://simonwillison.net/2026/Jun/30/claude-sonnet-5/
[3]https://x.com/theo/status/2072068395529576912
[4]https://x.com/0xSero/status/2072028529550832068

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
WTT大滿貫戰報,3-0,國乒首個八強誕生,孫穎莎遭遇不合理賽程

WTT大滿貫戰報,3-0,國乒首個八強誕生,孫穎莎遭遇不合理賽程

林子說事
2026-06-30 10:36:07
東方樹葉在懂茶的人眼中,怎么評價?網友:是正經茶葉但不高級

東方樹葉在懂茶的人眼中,怎么評價?網友:是正經茶葉但不高級

另子維愛讀史
2026-06-04 22:28:38
首位前8號種子出局!溫網首輪爆出大冷門,世界第8遭遇一輪游

首位前8號種子出局!溫網首輪爆出大冷門,世界第8遭遇一輪游

全景體育V
2026-07-01 05:21:28
俄鷹派敦促對烏進行核打擊,布達諾夫:你動核武器試試

俄鷹派敦促對烏進行核打擊,布達諾夫:你動核武器試試

史政先鋒
2026-06-27 21:48:03
曾經紅極一時,如今卻“淪為笑柄”的5種數碼產品,別跟風買了!

曾經紅極一時,如今卻“淪為笑柄”的5種數碼產品,別跟風買了!

家居設計師蘇哥
2026-06-28 12:25:28
很少看到日本人這么憤怒:強烈不滿,堅決抗議,即將進行反制!

很少看到日本人這么憤怒:強烈不滿,堅決抗議,即將進行反制!

阿龍聊軍事
2026-06-30 12:07:29
黎巴嫩真主黨真不經打:經營近二十年的博福特嶺,幾小時就陷落

黎巴嫩真主黨真不經打:經營近二十年的博福特嶺,幾小時就陷落

民間馬后炮
2026-06-29 01:51:44
世界杯頭號臥底!國米水貨全場隱身,曼聯王牌爆發都救不了!

世界杯頭號臥底!國米水貨全場隱身,曼聯王牌爆發都救不了!

瀾歸序
2026-07-01 04:44:54
中村敬斗:巴西和荷蘭球員常年在歐冠聯賽淬煉,自己也要提升水平

中村敬斗:巴西和荷蘭球員常年在歐冠聯賽淬煉,自己也要提升水平

云隱南山
2026-07-01 10:10:03
世界杯頭號奪冠熱門誕生!4連勝轟13球+創96年歷史,比阿根廷還猛

世界杯頭號奪冠熱門誕生!4連勝轟13球+創96年歷史,比阿根廷還猛

球場沒跑道
2026-07-01 07:58:47
給桑巴系上安全帶:安切洛蒂的巴西隊,少了華麗,多了生存本能

給桑巴系上安全帶:安切洛蒂的巴西隊,少了華麗,多了生存本能

體育硬核說
2026-07-01 01:21:46
東部格局大亂!熱火連簽兩大射手!輔佐字母哥!

東部格局大亂!熱火連簽兩大射手!輔佐字母哥!

柚子說球
2026-07-01 09:00:23
溫網冷門不斷已有17位種子出局!瓦林卡淚別賽場,小威笑著離開

溫網冷門不斷已有17位種子出局!瓦林卡淚別賽場,小威笑著離開

排球黃金眼
2026-07-01 09:01:02
大陸要動手抓人了,臺獨分子一個都別想跑

大陸要動手抓人了,臺獨分子一個都別想跑

一口娛樂
2026-06-30 13:27:46
雙方代表前往多哈,談判方式“重大倒退”,卡塔爾:美伊不會面對面會談

雙方代表前往多哈,談判方式“重大倒退”,卡塔爾:美伊不會面對面會談

環球網資訊
2026-07-01 06:32:07
深鐵集團正式“換帥”:黃力平出任董事長,曾表態支持萬科

深鐵集團正式“換帥”:黃力平出任董事長,曾表態支持萬科

券商中國
2026-07-01 07:31:33
月薪一萬美元在美國算什么水平?看完這筆生活賬,別再瞎換算了

月薪一萬美元在美國算什么水平?看完這筆生活賬,別再瞎換算了

墜入二次元的海洋
2026-06-30 00:26:17
3場5球!86分鐘隱身1秒絕殺封神,哈蘭德締造挪威足球28年奇跡

3場5球!86分鐘隱身1秒絕殺封神,哈蘭德締造挪威足球28年奇跡

體壇老球迷
2026-07-01 08:38:06
當伊朗革命衛隊走進歷史:第二個沙特誕生

當伊朗革命衛隊走進歷史:第二個沙特誕生

民間胡扯老哥
2026-07-01 07:32:21
我問了10個電車車主,得出一個結論:800V平臺真的沒啥用

我問了10個電車車主,得出一個結論:800V平臺真的沒啥用

少數派報告Report
2026-06-30 11:52:17
2026-07-01 10:51:00
量子位 incentive-icons
量子位
追蹤人工智能動態
12875文章數 176508關注度
往期回顧 全部

科技要聞

美國放行,Anthropic兩款頂級模型將恢復

頭條要聞

美伊雙方代表前往多哈 談判方式出現“重大倒退”

頭條要聞

美伊雙方代表前往多哈 談判方式出現“重大倒退”

體育要聞

德國足球,臉都不要了

娛樂要聞

羅晉大孤山素顏照,禿頂白發引熱議

財經要聞

新氧貸款:宣傳年化15%,實際頂格24%

汽車要聞

奇瑞風云A9探店 五個理由一定來看看

態度原創

數碼
教育
家居
手機
公開課

數碼要聞

下半年漲價第一槍打響!AMD顯卡漲價10%

教育要聞

UKCISA最新調查:英語考試選擇太多反成留學生的困擾?

家居要聞

傳奇筑 日常詩

手機要聞

谷歌Pixel 10等手機用戶反饋聲音異常、漏接電話等問題

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版