henry 發自 凹非寺
量子位 | 公眾號 QbitAI
聰明人總能花最少的錢辦最好的事,AI也一樣。
就在大伙還在為Claude Fable 5兩倍于Opus 4.8的token單價發愁時,反轉來了——
不少開發者發現,把Fable 5的努力程度(effort)調到最低的low檔之后,模型不僅沒變弱,反而變得格外能打,token消耗也著實少了。
![]()
而且哪怕是最低檔位,它在SWE-bench Pro上的得分依然壓過Opus 4.8開到最強xhigh檔的成績——75.0對68.6。
![]()
(注:系統卡這組數據出自Mythos 5配置。Fable 5是加了安全分類器的公開版本,兩者權重相同,編碼任務基本不觸發分類器)
不過,開low檔省錢用好模型還只是故事的一半。
因為過去一天里,不少人發現,Fable 5的省錢未必只是因為開了low檔。
在一些實際任務中,它甚至能做到效果更好、速度更快,最后賬單還更便宜。
![]()
比如在GameBench的測試里,面對同一個蜘蛛吃蟲子的小游戲任務,Fable 5不僅生成速度更快,效果也更好,而最終成本反而低于Opus 4.8。
(左邊為Fable 5,右邊為Opus 4.8)
這下。事情就有意思了。
原本大家還在糾結Fable 5貴了一倍,現在卻發現,它不僅更強,很多時候甚至還更省。
貴是貴在單價上,省卻省在最后的賬單上,Fable5 low啟動!
![]()
貴的模型怎么更省錢
那么,為啥明明更貴的模型反而更省錢呢?
畢竟,Fable定價每百萬輸入token 10美元、輸出50美元,剛好是上一代旗艦Opus 4.8(5美元/25美元)的兩倍。
![]()
對此,Claude Code之父Boris Cherny在Threads上解釋了這筆賬:
Fable每token的價格確實是Opus的兩倍,但完成同一個任務平均用的token更少,因為它更聰明、更高效,在一些復雜任務上,Fable的實際花費反而低于Opus。
![]()
評論區也有網友表達了類似觀點:
目前觀察到的就是這樣,單任務token更少,糾錯動作更少,浪費的token也就更少。
![]()
換句話說,以前那些不夠聰明的Agent,總會在寫錯了再改、跑掛了重跑的過程中瘋狂燒token。
模型越笨,犯錯次數越多,你就得多付一輪token的錢。
而Fable 5砍掉的,恰恰就是這部分隱性成本。
比如,Fable 5在shortcut的電子表格任務測試中,Fable 5在所有effort檔位都跑贏了Opus 4.8,不僅回合數更少,整體完成速度還快了25%~30%。
![]()
再比如物理研究那條案例。
署名為Matthew Pines(CEO)的研究者表示,Fable 5是他們測過最強的前沿物理研究模型,僅用三分之一的推理token,就在36小時內跑到了GPT-5.5需要四天才能接近的位置。
![]()
當然,Fable比Opus更省更好也不是絕對的,具體還得看任務類型。
Reddit上也有網友反饋,在某些特定任務里,Fable確實會消耗更多token,但并沒有外界想象得那么夸張,很大程度上取決于上下文長度和任務規模。
如果任務本身不復雜,其他effort檔位甚至其他模型,也完全夠用。
![]()
其實官方公告里也悄悄提到了這一點。
![]()
Anthropic在發布文章中提到,Fable 5相比以往Claude模型擁有更高的token效率。
他們給出的證據來自Cognition的FrontierCode評測。這套評測考察的是模型能否在達到生產級代碼標準的前提下完成高難度任務,而Fable 5僅在medium檔位,就已經拿下了所有前沿模型中的第一名。
![]()
所以,這套定價的正確打開方式或許不是看每token多少錢,而是看每干完一個活多少錢。
按前者算,Fable 5確實貴了一倍。
但按后者算,在足夠復雜的任務上,它甚至可能比Opus還便宜。
不僅省,榜單這一塊也被Fable 5掃完了
如果說更低的任務成本還屬于見仁見智,那么過去一天多時間里各家評測榜單給出的結果就比較直接了:
Fable 5幾乎把能拿的第一都拿了一遍。
先看綜合能力。
在Artificial Analysis最新的智能指數中,Fable 5以64.9分排名第一,領先GPT-5.5約5分,榜單前兩名全部被Anthropic包攬。
![]()
在人類最后的測試(Humanity’s Last Exam)上,Fable 5拿到53%的成績,比第二名高出7個百分點以上。
![]()
再看Agent能力。
在arena.ai的Agent榜單上,Fable 5登頂榜首。
![]()
文本處理、網頁開發等場景依舊保持領先。
![]()
在FrontierCode上也是第一。
![]()
SimpleBench上的表現則已經逼近人類水平。
![]()
除此之外,編程能力可能是爭議最小的一項。
拋開Anthropic自己的數據之外,第三方評測機構TrueFoundry公布的結果顯示,在SWE-Bench Pro上,Fable 5以80.3%的成績拿到所有受測模型中的最高分,GPT-5.5在這一項上落后超過21個百分點。
![]()
Every的評測文章則給出了一個更直觀的數字。
在他們最難的Senior Engineer基準測試中,Fable 5獲得91分(滿分100分),已經接近參與測試的人類資深工程師水平區間;作為對比,Opus 4.8得63分,GPT-5.5得62分。
One more thing
不過,在把Fable 5默認調成low檔之前,還有兩件事值得注意。
第一,Fable 5帶著安全分類器上線。
涉及網絡安全、生物化學、模型蒸餾等敏感請求時,系統會自動切換到Opus 4.8回答,并按照Opus價格計費。Anthropic表示,這類情況觸發率不到5%的會話。
這也意味著,部分安全相關Benchmark上的成績,公開版本未必能夠完全復現。
第二,當前的免費使用窗口是限時的。
6月22日之前,Pro、Max、Team以及按席位計費的企業版用戶都可以直接使用Fable 5;從6月23日起,將開始消耗用量積分。Anthropic表示,等算力容量跟上之后,會重新恢復為訂閱權益。
另外,使用Fable 5需要開啟30天數據保留,以滿足安全監控要求。
[1]https://game-bench.piccini.app/
[2]https://www.threads.com/@boris_cherny/post/DZYShwtkiJS/fable-is-x-as-expensive-as-opus-per-token-but-uses-less-tokens-on-average-to-do/
[3]https://arena.ai/leaderboard
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.