无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

剛剛 Claude Fable 5 炸裂發布!真是太燒了。。附一手實測,夯還是拉?

0
分享至

大家好,我是程序員魚皮。

就在剛剛,Anthropic 發布了新一代模型 Claude Fable 5,同時還放出了一個面向專業安全人員的「解限版」叫 Claude Mythos 5。


官方把它稱為「神話級」模型,能力凌駕于之前的 Opus 系列之上。據說 Stripe 公司在自己 5000 萬行的 Ruby 代碼庫里測了一圈,一天就搞定了團隊原本要兩個月才能完成的遷移工作。

這篇文章我會先帶大家看看 Fable 5 到底更新了什么,然后上兩輪硬核實測,分別讓 Fable 5、Opus 4.8 和 GPT-5.5 同場競技,看看新模型的 AI 編程能力到底怎么樣。

友情提示,這次的測試成本有點高,希望大家心疼一下我的錢包,把這篇文章看到最后哦。

Claude Fable 5 更新了什么? 1、一個模型,兩個名字

這次 Anthropic 同時放出了 Fable 5 和 Mythos 5,但它倆其實是 同一個底層模型,能力完全一樣。區別只在「安全護欄」的松緊程度上。

Fable 5 面向所有人,今天就能用。但加了一層安全分類器,遇到涉及網絡安全、生物化學或模型蒸餾(防止別人偷學能力去訓練競品)的請求時,會降級到 Opus 4.8 來回答你,并且給你一條提示。

Mythos 5 是把護欄拆掉的「完全體」,只發給 Anthropic 審核過的網絡安全機構和少數生物研究人員,普通人接觸不到。

關于 Fable 5 的降級機制,官方說平均不到 5% 的會話會觸發。但我測試使用 Fable 5 來寫文章的能力時,就觸發了安全過濾,直接被切換到了 Opus 4.8。

不是哥們,寫個文章哪里不安全了?!


肯定有朋友好奇,為什么這次更新不延續 Opus 系列,來個 Opus 4.9,而是直接跳到第 5 代?

因為它根本不是 Opus 這個級別的模型了,而是 Anthropic 內部一個更高的等級,叫 Mythos 級,能力直接碾壓 Opus。

有趣的是,Fable(寓言)這個詞本身就源自拉丁語 fabula,和希臘語的 Mythos(神話)是近親。

簡單來說,就是同一把刀,一把開了刃給專業人士,一把套了刀鞘發給大眾。

2、定價全球最貴

Claude Fable 5 和 Mythos 5 的定價是每百萬輸入 token 10 美元、輸出 50 美元。

聽起來你可能沒什么感覺,但是對比一下目前主流模型的價格,你就知道有多離譜了:

模型

輸入 / 輸出(每百萬 token)

總成本

DeepSeek V4

0.8

$1.2

Claude Opus 4.8

25

$30

GPT-5.5

30

$35

Claude Fable 5 50 $60

Fable 5 的總成本直接是 Opus 4.8 的兩倍、DeepSeek V4 的 50 倍,穩坐目前主流模型里最貴的位置。官方還特意強調了,這已經比之前的 Mythos Preview 便宜了一半多。

好家伙,便宜一半還是最貴的,以后的模型怕是普通人真的用不起了……

注意,官方說從今天到 6 月 22 號,Pro、Max、Team 這些套餐可以免費使用 Fable 5。但 6 月 23 號之后就要單獨花「用量積分」了,等產能上來再恢復。所以想白嫖體驗的,一定要利用好這兩周的窗口期。

3、跑分炸裂

每次新模型出來都得看看跑分。官方說 Fable 5 幾乎在所有測試過的基準上都是 SOTA,尤其在編程、知識工作、視覺、科學研究這幾個方向。而且 任務越長、越復雜,它領先得越多

說實話我已經有點麻了,因為各家基本都說自己是 SOTA 最佳水平……

但這次 Fable 5 的成績,確實配得上「炸裂」兩個字。


挑幾個亮眼的數據說說:

  • SWE-bench Pro(Agent 編程能力)是 80.3%,遠超 GPT-5.5 的 58.6% 和 Opus 4.8 的 69.2%

  • FrontierCode(高質量編碼)是 29.3%,Opus 4.8 只有 13.4%,GPT-5.5 是 5.7%

  • 視覺能力(GDPpdf 文檔推理)是 29.8%,GPT-5.5 是 24.9%,Opus 4.8 是 22.5%。官方讓 Fable 5 去玩寶可夢火紅版,純視覺就通關了。

好家伙,這是斷層式的提升啊!

不過跑分是一方面,好不好用還是得拿到真實項目里檢驗才知道。所以老規矩,我帶大家動手測一測,拿 Fable 5、Opus 4.8 和 GPT-5.5 同場競技。

正好 Cursor 第一時間就接入了 Fable 5,每次出新模型都能直接測試,方便得很。


我之前寫過一套免費開源的 ,里面有 Cursor 的保姆級實戰教程,感興趣的同學可以看看。


接下來我準備了兩輪實測。第一輪是讓 3 個模型一把梭同一個全棧項目;第二輪更硬核,讓它們重構 Claude Code 泄露的 50 多萬行源碼。

好了,我的錢包準備開始燒了。

實戰測評一、全棧項目一把梭

第一個測評,我選了一個有代表性的全棧項目來測模型的綜合編碼能力。

項目叫「TaskFlow 任務管理看板」,類似簡化版飛書看板,包含 7 個功能需求:用戶注冊登錄、三列看板拖拽、任務增刪改查、數據圖表面板、搜索篩選、暗色 / 亮色主題切換、響應式設計。技術棧是 React + TypeScript 前端 + Python FastAPI 后端 + SQLite 數據庫。

選這個項目的原因是它前后端都有、交互復雜度適中,能同時考察模型的 UI 審美、工程能力和功能完整度。

這次參賽的選手是 Claude Fable 5Claude Opus 4.8GPT-5.5。3 個模型使用完全相同的提示詞,全部開到 High thinking 檔位,全程零人工干預。

一段時間后,3 個模型都順利完成了任務,前后端都能正常運行起來。

先來看看它們各自做出來的效果。

Opus 4.8 的登錄頁是經典的居中卡片式,可以切換注冊和登錄 Tab,還貼心地把演示賬號密碼標在了頁面底部:


Opus 4.8 登錄頁

GPT-5.5 的風格就完全不同了,左邊一大塊全是文案宣傳,右邊才是登錄表單。符合我對 GPT 的刻板印象,喜歡在頁面上堆信息:


GPT-5.5 登錄頁

Fable 5 的登錄頁簡潔干凈,和 Opus 4.8 風格一致:


Fable 5 登錄頁

再來看看任務看板頁面。

Opus 4.8 的看板有點素,排版整齊,但沒什么背景色:


Opus 4.8 看板頁

GPT-5.5 直接把看板和數據面板合到了一個頁面,用最少的頁面完成最多的事。但是任務列的標題直接用了英文,細節上差了點兒意思:


GPT-5.5 看板+數據面板

Fable 5 的看板頁面中,狀態區分得很清晰,顏色比較豐富生動,任務卡片上的信息排布也更合理:


Fable 5 看板頁

再看看數據面板,Fable 5 做了環形圖、柱狀圖、折線圖,任務卡片通過圓弧元素增加了點綴感:


Fable 5 數據面板

Opus 4.8 的數據面板則比較樸素:


Opus 4.8 數據面板

深色模式下,Fable 5 的圖表配色很協調,整體效果是三個里最好的:


Fable 5 深色模式

Opus 4.8 的深色模式則中規中矩,沒什么硬傷,但也沒什么驚喜:


Opus 4.8 深色模式

GPT-5.5 的深色模式就差點兒意思了,一大片灰色:


GPT-5.5 深色模式

看完了 UI 效果,再來說說真正拉開差距的地方。

Fable 5 是三個里面唯一做到「零修改跑通」的。雖然三個模型最終都能把項目跑起來,但 Opus 4.8 和 GPT-5.5 或多或少需要修幾個小 Bug、補個缺失的文件、或者調一下依賴版本。而 Fable 5 代碼本身能一次通過 TypeScript 編譯、后端一次啟動成功、全部 API 測試一次通過,做到真正的開箱即用。

而且它的驗證方式是最硬核的,不僅用 curl 測了 API,還通過 CDP(Chrome DevTools Protocol)合成了真實的鼠標拖拽事件,在瀏覽器里實測了看板拖拽的持久化效果,驗證深度遠超其他模型。


綜合來看,Opus 4.8 架構分層最規范、UI 設計感也不錯,但有幾個小 Bug 需要修復才能跑起來。GPT-5.5 則是老樣子,做得快但做得糙,界面偏簡陋。Fable 5 的優勢主要體現在工程可靠性上,零缺陷、hooks 封裝干凈、驗證深度到位。這種「交付確定性」對效率的影響其實非常大,少一次來回調試可能就省了半小時。

實戰測評二、重構 Claude Code 源碼

第二輪測評才是這次的重頭戲。

官方反復強調,任務越長、越復雜,Fable 5 領先得越多。短平快的 demo 根本測不出代際差距,要測就得上真正的長程任務。

對了,前段時間 Claude Code 不是把自己 50 多萬行的源碼給泄露了嗎?

這份代碼是真正的工業級 Agent 架構,拿來做測試再合適不過了。

說干就干。具體做法是把泄露的 Claude Code 源碼包提供給模型,讓它自主分析里面的架構設計,然后從零重構一個能在終端實際運行的命令行 AI 編程助手「Yupi Code」。全程不需要人工干預,看它能不能一次搞定。

提示詞如下:

你是一個資深的 TypeScript 全棧工程師,精通 AI Agent 架構和命令行工具開發。

claude-code-origin 目錄下是 Claude Code 泄露的部分源碼,包含完整的實現邏輯,但無法運行。

你要先閱讀并理解這份源碼的核心設計,在此基礎上重構一個命令行 AI 編程助手「Yupi Code」,放到新目錄下。

要求必須能實際運行,各項功能正常可用。

把三個模型生成的結果分別保存到不同的目錄,來看看它們各自的表現。

Opus 4.8 差在最后一公里

Opus 4.8 通過模擬 Mock Server 跑通了測試流程,自主驗證的層次最多。


但實際運行時需要 Anthropic 的 API Key,沒有 Key 就沒法使用:


不好意思,我沒有 Key。所以只能讓 AI 幫我復用本地 Claude Code 的配置,再修復一遍。

修復完成后我又試了試,給我逗樂了。

且不說界面風格跟原裝 Claude Code 有明顯區別(注意看那個輸入框),AI 輸出的內容都不能正確顯示,拉了:


GPT-5.5 偷懶大師

GPT-5.5 完成任務的速度是 3 個模型里面最快的。

但問題來了,它生成完之后同樣需要 Anthropic 的 API Key 才能運行。哼,就這小子最會偷懶了,輸出信息都比 Claude 精簡很多:


沒有 Key 運行不了,所以我讓 AI 復用本地 Claude Code 的配置再試試。

雖然能夠正常對話,但是這個界面也太簡陋了吧,不愧是偷懶大師:


讓它讀取個本地文件,結果直接報錯了,GG:


Fable 5 開箱即用

Fable 5 直接讀取到了我本地的 Claude 配置,使用了我之前配置好的 DeepSeek 國產模型,不需要 Anthropic 的 API Key。


試了一下,體驗跟 Claude Code 幾乎一模一樣!能夠普通對話、Agent 模式和工具調用,功能全部正常,一次交付就能用,不需要任何二次修復。


哈哈,咱也是開發過 Claude Code 的人了,簡歷上又多了濃墨重彩的一筆~

開發過程對比

看完了最終效果,我又新開了一個對話,讓 AI 幫我分析幾個模型各自完成任務的對話記錄,看看開發過程到底有什么不同。

最關鍵的發現是,Claude Fable 5 是唯一做了 PTY 終端交互式測試的模型


Opus 4.8 雖然寫了最多的測試,但所有驗證都在非交互環境下進行,從來沒有在真實終端里驗證過交互效果。結果到用戶手里,輸出顯示就出了問題。

Fable 5 雖然沒有寫 mock 測試套件,但它做了 Opus 沒做的事情,用 PTY 在真實終端里反復調試交互(用 script 命令模擬 PTY,驗證 /help、/cost、權限對話框、寫文件全流程)。它花了大量輪次調通了 PTY 下回車鍵 \r\n 的問題,修復了 API 協議 Bug,這些投入最終換來了最好的用戶體驗。

這給了我一個很重要的啟發。「AI 自己測試通過」和「用戶實際能用」之間,隔著一個巨大的鴻溝。在 CLI 這種場景下,在真實環境中調通交互,遠比在隔離環境中跑測試更能保障最終質量。

費用對比

大家肯定很關心,這次測試到底燒了我多少米?

打開 Cursor 后臺一看,我的心在滴血啊!


三個模型的費用和 token 消耗明細如下:

模型

總費用

總 Token

GPT-5.5

$4.61

530.6 萬

Opus 4.8

$13.38

1685.5 萬

Fable 5 $38.66 2146.4 萬

Fable 5 的費用竟然是 Opus 的 3 倍、GPT-5.5 的 8 倍?!光這一個任務就花了我 200 多塊……

貴的原因主要是 thinking token 消耗巨大,而且大量輪次花在了 TUI 的交互調試上。不過反過來想,正是因為它愿意花這些輪次去調試真實環境里的交互效果,最終才成了唯一能交付可用產品的那個。

綜合數據對比

兩輪測評做完了,我讓 AI 幫我根據三個模型完成任務的全過程對話記錄和代碼產出,做了綜合的可視化分析。


先看幾個核心能力指標的柱狀圖。可以看到 Fable 5 在驗證深度和實測可用性上遙遙領先,Opus 4.8 在工程質量上略勝一籌,GPT-5.5 則全面墊底:


通過功能覆蓋矩陣,可以更直觀地看到差距。Fable 5 做了完整的 Ink TUI、上下文壓縮、自動復用本地配置這些其他模型都沒做的功能,而 GPT-5.5 連最基本的 Read 工具都報錯,功能嚴重缺失:


從架構理解、工程執行、驗證與可用性、開箱即用和性價比這五個維度來打分。Opus 4.8 在架構理解上最強,但 Fable 5 在驗證和開箱即用兩個維度上直接拉滿,形成了明顯的差異化優勢:


最終綜合評分,Claude Fable 5 以 8.3 分排名第一。它不是每項都最強,但光是「唯一能交付可用產品」這一條就壓過了其他模型。畢竟我們用 AI 編程,最終目的就是想省心地直接拿到能用的成果,而不是拿到一堆還需要自己修的半成品。


回頭看這三個模型的策略,其實很像一個經典的不可能三角。

速度、成本、質量,不可能三角。

GPT-5.5 選了速度和成本,結果不能用;Opus 4.8 選了代碼質量和成本,但驗證有盲區;Fable 5 選了質量和用戶體驗,代價就是貴。

當然,這只是我的一次測試,不代表普遍規律。但可見一斑,Fable 5 在「長程任務最終交付可用產品」這件事上,確實比上一代有質的飛躍。

結合這次測評,我可以給到大家一些模型選擇的建議。

如果你要做大規模重構、遷移這種又長又復雜的項目,選擇 Fable 5 最好,貴有貴的道理。但日常一把梭中小項目,Opus 4.8 的代碼質量高、架構完整,性價比明顯更高。GPT-5.5 雖然這次表現拉了,但它在終端自動化和命令行相關任務上的跑分還是領先的,適合追求速度的自動化任務。預算比較緊的話,用國產模型也完全可以應付大多數場景。

總之,別盲目追新,按你的真實需求來選。最貴的不一定最適合你。

最后嗶嗶

OK,測試就到這里。我覺得 Fable 5 這次的表現符合我對新一代模型的預期,AI 編程的能力在快速逼近「能獨立交付完整項目」的水平了,但這個價格,大多數人是真的用不起。到底值不值,得看你的時間和錢哪個更貴。

但其實這次測評給我印象最深的,不是 Fable 5 本身的實力,而是它背后的發布方式。

同一個模型,套上不同松緊的護欄,然后拆成通用版和解限版發給不同的人。遇到敏感問題時,不直接拒絕,而是降級到上一代模型來回答你。雖然之前也有模型限流時降級的例子,但像這樣從產品設計層面就把「分級釋放」做成核心機制,Anthropic 算是第一個這么干的。

我的判斷是,隨著模型能力越來越強,這種模式很可能會被越來越多的廠商抄作業。以后你用的那個「最新最強模型」,用著用著說不定就換成別的模型了。

作為用戶,至少我們得知道這件事。

我是魚皮,持續分享 AI 編程干貨。覺得有用的話記得點贊收藏和關注~

歡迎在評論區聊聊:你愿意為 Claude Fable 5 模型買單嗎?你覺得它是夯還是拉?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
這4個行業,已經發不出工資了!真的很嚴重了

這4個行業,已經發不出工資了!真的很嚴重了

細說職場
2026-06-13 14:08:51
世界杯預測:巴西 VS 摩洛哥,老對手相見,防平無冷門

世界杯預測:巴西 VS 摩洛哥,老對手相見,防平無冷門

旅行小狂徒
2026-06-13 16:53:31
特朗普:美軍打死委內瑞拉黑幫團伙“阿拉瓜火車”組織頭目;委內瑞拉代總統:“特朗普視我們為朋友”

特朗普:美軍打死委內瑞拉黑幫團伙“阿拉瓜火車”組織頭目;委內瑞拉代總統:“特朗普視我們為朋友”

大風新聞
2026-06-13 10:06:04
女子被婆婆和小姑子打住院,娘家人算賬,丈夫:誰讓她和我媽頂嘴

女子被婆婆和小姑子打住院,娘家人算賬,丈夫:誰讓她和我媽頂嘴

易玄
2026-06-12 11:05:19
貝克漢姆14歲女兒被曝,獨自去見哥嫂卻未如愿,“家庭矛盾難休”

貝克漢姆14歲女兒被曝,獨自去見哥嫂卻未如愿,“家庭矛盾難休”

譯言
2026-06-13 12:07:02
一場全民狂歡的背后,世界杯“走光”視頻瘋傳實為烏龍

一場全民狂歡的背后,世界杯“走光”視頻瘋傳實為烏龍

樂道足球C
2026-06-13 09:25:17
全網熱議的“弟弟要錢買800多的鼠標”事件,炸出多少精神貴族!

全網熱議的“弟弟要錢買800多的鼠標”事件,炸出多少精神貴族!

北緯的咖啡豆
2026-06-09 09:35:13
張鎮麟想幫上海男籃建立王朝,新疆欲續約勞森,張慶鵬重返天津

張鎮麟想幫上海男籃建立王朝,新疆欲續約勞森,張慶鵬重返天津

中國籃壇快訊
2026-06-13 19:24:41
齊達內力挺C羅:他說世界杯只有7場比賽,因為他就瞄準了決賽!

齊達內力挺C羅:他說世界杯只有7場比賽,因為他就瞄準了決賽!

體育閑話說
2026-06-13 11:53:49
不愧為前世界第一,朱雨玲火力全開3:0橫掃對手,強勢晉級八強

不愧為前世界第一,朱雨玲火力全開3:0橫掃對手,強勢晉級八強

楊哥乒乓
2026-06-13 06:39:26
主教練安切洛蒂確認:內馬爾無緣巴西隊世界杯首戰,預計下周恢復訓練

主教練安切洛蒂確認:內馬爾無緣巴西隊世界杯首戰,預計下周恢復訓練

環球網資訊
2026-06-13 08:56:16
要收網了?中方態度很明確,日本緊急赴華求和,突發變故高市傻眼

要收網了?中方態度很明確,日本緊急赴華求和,突發變故高市傻眼

健身狂人
2026-06-14 01:57:58
快訊!認了,菲律賓喊話中國了!

快訊!認了,菲律賓喊話中國了!

故事終將光明磊落
2026-06-13 09:07:31
梅西最后一場世界杯?阿足協主席打太極:不確定,真希望不是

梅西最后一場世界杯?阿足協主席打太極:不確定,真希望不是

徐觳解說
2026-06-13 10:17:49
來了,斯科特·福斯特被任命為尼克斯對陣馬刺NBA總決賽G5裁判長

來了,斯科特·福斯特被任命為尼克斯對陣馬刺NBA總決賽G5裁判長

好火子
2026-06-14 04:13:34
“沒腦子,但有錢”,男生考上川大火了,網友:這專業我無法支持

“沒腦子,但有錢”,男生考上川大火了,網友:這專業我無法支持

澤澤先生
2026-06-01 19:36:41
北京辦退休一句話|醫保要繳滿30年|延遲退休已動真格

北京辦退休一句話|醫保要繳滿30年|延遲退休已動真格

右耳遠聞
2026-06-11 17:07:38
丘天和嬌妻近照,最成功混血球員,打了9年CBA,妻子是中國人

丘天和嬌妻近照,最成功混血球員,打了9年CBA,妻子是中國人

大西體育
2026-06-13 08:38:12
王朝落幕!0-5慘案擊碎武漢五連冠神話,21歲上海青年軍神話!

王朝落幕!0-5慘案擊碎武漢五連冠神話,21歲上海青年軍神話!

童叔不飆車
2026-06-14 01:01:32
我敢打賭99%的男人會選綠衣服女孩做老婆,看腿型就知道

我敢打賭99%的男人會選綠衣服女孩做老婆,看腿型就知道

娛樂洞察點點
2026-04-21 00:47:32
2026-06-14 04:56:49
程序員魚皮 incentive-icons
程序員魚皮
一手科技資訊和編程干貨
150文章數 135關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

特朗普:美伊協議計劃周日簽署 霍爾木茲海峽立即開放

頭條要聞

特朗普:美伊協議計劃周日簽署 霍爾木茲海峽立即開放

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

時尚
數碼
教育
房產
游戲

夏天穿衣要杜絕土氣感!試試精致的小香風,優雅與俏皮并存

數碼要聞

綠聯推出DXP 6800/8800 Ultra NAS:雙萬兆雙雷電4,PCIe擴展

教育要聞

基礎不好建議避開的超恐怖院校。

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

LPL淘汰賽:就差一點,今天無奇跡!BLG五局戰勝WE,決賽見

無障礙瀏覽 進入關懷版