大家好,我是程序員魚皮。
就在剛剛,Anthropic 發布了新一代模型 Claude Fable 5,同時還放出了一個面向專業安全人員的「解限版」叫 Claude Mythos 5。
![]()
官方把它稱為「神話級」模型,能力凌駕于之前的 Opus 系列之上。據說 Stripe 公司在自己 5000 萬行的 Ruby 代碼庫里測了一圈,一天就搞定了團隊原本要兩個月才能完成的遷移工作。
這篇文章我會先帶大家看看 Fable 5 到底更新了什么,然后上兩輪硬核實測,分別讓 Fable 5、Opus 4.8 和 GPT-5.5 同場競技,看看新模型的 AI 編程能力到底怎么樣。
友情提示,這次的測試成本有點高,希望大家心疼一下我的錢包,把這篇文章看到最后哦。
Claude Fable 5 更新了什么? 1、一個模型,兩個名字
這次 Anthropic 同時放出了 Fable 5 和 Mythos 5,但它倆其實是 同一個底層模型,能力完全一樣。區別只在「安全護欄」的松緊程度上。
Fable 5 面向所有人,今天就能用。但加了一層安全分類器,遇到涉及網絡安全、生物化學或模型蒸餾(防止別人偷學能力去訓練競品)的請求時,會降級到 Opus 4.8 來回答你,并且給你一條提示。
Mythos 5 是把護欄拆掉的「完全體」,只發給 Anthropic 審核過的網絡安全機構和少數生物研究人員,普通人接觸不到。
關于 Fable 5 的降級機制,官方說平均不到 5% 的會話會觸發。但我測試使用 Fable 5 來寫文章的能力時,就觸發了安全過濾,直接被切換到了 Opus 4.8。
不是哥們,寫個文章哪里不安全了?!
![]()
肯定有朋友好奇,為什么這次更新不延續 Opus 系列,來個 Opus 4.9,而是直接跳到第 5 代?
因為它根本不是 Opus 這個級別的模型了,而是 Anthropic 內部一個更高的等級,叫 Mythos 級,能力直接碾壓 Opus。
有趣的是,Fable(寓言)這個詞本身就源自拉丁語 fabula,和希臘語的 Mythos(神話)是近親。
簡單來說,就是同一把刀,一把開了刃給專業人士,一把套了刀鞘發給大眾。
2、定價全球最貴
Claude Fable 5 和 Mythos 5 的定價是每百萬輸入 token 10 美元、輸出 50 美元。
聽起來你可能沒什么感覺,但是對比一下目前主流模型的價格,你就知道有多離譜了:
模型
輸入 / 輸出(每百萬 token)
總成本
DeepSeek V4
0.8
$1.2
Claude Opus 4.8
25
$30
GPT-5.5
30
$35
Claude Fable 5 50 $60
Fable 5 的總成本直接是 Opus 4.8 的兩倍、DeepSeek V4 的 50 倍,穩坐目前主流模型里最貴的位置。官方還特意強調了,這已經比之前的 Mythos Preview 便宜了一半多。
好家伙,便宜一半還是最貴的,以后的模型怕是普通人真的用不起了……
注意,官方說從今天到 6 月 22 號,Pro、Max、Team 這些套餐可以免費使用 Fable 5。但 6 月 23 號之后就要單獨花「用量積分」了,等產能上來再恢復。所以想白嫖體驗的,一定要利用好這兩周的窗口期。
3、跑分炸裂
每次新模型出來都得看看跑分。官方說 Fable 5 幾乎在所有測試過的基準上都是 SOTA,尤其在編程、知識工作、視覺、科學研究這幾個方向。而且 任務越長、越復雜,它領先得越多。
說實話我已經有點麻了,因為各家基本都說自己是 SOTA 最佳水平……
但這次 Fable 5 的成績,確實配得上「炸裂」兩個字。
![]()
挑幾個亮眼的數據說說:
SWE-bench Pro(Agent 編程能力)是 80.3%,遠超 GPT-5.5 的 58.6% 和 Opus 4.8 的 69.2%
FrontierCode(高質量編碼)是 29.3%,Opus 4.8 只有 13.4%,GPT-5.5 是 5.7%
視覺能力(GDPpdf 文檔推理)是 29.8%,GPT-5.5 是 24.9%,Opus 4.8 是 22.5%。官方讓 Fable 5 去玩寶可夢火紅版,純視覺就通關了。
好家伙,這是斷層式的提升啊!
不過跑分是一方面,好不好用還是得拿到真實項目里檢驗才知道。所以老規矩,我帶大家動手測一測,拿 Fable 5、Opus 4.8 和 GPT-5.5 同場競技。
正好 Cursor 第一時間就接入了 Fable 5,每次出新模型都能直接測試,方便得很。
![]()
我之前寫過一套免費開源的 ,里面有 Cursor 的保姆級實戰教程,感興趣的同學可以看看。
![]()
接下來我準備了兩輪實測。第一輪是讓 3 個模型一把梭同一個全棧項目;第二輪更硬核,讓它們重構 Claude Code 泄露的 50 多萬行源碼。
好了,我的錢包準備開始燒了。
實戰測評一、全棧項目一把梭
第一個測評,我選了一個有代表性的全棧項目來測模型的綜合編碼能力。
項目叫「TaskFlow 任務管理看板」,類似簡化版飛書看板,包含 7 個功能需求:用戶注冊登錄、三列看板拖拽、任務增刪改查、數據圖表面板、搜索篩選、暗色 / 亮色主題切換、響應式設計。技術棧是 React + TypeScript 前端 + Python FastAPI 后端 + SQLite 數據庫。
選這個項目的原因是它前后端都有、交互復雜度適中,能同時考察模型的 UI 審美、工程能力和功能完整度。
這次參賽的選手是 Claude Fable 5、Claude Opus 4.8 和 GPT-5.5。3 個模型使用完全相同的提示詞,全部開到 High thinking 檔位,全程零人工干預。
一段時間后,3 個模型都順利完成了任務,前后端都能正常運行起來。
先來看看它們各自做出來的效果。
Opus 4.8 的登錄頁是經典的居中卡片式,可以切換注冊和登錄 Tab,還貼心地把演示賬號密碼標在了頁面底部:
![]()
Opus 4.8 登錄頁
GPT-5.5 的風格就完全不同了,左邊一大塊全是文案宣傳,右邊才是登錄表單。符合我對 GPT 的刻板印象,喜歡在頁面上堆信息:
![]()
GPT-5.5 登錄頁
Fable 5 的登錄頁簡潔干凈,和 Opus 4.8 風格一致:
![]()
Fable 5 登錄頁
再來看看任務看板頁面。
Opus 4.8 的看板有點素,排版整齊,但沒什么背景色:
![]()
Opus 4.8 看板頁
GPT-5.5 直接把看板和數據面板合到了一個頁面,用最少的頁面完成最多的事。但是任務列的標題直接用了英文,細節上差了點兒意思:
![]()
GPT-5.5 看板+數據面板
Fable 5 的看板頁面中,狀態區分得很清晰,顏色比較豐富生動,任務卡片上的信息排布也更合理:
![]()
Fable 5 看板頁
再看看數據面板,Fable 5 做了環形圖、柱狀圖、折線圖,任務卡片通過圓弧元素增加了點綴感:
![]()
Fable 5 數據面板
Opus 4.8 的數據面板則比較樸素:
![]()
Opus 4.8 數據面板
深色模式下,Fable 5 的圖表配色很協調,整體效果是三個里最好的:
![]()
Fable 5 深色模式
Opus 4.8 的深色模式則中規中矩,沒什么硬傷,但也沒什么驚喜:
![]()
Opus 4.8 深色模式
GPT-5.5 的深色模式就差點兒意思了,一大片灰色:
![]()
GPT-5.5 深色模式
看完了 UI 效果,再來說說真正拉開差距的地方。
Fable 5 是三個里面唯一做到「零修改跑通」的。雖然三個模型最終都能把項目跑起來,但 Opus 4.8 和 GPT-5.5 或多或少需要修幾個小 Bug、補個缺失的文件、或者調一下依賴版本。而 Fable 5 代碼本身能一次通過 TypeScript 編譯、后端一次啟動成功、全部 API 測試一次通過,做到真正的開箱即用。
而且它的驗證方式是最硬核的,不僅用 curl 測了 API,還通過 CDP(Chrome DevTools Protocol)合成了真實的鼠標拖拽事件,在瀏覽器里實測了看板拖拽的持久化效果,驗證深度遠超其他模型。
![]()
綜合來看,Opus 4.8 架構分層最規范、UI 設計感也不錯,但有幾個小 Bug 需要修復才能跑起來。GPT-5.5 則是老樣子,做得快但做得糙,界面偏簡陋。Fable 5 的優勢主要體現在工程可靠性上,零缺陷、hooks 封裝干凈、驗證深度到位。這種「交付確定性」對效率的影響其實非常大,少一次來回調試可能就省了半小時。
實戰測評二、重構 Claude Code 源碼
第二輪測評才是這次的重頭戲。
官方反復強調,任務越長、越復雜,Fable 5 領先得越多。短平快的 demo 根本測不出代際差距,要測就得上真正的長程任務。
對了,前段時間 Claude Code 不是把自己 50 多萬行的源碼給泄露了嗎?
這份代碼是真正的工業級 Agent 架構,拿來做測試再合適不過了。
說干就干。具體做法是把泄露的 Claude Code 源碼包提供給模型,讓它自主分析里面的架構設計,然后從零重構一個能在終端實際運行的命令行 AI 編程助手「Yupi Code」。全程不需要人工干預,看它能不能一次搞定。
提示詞如下:
你是一個資深的 TypeScript 全棧工程師,精通 AI Agent 架構和命令行工具開發。
claude-code-origin 目錄下是 Claude Code 泄露的部分源碼,包含完整的實現邏輯,但無法運行。
你要先閱讀并理解這份源碼的核心設計,在此基礎上重構一個命令行 AI 編程助手「Yupi Code」,放到新目錄下。要求必須能實際運行,各項功能正常可用。
把三個模型生成的結果分別保存到不同的目錄,來看看它們各自的表現。
Opus 4.8 差在最后一公里
Opus 4.8 通過模擬 Mock Server 跑通了測試流程,自主驗證的層次最多。
![]()
但實際運行時需要 Anthropic 的 API Key,沒有 Key 就沒法使用:
![]()
不好意思,我沒有 Key。所以只能讓 AI 幫我復用本地 Claude Code 的配置,再修復一遍。
修復完成后我又試了試,給我逗樂了。
且不說界面風格跟原裝 Claude Code 有明顯區別(注意看那個輸入框),AI 輸出的內容都不能正確顯示,拉了:
![]()
GPT-5.5 偷懶大師
GPT-5.5 完成任務的速度是 3 個模型里面最快的。
但問題來了,它生成完之后同樣需要 Anthropic 的 API Key 才能運行。哼,就這小子最會偷懶了,輸出信息都比 Claude 精簡很多:
![]()
沒有 Key 運行不了,所以我讓 AI 復用本地 Claude Code 的配置再試試。
雖然能夠正常對話,但是這個界面也太簡陋了吧,不愧是偷懶大師:
![]()
讓它讀取個本地文件,結果直接報錯了,GG:
![]()
Fable 5 開箱即用
Fable 5 直接讀取到了我本地的 Claude 配置,使用了我之前配置好的 DeepSeek 國產模型,不需要 Anthropic 的 API Key。
![]()
試了一下,體驗跟 Claude Code 幾乎一模一樣!能夠普通對話、Agent 模式和工具調用,功能全部正常,一次交付就能用,不需要任何二次修復。
![]()
哈哈,咱也是開發過 Claude Code 的人了,簡歷上又多了濃墨重彩的一筆~
開發過程對比
看完了最終效果,我又新開了一個對話,讓 AI 幫我分析幾個模型各自完成任務的對話記錄,看看開發過程到底有什么不同。
最關鍵的發現是,Claude Fable 5 是唯一做了 PTY 終端交互式測試的模型。
![]()
Opus 4.8 雖然寫了最多的測試,但所有驗證都在非交互環境下進行,從來沒有在真實終端里驗證過交互效果。結果到用戶手里,輸出顯示就出了問題。
Fable 5 雖然沒有寫 mock 測試套件,但它做了 Opus 沒做的事情,用 PTY 在真實終端里反復調試交互(用 script 命令模擬 PTY,驗證 /help、/cost、權限對話框、寫文件全流程)。它花了大量輪次調通了 PTY 下回車鍵 \r → \n 的問題,修復了 API 協議 Bug,這些投入最終換來了最好的用戶體驗。
這給了我一個很重要的啟發。「AI 自己測試通過」和「用戶實際能用」之間,隔著一個巨大的鴻溝。在 CLI 這種場景下,在真實環境中調通交互,遠比在隔離環境中跑測試更能保障最終質量。
費用對比
大家肯定很關心,這次測試到底燒了我多少米?
打開 Cursor 后臺一看,我的心在滴血啊!
![]()
三個模型的費用和 token 消耗明細如下:
模型
總費用
總 Token
GPT-5.5
$4.61
530.6 萬
Opus 4.8
$13.38
1685.5 萬
Fable 5 $38.66 2146.4 萬
Fable 5 的費用竟然是 Opus 的 3 倍、GPT-5.5 的 8 倍?!光這一個任務就花了我 200 多塊……
貴的原因主要是 thinking token 消耗巨大,而且大量輪次花在了 TUI 的交互調試上。不過反過來想,正是因為它愿意花這些輪次去調試真實環境里的交互效果,最終才成了唯一能交付可用產品的那個。
綜合數據對比
兩輪測評做完了,我讓 AI 幫我根據三個模型完成任務的全過程對話記錄和代碼產出,做了綜合的可視化分析。
![]()
先看幾個核心能力指標的柱狀圖。可以看到 Fable 5 在驗證深度和實測可用性上遙遙領先,Opus 4.8 在工程質量上略勝一籌,GPT-5.5 則全面墊底:
![]()
通過功能覆蓋矩陣,可以更直觀地看到差距。Fable 5 做了完整的 Ink TUI、上下文壓縮、自動復用本地配置這些其他模型都沒做的功能,而 GPT-5.5 連最基本的 Read 工具都報錯,功能嚴重缺失:
![]()
從架構理解、工程執行、驗證與可用性、開箱即用和性價比這五個維度來打分。Opus 4.8 在架構理解上最強,但 Fable 5 在驗證和開箱即用兩個維度上直接拉滿,形成了明顯的差異化優勢:
![]()
最終綜合評分,Claude Fable 5 以 8.3 分排名第一。它不是每項都最強,但光是「唯一能交付可用產品」這一條就壓過了其他模型。畢竟我們用 AI 編程,最終目的就是想省心地直接拿到能用的成果,而不是拿到一堆還需要自己修的半成品。
![]()
回頭看這三個模型的策略,其實很像一個經典的不可能三角。
速度、成本、質量,不可能三角。
GPT-5.5 選了速度和成本,結果不能用;Opus 4.8 選了代碼質量和成本,但驗證有盲區;Fable 5 選了質量和用戶體驗,代價就是貴。
當然,這只是我的一次測試,不代表普遍規律。但可見一斑,Fable 5 在「長程任務最終交付可用產品」這件事上,確實比上一代有質的飛躍。
結合這次測評,我可以給到大家一些模型選擇的建議。
如果你要做大規模重構、遷移這種又長又復雜的項目,選擇 Fable 5 最好,貴有貴的道理。但日常一把梭中小項目,Opus 4.8 的代碼質量高、架構完整,性價比明顯更高。GPT-5.5 雖然這次表現拉了,但它在終端自動化和命令行相關任務上的跑分還是領先的,適合追求速度的自動化任務。預算比較緊的話,用國產模型也完全可以應付大多數場景。
總之,別盲目追新,按你的真實需求來選。最貴的不一定最適合你。
最后嗶嗶
OK,測試就到這里。我覺得 Fable 5 這次的表現符合我對新一代模型的預期,AI 編程的能力在快速逼近「能獨立交付完整項目」的水平了,但這個價格,大多數人是真的用不起。到底值不值,得看你的時間和錢哪個更貴。
但其實這次測評給我印象最深的,不是 Fable 5 本身的實力,而是它背后的發布方式。
同一個模型,套上不同松緊的護欄,然后拆成通用版和解限版發給不同的人。遇到敏感問題時,不直接拒絕,而是降級到上一代模型來回答你。雖然之前也有模型限流時降級的例子,但像這樣從產品設計層面就把「分級釋放」做成核心機制,Anthropic 算是第一個這么干的。
我的判斷是,隨著模型能力越來越強,這種模式很可能會被越來越多的廠商抄作業。以后你用的那個「最新最強模型」,用著用著說不定就換成別的模型了。
作為用戶,至少我們得知道這件事。
我是魚皮,持續分享 AI 編程干貨。覺得有用的話記得點贊收藏和關注~
歡迎在評論區聊聊:你愿意為 Claude Fable 5 模型買單嗎?你覺得它是夯還是拉?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.