網易首頁 > 網易號 > 正文申請入駐

剛剛 Claude Fable 5 炸裂發布！真是太燒了。。附一手實測，夯還是拉？

2026-06-10 12:50:53　來源: 程序員魚皮

上海舉報

分享至

大家好，我是程序員魚皮。

就在剛剛，Anthropic 發布了新一代模型 Claude Fable 5，同時還放出了一個面向專業安全人員的「解限版」叫 Claude Mythos 5。

官方把它稱為「神話級」模型，能力凌駕于之前的 Opus 系列之上。據說 Stripe 公司在自己 5000 萬行的 Ruby 代碼庫里測了一圈，一天就搞定了團隊原本要兩個月才能完成的遷移工作。

這篇文章我會先帶大家看看 Fable 5 到底更新了什么，然后上兩輪硬核實測，分別讓 Fable 5、Opus 4.8 和 GPT-5.5 同場競技，看看新模型的 AI 編程能力到底怎么樣。

友情提示，這次的測試成本有點高，希望大家心疼一下我的錢包，把這篇文章看到最后哦。

Claude Fable 5 更新了什么？ 1、一個模型，兩個名字

這次 Anthropic 同時放出了 Fable 5 和 Mythos 5，但它倆其實是 同一個底層模型，能力完全一樣。區別只在「安全護欄」的松緊程度上。

Fable 5 面向所有人，今天就能用。但加了一層安全分類器，遇到涉及網絡安全、生物化學或模型蒸餾（防止別人偷學能力去訓練競品）的請求時，會降級到 Opus 4.8 來回答你，并且給你一條提示。

Mythos 5 是把護欄拆掉的「完全體」，只發給 Anthropic 審核過的網絡安全機構和少數生物研究人員，普通人接觸不到。

關于 Fable 5 的降級機制，官方說平均不到 5% 的會話會觸發。但我測試使用 Fable 5 來寫文章的能力時，就觸發了安全過濾，直接被切換到了 Opus 4.8。

不是哥們，寫個文章哪里不安全了？！

肯定有朋友好奇，為什么這次更新不延續 Opus 系列，來個 Opus 4.9，而是直接跳到第 5 代？

因為它根本不是 Opus 這個級別的模型了，而是 Anthropic 內部一個更高的等級，叫 Mythos 級，能力直接碾壓 Opus。

有趣的是，Fable（寓言）這個詞本身就源自拉丁語 fabula，和希臘語的 Mythos（神話）是近親。

簡單來說，就是同一把刀，一把開了刃給專業人士，一把套了刀鞘發給大眾。

2、定價全球最貴

Claude Fable 5 和 Mythos 5 的定價是每百萬輸入 token 10 美元、輸出 50 美元。

聽起來你可能沒什么感覺，但是對比一下目前主流模型的價格，你就知道有多離譜了：

模型

輸入 / 輸出（每百萬 token）

總成本

DeepSeek V4

0.8

$1.2

Claude Opus 4.8

$30

GPT-5.5

$35

Claude Fable 5 50 $60

Fable 5 的總成本直接是 Opus 4.8 的兩倍、DeepSeek V4 的 50 倍，穩坐目前主流模型里最貴的位置。官方還特意強調了，這已經比之前的 Mythos Preview 便宜了一半多。

好家伙，便宜一半還是最貴的，以后的模型怕是普通人真的用不起了……

注意，官方說從今天到 6 月 22 號，Pro、Max、Team 這些套餐可以免費使用 Fable 5。但 6 月 23 號之后就要單獨花「用量積分」了，等產能上來再恢復。所以想白嫖體驗的，一定要利用好這兩周的窗口期。

3、跑分炸裂

每次新模型出來都得看看跑分。官方說 Fable 5 幾乎在所有測試過的基準上都是 SOTA，尤其在編程、知識工作、視覺、科學研究這幾個方向。而且 任務越長、越復雜，它領先得越多。

說實話我已經有點麻了，因為各家基本都說自己是 SOTA 最佳水平……

但這次 Fable 5 的成績，確實配得上「炸裂」兩個字。

挑幾個亮眼的數據說說：

SWE-bench Pro（Agent 編程能力）是 80.3%，遠超 GPT-5.5 的 58.6% 和 Opus 4.8 的 69.2%
FrontierCode（高質量編碼）是 29.3%，Opus 4.8 只有 13.4%，GPT-5.5 是 5.7%
視覺能力（GDPpdf 文檔推理）是 29.8%，GPT-5.5 是 24.9%，Opus 4.8 是 22.5%。官方讓 Fable 5 去玩寶可夢火紅版，純視覺就通關了。

好家伙，這是斷層式的提升啊！

不過跑分是一方面，好不好用還是得拿到真實項目里檢驗才知道。所以老規矩，我帶大家動手測一測，拿 Fable 5、Opus 4.8 和 GPT-5.5 同場競技。

正好 Cursor 第一時間就接入了 Fable 5，每次出新模型都能直接測試，方便得很。

我之前寫過一套免費開源的，里面有 Cursor 的保姆級實戰教程，感興趣的同學可以看看。

接下來我準備了兩輪實測。第一輪是讓 3 個模型一把梭同一個全棧項目；第二輪更硬核，讓它們重構 Claude Code 泄露的 50 多萬行源碼。

好了，我的錢包準備開始燒了。

實戰測評一、全棧項目一把梭

第一個測評，我選了一個有代表性的全棧項目來測模型的綜合編碼能力。

項目叫「TaskFlow 任務管理看板」，類似簡化版飛書看板，包含 7 個功能需求：用戶注冊登錄、三列看板拖拽、任務增刪改查、數據圖表面板、搜索篩選、暗色 / 亮色主題切換、響應式設計。技術棧是 React + TypeScript 前端 + Python FastAPI 后端 + SQLite 數據庫。

選這個項目的原因是它前后端都有、交互復雜度適中，能同時考察模型的 UI 審美、工程能力和功能完整度。

這次參賽的選手是 Claude Fable 5、Claude Opus 4.8 和 GPT-5.5。3 個模型使用完全相同的提示詞，全部開到 High thinking 檔位，全程零人工干預。

一段時間后，3 個模型都順利完成了任務，前后端都能正常運行起來。

先來看看它們各自做出來的效果。

Opus 4.8 的登錄頁是經典的居中卡片式，可以切換注冊和登錄 Tab，還貼心地把演示賬號密碼標在了頁面底部：

Opus 4.8 登錄頁

GPT-5.5 的風格就完全不同了，左邊一大塊全是文案宣傳，右邊才是登錄表單。符合我對 GPT 的刻板印象，喜歡在頁面上堆信息：

GPT-5.5 登錄頁

Fable 5 的登錄頁簡潔干凈，和 Opus 4.8 風格一致：

Fable 5 登錄頁

再來看看任務看板頁面。

Opus 4.8 的看板有點素，排版整齊，但沒什么背景色：

Opus 4.8 看板頁

GPT-5.5 直接把看板和數據面板合到了一個頁面，用最少的頁面完成最多的事。但是任務列的標題直接用了英文，細節上差了點兒意思：

GPT-5.5 看板+數據面板

Fable 5 的看板頁面中，狀態區分得很清晰，顏色比較豐富生動，任務卡片上的信息排布也更合理：

Fable 5 看板頁

再看看數據面板，Fable 5 做了環形圖、柱狀圖、折線圖，任務卡片通過圓弧元素增加了點綴感：

Fable 5 數據面板

Opus 4.8 的數據面板則比較樸素：

Opus 4.8 數據面板

深色模式下，Fable 5 的圖表配色很協調，整體效果是三個里最好的：

Fable 5 深色模式

Opus 4.8 的深色模式則中規中矩，沒什么硬傷，但也沒什么驚喜：

Opus 4.8 深色模式

GPT-5.5 的深色模式就差點兒意思了，一大片灰色：

GPT-5.5 深色模式

看完了 UI 效果，再來說說真正拉開差距的地方。

Fable 5 是三個里面唯一做到「零修改跑通」的。雖然三個模型最終都能把項目跑起來，但 Opus 4.8 和 GPT-5.5 或多或少需要修幾個小 Bug、補個缺失的文件、或者調一下依賴版本。而 Fable 5 代碼本身能一次通過 TypeScript 編譯、后端一次啟動成功、全部 API 測試一次通過，做到真正的開箱即用。

而且它的驗證方式是最硬核的，不僅用 curl 測了 API，還通過 CDP（Chrome DevTools Protocol）合成了真實的鼠標拖拽事件，在瀏覽器里實測了看板拖拽的持久化效果，驗證深度遠超其他模型。

綜合來看，Opus 4.8 架構分層最規范、UI 設計感也不錯，但有幾個小 Bug 需要修復才能跑起來。GPT-5.5 則是老樣子，做得快但做得糙，界面偏簡陋。Fable 5 的優勢主要體現在工程可靠性上，零缺陷、hooks 封裝干凈、驗證深度到位。這種「交付確定性」對效率的影響其實非常大，少一次來回調試可能就省了半小時。

實戰測評二、重構 Claude Code 源碼

第二輪測評才是這次的重頭戲。

官方反復強調，任務越長、越復雜，Fable 5 領先得越多。短平快的 demo 根本測不出代際差距，要測就得上真正的長程任務。

對了，前段時間 Claude Code 不是把自己 50 多萬行的源碼給泄露了嗎？

這份代碼是真正的工業級 Agent 架構，拿來做測試再合適不過了。

說干就干。具體做法是把泄露的 Claude Code 源碼包提供給模型，讓它自主分析里面的架構設計，然后從零重構一個能在終端實際運行的命令行 AI 編程助手「Yupi Code」。全程不需要人工干預，看它能不能一次搞定。

提示詞如下：

你是一個資深的 TypeScript 全棧工程師，精通 AI Agent 架構和命令行工具開發。

 claude-code-origin 目錄下是 Claude Code 泄露的部分源碼，包含完整的實現邏輯，但無法運行。

 你要先閱讀并理解這份源碼的核心設計，在此基礎上重構一個命令行 AI 編程助手「Yupi Code」，放到新目錄下。

 要求必須能實際運行，各項功能正常可用。

把三個模型生成的結果分別保存到不同的目錄，來看看它們各自的表現。

Opus 4.8 差在最后一公里

Opus 4.8 通過模擬 Mock Server 跑通了測試流程，自主驗證的層次最多。

但實際運行時需要 Anthropic 的 API Key，沒有 Key 就沒法使用：

不好意思，我沒有 Key。所以只能讓 AI 幫我復用本地 Claude Code 的配置，再修復一遍。

修復完成后我又試了試，給我逗樂了。

且不說界面風格跟原裝 Claude Code 有明顯區別（注意看那個輸入框），AI 輸出的內容都不能正確顯示，拉了：

GPT-5.5 偷懶大師

GPT-5.5 完成任務的速度是 3 個模型里面最快的。

但問題來了，它生成完之后同樣需要 Anthropic 的 API Key 才能運行。哼，就這小子最會偷懶了，輸出信息都比 Claude 精簡很多：

沒有 Key 運行不了，所以我讓 AI 復用本地 Claude Code 的配置再試試。

雖然能夠正常對話，但是這個界面也太簡陋了吧，不愧是偷懶大師：

讓它讀取個本地文件，結果直接報錯了，GG：

Fable 5 開箱即用

Fable 5 直接讀取到了我本地的 Claude 配置，使用了我之前配置好的 DeepSeek 國產模型，不需要 Anthropic 的 API Key。

試了一下，體驗跟 Claude Code 幾乎一模一樣！能夠普通對話、Agent 模式和工具調用，功能全部正常，一次交付就能用，不需要任何二次修復。

哈哈，咱也是開發過 Claude Code 的人了，簡歷上又多了濃墨重彩的一筆~

開發過程對比

看完了最終效果，我又新開了一個對話，讓 AI 幫我分析幾個模型各自完成任務的對話記錄，看看開發過程到底有什么不同。

最關鍵的發現是，Claude Fable 5 是唯一做了 PTY 終端交互式測試的模型。

Opus 4.8 雖然寫了最多的測試，但所有驗證都在非交互環境下進行，從來沒有在真實終端里驗證過交互效果。結果到用戶手里，輸出顯示就出了問題。

Fable 5 雖然沒有寫 mock 測試套件，但它做了 Opus 沒做的事情，用 PTY 在真實終端里反復調試交互（用 script 命令模擬 PTY，驗證 /help、/cost、權限對話框、寫文件全流程）。它花了大量輪次調通了 PTY 下回車鍵 \r → \n 的問題，修復了 API 協議 Bug，這些投入最終換來了最好的用戶體驗。

這給了我一個很重要的啟發。「AI 自己測試通過」和「用戶實際能用」之間，隔著一個巨大的鴻溝。在 CLI 這種場景下，在真實環境中調通交互，遠比在隔離環境中跑測試更能保障最終質量。

費用對比

大家肯定很關心，這次測試到底燒了我多少米？

打開 Cursor 后臺一看，我的心在滴血啊！

三個模型的費用和 token 消耗明細如下：

模型

總費用

總 Token

GPT-5.5

$4.61

530.6 萬

Opus 4.8

$13.38

1685.5 萬

Fable 5 $38.66 2146.4 萬

Fable 5 的費用竟然是 Opus 的 3 倍、GPT-5.5 的 8 倍？！光這一個任務就花了我 200 多塊……

貴的原因主要是 thinking token 消耗巨大，而且大量輪次花在了 TUI 的交互調試上。不過反過來想，正是因為它愿意花這些輪次去調試真實環境里的交互效果，最終才成了唯一能交付可用產品的那個。

綜合數據對比

兩輪測評做完了，我讓 AI 幫我根據三個模型完成任務的全過程對話記錄和代碼產出，做了綜合的可視化分析。

先看幾個核心能力指標的柱狀圖。可以看到 Fable 5 在驗證深度和實測可用性上遙遙領先，Opus 4.8 在工程質量上略勝一籌，GPT-5.5 則全面墊底：

通過功能覆蓋矩陣，可以更直觀地看到差距。Fable 5 做了完整的 Ink TUI、上下文壓縮、自動復用本地配置這些其他模型都沒做的功能，而 GPT-5.5 連最基本的 Read 工具都報錯，功能嚴重缺失：

從架構理解、工程執行、驗證與可用性、開箱即用和性價比這五個維度來打分。Opus 4.8 在架構理解上最強，但 Fable 5 在驗證和開箱即用兩個維度上直接拉滿，形成了明顯的差異化優勢：

最終綜合評分，Claude Fable 5 以 8.3 分排名第一。它不是每項都最強，但光是「唯一能交付可用產品」這一條就壓過了其他模型。畢竟我們用 AI 編程，最終目的就是想省心地直接拿到能用的成果，而不是拿到一堆還需要自己修的半成品。

回頭看這三個模型的策略，其實很像一個經典的不可能三角。

速度、成本、質量，不可能三角。

GPT-5.5 選了速度和成本，結果不能用；Opus 4.8 選了代碼質量和成本，但驗證有盲區；Fable 5 選了質量和用戶體驗，代價就是貴。

當然，這只是我的一次測試，不代表普遍規律。但可見一斑，Fable 5 在「長程任務最終交付可用產品」這件事上，確實比上一代有質的飛躍。

結合這次測評，我可以給到大家一些模型選擇的建議。

如果你要做大規模重構、遷移這種又長又復雜的項目，選擇 Fable 5 最好，貴有貴的道理。但日常一把梭中小項目，Opus 4.8 的代碼質量高、架構完整，性價比明顯更高。GPT-5.5 雖然這次表現拉了，但它在終端自動化和命令行相關任務上的跑分還是領先的，適合追求速度的自動化任務。預算比較緊的話，用國產模型也完全可以應付大多數場景。

總之，別盲目追新，按你的真實需求來選。最貴的不一定最適合你。

最后嗶嗶

OK，測試就到這里。我覺得 Fable 5 這次的表現符合我對新一代模型的預期，AI 編程的能力在快速逼近「能獨立交付完整項目」的水平了，但這個價格，大多數人是真的用不起。到底值不值，得看你的時間和錢哪個更貴。

但其實這次測評給我印象最深的，不是 Fable 5 本身的實力，而是它背后的發布方式。

同一個模型，套上不同松緊的護欄，然后拆成通用版和解限版發給不同的人。遇到敏感問題時，不直接拒絕，而是降級到上一代模型來回答你。雖然之前也有模型限流時降級的例子，但像這樣從產品設計層面就把「分級釋放」做成核心機制，Anthropic 算是第一個這么干的。

我的判斷是，隨著模型能力越來越強，這種模式很可能會被越來越多的廠商抄作業。以后你用的那個「最新最強模型」，用著用著說不定就換成別的模型了。

作為用戶，至少我們得知道這件事。

我是魚皮，持續分享 AI 編程干貨。覺得有用的話記得點贊收藏和關注~

歡迎在評論區聊聊：你愿意為 Claude Fable 5 模型買單嗎？你覺得它是夯還是拉？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.