Fable 5 的殺手锏不是寫新代碼，是遷移、重構(gòu)、收拾爛攤子

2026-06-11 16:10:34　來源: InfoQ

北京舉報

分享至

作者 | Tina

“用了一天，有點失望。”

Claude Fable 5 發(fā)布后的第一批反饋里，這句話很能代表一種情緒：它當(dāng)然更強，也當(dāng)然更貴，但我們更期待的是那種讓人拍桌子的 aha moment。一個已經(jīng)被反復(fù)抬高預(yù)期的開發(fā)者，很容易在新模型面前產(chǎn)生這種落差：就這？而且這么貴？

但這種失望，可能也恰好說明了現(xiàn)在 Fable 5 的殺手锏場景，或許不是日常寫代碼。

1 榜單背書：發(fā)布一天，F(xiàn)able 5 登頂

Anthropic 遮遮掩掩兩個月的“神話” Mythos，終于在 6 月 10 日發(fā)布了。這一次，它把自家有史以來最強悍的大模型旗艦拆成了兩個版本：Claude Fable 5 與 Claude Mythos 5。

按照 Claude 官方的說法，F(xiàn)able 5 是一個“Mythos-class model”，也就是 Mythos 級別模型，但已經(jīng)被處理到足夠安全，可以面向普通用戶開放。官方還強調(diào)，這是 Anthropic 迄今為止向公眾開放過的最強模型，能力超過此前任何一個面向大眾可用的 Claude 模型。

Claude 官方還補充說：“在幾乎所有測試基準上都達到了 SOTA，尤其在軟件工程、知識工作、科學(xué)研究和視覺方面表現(xiàn)突出。任務(wù)越長越復(fù)雜，F(xiàn)able 5 領(lǐng)先其他模型的幅度就越大。”

翻譯成人話就是：這代模型不是用來聊天的，是用來干長活、干重活的。

昨天發(fā)布，今天就有第三方榜單跟進，F(xiàn)able 5 很快拿到了它該有的排面。

Arena.ai 最新的榜單中，F(xiàn)able 5 一舉登頂。

這份榜單把模型的智能體表現(xiàn)拆成五個維度來看。Fable 5 最突出的地方，恰恰落在其中兩個最接近真實使用體驗的指標上：一個是“用戶確認任務(wù)完成率”，達到 18.2%；另一個是“好評與投訴比”，達到 30.6%。

用 Arena.ai 的話說，F(xiàn)able 5 在這兩項指標上“以前所未有的優(yōu)勢領(lǐng)先于 Opus-4.8 和 GPT-5.5。”

這兩個指標比單純的跑分更值得注意，因為衡量的是在真實任務(wù)中，模型到底能不能把活干完，以及用戶是否認可它交付出來的結(jié)果。

再看單項能力，F(xiàn)able 5 也登上了 Code Arena 和 Text Arena 兩個榜單第一。尤其是在編碼相關(guān)評測中，它在前端對決中取得了 72% 的勝率，并最終拉開了 98 分的分差。

但榜單歸榜單，真實使用里還有另一種聲音：“用了一天，一個 aha moment 都沒用出來”。如果 Fable 5 只被當(dāng)作一個日常寫代碼的助手，它很可能永遠不會讓人覺得值回票價。既然如此，最該看的就不是跑分，而是有沒有真正讓人覺得值的案例。

2 一個更苛刻的場景出現(xiàn)了

有人直接把一個拖了幾個月都不想碰的重構(gòu)任務(wù)扔給了 Fable 5，要求它一次性搞定。更狠的是，這個倉庫連測試都沒有。對方只留下一句話：“這才是真正的測評。”

這種極端場景指向的，顯然不是日常寫代碼，而是軟件工程里那些真正的硬骨頭：長期拖延的重構(gòu)、沒人敢輕易動的舊倉庫、缺少測試保護的遺留系統(tǒng)，以及一旦改錯就可能牽出一串問題的復(fù)雜依賴。

雖然有不滿意的地方，但他的評價是“比任何模型更接近目標”。

官方給出的第一個典型案例，也是這個路數(shù)：Stripe 在一個 5000 萬行 Ruby 代碼庫中完成全庫遷移。這個工作如果讓工程團隊手動推進，原本要兩個多月，而 Fable 5 只用了一天。

Anthropic 還在官方介紹中聲稱 Fable 5 的 token 使用效率也高于以往的 Claude 模型：在 Cognition 的 FrontierCode 評測中，F(xiàn)able 5 即便只以中等推理強度運行，也在前沿模型中取得了最高分。FrontierCode 用來測試模型能否完成高難度編碼任務(wù)，同時達到高質(zhì)量生產(chǎn)級代碼庫的標準。

另一個案例來自一位偏后端的開發(fā)者。

他提到，像他這樣更偏后端的人，最近不得不認真學(xué)習(xí)什么才是好的前端代碼。原因是前端更容易被 vibe code，因為效果直接可見，界面能跑起來，代碼質(zhì)量卻可能更快滑坡，回歸問題也更容易進入結(jié)構(gòu)不好的代碼庫。React 看起來容易上手，但真正寫好它，需要很深的心智模型。

這一次，他把 Fable 5 用在了團隊里最老、最亂的一段 React 代碼上，做了一次 +5000/-5000 級別的重構(gòu)，理順了很多糾纏在一起的東西。

他的目標很簡單：把代碼清理干凈，然后看在更少引導(dǎo)的情況下，F(xiàn)able 5 自己會怎么做。

一開始，他讓 Fable 5 重構(gòu) $sessionId 頁面和根組件，直到它足夠干凈，并且控制在 500 行以內(nèi)。隨后，他又讓它重構(gòu) $taskId 頁面和根組件，同樣要求干凈，并控制在 500 行以內(nèi)。

接下來，他連續(xù)用了幾次非常短的提示詞：“make it cleaner”，也就是“讓它更干凈”。

也就是說，他不是一開始就給出完整重構(gòu)規(guī)范，而是先用“clean”“cleaner”這種模糊目標，觀察 Fable 5 的默認取向。

整個過程持續(xù)了大約兩個小時。他一邊瀏覽 diff，一邊每隔大約 20 分鐘排入更多消息，直到最后，隊列里一直保持大約 5 到 7 條指令。

在這個過程中，F(xiàn)able 5 確實理順了不少東西。他的總體評價是滿意，“總體來說，我非常滿意，之后還會繼續(xù)這樣用，也會把它用到技術(shù)棧的更多部分。”

而且從目前結(jié)果看，這個 diff 似乎沒有引入回歸問題，但他還在結(jié)合手動測試和瀏覽器自動化繼續(xù)驗證。

不過，他也提到，F(xiàn)able 5 做出的決定里，他大概認可 80%。另一些決定讓代碼變得更復(fù)雜。

比如，F(xiàn)able 5 引入了 React Context，隱藏了復(fù)雜性，但讓程序更難推理。它還做了一些看起來聰明的處理，比如用展開語法減少總行數(shù)，但并沒有真正減少或簡化底層數(shù)據(jù)結(jié)構(gòu)。

后面，他開始給出更明確的方向，例如移除不必要的 useEffect、減少 prop drilling，以及調(diào)整狀態(tài)管理方式。隨著重構(gòu)推進，他不斷根據(jù) diff 補充新的要求，讓 Fable 5 朝著自己認可的代碼結(jié)構(gòu)繼續(xù)演化。最后，他還讓 Fable 5 生成了一份可視化的重構(gòu)說明，用層級結(jié)構(gòu)展示整個改造過程，方便后續(xù)閱讀和審查。

有開發(fā)者對此評論說：“同意。今天我用它做了一些重構(gòu)，雖然過程中需要手動引導(dǎo)，但最終效果非常好。”

從零開始的能力

除了重構(gòu)，也有人把 Fable 5 拿來測試從零生成應(yīng)用的能力。

一位開發(fā)者說，他衡量新模型的一個標準，是看它能多準確地復(fù)刻自己日常使用的應(yīng)用和軟件。于是，在過去大約 20 個小時里，他不斷給 Fable 5 扔提示詞，想看看它從零開始到底能做到什么程度。

結(jié)果是，F(xiàn)able 5 做出了 Figma、Screen Studio、Obsidian 和 Notion 的高完成度克隆版本，視覺上幾乎可以做到逐像素接近。他的感受是，這次能力提升帶來的躍遷感，類似于 Opus 4.5 相比更早模型的那一跳。

更有意思的是，這些 demo 并不依賴復(fù)雜的提示工程。提示詞可以很基礎(chǔ)，但信息量很大，把需求、風(fēng)格、目標以及各種細節(jié)一次性塞進去，然后看 Fable 5 如何拆解、規(guī)劃并執(zhí)行。有人問他，做這些測試任務(wù)時，是不是有一套更復(fù)雜的 setup，還是簡單說一句“clone Notion”。他的回答是，提示詞基礎(chǔ)到有點不好意思，但確實有效。

比如他讓 Fable 5 做 Notion 克隆時，提示大意是：構(gòu)建一個 Notion 的克隆版，不要問我任何問題，盡你所能把它做得盡可能好，并且在每個維度上都盡量接近 Notion，尤其是設(shè)計。

這個 Notion demo 大約 30 分鐘一次生成完成，用的是 Fable 加 Devin。

https://x.com/dabit3/status/2064732712389227005

這類案例也指向了“個人軟件”的趨勢：無論是做一個熟悉工具的輕量替代品，還是改造現(xiàn)有工作流，門檻都在快速降低。他認為，很難再說個人軟件時代還沒有到來，而且接下來只會變得更容易、更快、更好、更便宜。

3 貴，也是真的貴

如果說前面的案例證明了 Fable 5 的能力，那么另一邊，早期用戶最集中的抱怨也很明確：它確實更強，但也確實更貴、更容易燒穿額度。

Fable 5 現(xiàn)在面向 Claude Pro、Max、Team 以及按席位計費的企業(yè)訂閱用戶開放，也可以通過 API、Microsoft Foundry、Amazon Bedrock 和 AWS 上的 Claude Platform 使用。按照 Anthropic 的定價，F(xiàn)able 5 的 API 價格是每百萬輸入 token 10 美元、每百萬輸出 token 50 美元。

更麻煩的是，當(dāng)前這套使用方式并不會一直持續(xù)。6 月 22 日之后，用戶訪問 Fable 5 需要消耗 usage credits。Anthropic 給出的解釋是容量限制。換句話說，這不是一個可以隨便拿來狂跑的模型，至少在當(dāng)前階段，它的成本和額度都會很快變成體驗的一部分。

社區(qū)里的早期反饋也基本圍繞這個矛盾展開：它更好，但燒得太快。

有人在 Hacker News 上說，F(xiàn)able 5 在 high 檔位下的結(jié)果，明顯好過 Opus 4.8 的 xhigh 檔位。他的體感是，F(xiàn)able 5 更聰明，雖然更貴，但效率也更高，還能找到一些 Opus 沒發(fā)現(xiàn)的 bug。Reddit 上也有人表達了類似看法，認為 Opus 4.7 和 4.8 里一些負面特征，在 Fable 5 上要么消失了，要么被控制住了。

真正讓用戶不爽的，是它的消耗速度。

在社區(qū)論壇里，一個正在形成的共識是：Fable 5 的可用窗口可能非常短。即便是被它能力驚艷到的用戶，也承認它燒額度的速度很快。有 Max20 計劃用戶說，自己看著使用量幾乎以每分鐘 2% 的速度上漲；作為對比，同樣類型的工作，他過去用 Opus 4.8 從來沒有接近過額度上限。

類似反饋還有不少。有人說，幾分鐘內(nèi)，自己的 5x Max 賬號從 0% 直接漲到 43%；也有人說，45 分鐘就燒完了整個 20x Max 計劃；還有人說，第一次測試 prompt 的五小時會話，就消耗掉了每周 Max 額度的 20%。

這也回到了開頭那種“沒有 aha moment”的落差：如果把 Fable 5 當(dāng)成一個日常 coding assistant，它可能很難讓所有人立刻覺得驚艷；但如果把它放進長程任務(wù)、復(fù)雜重構(gòu)、代碼遷移和個人軟件生成這些場景里，很多反饋就能解釋得通。

Fable 5 越強，越不該被拿去做低價值的小修小補。它真正適合的，是那些值得花錢、值得燒額度，也值得讓模型長時間跑下去的問題。

https://x.com/roerohan/status/2064795304306901399

https://x.com/dexhorthy/status/2064747631885398231

https://www.reddit.com/r/ClaudeAI/comments/1u1cvkc/fable_5_is_insanely_good_but_watch_your_usage_i/

會議推薦

AICon 上海站 Keynote 嘉賓已集齊！來自復(fù)旦、清華、螞蟻、阿里云等高校知名教授與頂尖專家集結(jié)！從多模態(tài)、大模型落地與 Token 服務(wù)維度，拆解大模型從 “會回答” 到 “能執(zhí)行” 的技術(shù)拐點。9 折倒計時最后一周，現(xiàn)在報名立減 580。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.