![]()
作者 | Tina
“用了一天,有點失望。”
Claude Fable 5 發(fā)布后的第一批反饋里,這句話很能代表一種情緒:它當(dāng)然更強,也當(dāng)然更貴,但我們更期待的是那種讓人拍桌子的 aha moment。一個已經(jīng)被反復(fù)抬高預(yù)期的開發(fā)者,很容易在新模型面前產(chǎn)生這種落差:就這?而且這么貴?
但這種失望,可能也恰好說明了現(xiàn)在 Fable 5 的殺手锏場景,或許不是日常寫代碼。
1 榜單背書:發(fā)布一天,F(xiàn)able 5 登頂
Anthropic 遮遮掩掩兩個月的“神話” Mythos,終于在 6 月 10 日發(fā)布了。這一次,它把自家有史以來最強悍的大模型旗艦拆成了兩個版本:Claude Fable 5 與 Claude Mythos 5。
按照 Claude 官方的說法,F(xiàn)able 5 是一個“Mythos-class model”,也就是 Mythos 級別模型,但已經(jīng)被處理到足夠安全,可以面向普通用戶開放。官方還強調(diào),這是 Anthropic 迄今為止向公眾開放過的最強模型,能力超過此前任何一個面向大眾可用的 Claude 模型。
Claude 官方還補充說:“在幾乎所有測試基準上都達到了 SOTA,尤其在軟件工程、知識工作、科學(xué)研究和視覺方面表現(xiàn)突出。任務(wù)越長越復(fù)雜,F(xiàn)able 5 領(lǐng)先其他模型的幅度就越大。”
翻譯成人話就是:這代模型不是用來聊天的,是用來干長活、干重活的。
![]()
昨天發(fā)布,今天就有第三方榜單跟進,F(xiàn)able 5 很快拿到了它該有的排面。
![]()
Arena.ai 最新的榜單中,F(xiàn)able 5 一舉登頂。
這份榜單把模型的智能體表現(xiàn)拆成五個維度來看。Fable 5 最突出的地方,恰恰落在其中兩個最接近真實使用體驗的指標上:一個是“用戶確認任務(wù)完成率”,達到 18.2%;另一個是“好評與投訴比”,達到 30.6%。
用 Arena.ai 的話說,F(xiàn)able 5 在這兩項指標上“以前所未有的優(yōu)勢領(lǐng)先于 Opus-4.8 和 GPT-5.5。”
![]()
這兩個指標比單純的跑分更值得注意,因為衡量的是在真實任務(wù)中,模型到底能不能把活干完,以及用戶是否認可它交付出來的結(jié)果。
再看單項能力,F(xiàn)able 5 也登上了 Code Arena 和 Text Arena 兩個榜單第一。尤其是在編碼相關(guān)評測中,它在前端對決中取得了 72% 的勝率,并最終拉開了 98 分的分差。
![]()
![]()
但榜單歸榜單,真實使用里還有另一種聲音:“用了一天,一個 aha moment 都沒用出來”。如果 Fable 5 只被當(dāng)作一個日常寫代碼的助手,它很可能永遠不會讓人覺得值回票價。既然如此,最該看的就不是跑分,而是有沒有真正讓人覺得值的案例。
2 一個更苛刻的場景出現(xiàn)了
有人直接把一個拖了幾個月都不想碰的重構(gòu)任務(wù)扔給了 Fable 5,要求它一次性搞定。更狠的是,這個倉庫連測試都沒有。對方只留下一句話:“這才是真正的測評。”
這種極端場景指向的,顯然不是日常寫代碼,而是軟件工程里那些真正的硬骨頭:長期拖延的重構(gòu)、沒人敢輕易動的舊倉庫、缺少測試保護的遺留系統(tǒng),以及一旦改錯就可能牽出一串問題的復(fù)雜依賴。
雖然有不滿意的地方,但他的評價是“比任何模型更接近目標”。
![]()
官方給出的第一個典型案例,也是這個路數(shù):Stripe 在一個 5000 萬行 Ruby 代碼庫中完成全庫遷移。這個工作如果讓工程團隊手動推進,原本要兩個多月,而 Fable 5 只用了一天。
Anthropic 還在官方介紹中聲稱 Fable 5 的 token 使用效率也高于以往的 Claude 模型:在 Cognition 的 FrontierCode 評測中,F(xiàn)able 5 即便只以中等推理強度運行,也在前沿模型中取得了最高分。FrontierCode 用來測試模型能否完成高難度編碼任務(wù),同時達到高質(zhì)量生產(chǎn)級代碼庫的標準。
![]()
另一個案例來自一位偏后端的開發(fā)者。
他提到,像他這樣更偏后端的人,最近不得不認真學(xué)習(xí)什么才是好的前端代碼。原因是前端更容易被 vibe code,因為效果直接可見,界面能跑起來,代碼質(zhì)量卻可能更快滑坡,回歸問題也更容易進入結(jié)構(gòu)不好的代碼庫。React 看起來容易上手,但真正寫好它,需要很深的心智模型。
這一次,他把 Fable 5 用在了團隊里最老、最亂的一段 React 代碼上,做了一次 +5000/-5000 級別的重構(gòu),理順了很多糾纏在一起的東西。
![]()
他的目標很簡單:把代碼清理干凈,然后看在更少引導(dǎo)的情況下,F(xiàn)able 5 自己會怎么做。
一開始,他讓 Fable 5 重構(gòu) $sessionId 頁面和根組件,直到它足夠干凈,并且控制在 500 行以內(nèi)。隨后,他又讓它重構(gòu) $taskId 頁面和根組件,同樣要求干凈,并控制在 500 行以內(nèi)。
接下來,他連續(xù)用了幾次非常短的提示詞:“make it cleaner”,也就是“讓它更干凈”。
也就是說,他不是一開始就給出完整重構(gòu)規(guī)范,而是先用“clean”“cleaner”這種模糊目標,觀察 Fable 5 的默認取向。
整個過程持續(xù)了大約兩個小時。他一邊瀏覽 diff,一邊每隔大約 20 分鐘排入更多消息,直到最后,隊列里一直保持大約 5 到 7 條指令。
![]()
在這個過程中,F(xiàn)able 5 確實理順了不少東西。他的總體評價是滿意,“總體來說,我非常滿意,之后還會繼續(xù)這樣用,也會把它用到技術(shù)棧的更多部分。”
而且從目前結(jié)果看,這個 diff 似乎沒有引入回歸問題,但他還在結(jié)合手動測試和瀏覽器自動化繼續(xù)驗證。
不過,他也提到,F(xiàn)able 5 做出的決定里,他大概認可 80%。另一些決定讓代碼變得更復(fù)雜。
比如,F(xiàn)able 5 引入了 React Context,隱藏了復(fù)雜性,但讓程序更難推理。它還做了一些看起來聰明的處理,比如用展開語法減少總行數(shù),但并沒有真正減少或簡化底層數(shù)據(jù)結(jié)構(gòu)。
后面,他開始給出更明確的方向,例如移除不必要的 useEffect、減少 prop drilling,以及調(diào)整狀態(tài)管理方式。隨著重構(gòu)推進,他不斷根據(jù) diff 補充新的要求,讓 Fable 5 朝著自己認可的代碼結(jié)構(gòu)繼續(xù)演化。最后,他還讓 Fable 5 生成了一份可視化的重構(gòu)說明,用層級結(jié)構(gòu)展示整個改造過程,方便后續(xù)閱讀和審查。
有開發(fā)者對此評論說:“同意。今天我用它做了一些重構(gòu),雖然過程中需要手動引導(dǎo),但最終效果非常好。”
![]()
從零開始的能力
除了重構(gòu),也有人把 Fable 5 拿來測試從零生成應(yīng)用的能力。
一位開發(fā)者說,他衡量新模型的一個標準,是看它能多準確地復(fù)刻自己日常使用的應(yīng)用和軟件。于是,在過去大約 20 個小時里,他不斷給 Fable 5 扔提示詞,想看看它從零開始到底能做到什么程度。
結(jié)果是,F(xiàn)able 5 做出了 Figma、Screen Studio、Obsidian 和 Notion 的高完成度克隆版本,視覺上幾乎可以做到逐像素接近。他的感受是,這次能力提升帶來的躍遷感,類似于 Opus 4.5 相比更早模型的那一跳。
更有意思的是,這些 demo 并不依賴復(fù)雜的提示工程。提示詞可以很基礎(chǔ),但信息量很大,把需求、風(fēng)格、目標以及各種細節(jié)一次性塞進去,然后看 Fable 5 如何拆解、規(guī)劃并執(zhí)行。有人問他,做這些測試任務(wù)時,是不是有一套更復(fù)雜的 setup,還是簡單說一句“clone Notion”。他的回答是,提示詞基礎(chǔ)到有點不好意思,但確實有效。
![]()
比如他讓 Fable 5 做 Notion 克隆時,提示大意是:構(gòu)建一個 Notion 的克隆版,不要問我任何問題,盡你所能把它做得盡可能好,并且在每個維度上都盡量接近 Notion,尤其是設(shè)計。
這個 Notion demo 大約 30 分鐘一次生成完成,用的是 Fable 加 Devin。
https://x.com/dabit3/status/2064732712389227005
這類案例也指向了“個人軟件”的趨勢:無論是做一個熟悉工具的輕量替代品,還是改造現(xiàn)有工作流,門檻都在快速降低。他認為,很難再說個人軟件時代還沒有到來,而且接下來只會變得更容易、更快、更好、更便宜。
3 貴,也是真的貴
如果說前面的案例證明了 Fable 5 的能力,那么另一邊,早期用戶最集中的抱怨也很明確:它確實更強,但也確實更貴、更容易燒穿額度。
Fable 5 現(xiàn)在面向 Claude Pro、Max、Team 以及按席位計費的企業(yè)訂閱用戶開放,也可以通過 API、Microsoft Foundry、Amazon Bedrock 和 AWS 上的 Claude Platform 使用。按照 Anthropic 的定價,F(xiàn)able 5 的 API 價格是每百萬輸入 token 10 美元、每百萬輸出 token 50 美元。
更麻煩的是,當(dāng)前這套使用方式并不會一直持續(xù)。6 月 22 日之后,用戶訪問 Fable 5 需要消耗 usage credits。Anthropic 給出的解釋是容量限制。換句話說,這不是一個可以隨便拿來狂跑的模型,至少在當(dāng)前階段,它的成本和額度都會很快變成體驗的一部分。
社區(qū)里的早期反饋也基本圍繞這個矛盾展開:它更好,但燒得太快。
有人在 Hacker News 上說,F(xiàn)able 5 在 high 檔位下的結(jié)果,明顯好過 Opus 4.8 的 xhigh 檔位。他的體感是,F(xiàn)able 5 更聰明,雖然更貴,但效率也更高,還能找到一些 Opus 沒發(fā)現(xiàn)的 bug。Reddit 上也有人表達了類似看法,認為 Opus 4.7 和 4.8 里一些負面特征,在 Fable 5 上要么消失了,要么被控制住了。
真正讓用戶不爽的,是它的消耗速度。
在社區(qū)論壇里,一個正在形成的共識是:Fable 5 的可用窗口可能非常短。即便是被它能力驚艷到的用戶,也承認它燒額度的速度很快。有 Max20 計劃用戶說,自己看著使用量幾乎以每分鐘 2% 的速度上漲;作為對比,同樣類型的工作,他過去用 Opus 4.8 從來沒有接近過額度上限。
![]()
類似反饋還有不少。有人說,幾分鐘內(nèi),自己的 5x Max 賬號從 0% 直接漲到 43%;也有人說,45 分鐘就燒完了整個 20x Max 計劃;還有人說,第一次測試 prompt 的五小時會話,就消耗掉了每周 Max 額度的 20%。
這也回到了開頭那種“沒有 aha moment”的落差:如果把 Fable 5 當(dāng)成一個日常 coding assistant,它可能很難讓所有人立刻覺得驚艷;但如果把它放進長程任務(wù)、復(fù)雜重構(gòu)、代碼遷移和個人軟件生成這些場景里,很多反饋就能解釋得通。
Fable 5 越強,越不該被拿去做低價值的小修小補。它真正適合的,是那些值得花錢、值得燒額度,也值得讓模型長時間跑下去的問題。
https://x.com/roerohan/status/2064795304306901399
https://x.com/dexhorthy/status/2064747631885398231
https://www.reddit.com/r/ClaudeAI/comments/1u1cvkc/fable_5_is_insanely_good_but_watch_your_usage_i/
會議推薦
AICon 上海站 Keynote 嘉賓已集齊!來自復(fù)旦、清華、螞蟻、阿里云等高校知名教授與頂尖專家集結(jié)!從多模態(tài)、大模型落地與 Token 服務(wù)維度,拆解大模型從 “會回答” 到 “能執(zhí)行” 的技術(shù)拐點。9 折倒計時最后一周,現(xiàn)在報名立減 580。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.