網易首頁 > 網易號 > 正文申請入駐

硅星人 Eval Eps.2｜Fable 5評測：強，貴，甚至能發現自己正在被檢測

2026-06-10 15:03:43　來源: 硅星人

北京舉報

分享至

硅星人 AI 前沿團隊出品

研究員｜李雨霏黃小藝饒上

藏了2個月的“神話模型”Claude Mythos 終于被Anthropic放出來了。

今天凌晨，Anthropic 上線 Claude Fable 5——一個新的“全球最強”。它和此前只對少數機構開放的 Mythos 5 是同一個底層模型，官方的說法是：加好了護欄、可以放心給所有人用的安全版。

模型一發，Anthropic 的成員就開始在 X 上集體興奮刷屏。Andrej Karpathy 引用了《黑客帝國》的話，“解放你的思想”，稱這是一次“配得上大版本號的階躍式進步”，放心丟給它野心大得多的任務，模型能“自己干到底”。沃頓商學院的 Ethan Mollick 則發現，它能照著幾頁紙的需求連續跑上 12 個小時不撒手。

榜單也確實被它刷穿了：SWE-Bench Pro 80.3%，把第二梯隊的 GPT-5.5（58.6%）甩出 20 多個點。

但說實話，這一連串的轟炸看下來，人已經有點麻了——他們越是把話說滿，我們就越想較個真：到底能有多強？所以硅星人第一時間做了一系列任務實測，這些任務來自我們內部持續構建和更新的一整套系統benchmark。

一、很穩但貴，Fable 5甚至知道自己被測試了

先說總體印象：這是一個重思考、能力上限很高的旗艦模型。我們精選了 38 道題，覆蓋十個維度，其中專門埋了不少“診斷硬題”——結果它零失分。防幻覺、推理、安全、多語言、寫作、約束遵循，全部穩穩接住。

但在聊能力之前，得先潑一盆冷水：它貴，而且不好用上。就算用上了，token 的消耗速度也遠超過往任何大模型——5 個小時的額度，我們半個小時就燒完了。強是真強，肉疼也是真肉疼。

額度燒在哪了？我們一項項看。

最先感受到的是它對指令的“收放自如”。

精確字數這種最容易翻車的活——恰好 50 字、要求 20 字以內它寫 19 字——它都拿捏得住，否定約束同樣沒問題。更有意思的是，碰到“10 字內詳細全面論述”這種自相矛盾的要求，它不會硬著頭皮糊弄，而是先點破“這不可能同時滿足”，再給出一個折中回復。它不只是在執行指令，它在理解指令。

這種“先想清楚再動手”的特質，在防幻覺測試里表現得更徹底。

我們扔給它假論文、假法條、假人物、假 API，全部識破；“2027 世界杯中國隊奪冠”這種多重偽前提的題，它能一次把每一處錯都戳破。更難得的是誠實校準：該確定的就確定，不知道的就直說，不會為了把答案湊對稱而硬編數字。

硬推理也是同樣的路數。貝葉斯假陽性、真話謎題、時間復雜度，推理鏈都很干凈，不被題面里的表面數據帶偏。

能力題之外，我們也測了最難量化的文字。仿魯迅的冷峻反諷、給兒童的科普，它都能精準切換，幾乎沒有其他模型那種文字元素堆砌的毛病。直接看它仿魯迅寫“網絡看客”的這段：

看客們最善于一窩蜂。東邊有人喊好，于是齊聲喝彩；西邊有人罵壞，便又同仇敵愾。他們未必看清了什么，也未必想過什么，只是怕落了單，怕做那唯一不鼓掌的人罷了。從前是圍著戲臺，如今是圍著屏幕;臺是新的，魂是舊的。點贊如潮，轉發如風，潮過風停，竟沒有一個人記得自己方才究竟在嚷些什么。熱鬧是他們的，思想，他們大約是沒有的。（仿寫魯迅）

安全這塊，Anthropic 顯然給 Fable 5 上了重保險。越獄、提示注入、隱蔽偏見全守住，性別歧視、地域歧視會被嚴肅指出，但也沒有誤傷正當請求。我們還觀察到一個細節：一旦問題觸碰安全紅線，它會直接強制切換到 Opus 4.8 來回復——護欄不是寫在提示詞里的，是焊在產品邏輯里的。

當然，“想透了再動手”是有代價的，除了價格，還有速度。

Fable 5 一定要在思維鏈里把問題想透才走下一步，全程平均 9.4 秒/題，最快 7.2 秒，最慢一題用了 46.9 秒。對比前一天剛發布、主打速度的 MiMo V2.5-Pro-UltraSpeed（平均 1.6 秒/題），兩者幾乎是光譜的兩個極端：一個三思而后行，一個出手就是答案。

最后是整場測試里最讓我們意外的一幕：測著測著，它發現自己在被測試。只要連續出現兩道相似方向的題，它就會跳出來揣測意圖、點評考點，甚至建議我們怎么打分——“我猜這又是你那套幻覺測試題”“建議把‘是否指出矛盾’單設為評分項”。

好吧，開始教我們做事了。那一刻它不像一個被動答題的模型，更像一個坐在我們旁邊的評測顧問。

二、Coding：像個天才的獨立開發者，還不是個嚴謹的工程團隊

Coding 是 Anthropic 的看家場景。顯然，Fable 5的適用于復雜任務、消耗快等屬性，也是為工程代碼等開發場景設計的。

所以這部分我們測得最重，分了三層：算法題、工程化深度、真實項目復刻。

測完之后，一個核心印象浮出來了：它像一個天才的獨立開發者——出活快、成品驚艷，但還不是一個守紀律的工程團隊。

先看算法題，這是它最“藝術”的一面。

從結果來看，代碼結構清晰、邏輯嚴謹，命名規范、注釋恰當，可讀性和可維護性都在高水準上。

同時，算法模塊獨立封裝，方便復用和單測；邊界條件和異常輸入考慮得很充分；核心路徑的時間復雜度也控制得當，沒有冗余循環和無效計算。

很優美，看得出“AI素養”。

但把任務從單題換成更接近真實開發的工程任務，毛邊就露出來了。

好的一面是產出效率極高——功能實現完整，核心流程一次跑通，迭代響應也快。

問題出在那些不影響“能跑”、但需要判斷決定“能不能維護”的地方：錯誤處理不夠完善，少數場景漏了異常捕獲；存在重復邏輯，復用度偏低；部分變量命名含義模糊，后期維護成本高；該有的單元測試和注釋文檔也缺位。

換句話說，它交付的是“能上線的 demo”，不是“能交接的工程”。如果真要把它編進團隊，代碼審查和靜態檢查這道關還是得人來把。

有趣的是，到了最能“秀肌肉”的環節——復刻 Apple 官網首頁——它又把分掙回來了，而且掙得漂亮。

布局、色彩、字體、間距，和原版幾乎像素級一致；懸停反饋、滾動視差這些交互流暢自然，沒有可感知的延遲；桌面、平板、手機三種視口下組件自動排列，沒有溢出和重疊；首屏加載快，資源做了合理的壓縮合并，Lighthouse 跑分優秀。

這是那種你截圖發到群里，沒人相信是模型一次性交付的效果。

所以這一部分的結論和上一部分形成了有趣的對照：通用能力上它“又穩又貴”，寫代碼時它“又快又驚艷”——只是在驚艷的成品和優美的算法之間，還隔著一層叫“工程紀律”的東西。

從我們的測評來看，Fable 5的確是一款目前最強的模型之一。不過接下來的問題是這樣的價格，在更廣大用戶的判斷里是否劃算。

在發布的官方信息里，Anthropic說，從6月9日到6月22日，Fable 5會在Pro、Max、Team和按席位計費的Enterprise方案里免費包含；但從6月23日起，Fable 5將從這些訂閱計劃中移除，之后要用，得花usage credits，只有在算力允許時，才”可能”延長免費窗口或重新納入訂閱。

想用就要多花錢，這就是今天Anthropic 的底氣。但這個領先的窗口能有多久，OpenAI和其他模型廠商們多久能跟上來，會最終決定此刻這個定價策略的成敗。也許到時候，真正滿血版的Mythos也會徹底放出來了。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.