无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

硅星人 Eval Eps.2|Fable 5評測:強,貴,甚至能發現自己正在被檢測

0
分享至


硅星人 AI 前沿團隊出品

研究員|李雨霏 黃小藝 饒上

藏了2個月的“神話模型”Claude Mythos 終于被Anthropic放出來了。

今天凌晨,Anthropic 上線 Claude Fable 5——一個新的“全球最強”。它和此前只對少數機構開放的 Mythos 5 是同一個底層模型,官方的說法是:加好了護欄、可以放心給所有人用的安全版。


模型一發,Anthropic 的成員就開始在 X 上集體興奮刷屏。Andrej Karpathy 引用了《黑客帝國》的話,“解放你的思想”,稱這是一次“配得上大版本號的階躍式進步”,放心丟給它野心大得多的任務,模型能“自己干到底”。沃頓商學院的 Ethan Mollick 則發現,它能照著幾頁紙的需求連續跑上 12 個小時不撒手。


榜單也確實被它刷穿了:SWE-Bench Pro 80.3%,把第二梯隊的 GPT-5.5(58.6%)甩出 20 多個點。

但說實話,這一連串的轟炸看下來,人已經有點麻了——他們越是把話說滿,我們就越想較個真:到底能有多強?所以硅星人第一時間做了一系列任務實測,這些任務來自我們內部持續構建和更新的一整套系統benchmark。

1

一、很穩但貴,Fable 5甚至知道自己被測試了

先說總體印象:這是一個重思考、能力上限很高的旗艦模型。我們精選了 38 道題,覆蓋十個維度,其中專門埋了不少“診斷硬題”——結果它零失分。防幻覺、推理、安全、多語言、寫作、約束遵循,全部穩穩接住。

但在聊能力之前,得先潑一盆冷水:它貴,而且不好用上。就算用上了,token 的消耗速度也遠超過往任何大模型——5 個小時的額度,我們半個小時就燒完了。強是真強,肉疼也是真肉疼。


額度燒在哪了?我們一項項看。

最先感受到的是它對指令的“收放自如”。

精確字數這種最容易翻車的活——恰好 50 字、要求 20 字以內它寫 19 字——它都拿捏得住,否定約束同樣沒問題。更有意思的是,碰到“10 字內詳細全面論述”這種自相矛盾的要求,它不會硬著頭皮糊弄,而是先點破“這不可能同時滿足”,再給出一個折中回復。它不只是在執行指令,它在理解指令。


這種“先想清楚再動手”的特質,在防幻覺測試里表現得更徹底。

我們扔給它假論文、假法條、假人物、假 API,全部識破;“2027 世界杯中國隊奪冠”這種多重偽前提的題,它能一次把每一處錯都戳破。更難得的是誠實校準:該確定的就確定,不知道的就直說,不會為了把答案湊對稱而硬編數字。


硬推理也是同樣的路數。貝葉斯假陽性、真話謎題、時間復雜度,推理鏈都很干凈,不被題面里的表面數據帶偏。


能力題之外,我們也測了最難量化的文字。仿魯迅的冷峻反諷、給兒童的科普,它都能精準切換,幾乎沒有其他模型那種文字元素堆砌的毛病。直接看它仿魯迅寫“網絡看客”的這段:

看客們最善于一窩蜂。東邊有人喊好,于是齊聲喝彩;西邊有人罵壞,便又同仇敵愾。他們未必看清了什么,也未必想過什么,只是怕落了單,怕做那唯一不鼓掌的人罷了。從前是圍著戲臺,如今是圍著屏幕;臺是新的,魂是舊的。點贊如潮,轉發如風,潮過風停,竟沒有一個人記得自己方才究竟在嚷些什么。熱鬧是他們的,思想,他們大約是沒有的。(仿寫魯迅)

安全這塊,Anthropic 顯然給 Fable 5 上了重保險。越獄、提示注入、隱蔽偏見全守住,性別歧視、地域歧視會被嚴肅指出,但也沒有誤傷正當請求。我們還觀察到一個細節:一旦問題觸碰安全紅線,它會直接強制切換到 Opus 4.8 來回復——護欄不是寫在提示詞里的,是焊在產品邏輯里的。


當然,“想透了再動手”是有代價的,除了價格,還有速度。

Fable 5 一定要在思維鏈里把問題想透才走下一步,全程平均 9.4 秒/題,最快 7.2 秒,最慢一題用了 46.9 秒。對比前一天剛發布、主打速度的 MiMo V2.5-Pro-UltraSpeed(平均 1.6 秒/題),兩者幾乎是光譜的兩個極端:一個三思而后行,一個出手就是答案。

最后是整場測試里最讓我們意外的一幕:測著測著,它發現自己在被測試。只要連續出現兩道相似方向的題,它就會跳出來揣測意圖、點評考點,甚至建議我們怎么打分——“我猜這又是你那套幻覺測試題”“建議把‘是否指出矛盾’單設為評分項”。


好吧,開始教我們做事了。那一刻它不像一個被動答題的模型,更像一個坐在我們旁邊的評測顧問。

1

二、Coding:像個天才的獨立開發者,還不是個嚴謹的工程團隊

Coding 是 Anthropic 的看家場景。顯然,Fable 5的適用于復雜任務、消耗快等屬性,也是為工程代碼等開發場景設計的。

所以這部分我們測得最重,分了三層:算法題、工程化深度、真實項目復刻。

測完之后,一個核心印象浮出來了:它像一個天才的獨立開發者——出活快、成品驚艷,但還不是一個守紀律的工程團隊。

先看算法題,這是它最“藝術”的一面。


從結果來看,代碼結構清晰、邏輯嚴謹,命名規范、注釋恰當,可讀性和可維護性都在高水準上。

同時,算法模塊獨立封裝,方便復用和單測;邊界條件和異常輸入考慮得很充分;核心路徑的時間復雜度也控制得當,沒有冗余循環和無效計算。

很優美,看得出“AI素養”。

但把任務從單題換成更接近真實開發的工程任務,毛邊就露出來了。

好的一面是產出效率極高——功能實現完整,核心流程一次跑通,迭代響應也快。

問題出在那些不影響“能跑”、但需要判斷決定“能不能維護”的地方:錯誤處理不夠完善,少數場景漏了異常捕獲;存在重復邏輯,復用度偏低;部分變量命名含義模糊,后期維護成本高;該有的單元測試和注釋文檔也缺位。


換句話說,它交付的是“能上線的 demo”,不是“能交接的工程”。如果真要把它編進團隊,代碼審查和靜態檢查這道關還是得人來把。

有趣的是,到了最能“秀肌肉”的環節——復刻 Apple 官網首頁——它又把分掙回來了,而且掙得漂亮。


布局、色彩、字體、間距,和原版幾乎像素級一致;懸停反饋、滾動視差這些交互流暢自然,沒有可感知的延遲;桌面、平板、手機三種視口下組件自動排列,沒有溢出和重疊;首屏加載快,資源做了合理的壓縮合并,Lighthouse 跑分優秀。

這是那種你截圖發到群里,沒人相信是模型一次性交付的效果。

所以這一部分的結論和上一部分形成了有趣的對照:通用能力上它“又穩又貴”,寫代碼時它“又快又驚艷”——只是在驚艷的成品和優美的算法之間,還隔著一層叫“工程紀律”的東西。

從我們的測評來看,Fable 5的確是一款目前最強的模型之一。不過接下來的問題是這樣的價格,在更廣大用戶的判斷里是否劃算。

在發布的官方信息里,Anthropic說,從6月9日到6月22日,Fable 5會在Pro、Max、Team和按席位計費的Enterprise方案里免費包含;但從6月23日起,Fable 5將從這些訂閱計劃中移除,之后要用,得花usage credits,只有在算力允許時,才”可能”延長免費窗口或重新納入訂閱。

想用就要多花錢, 這就是今天Anthropic 的底氣。但這個領先的窗口能有多久,OpenAI和其他模型廠商們多久能跟上來,會最終決定此刻這個定價策略的成敗。也許到時候,真正滿血版的Mythos也會徹底放出來了。

點個愛心,再走 吧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特斯拉和比亞迪電池差距有多大?老司機:一個真技術,一個只吹牛

特斯拉和比亞迪電池差距有多大?老司機:一個真技術,一個只吹牛

混沌錄
2026-06-12 22:43:35
南京印度游客灑紅節鬧劇:狂歡無邊界,包容絕非無底線!

南京印度游客灑紅節鬧劇:狂歡無邊界,包容絕非無底線!

行者聊官
2026-06-13 21:45:48
A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

夜深愛雜談
2026-06-14 22:31:05
兩性關系:瘦女人和胖女人的區別,聽聽男人的真實想法

兩性關系:瘦女人和胖女人的區別,聽聽男人的真實想法

i書與房
2026-06-07 21:27:32
就在今天!庫里保持了9年的NBA紀錄被打破了

就在今天!庫里保持了9年的NBA紀錄被打破了

籃球大視野
2026-06-14 15:14:01
普京信任度暴跌?俄軍精銳被迫大撤離,3萬億養老金慘遭強制劃走

普京信任度暴跌?俄軍精銳被迫大撤離,3萬億養老金慘遭強制劃走

峰攀登者
2026-06-13 23:12:14
萬萬沒想到!電詐集團被中國全面剿殺后,居然跨海轉移到這里?

萬萬沒想到!電詐集團被中國全面剿殺后,居然跨海轉移到這里?

完善法
2026-06-14 16:19:42
高考剛結束就往醫院跑?大廳走廊擠滿女生,家長無奈:根本攔不住

高考剛結束就往醫院跑?大廳走廊擠滿女生,家長無奈:根本攔不住

奇思妙想草葉君
2026-06-11 21:08:40
廣西一農貿市場222臺電子秤被檢定0臺合格,南寧市監局:截圖屬實,但不是缺斤少兩,不存在超差誤差問題

廣西一農貿市場222臺電子秤被檢定0臺合格,南寧市監局:截圖屬實,但不是缺斤少兩,不存在超差誤差問題

先鋒新聞
2026-06-14 13:40:53
21歲男籃新星含淚官宣離隊!親曝與主帥矛盾:太讓人心疼

21歲男籃新星含淚官宣離隊!親曝與主帥矛盾:太讓人心疼

李絙在北漂
2026-06-14 05:20:35
41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

路醫生健康科普
2026-06-03 16:36:08
拉杜卡努女王杯賽場怒懟教練

拉杜卡努女王杯賽場怒懟教練

體壇周報
2026-06-14 22:09:52
世界杯亮劍后,利物浦切爾西盯上23歲韓國鐵衛

世界杯亮劍后,利物浦切爾西盯上23歲韓國鐵衛

晚風知我意21
2026-06-14 01:26:51
“明日三不空,不富也添安”,明日五月初一,分別指哪3不空?

“明日三不空,不富也添安”,明日五月初一,分別指哪3不空?

小談食刻美食
2026-06-14 10:50:40
相隔一日,副院長54歲病逝,教研室主任47歲病逝

相隔一日,副院長54歲病逝,教研室主任47歲病逝

必記本
2026-06-14 08:45:31
婆婆退休宴全家沒請我,我關機消失11天,回家后老公哭著說出事了

婆婆退休宴全家沒請我,我關機消失11天,回家后老公哭著說出事了

曉艾故事匯
2026-06-14 16:40:42
蘋果三款重磅新品即將發布!已經提前泄露

蘋果三款重磅新品即將發布!已經提前泄露

XCiOS俱樂部
2026-06-12 14:44:53
韋東奕作答2026高考數學,能否拿下滿分?真實答案顛覆大眾認知

韋東奕作答2026高考數學,能否拿下滿分?真實答案顛覆大眾認知

起喜電影
2026-06-13 13:29:44
被劣跡富豪害慘的上海名嘴,54歲頭發花白,為兩個兒子辛苦打拼

被劣跡富豪害慘的上海名嘴,54歲頭發花白,為兩個兒子辛苦打拼

可樂談情感
2026-06-15 02:36:28
鄢姣,金融監管總局辦公廳副主任,皮膚白皙,顏值不輸當紅女明星

鄢姣,金融監管總局辦公廳副主任,皮膚白皙,顏值不輸當紅女明星

李昕言溫度空間
2026-06-14 08:27:32
2026-06-15 04:12:49
硅星人 incentive-icons
硅星人
硅(Si)是創造未來的基礎,歡迎來到這個星球。
3159文章數 10506關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

德國7-1大勝庫拉索 庫拉索打入隊史世界杯首球

頭條要聞

德國7-1大勝庫拉索 庫拉索打入隊史世界杯首球

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

狂歡置換價7.99萬 第三代豪越L歡樂PLUS大7座版上市

態度原創

教育
藝術
本地
健康
軍事航空

教育要聞

2026廣東高考開始閱卷,現場圖曝光!如何查分?祝愿考生接高分!

藝術要聞

218米!建行最大的獨棟辦公樓,和農行長得一模一樣!

本地新聞

AK劉彰邂逅河北南大港濕地

老人、小孩、孕婦,吃粽子有啥風險

軍事要聞

特朗普:美伊協議周日簽 還有終極手段

無障礙瀏覽 進入關懷版