无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Anthropic 祭出雙旗艦模型 Fable、Mythos,屠榜所有基測!網友:除了貴沒毛病

0
分享至



作者|冬梅

昨晚,Anthropic 攜兩款“核彈級”模型炸場——Claude Fable 5 和 Claude Mythos 5。

據介紹,這是 Anthropic 迄今性能最強的一代模型,也是其首次將前沿模型按照風險等級進行差異化開放:面向普通用戶的 Fable 5 保留了嚴格安全限制,而能力完全釋放的 Mythos 5 則僅向少量經過審核的網絡安全機構和科研組織開放。

在 Anthropic 看來,大模型能力已經進入一個新的階段:模型不僅能夠完成編碼、寫作和問答任務,還開始展現出執行長期復雜任務、獨立開展科研探索甚至發現新科學假設的能力。與此同時,模型能力提升帶來的潛在風險,也迫使公司重新設計模型的開放策略。

1 Anthropic 最強模型性能如何?

按照 Anthropic 的說法,Fable 5 已經超過此前所有公開發布的 Claude 模型。

據 Anthropic 官方披露,Claude Fable 5 定位通用級高性能模型,屬于 Mythos 1 級技術梯隊,綜合性能超越品牌過往所有公開發布模型,在主流 AI 性能基準測試中穩居行業領先水平。

該模型具備突出的復雜任務處理優勢,任務復雜度越高、運行周期越長,相較于前代模型的性能優勢越顯著,同時擁有更長的自主運行時長與更強的長上下文處理能力,可穩定支撐數百萬 token 級別的持續性工作任務。


在具體產業落地場景中,Fable 5 展現出全方位的能力突破。

軟件工程領域,該模型可實現超大代碼庫的高效迭代遷移,曾在 1 天內完成需要團隊兩個月手動攻堅的 5000 萬行 Ruby 代碼庫遷移工作,將數月級工程量壓縮至單日完成。

在 Cognition FrontierCode 編碼評估中,其中等工作量下的得分領跑全球前沿模型,token 效率創下 Claude 系列新高。



下面是其他模型在 FrontierCode Diamond 測試中的得分對比:


除了軟件開發,Anthropic 還將 Fable 5 定位為知識工作工具。

AI 研究平臺 Hebbia 的財務推理測試顯示,Fable 5 在復雜文檔分析、圖表解讀和問題求解任務上的表現達到所有參測模型最高水平。

量化交易公司 IMC 則表示,該模型已經能夠完成事實檢索、因果分析、根因定位以及預期收益分析等金融研究任務。

這些案例反映出一個趨勢:模型競爭正在從單純的知識問答,轉向專業領域中的復雜推理和決策輔助。

視覺任務方面,它也基本上是當前業內頂尖的視覺專用模型,可精準提取復雜科學數據、僅憑截圖還原 Web 應用源代碼,甚至依托極簡視覺組件獨立通關《精靈寶可夢火紅》,全程無需地圖、游戲狀態等額外輔助信息,突破了前代模型依賴復雜輔助工具的技術局限。

這段延時視頻記錄了 Claude 僅使用游戲截圖從頭到尾游玩《精靈寶可夢火紅》的過程——沒有使用任何地圖、導航輔助工具或額外的游戲狀態信息。早期的 Claude 機器人需要復雜的輔助設備才能玩《精靈寶可夢》;而 Claude Fable 5 僅憑視覺就完成了游戲。

此外,模型的內存與自主迭代能力大幅優化。在卡牌構筑游戲《殺戮尖塔》測試中,搭載持久化文件級內存的 Fable 5,性能較 Claude Opus 4.8 提升三倍,通關高階關卡的概率顯著提升。同時可依托基礎物理原理自主推演行星軌道、模擬日食現象,具備極強的自主推理與場景復刻能力。

Claude Fable 5 構建了這個太陽系模擬,從物理學第一原理推導出行星的軌道運動,并用它來預測日食。

2 Mythos 5:能力更強,但并不向公眾開放

相比面向大眾開放的 Fable 5,Anthropic 此次同步發布的另一款模型 Mythos 5 顯得更加特殊。

從技術角度看,兩者基于同一底層模型。

區別在于,Mythos 5 取消了部分安全限制,因此能夠釋放全部能力。

Anthropic 表示,Mythos 5 目前是其網絡安全能力最強的模型。該模型已經部署一些特殊機構中,服務對象主要包括關鍵基礎設施運營方和網絡安全防御機構。

目前,普通開發者和企業用戶無法直接使用該模型。

在高精尖科研領域,Mythos 5 表現也很搶眼。

生命科學研究中,該模型可將藥物設計部分環節效率提升十倍,能夠獨立完成蛋白質靶點篩選、設計工具運行、誤差修復等全套科研工作,無需人工深度干預,目前已篩選出 9 個高潛力藥物靶點,覆蓋免疫檢查點、神經退行性疾病、肌肉疾病等多個研究方向。


科研創新層面,Mythos 5 是 Claude 系列首款可持續產出高質量原創科學假設的 AI 模型。

在盲測對比中,科研人員對其分子生物學假設的認可度達 80%,多項假設已進入實驗驗證階段,其中一項關于大腸桿菌蛋白作用機制的假設,已獲得獨立實驗室的研究佐證?;蚪M學研究中,該模型可自主完成海量單細胞數據歸集、定制 AI 模型訓練等全流程工作,僅需極少人工干預,其研發的輕量化模型性能優于《科學》雜志刊發的同類模型,且參數規模僅為后者的百分之一,相關研究成果將于近期公開發表。

針對高端模型的濫用風險,Anthropic 為通用開放的 Fable 5 搭建了保守且完善的安全防護體系。由于頂級 AI 能力在網絡安全、生物、化學等領域存在雙重用途風險,Fable 5 搭載全新獨立安全分類器,一旦檢測到漏洞利用、攻擊性網絡任務、高危生物化學研究、模型能力提煉等風險請求,將自動回退至 Claude Opus 4.8 響應處理。

官方數據顯示,這套安全機制整體誤報率不足 5%,超 95% 的用戶會話可直接通過 Fable 5 原生能力響應,性能與 Mythos 5 基本持平。

經過超 1000 小時內部紅隊演練、外部漏洞賞金測試,該防護體系未出現通用越獄漏洞,抵御惡意攻擊與越獄嘗試的能力優于 Opus 4.7、Opus 4.8 等前代機型,可全面攔截單輪惡意網絡攻擊策劃、漏洞開發等違規請求。


隱私合規層面,Anthropic 同步推出全新數據保留政策,要求 Mythos 級別模型的全量流量數據留存 30 天,僅用于風險研判、攻擊溯源與安全優化,不參與模型訓練及非安全類用途,同時完善人工數據訪問日志記錄機制,30 天后自動清理絕大部分數據,筑牢數據安全防線。一致性評估結果顯示,Fable 5 與 Mythos 5 的欺騙、違規協作等不一致行為發生率與 Opus 4.8 持平,整體合規穩定性優異。

這么強大的模型,價格如何?

據介紹,這兩款模型都已經大幅降價,統一收費標準為每百萬輸入代幣 10 美元、每百萬輸出代幣 50 美元,價格不足前代 Mythos Preview 版本的一半。

訂閱服務層面,Anthropic 推出分階段上線策略,即日起至 6 月 22 日,Pro、Max、Team 及席位制企業版套餐用戶可免費體驗 Fable 5;6 月 23 日起將暫時從訂閱套餐下架,后續需消耗積分使用,待資源擴容后將重新納入訂閱標配體系。

3 外界評論如何?

這兩款性能拉滿的旗艦模型發布后,AI 圈很快出現了大量討論。

前特斯拉 AI 負責人、OpenAI 創始成員之一的 Andrej Karpathy 第一時間給出了高度評價。

他在社交平臺表示:

Claude Fable 5 與 Mythos 5 本質上是同一個底層模型,只是在 Fable 上增加了安全防護機制。從基準測試來看,它幾乎在所有項目上都以明顯優勢取得了最佳成績(SOTA)。但比起排行榜數字,更重要的是它在實際使用中的表現。從定性體驗來看,這是一次配得上“大版本號升級”的能力躍遷。


對于長期關注大模型發展的研究者來說,Karpathy 的評價頗具分量。

過去兩年,大模型行業經歷了多輪“刷榜競賽”,各家公司不斷刷新測試成績,但用戶實際體驗未必同步提升。因此,越來越多開發者開始關注模型在真實任務中的表現,而不是單純比較基準測試分數。

不少開發者認為,這次發布最值得關注的并不是 Anthropic 公布的各種榜單成績。一位獲得大量點贊的評論寫道:

真正重要的數字并不是排行榜上的數字。問題在于,隨著任務變得越來越長、越來越復雜,Fable 5 的優勢反而越來越明顯。短距離的綜合基準測試對它來說已經不是挑戰。真正需要觀察的是,當一個任務需要團隊連續工作數天才能完成時,它會表現如何。

這也是 Anthropic 此次反復強調的方向。


無論是 5000 萬行代碼遷移案例,還是持續數天的科學研究任務,本質上都在展示模型的長期自主執行能力。

在過去,大模型更像一個即時回答問題的助手;而 Anthropic 試圖證明,Fable 5 已經開始接近“能夠獨立完成項目”的階段。


軟件工程能力依然是討論最熱烈的話題。有用戶特別提到了 Anthropic 公布的編碼評測數據:

這些數字令人驚嘆,看看每一項指標。智能編碼任務的完成率從 69% 提升到 80%,這樣的增長幅度并不常見。

過去一年,Claude 系列已經逐漸成為許多程序員最常使用的代碼助手之一。而從 Anthropic 此次公布的案例來看,其目標已經不僅僅是生成代碼,而是讓模型能夠理解大型代碼庫、完成跨模塊修改以及執行復雜的軟件遷移工作。

如果這些能力能夠在實際場景中穩定復現,其影響可能比單純提升代碼生成準確率更大。


當然,并非所有人都對這次發布感到興奮,最常見的爭議集中在價格和提升幅度上。

Claude Fable 5 的定價為每百萬輸入 Token 10 美元、每百萬輸出 Token 50 美元,有用戶對此表示擔憂:

按照這個速度發展下去,普通消費者還能跟得上嗎?這些模型真的有明顯進步嗎?還是只是換了個名字,然后提高我們的 Token 消耗額度?


類似觀點在近期前沿模型發布中并不少見。

隨著大模型性能逐漸逼近天花板,用戶對于“代際升級”的感知正在減弱。相比 GPT-3 到 GPT-4 那樣的跨越式進步,如今許多模型更新更像是持續迭代。一位長期使用 Claude 進行財務分析的用戶就表示:

我認為最大的提升主要體現在軟件安全方面,其他能力雖然有所改進,但幅度有限。這些模型開始越來越像智能手機了,每一代都會進步,但已經很難再讓人感到震撼。我目前使用 Opus 4.7 處理財務工作,它運行得很好,沒有足夠理由讓我升級。


https://www.anthropic.com/news/claude-fable-5-mythos-5

https://x.com/claudeai/status/2064394151441863006

https://www.youtube.com/watch?v=5f5JYLZHdhw

聲明:本文為 InfoQ 原創,不代表平臺觀點,未經許可禁止轉載。

AI Agent 落地難、規?;茏??《騰訊云 Agent Infra 落地指南》重磅上線!解讀 Agent 時代基礎設施新趨勢,拆解云沙箱核心能力,打通 AI Agent 規?;瘧米詈笠还?,即刻點擊【閱讀原文】或掃碼免費下載!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
48歲喜提“七胞胎”兒子,全職奶爸一人帶7個娃,真實“身份”不只是礦業老板那么簡單

48歲喜提“七胞胎”兒子,全職奶爸一人帶7個娃,真實“身份”不只是礦業老板那么簡單

婚姻與家庭
2026-06-12 09:38:24
21億鉑金級肉簽公布中簽結果,陽光普照獎,股民中了嗎?

21億鉑金級肉簽公布中簽結果,陽光普照獎,股民中了嗎?

數據挖掘分析
2026-06-13 09:11:10
他在SpaceX最危險時刻借給馬斯克100萬美元,如今可能收獲1300億美元

他在SpaceX最危險時刻借給馬斯克100萬美元,如今可能收獲1300億美元

NASA愛好者
2026-06-09 00:30:03
距離總冠軍僅一步之遙!布倫森:現在還是0比0

距離總冠軍僅一步之遙!布倫森:現在還是0比0

北青網-北京青年報
2026-06-13 10:28:02
山東一男子找“貨拉拉”送4瓶茅臺,貨沒送到騎手失聯,報警后騎手稱“摔車酒碎扔垃圾桶了”,無力賠償想用母親耗時5年制作的手工刺繡擔保

山東一男子找“貨拉拉”送4瓶茅臺,貨沒送到騎手失聯,報警后騎手稱“摔車酒碎扔垃圾桶了”,無力賠償想用母親耗時5年制作的手工刺繡擔保

揚子晚報
2026-06-13 09:07:05
疑阿里員工爆料:所在部門50%已離職,N+1到手轉行跨境電商

疑阿里員工爆料:所在部門50%已離職,N+1到手轉行跨境電商

六子吃涼粉
2026-06-12 11:13:32
2026,中年失業的又一悲慘版本出爐…

2026,中年失業的又一悲慘版本出爐…

慧翔百科
2026-06-12 11:21:59
葡萄牙6-1血洗加拿大,雷戈梅開二度領跑射手榜,決賽對陣突尼斯

葡萄牙6-1血洗加拿大,雷戈梅開二度領跑射手榜,決賽對陣突尼斯

林子說事
2026-06-12 19:37:51
2026事業編迎來大調整,五類崗位必須轉企,編制從此退出歷史舞臺

2026事業編迎來大調整,五類崗位必須轉企,編制從此退出歷史舞臺

芳姐侃社會
2026-06-12 23:43:24
世界杯:卡塔爾vs瑞士 海地vs蘇格蘭

世界杯:卡塔爾vs瑞士 海地vs蘇格蘭

足球賽事交流解析
2026-06-13 09:00:09
A股:大站穩扶好了,不出意外的話,后天周一或迎更疾風驟雨行情?

A股:大站穩扶好了,不出意外的話,后天周一或迎更疾風驟雨行情?

趨勢清風俠
2026-06-13 10:32:32
法拉利高管深夜開懟:智界,你請的“首席設計師”到底是誰?

法拉利高管深夜開懟:智界,你請的“首席設計師”到底是誰?

小南看車
2026-06-11 20:30:07
“清淡飲食”正在毀掉中老年人的血管!我國近20%的老年人患有肌少癥,不吃肉,血管反而越來越脆

“清淡飲食”正在毀掉中老年人的血管!我國近20%的老年人患有肌少癥,不吃肉,血管反而越來越脆

消化石醫生
2026-06-05 21:28:28
廖啟智去世5年后,陳敏兒去世,此前幼子5歲離世,夫妻悲歡一生

廖啟智去世5年后,陳敏兒去世,此前幼子5歲離世,夫妻悲歡一生

文刀貳
2026-06-12 21:27:03
2026世界杯開幕式女歌手天籟開唱,觀眾直呼撞臉日本女星,相似度引熱議

2026世界杯開幕式女歌手天籟開唱,觀眾直呼撞臉日本女星,相似度引熱議

科學發掘
2026-06-12 09:48:25
1949年,北平剛解放,韓復榘遺孀給新政府寫信想要回自家的房子

1949年,北平剛解放,韓復榘遺孀給新政府寫信想要回自家的房子

磊子講史
2026-06-05 17:41:56
證監會:全面推進實施新一輪資本市場改革開放

證監會:全面推進實施新一輪資本市場改革開放

新浪財經
2026-06-13 08:05:21
18次打進世界杯有多難?歷史僅5隊,亞洲無球隊上榜 巴西從未缺席

18次打進世界杯有多難?歷史僅5隊,亞洲無球隊上榜 巴西從未缺席

籃球圈里的那些事
2026-06-12 21:33:22
辭職也難逃追責!西安女教師配合外籍博主博流量,師德底線失守

辭職也難逃追責!西安女教師配合外籍博主博流量,師德底線失守

放開他讓wo來
2026-06-12 10:48:34
大批印度人來華避暑,為啥國人第一反應是別來?

大批印度人來華避暑,為啥國人第一反應是別來?

阿紿聊社會
2026-06-13 08:37:40
2026-06-13 11:12:49
InfoQ incentive-icons
InfoQ
有內容的技術社區媒體
12525文章數 51943關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

沈逸:日菲"地圖開疆"?;ㄕ?中方高度敏感明確回應

頭條要聞

沈逸:日菲"地圖開疆"耍花招 中方高度敏感明確回應

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

12年情懷碎一地!跑男接連翻車

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

本地
教育
藝術
親子
軍事航空

本地新聞

AK劉彰邂逅河北南大港濕地

教育要聞

高考出分后,如何沖穩保選院校志愿?

藝術要聞

砸了640億,再賠160億!沙特“The Line”項目徹底涼了?

親子要聞

上海六一兒童醫院舉辦fNIRS腦功能成像設備活動,開啟兒童腦科學“可視化”診療新時代

軍事要聞

伊外長披露伊美諒解備忘錄草案部分內容

無障礙瀏覽 進入關懷版