來源:市場資訊
(來源:AI信息Gap)
Claude Mythos,就這么,靜悄悄地、沒有任何大張旗鼓地,來了。
編程基準(zhǔn) SWE-bench Pro,80.3%。
這是 Anthropic 新模型的成績。
作為對比:Claude Opus 4.8,69.2%。GPT-5.5,58.6%。
剛剛,Claude Fable 5 正式上線。
之前的 Mythos「強(qiáng)到不敢公開發(fā)布」,只對少數(shù)安全機(jī)構(gòu)開放。今天的 Fable 5,就是它的公開版本。
Fable,「寓言」,Mythos,「神話」。「寓言」是更安全的「神話」。同一個(gè)模型,區(qū)別只有安全護(hù)欄。
劃重點(diǎn),6 月 22 日前,所有 Claude 訂閱用戶可以直接用,不額外收費(fèi)。
Claude Fable 5 的跑分,只能用「強(qiáng)的離譜」來形容。
Opus 在它面前,簡直就像個(gè)弟弟。
小編注:編程、法律這些不觸發(fā)安全護(hù)欄的領(lǐng)域,Claude Fable 5 就是滿血 Claude Mythos 5。但涉及網(wǎng)絡(luò)安全和生物、化學(xué)的基準(zhǔn),Claude Fable 5 會(huì)因?yàn)樽o(hù)欄回退到 Claude Opus 4.8,得分會(huì)低一些。
FrontierCode Diamond,Claude Fable 5 29.3%,一騎絕塵。這個(gè)基準(zhǔn)測的是代碼能不能達(dá)到生產(chǎn)級水準(zhǔn)。
Claude Opus 4.8 拿了 13.4%,GPT-5.5 只有 5.7%。
Terminal-Bench 終端編程,88%,Codex CLI 83.4%,Gemini CLI 70.7%。Claude 終于在這一項(xiàng)上超過了 GPT。
法律推理,Claude Fable 5 13.3%,GPT-5.5 2.1%,Gemini 3.1 Pro 直接交了白卷,0 分。
「人類最后一場考試」不帶工具版準(zhǔn)確率 59%,這個(gè)分?jǐn)?shù)比大多數(shù)模型的帶工具版都要高。
網(wǎng)絡(luò)安全基準(zhǔn) ExploitBench,Claude Mythos 5 拿下 78%,Claude Opus 4.8 只有 40%。
Stripe 用 Claude Fable 5 在自家 5000 萬行 Ruby 代碼庫里做了一次整體遷移。一天搞定。放在以前,這可能需要一整個(gè)團(tuán)隊(duì)干兩個(gè)多月。
以前的 Claude 玩寶可夢,需要一整套輔助工具才能玩下去。地圖、導(dǎo)航、游戲狀態(tài)信息,一個(gè)都不能少。
現(xiàn)在,Claude Fable 5 只看游戲截圖就通關(guān)了。沒有地圖,不需要導(dǎo)航和任何額外信息。就純靠「看」。
Anthropic 還讓它玩了殺戮尖塔。打開記憶功能后,Claude Fable 5 的進(jìn)步是 Claude Opus 4.8 的三倍。
它會(huì)自己記筆記,越玩越聰明。
Anthropic 內(nèi)部用 Claude Mythos 5 跑藥物設(shè)計(jì)流程,速度提升了約 10 倍。14 個(gè)蛋白質(zhì)靶點(diǎn)有 9 個(gè)得到了有潛力的候選分子,目前正在進(jìn)一步研究。
Claude Mythos 5 還獨(dú)立完成了一項(xiàng)基因組學(xué)研究。前后花了一周多,基本全程自主進(jìn)行。匯集了 138 個(gè)物種、數(shù)百萬個(gè)細(xì)胞的單細(xì)胞數(shù)據(jù),自己設(shè)計(jì)并訓(xùn)練了一個(gè)機(jī)器學(xué)習(xí)模型。
結(jié)果超過了近期發(fā)表在 Science 上的同類研究。模型體量還只有對方的百分之一。
注意,Claude Fable 5 和 Claude Mythos 5 有著同一個(gè)底層模型。只不過 Claude Fable 5 多了一套安全分類器。涉及網(wǎng)絡(luò)安全、生物化學(xué)和模型蒸餾的請求它不會(huì)直接拒絕,而是自動(dòng)切換到 Claude Opus 4.8 回答。
Anthropic 官方給出的數(shù)據(jù)顯示,超 95% 的對話完全不會(huì)觸發(fā)這個(gè)機(jī)制。
外部紅隊(duì)測試了 1000 小時(shí),也沒找到通用的越獄方法。
Claude Mythos 5 則去掉了安全護(hù)欄,目前只對 Glasswing 項(xiàng)目合作機(jī)構(gòu)開放。后續(xù)計(jì)劃擴(kuò)展到更多安全組織和生物醫(yī)學(xué)研究人員。
Claude Fable 5 模型 ID claude-fable-5,今天就能調(diào)用。但 API 價(jià)格翻倍了。
輸入 10 美元/百萬 token,輸出 50 美元/百萬 token。Claude Opus 4.8 分別是 5 和 25。正好翻了一倍。
不過這個(gè)價(jià)格不到此前 Claude Mythos Preview 的一半。
劃重點(diǎn)。
6 月 22 日前,Claude Pro、Max、Team 和企業(yè)訂閱用戶可以直接用 Claude Fable 5,不額外收費(fèi)。但要注意,Claude Fable 5 的額度消耗速度是 Opus 的兩倍。
6 月 23 日起消耗額外的 API 積分。不過 Anthropic 官方也說了,「如果后續(xù)算力允許,會(huì)把 Claude Fable 5 重新納入訂閱計(jì)劃。」
三天前,Anthropic 發(fā)布了那篇「當(dāng) AI 開始建造自己」,說 Claude 寫了自家 80% 的代碼,呼吁全球暫停 AI 研發(fā)。
再往前幾天,遞交了 IPO 申請。估值 9650 億美元。
今天,放出了有史以來最強(qiáng)的公開模型。
一邊喊暫停。一邊沖刺上市。一邊放出最強(qiáng)模型。
Anthropic,也是沒誰了。我是木易,Top2 + 美國 Top10 CS 碩,現(xiàn)在是 AI 產(chǎn)品經(jīng)理。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.