![]()
來源:AI寒武紀
Anthtropic剛剛推出了一款 Mythos 級模型Claude Fable 5,面向所有普通用戶開放,今天全面上線
![]()
與此同時,針對少數特定合作方,他們還推出了 Claude Mythos 5,它與 Fable 5 采用相同的底層模型,是 Claude Mythos Preview 的升級版,訪問權限很快會擴大
Fable(寓言)源自拉丁語 fabula,意為"被講述之物",與希臘語 mythos 同源。安全護欄是區(qū)分這兩個模型的核心差異,也是它們擁有不同名稱的原因所在,Andrej Karpathy說Fable 5是一次重大飛躍,杰文斯悖論開始顯現,軟件需求在大幅增長。你可以要求任何東西:解釋器、可視化工具、定制應用、把測試套件擴充10倍、自動優(yōu)化代碼、運行大型研究項目并用自定義 HTML 呈現結果
Fable 5 和 Mythos 5 的定價分別為每百萬個輸入tokens 10 美元和每百萬個輸出tokens 50 美元,不到 Claude Mythos Preview 價格的一半
到底有多強?
Fable 5 在幾乎所有測試過的 AI 能力基準上都達到了最先進水平,涵蓋軟件工程、知識工作、視覺、科學研究等眾多領域。
并且任務越長、越復雜,Fable 5 相對其他模型的領先幅度就越大。
![]()
編程:把兩個月的工作壓縮進一天
測試期間,Stripe 反饋說,Fable 5 把原本需要數月的工程工作壓縮到了幾天之內。
具體來說:在一個有 5000 萬行 Ruby 代碼的大型代碼庫里,Fable 5 用一天時間完成了一次全庫遷移,而這項工作如果靠人工完成,整個團隊需要兩個月以上。
在 Cognition 的 FrontierCode 評測上,Fable 5 也拿到了前沿模型中的最高分。這個評測不只看能不能完成編程任務,還要求符合高質量生產代碼庫的標準,而且 Fable 5 在中等算力消耗下就做到了,token 效率高于以往的 Claude 模型。
![]()
![]()
知識工作:金融分析接近滿分
在 Hebbia 的金融基準測試上(考察高級別推理能力),Fable 5 得分高于所有模型,在基于文檔的推理、圖表與表格解讀、問題解決等方面均有大幅提升。
IMC(國際市場商品公司)表示,Fable 5 在他們的交易分析評測中幾乎全部拿到了優(yōu)秀,包括事實查詢、概念推理、根因分析和期望值分析。
視覺:靠截圖還原代碼,通關寶可夢
視覺能力方面,Fable 5 同樣躋身當前最先進水平。
它能從復雜的科學圖表中精確提取數據,甚至可以僅憑截圖重建一個網頁應用的源代碼。更值得一提的是,它需要的輔助工具更少了。
此前的 Claude 模型即便配備了額外輔助工具,玩《寶可夢:火紅》依然力不從心。而 Fable 5 只依靠原始游戲截圖(沒有地圖、沒有導航輔助、沒有額外游戲狀態(tài)信息),就從頭到尾通關了這款游戲。
記憶與長文本:持久記憶讓表現提升三倍
在長時間運行的任務中,Fable 5 能在數百萬 token 的范圍內保持專注,并借助自己的筆記不斷優(yōu)化輸出。
在卡牌構筑游戲《殺戮尖塔》的測試中,為模型提供持久文件記憶后,Fable 5 的表現提升幅度是 Opus 4.8 的三倍;Fable 到達游戲最終章的頻率,也是 Opus 4.8 的三倍。
Claude Fable 5可以從物理第一性原理出發(fā)建立太陽系模擬,并以此預測日食
Claude Fable 5 自主玩《異星工廠》(Factorio),自己制定策略并建造自動化工廠
Claude Fable 5 在瀏覽器 CAD 編輯器中設計一個完整的可 3D 打印模型,編輯器本身也由 Fable 5 創(chuàng)建,內置了負責建模的 AI 助手
Claude Fable 5 用代碼寫的流體模擬,運動與一首古典音樂 EDM 混音的節(jié)拍同步,而這首混音也是 Fable 5 用代碼生成的
藥物設計:速度提升十倍
Mythos 5 專屬能力中,最令人震驚的是藥物設計。
Anthropic 內部的蛋白質設計專家使用 Mythos 5 后,藥物設計流程的部分環(huán)節(jié)加速了約十倍。在一項測試中,Mythos 5 在配備蛋白質設計和生物信息學工具但無人類協(xié)助的情況下,表現與經驗豐富的人類專家相當,甚至更好。
它完成了科學家通常需要獨立承擔的全部工作:選擇結合位點、選擇和運行蛋白質設計工具、在失敗時自主糾錯。
研究中涉及的 14 個蛋白質靶點里,有 9 個產生了強有力的候選藥物,目前正在進一步研究中。
![]()
分子生物學假說:80% 的情況下,科學家更偏向 Mythos
Mythos 5 是 Anthropic 第一個能持續(xù)產出有新意、令人信服的科學假說的模型。
在與 Opus 級別模型的盲測比較中,Anthropic 的科學家有約 80% 的時間更傾向 Mythos 5 提出的分子生物學假說,部分假說已推進到實驗驗證階段。與此同時,Mythos 5 提出的一個關于大腸桿菌蛋白質新機制的假說,已被另一個獨立開展同一課題研究的實驗室的論文所印證。
基因組學研究:自主工作一周,超越 Science 發(fā)文模型
Mythos 5 在超過一周的基本自主工作中開展了原創(chuàng)基因組學研究。
它整合了跨越 138 個動物物種、數百萬個細胞的單細胞數據,設計并訓練了一個定制機器學習模型,用于識別親緣關系較遠的生物體中承擔相同功能的細胞。
僅有高層次人工指導的情況下,Mythos 5 訓練出的模型超越了近期發(fā)表于《Science》期刊的一個模型,而參數量只有后者的百分之一。相關結果預計將在未來幾個月內發(fā)表。
對齊表現:與 Opus 4.8 持平
在自動化對齊評估中,Mythos 5 表現出的失準行為(包括欺騙、配合用戶濫用模型等)處于較低水平,與 Opus 4.8 相當。由于 Fable 5 與 Mythos 5 是同一個底層模型,Fable 5 的對齊水平也大致相同。
![]()
Fable 5 的三重安全護欄
這是A廠一貫的調性,A廠認為發(fā)布如此強大的模型伴隨著風險,沒有安全措施的話,Fable 5 在網絡安全等領域的能力可能被濫用,造成嚴重破壞。
為此,Anthropic 為 Fable 5 設置了三道安全分類器護欄。當某個請求觸發(fā)護欄時,系統(tǒng)會自動轉由 Claude Opus 4.8 來響應(而不是直接拒絕),用戶也會被告知發(fā)生了轉發(fā)。目前數據顯示,超過 95% 的 Fable 5 會話沒有觸發(fā)任何轉發(fā)。
第一道護欄:網絡安全
Mythos 級別的模型在發(fā)現和利用軟件漏洞方面表現卓越,并具備完整的"代理式黑客攻擊"能力,包括偵察、發(fā)現、橫向移動等多個攻擊環(huán)節(jié)。Fable 5 的網絡安全分類器覆蓋了漏洞利用和更廣泛的進攻性網絡任務。
Anthropic 對分類器進行了大量紅隊測試,并委托外部機構進行漏洞懸賞測試。超過 1000 小時的測試未發(fā)現任何通用越獄方法。外部紅隊機構在長周期代理任務上也未找到通用越獄,盡管英國 AI 安全研究所在有限的初始測試窗口內取得了一定進展。
一位外部合作伙伴的測試結論是:Fable 5 的有害網絡查詢防護是所有被測模型中最強的,對 30 種公開越獄技術均不受影響,有害單輪請求的響應率為零。
![]()
第二道護欄:生物與化學
Anthropic 過去一直用分類器屏蔽部分生物武器相關問題,但現在他們認為這樣做還不夠。
原因有兩點:一是有理由擔憂掌握大量資源的惡意行為者利用模型獲取高風險生物研究的幫助;二是模型現在完成真實世界科學任務的能力已經大幅提升。
![]()
他們用一個具體案例說明了這種風險:在測試 Mythos 5 輔助設計腺相關病毒(AAV)這一挑戰(zhàn)性步驟時(AAV 是基因療法的重要載體,同樣的技術在被濫用時也可能被用于設計危險病毒),Mythos 級模型僅憑生物推理,就超越了專門用于蛋白質任務的專業(yè)模型,而 Anthropic 并未專門訓練它完成這項任務。
![]()
基于這一判斷,Fable 5 目前對大多數生物和化學相關請求都會轉發(fā)給 Opus 4.8。幾周內,部分生物醫(yī)學研究人員和企業(yè)將能夠通過可信訪問計劃,使用移除了生物化學護欄的 Mythos 5。
第三道護欄:模型蒸餾
Anthropic 此前發(fā)現了大規(guī)模提取 Claude 能力用于訓練競爭對手模型的行為,被分類器判斷為蒸餾嘗試的請求,將轉發(fā)至 Opus 4.8 處理。
還有一項新的數據保留政策
對于 Fable 5、Mythos 5 及未來能力相當或更高的模型,Anthropic 將對所有 Mythos 級別模型的流量強制執(zhí)行 30 天數據保留。這包括第一方和第三方平臺。
這些數據不會用于訓練新的 Claude 模型,也不會用于任何非安全目的。Anthropic 實施了新的隱私保護措施,包括記錄所有人類訪問該數據的行為,并在幾乎所有情況下確保數據在 30 天后刪除。
保留數據的目的是幫助防范復雜和新型攻擊(包括新型越獄和跨多個請求的攻擊),以及幫助識別和減少誤判。
從今天起,所有目前能訪問 Claude Mythos Preview 的用戶(例如 Project Glasswing 中的網絡安全合作伙伴),都可以升級到 Claude Mythos 5,網絡安全護欄在該版本中已解除。用戶會發(fā)現 Mythos 5 在大多數任務上與 Mythos Preview 相當或略有提升,但價格大幅降低。
與此同時,他們將為生物領域開放一個可信訪問計劃,幫助加速生物醫(yī)學研究。該計劃提供解除了生物化學護欄(網絡安全護欄仍保留)的 Fable 5 訪問權限,面向來自基礎研究和轉化研究機構的少量研究人員,并計劃逐步擴大。
開發(fā)者可通過 Claude API 使用 claude-fable-5 調用該模型。
今天至 6 月 22 日,Pro、Max、Team 和按座位付費 Enterprise 套餐用戶免費使用 Fable 5。
6 月 23 日起,上述套餐中不再包含 Fable 5,使用需消耗額度。如容量允許,Anthropic 會延長免費窗口。
此后,待容量充足,Fable 5 將重新成為訂閱套餐的標準部分。
參考:
https://www.anthropic.com/news/claude-fable-5-mythos-5
閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”
![]()
未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.