![]()
Anthropic于周二正式公開發(fā)布Claude Fable 5,這是其首款被定義為“神話級(Mythos-class)”的模型。官方表示,該模型在整體能力上已超越此前的前沿Opus系列。鑒于對技術可能被用于協(xié)助惡意行為的擔憂,F(xiàn)able 5的發(fā)布附帶了多項嚴格的安全限制,旨在阻斷涉及網(wǎng)絡安全、生物學和化學等敏感領域的問答。
Fable 5基于與Mythos 5相同的底層架構(gòu)。隨著Mythos 5結(jié)束長達數(shù)月的預覽期,今日已通過Project Glasswing項目審核,面向少數(shù)可信賴的網(wǎng)絡防御人員開放。相比之下,面向公眾的Fable 5采取了更為保守的策略:當檢測到特定敏感話題查詢時,系統(tǒng)會將請求重定向至較早版本的Claude Opus 4.8模型,并向用戶發(fā)出明確警告。
安全機制“比理想狀態(tài)更嚴格”
Anthropic坦言,目前的安全機制調(diào)整得“比理想狀態(tài)更嚴格”,這可能導致系統(tǒng)偶爾拒絕一些無害請求。盡管承認這可能給普通用戶帶來不便,但公司強調(diào),為避免Mythos模型提供其他來源無法獲得的“造成嚴重傷害”的能力,這種權(quán)衡是必要的。測試數(shù)據(jù)顯示,此類誤報率低于所有會話的5%。
Fable 5的主題安全機制基于一套分類器系統(tǒng),旨在廣泛識別被禁止的提示詞主題及潛在的越獄嘗試。在與賞金計劃配合進行的超過1000小時紅隊測試中,外部團隊未能找到針對Fable 5的通用越獄方法。此外,新模型對自動化越獄嘗試的抵抗力較之前的Claude Opus模型有顯著增強。
業(yè)界特別關注Mythos 5具備的“代理式黑客攻擊”能力,即執(zhí)行多部分網(wǎng)絡攻擊的效率遠超以往模型。然而,英國AI安全研究所近幾個月的測試發(fā)現(xiàn),Mythos Preview在一系列奪旗挑戰(zhàn)中的表現(xiàn)與OpenAI的GPT-5.5相似。這一結(jié)果表明,Mythos的性能提升并非某一模型特有的突破性進展,而是行業(yè)整體水平演進的體現(xiàn)。
【星途科訊 圖文丨略略】
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.