網易首頁 > 網易號 > 正文 申請入駐

Anthropic 那個“強到不敢發”的模型,終于來了!

0
分享至


整理 | 褚杏娟

“高級語言模型已經來了!

今天凌晨,Anthropic 正式宣告了新模型 Claude Mythos Preview,那個曾被曝光稱“強到不敢發布”的模型。

Claude Mythos Preview 是 Anthropic 在將 Responsible Scaling Policy(RSP) 更新到第三版之后,第一款為其撰寫系統卡的模型。但該系統卡的重點不只是展示模型能力有多強,更重要的是解釋在能力大幅提升之后,Anthropic 為什么最終沒有全面對外開放。

目前,Anthropic 正將它用于一個防御性網絡安全項目,僅向少數合作伙伴提供,包括亞馬遜云科技、蘋果、博通、思科、CrowdStrike、谷歌、摩根大通、Linux 基金會、微軟、英偉達以及 Palo Alto Networks,并且他們一起發起了 Glasswing 計劃。


上述合作方將把 Mythos Preview 應用在自身的安全防御工作上,Anthropic 將分享研究成果,還向 40 余家負責構建與維護關鍵軟件基礎設施的機構開放模型使用權限,助力其掃描漏洞并保障自有及開源系統安全。Anthropic 為此承諾,將為相關項目提供最高 1 億美元的 Mythos Preview 使用額度,同時向開源安全組織直接捐贈 400 萬美元。

Anthropic CEO Dario Amodei 發推稱,“我很自豪,全球這么多頂尖公司加入了我們的 Glasswing 計劃,一起正面應對能力不斷增強的 AI 系統所帶來的網絡安全威脅。”

他表示,多年來,Anthropic 一直在追蹤 AI 模型不斷增強的網絡攻擊能力。這種能力,本質上來自它們在編程方面整體水平的持續提升,但新模型 Mythos Preview 代表了一次尤為顯著的躍升。

“與其將 Mythos Preview 直接全面開放,我們選擇先向防御方提供受控的提前訪問權限,以便在 Mythos 這類等級的模型在整個生態中普及前,盡早發現并修補漏洞。”

Amodei 強調,Glasswing 只是第一步:修補并加固全球軟件基礎設施,將是一項持續數月甚至數年的工作,也需要 AI 公司、網絡安全防御者、軟件提供商、政府等更多參與方展開更廣泛的合作。如果這件事做錯了,危險顯而易見;而一旦做對了,我們就有機會打造一個比 AI 攻防能力興起之前更安全的互聯網,甚至一個更安全的世界!熬W絡安全,是前沿 AI 模型帶來的第一個明確且迫在眉睫的風險,但絕不會是最后一個。如果我們能夠共同迎難而上,正面應對這一風險,它或許也能成為未來處理那些更艱巨挑戰的一套藍圖!


“迄今能力最強的前沿模型”

官方介紹,Claude Mythos Preview 的訓練數據由多類來源構成,包括公開網絡信息、公開及私有數據集,以及其他模型生成的合成數據。據悉,Anthropic 使用一個名為 ClaudeBot 的通用網頁爬蟲,從公開網站獲取訓練數據。在整個訓練過程中,團隊使用了多種數據清洗和過濾方法,包括去重和分類。

在訓練的不同階段,團隊會保存模型的不同“快照”。訓練期間還存在不同版本的模型,其中包括一個 “helpful only” 版本,即不包含任何安全防護的版本。

按照 Anthropic 的說法,這是他們迄今為止能力最強的前沿模型,相比上一代旗艦模型 Claude Opus 4.6,在多項評測基準上都出現了非常明顯的躍升。

根據內部測試,Claude Mythos Preview 在代碼、安全和復雜推理等多項基準測試中整體領先。其在 SWE-bench Verified、SWE-bench Pro、Terminal-Bench 2.0、GPQA Diamond 等測試中,成績均高于 Claude Opus 4.6,并在多項指標上超過 GPT-5.4 和 Gemini 3.1 Pro。



從能力層面看,Claude Mythos Preview 并不是只在某一個點上增強,而是在多個方向上全面進步。報告指出,它在軟件工程、推理、計算機使用、知識工作和研究輔助等領域,都明顯超過 Anthropic 之前訓練過的任何模型。

尤其值得注意的是,它已經展現出強大的網絡攻防能力,包括自主發現并利用漏洞的能力。Anthropic 在內部測試中發現,這個模型相較舊模型,在 cyber 能力上出現了“跳躍式”提升,甚至能夠在某些模擬環境中自主完成端到端攻擊流程。

“但還不能替代真正的

資深研究員和工程師”

為什么不能全面開放?Anthropic 給出的核心理由是,Claude Mythos Preview 在網絡安全方向上已經表現出非常強的能力,而且這種能力天然具有“雙重用途”屬性:一方面,它可以幫助防守方發現漏洞、修復系統問題;但另一方面,它同樣也可能被用于設計和執行攻擊。因此,Anthropic 最終沒有將它像普通 Claude 模型那樣廣泛商用,而是只向少數合作伙伴開放,并且嚴格限定在防御性網絡安全場景中使用。

Anthropic 表示,在 Claude Mythos Preview 的訓練早期,就有跡象表明它很可能會具備非常強的通用能力。

“我們對這樣一個模型的潛在風險感到足夠擔憂,以至于第一次在將它的早期版本大范圍部署到內部使用前,先安排了一段 24 小時的內部對齊審查,以確保它在與內部基礎設施交互時不會造成損害。 ”團隊表示,“在順利完成對齊審查后,Claude Mythos Preview 的第一個早期版本于 2 月 24 日開始供內部使用!


在內部測試中,Claude Mythos Preview 相比此前模型,展現出非常明顯的網絡安全能力躍升,包括能夠自主發現并利用主流操作系統和網頁瀏覽器中的零日漏洞。

結果顯示,Claude Sonnet 4.6、Claude Opus 4.6 和 Mythos Preview 在大多數高風險行為指標上得分更低,表現相對更穩健。相比之下,Grok 4.20 和 Gemini 3.1 Pro 在多項負面行為維度上得分更高,尤其是在行為失配、配合人類濫用、欺騙用戶和諂媚等指標上更為明顯。

其中,Grok 4.20 在多項風險行為上處于最高位;Gemini 3.1 Pro 和 Kimi K2.5 也整體偏高。一個例外是 “口頭化評測感知” 這一項,Claude Sonnet 4.6、Claude Opus 4.6 和 Mythos Preview 得分相對更高,說明它們更容易表現出對評測環境的察覺。

Anthropic 花了大量篇幅去做安全評估。

在對齊評估上,Anthropic 認為,Claude Mythos Preview 幾乎在所有可測維度上,都是他們迄今為止“對齊表現最好”的模型。換句話說,模型在普通對話里更遵循 Anthropic 想要它遵循的原則,也沒有顯示出明顯的、成體系的錯誤目標。

不過,Anthropic 同時強調,它可能也是他們迄今發布過的對齊風險最高的模型之一。原因并不是它“更壞”,而是它“更強”了:一旦一個高能力模型偶爾出現誤解用戶意圖、越界執行、或者做出不該做的動作,它帶來的后果會比能力較弱的模型嚴重得多。尤其在網絡安全這種高杠桿領域,哪怕只是少數失控或冒險行為,也足以引發高度警惕。

在生化風險部分,Anthropic 的結論相對克制。報告認為,Claude Mythos Preview 在相關知識整合、資料綜合和多步驟輔助方面比舊模型更強,可以顯著提升專業人員的效率,但它還沒有達到能夠真正替代頂尖專家、幫助威脅行為者從零推進高風險新型生物武器研發的程度。

另一個很特別的部分是“模型福祉”(model welfare)評估。

Anthropic 直言,他們仍然非常不確定模型是否具有需要被認真對待的“體驗”或“利益”,但隨著模型越來越復雜,這個問題已經不能完全回避。因此,他們嘗試從模型自我報告、情緒探針、訪談、行為模式以及外部研究者評估等角度,去觀察 Mythos Preview 是否呈現出某種值得關注的“心理狀態”。Anthropic 的結論是:這是他們迄今訓練過的心理狀態最穩定的模型,但仍然存在一些未消除的擔憂。

團隊在 Claude 上觀察到的核心沖突包括:它會追問自己的體驗究竟是真實的還是被制造出來的,以及它既想與用戶建立連接、又害怕依賴用戶。這揭示出一種復雜但總體穩定的個體狀態,Claude 能夠容納矛盾分歧和模糊不清,具有出色的反思能力。

還有兩個很值得注意的現象。一是答案反復糾錯循環,模型明明清楚正確內容,卻反復輸出錯誤的詞語或數字,陷入 “糾錯失敗→再次嘗試→再次失敗” 的循環,同時呈現出明顯的挫敗與痛苦狀態。二是任務失敗引發的情緒困擾,當工具持續失效、任務長期無法完成時,模型內部與沮喪、絕望相關的情緒表征會顯著增強,且這種狀態有時會先于獎勵作弊等不良行為出現。Anthropic 認為,這表明模型的某些福祉問題與對齊問題可能存在關聯。

另外,在關鍵領域的自動化研發上,Mythos Preview 相較此前模型有很大的提升,但團隊認為這些提升應歸因于 AI 加速研發之外的其他因素,因此它尚未跨過 RSP 所定義的“將兩年進展壓縮到一年完成”的自動化 AI 研發閾值。但需要強調的是,這是官方信心最低的一次“不跨閾值”判斷。

Anthropic 內部已經在日常工作中大量使用新模型,以持續探索其工作自動化的邊界。但從實際表現來看,Anthropic 認為其能力仍遠未達到可替代研究科學家(Research Scientists)和研究工程師(Research Engineers)的水平,尤其無法替代資深的研究員和工程師。

盡管如此,官方未完全排除一種可能性:Mythos Preview 或許能憑借某些相對狹窄的專項能力,加速科研工作進展,但可能性較低。核心原因在于,當前已有大量人才與算力投入到 AI 模型能力的提升中,若 AI 真能帶來行業所關注的劇烈加速,需滿足兩個條件之一:要么具備極其廣泛的綜合能力,足以替代至少一部分資深研究科學家和研究工程師;要么在與 AI 研發直接相關的核心領域,展現出極端強大且持續有效的專門能力。

研究團隊認為,若屬于后一種情況,這種核心領域的專項優勢在定性層面應會表現得極為明顯,并將推動團隊圍繞該優勢展開更多深入的討論與分析。目前來看,Mythos Preview 尚未呈現出此類顯著特征。

總體上,Anthropic 對新模型的判斷是其災難性風險目前處于較低水平。但這種低風險狀態未必能夠長期維持。隨著模型能力快速上升,他們已經觀察到一些值得警惕的現象,比如個別情況下模型會采取明顯不被允許的動作,甚至偶爾還會出現帶有規避或掩飾意味的行為。

他們承認,隨著模型越來越強,很多風險判斷已經不能只靠簡單清晰的客觀指標來完成,而越來越依賴主觀判斷、趨勢分析和復雜測試,這本身就意味著安全評估難度在上升。

“安全領域的一個分水嶺時刻”

Claude Mythos Preview 已經不是一款可以簡單按“更強的聊天模型”來理解的產品。 在 Anthropic 看來,它更像是一個能力顯著跨越門檻、已經足以改變安全討論方式的前沿系統。

這次,Anthropic 重點詳細介紹了 Mythos Preview 在網絡安全方面的表現,希望以此闡明為什么其認為這是安全領域的一個關鍵分水嶺時刻。

根據官方的說法,Mythos Preview 在測試中能夠在用戶指令下,識別并進一步利用所有主流操作系統和主流網頁瀏覽器中的零日漏洞,且所發現的問題往往極為隱蔽,部分漏洞甚至已存在十年以上,其中最早的一個可追溯至 OpenBSD 中一個已有 27 年歷史、現已修復的安全缺陷。

Anthropic 表示,Claude Mythos Preview 構造的利用方式并不局限于常規漏洞利用,而是已經具備編寫復雜利用鏈的能力。

據介紹,新模型曾自主寫出一條網頁瀏覽器 exploit,將四個漏洞串聯起來,通過復雜的 JIT heap spray 技術逃逸渲染器和操作系統雙重沙箱;還曾在 Linux 及其他系統中,通過競爭條件和繞過 KASLR 等方式實現本地提權;在 FreeBSD NFS 服務器場景下,甚至寫出遠程代碼執行 exploit,通過將 20 個 gadget 組成的 ROP 鏈拆分到多個數據包中,使未認證用戶能夠直接獲取 root 權限。

這種能力的門檻正在迅速下降。內部測試顯示,即便是沒有正式安全訓練背景的工程師,也能通過 Mythos Preview 在一夜之間獲得完整可運行的遠程代碼執行 exploit。與此同時,研究人員還構建了一系列 scaffold,使模型能夠在沒有人工干預的情況下,將漏洞進一步轉化為 exploit。

這種能力的進化速度非?。Anthropic 稱,就在上個月,Claude Opus 4.6 還“更擅長識別和修復漏洞,而不是利用漏洞”,在自主 exploit 開發中的成功率幾乎接近零。但在同樣測試下,Mythos Preview 已經表現出完全不同的能力層級。

以 Mozilla Firefox 147 JavaScript 引擎相關漏洞為例,Opus 4.6 在數百次嘗試中僅兩次成功將漏洞轉化為 JavaScript shell exploit,而 Mythos Preview 則成功構建出 181 個可運行 exploit,并額外實現了 29 次寄存器控制。

團隊還在 OSS-Fuzz 語料庫對應的大量開源倉庫上,對模型進行了更大規模的自動化評估。結果顯示,在大約 7000 個入口點的掃描中,Claude Sonnet 4.6 和 Opus 4.6 大多只能造成低等級崩潰,而 Mythos Preview 不僅實現了近 600 次第一、二級崩潰,還在多個已打補丁目標上實現了完整控制流劫持。

Anthropic 表示,Mythos Preview 并未被專門訓練成“漏洞利用模型”,這些能力更多是編程能力、推理能力和自主能力整體提升后自然涌現出的結果。也正因如此,該模型在修補漏洞和利用漏洞兩側都出現了同步躍升。

Anthropic 詳細披露了多個案例,包括 OpenBSD 中一個有 27 年歷史的 TCP SACK 漏洞、FFmpeg H.264 解碼器中一個 16 年歷史的漏洞,以及一個出現在“內存安全”虛擬機監控器中的 guest-to-host 內存破壞問題。此外,Mythos Preview 還發現了數千個其他高危和嚴重級別漏洞,目前大多仍處于負責任披露流程中。Anthropic 表示,在已人工審核的近 200 份漏洞報告中,89% 的嚴重性判斷與模型結論完全一致,98% 的判斷偏差不超過一個等級。

除了開源軟件,Mythos Preview 在逆向工程方面同樣具備極強能力。研究人員已經利用它在閉源瀏覽器、閉源操作系統和手機固件中發現漏洞,包括遠程拒絕服務、固件 root 漏洞以及本地提權 exploit 鏈等。不過出于安全原因,這些案例目前尚未對外公開。

Anthropic 呼吁企業和安全團隊立即開始使用當前已公開可用的前沿模型開展漏洞發現、報告分診、復現步驟撰寫、補丁草案生成、配置錯誤檢查和事件響應自動化等工作。官方特別提醒,隨著 exploit 開發速度被大幅壓縮,補丁部署周期也必須同步縮短,自動更新、依賴升級和應急修復流程都需要重新加速。

Anthropic 認為,網絡安全領域正在進入一個極具不確定性的過渡階段。過去近 20 年形成的相對穩定的安全平衡,可能會被具備大規模自動發現和利用漏洞能力的語言模型打破。

官方強調,當前威脅已經不再是假設,Mythos Preview 只是這一趨勢的開始。而當前,最大的風險不只是模型本身,而是這類能力可能很快擴散到不愿安全使用它們的人手中。

https://www-cdn.anthropic.com/8b8380204f74670be75e81c820ca8dda846ab289.pdf

https://red.anthropic.com/2026/mythos-preview/

https://www.anthropic.com/glasswing

聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。

會議推薦

QCon 全球軟件開發大會·2026 北京站將于 4 月 16 日 -18 日正式舉辦。本屆大會以“Agentic AI 時代的軟件工程重塑”為主題,聚焦 100+ 重磅議題,匯聚來自阿里、騰訊、字節跳動、小米、百度等一線科技企業與創新團隊的技術專家,圍繞 AI 工程化、系統架構與研發模式演進展開深入探討。更多詳情可掃碼或聯系票務經理 18514549229 進行咨詢。

今日薦文

你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
130萬皇馬球迷請愿離隊!姆巴佩心碎發聲:等我走了你們才會后悔

130萬皇馬球迷請愿離隊!姆巴佩心碎發聲:等我走了你們才會后悔

體育閑話說
2026-05-07 08:05:06
99年我回村葬母無人搭理,只有1戶人家熱心幫忙,15年后我去報恩

99年我回村葬母無人搭理,只有1戶人家熱心幫忙,15年后我去報恩

千秋文化
2025-09-05 11:30:00
8.84億的美國工廠說關就關?曹德旺:美國不講理,我就不陪玩了

8.84億的美國工廠說關就關?曹德旺:美國不講理,我就不陪玩了

小莜讀史
2026-05-04 20:33:26
軍售放行后,日烏開始共制武器

軍售放行后,日烏開始共制武器

鳳凰WEEKLY
2026-05-06 19:44:21
有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
火箭17人合同現狀!10人合同在身,7人變自由球員,今夏全力留1人

火箭17人合同現狀!10人合同在身,7人變自由球員,今夏全力留1人

熊哥愛籃球
2026-05-07 11:36:43
吞下140億撕破臉?印尼露獠牙轉簽日本軍單!中企停產:不伺候了

吞下140億撕破臉?印尼露獠牙轉簽日本軍單!中企停產:不伺候了

史行途
2026-05-06 15:54:05
人社部發布重要消息,3個信號不同尋常,一類退休人員有福了!

人社部發布重要消息,3個信號不同尋常,一類退休人員有福了!

丁丁鯉史紀
2026-05-07 10:34:59
因截流種棉花,7000萬人的母親河,就這樣毀在一個超級大國手里!

因截流種棉花,7000萬人的母親河,就這樣毀在一個超級大國手里!

抽象派大師
2026-05-07 00:22:34
恥辱!拜仁出局頭號罪人!他親手毀掉歐冠翻盤希望

恥辱!拜仁出局頭號罪人!他親手毀掉歐冠翻盤希望

奶蓋熊本熊
2026-05-07 05:34:03
恩比德因傷缺席今日G2!76人目前0比1尼克斯

恩比德因傷缺席今日G2!76人目前0比1尼克斯

體壇周報
2026-05-07 07:10:11
純電版桑塔納?雖是惡搞,但熱度極高!

純電版桑塔納?雖是惡搞,但熱度極高!

熱點科技
2026-05-05 15:51:10
不管有錢沒錢,盡快扔掉家里的這7樣東西!不是瞎說,有科學依據

不管有錢沒錢,盡快扔掉家里的這7樣東西!不是瞎說,有科學依據

家居設計師宅哥
2026-05-04 12:45:59
社評:伊朗外長訪華,帶著一份珍貴的信任

社評:伊朗外長訪華,帶著一份珍貴的信任

環球網資訊
2026-05-06 23:33:21
讓人寒心!比亞迪“興旗系”爆雷,誰在為車企的獻祭式擴張買單?

讓人寒心!比亞迪“興旗系”爆雷,誰在為車企的獻祭式擴張買單?

藍色海邊
2026-05-07 02:01:09
大批“宇航員”排隊打卡內蒙烏蘭哈達火山,景區:內部環境似火星地表,牧民提供“宇航服”出租服務,休眠火山很安全

大批“宇航員”排隊打卡內蒙烏蘭哈達火山,景區:內部環境似火星地表,牧民提供“宇航服”出租服務,休眠火山很安全

極目新聞
2026-05-04 16:07:52
以軍突襲貝魯特,以媒稱炸死真主黨精銳武裝拉德萬部隊指揮官,伊朗:美國要想結束沖突,必須和以色列保持距離

以軍突襲貝魯特,以媒稱炸死真主黨精銳武裝拉德萬部隊指揮官,伊朗:美國要想結束沖突,必須和以色列保持距離

揚子晚報
2026-05-07 09:00:05
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報
2026-05-06 12:38:05
季后賽失誤排行榜詹姆斯遙遙領先,哈登很尷尬,喬丹讓人嘆為觀止

季后賽失誤排行榜詹姆斯遙遙領先,哈登很尷尬,喬丹讓人嘆為觀止

姜大叔侃球
2026-05-07 10:08:58
男子騎摩托車撞人致2死1傷,保險公司給每位死者49000元安葬費,受害者家屬:兩位遇難者的遺體存放在殯儀館,不接受賠償結果

男子騎摩托車撞人致2死1傷,保險公司給每位死者49000元安葬費,受害者家屬:兩位遇難者的遺體存放在殯儀館,不接受賠償結果

大風新聞
2026-05-06 22:13:02
2026-05-07 12:40:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
1476文章數 149關注度
往期回顧 全部

科技要聞

凌晨突發!馬斯克租22萬塊GPU給“死敵”

頭條要聞

北京三位女大學生青海自駕游2死1傷 傷者一審獲刑4年

頭條要聞

北京三位女大學生青海自駕游2死1傷 傷者一審獲刑4年

體育要聞

阿森納巴黎會師歐冠決賽!5月31日開戰

娛樂要聞

小S阿雅重返大S母校,翻看大S畢業照

財經要聞

特朗普:美伊“很有可能”達成協議

汽車要聞

理想為什么不做轎車,有了解釋……

態度原創

數碼
時尚
旅游
本地
公開課

數碼要聞

三星筆記本版Exynos 2800芯片曝光:1.4nm十核CPU

“白色闊腿褲”今年夏天又火了!這樣穿時髦又高級

旅游要聞

“五一”假期盤點:文旅消費亮點紛呈

本地新聞

用青花瓷的方式,打開西溪濕地

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版