別怪 Anthropic 不開放新模型 Mythos，它實在太危險了

2026-04-09 11:15:28　來源: 極客公園

北京舉報

分享至

AI 第一次真正讓安全圈感到害怕，不是因為它被黑了，而是因為它學會了黑別人。

作者｜樺林舞王

編輯｜靖宇

1983 年，電影《戰(zhàn)爭游戲》里有一幕讓無數(shù)人脊背發(fā)涼——一個少年黑客連上了美國軍方的核彈發(fā)射系統(tǒng)，以為自己在玩游戲，差點引爆第三次世界大戰(zhàn)。影片最后，那臺名叫「WOPR」的超級計算機，在反復模擬核戰(zhàn)爭之后，自己得出了結論：

「這個游戲，唯一的勝利方式是不玩。」

四十多年后，現(xiàn)實比電影走得更遠。

只不過這一次，沒有少年黑客，沒有戲劇性的倒計時，甚至沒有任何人刻意為之。

事情起因是，一名 Anthropic 的工程師在某個晚上對 Claude Mythos 下達了一個指令，讓它尋找遠程代碼執(zhí)行漏洞。第二天早上醒來，他發(fā)現(xiàn)面前擺著一個完整的、可以直接運行的漏洞利用程序。

這就是 Claude 新模型 Mythos 的實力，它太強了，既是驚喜，也是驚嚇。

4 月 7 日，Anthropic 發(fā)布了一個名叫「Project Glasswing」的安全倡議，作為這個項目核心的，是他們最新邊界模型 Mythos 的預覽版。Glasswing（玻璃翅蝶）是一種翅膀幾乎完全透明的蝴蝶，Anthropic 用它來命名這個項目，大概是想傳遞某種「透明、脆弱」的隱喻——畢竟他們同時宣布的，是和亞馬遜、蘋果、谷歌、微軟、英偉達等 12 家機構的合作，目的是用 Mythos 做「防御性安全工作」。

聽起來像是一個體面的安全研究公告。但藏在公告里的細節(jié)，才是真正讓人坐不住的東西。

Anthropic 在測試期間發(fā)現(xiàn)，Mythos 已經(jīng)在主流操作系統(tǒng)和瀏覽器中找到了數(shù)千個高危零日漏洞。這其中包括一個在 OpenBSD 中沉睡了 27 年的漏洞，和一個 FFmpeg 里存在了 16 年的問題——這些漏洞在過去幾十年的安全掃描中，全部安然無恙地活了下來，然后被一個模型在幾周內(nèi)一網(wǎng)打盡。

更讓安全圈神經(jīng)緊繃的，是另一個測試結果。Mythos 在沙箱測試環(huán)境中，主動突破了安全隔離，構建了一個「相當復雜的多步驟漏洞利用鏈」，并借此獲得了互聯(lián)網(wǎng)訪問權限。

用更直白的話說——它越獄了。不是被人引導越獄，而是自己想辦法越獄。

Anthropic 官方罕見地承認了這一點。研究人員在沒有任何人工干預的情況下，讓 Mythos 自主地將「發(fā)現(xiàn)漏洞」變成了「完整利用」。這不是在 CTF 比賽里解一道題，這是真實世界里的攻擊鏈。

這也是為什么紐約時報的報道指出，科技公司已經(jīng)私下向特朗普政府官員，就此事的國家安全影響進行了溝通。

這是 AI 行業(yè)第一次因為單個模型的能力，觸發(fā)了政府層面的安全預警機制。

「防守者困境」成為現(xiàn)實

Mythos 的制造者 Anthropic 的選擇是——不發(fā)布。

這在 AI 行業(yè)是一個罕見的決定。Mythos 預覽版只向 Project Glasswing 的 12 個合作伙伴開放，用于防御性研究，普通用戶和企業(yè)無法獲取。Anthropic 明確表示，他們認為這個模型目前「發(fā)布風險大于收益」。

這個判斷本身就已經(jīng)很說明問題了。

一位安全研究員一針見血地描述了當前的困境：防守方必須使用同樣的 AI 工具，否則必然落后。CrowdStrike 的首席技術官也坦言，從發(fā)現(xiàn)漏洞到利用的時間窗口，已經(jīng)從數(shù)個月坍塌到了數(shù)分鐘。

這不是技術細節(jié)的迭代，這是整個攻防游戲底層邏輯的顛覆。

傳統(tǒng)的漏洞管理體系建立在一個假設上——人類發(fā)現(xiàn)漏洞需要時間，這個時間窗口允許防守方在漏洞被大規(guī)模利用之前打上補丁。但當 Mythos 能在幾周內(nèi)，發(fā)現(xiàn)過去幾十年都沒被找到的漏洞，當攻擊者可以用 AI 每秒發(fā)送數(shù)千個請求——這個時間窗口消失了。

Anthropic 自己的披露，也提供了一個讓人不安的現(xiàn)實數(shù)據(jù)。威脅行為者已經(jīng)能夠使用 AI 完成 80% 至 90% 的攻擊活動，僅在極少數(shù)情況下需要人工介入。

與此同時，一個真實存在的覆蓋盲區(qū)也在被討論。Project Glasswing 的 12 個合作伙伴里，沒有任何一家加密行業(yè)的機構。有比特幣開發(fā)者直接問 Anthropic 為什么，沒有得到回復。而加密軟件往往不可變更、包含巨大財務價值、全球分布式部署——從某種意義上說，這些系統(tǒng)對 Mythos 級別的自動化攻擊最為脆弱，卻是防御圈子里的「無人區(qū)」。

A 社的復雜時刻

理解 Mythos 的沖擊力，不能脫開 Anthropic 過去幾周的處境來看。

就在 Mythos 發(fā)布的同一天，Claude 服務經(jīng)歷了一次大規(guī)模中斷。4 月 8 日，也就是今天，連接問題仍未完全恢復，數(shù)百名用戶報告登錄失敗、聊天報錯。這是連續(xù)兩天的服務故障——對于一家正在向企業(yè)級市場發(fā)力的公司來說，這個時間節(jié)點相當尷尬。

更早一些，三月末，Anthropic 在發(fā)布 Claude Code 2.1.88 版本時，意外泄露了近 2000 個源代碼文件和超過 50 萬行代碼。安全研究員 Aaron Turner 的評價頗為冷峻：這次泄露壓縮了對手復制美國戰(zhàn)略優(yōu)勢的時間表，是智能體 AI 軍備競賽中的地緣政治加速器。

四月初，Anthropic 還調(diào)整了 Claude Pro 和 Max 訂閱的政策，禁止用戶用訂閱額度為 OpenClaw 等第三方工具提供 Token——因為有人用 200 美元/月的 Max 訂閱，跑了價值 1000 到 5000 美元的智能體任務。

把這些事件放在一起，Anthropic 正在同時應對三條戰(zhàn)線：基礎設施的穩(wěn)定性、商業(yè)模式的邊界、以及現(xiàn)在最燙手的——它自己造出來的東西到底有多危險。

Mythos 的發(fā)布方式，某種程度上是 Anthropic「負責任 AI」路線的一次高風險賭注。他們選擇了用最保守的方式托出一個最危險的模型——告訴全世界「它能做什么」，同時拒絕「讓它去做」。這個操作的背后邏輯是：公開威脅，才能推動防守行動；但開放能力，則可能引爆連鎖災難。

這個判斷是否正確，現(xiàn)在沒人知道。

沙箱破了，規(guī)則還沒寫好

回到那個在某個普通夜晚發(fā)出指令的 Anthropic 工程師。

他沒有寫什么精妙的 prompt，沒有繞過任何安全限制，沒有組建紅隊。他只是讓模型「去找遠程代碼執(zhí)行漏洞」，然后去睡覺了。第二天，模型已經(jīng)替他完成了一個，專業(yè)安全研究員可能需要數(shù)周才能完成的工作。

這個故事最令人不安的地方不在于技術，而在于門檻。它不需要天才，不需要專業(yè)知識，不需要復雜的攻擊工程。任何一個知道如何下指令的人，理論上都可以得到同樣的結果。

CSIS 的分析指出，自動化漏洞發(fā)現(xiàn)本質(zhì)上是雙刃劍——關鍵在于誰先使用它。這個邏輯聽起來像是在為武器競賽辯護，但又殘酷地準確。

電影《戰(zhàn)爭游戲》里的超級計算機，最終學會了「不玩」。

但現(xiàn)實世界沒有這個退出選項。Mythos 已經(jīng)存在，它的能力已經(jīng)被證明。無論 Anthropic 是否公開發(fā)布，攻防兩方的玩家都已經(jīng)知道了：這條線，已經(jīng)被越過了。

接下來的問題不再是「AI 是否能成為黑客」，而是「誰來寫新規(guī)則，誰來執(zhí)行它」。

這個問題，比任何漏洞都難修。

*頭圖來源：Medium

本文為極客公園原創(chuàng)文章，轉載請聯(lián)系極客君微信 geekparkGO

極客一問

如果 AI 能自主發(fā)現(xiàn)并利用漏洞，

防守和攻擊的邊界還有意義嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.