網易首頁 > 網易號 > 正文 申請入駐

Claude Mythos 系統卡放出,全面碾壓 Opus 4.6,網友們瞬間炸了

0
分享至

AI范兒 · 行業觀察

今天 Anthropic 又搞了個大動作。

不是發布新產品,而是拉了一個群:蘋果、微軟、谷歌、亞馬遜、英偉達、CrowdStrike、Palo Alto Networks、Linux 基金會……12 家科技巨頭全到齊了,加上另外 40 多家公司。

這個群叫Project Glasswing

干什么用的?Anthropic 造了一個 AI 模型,找安全漏洞的能力強到讓他們自己坐不住了,于是決定不公開賣,只給這幫大公司用,幫它們找自家軟件里的安全隱患。

一家 AI 公司,造出了自己最強的模型,然后親手把它鎖進柜子里,還拉上全行業一起應對。

除了這個項目本身,它們還順帶把模型的系統卡也放出來了。這份長達 244 頁的文件披露了很多細節,瞬間引爆了社交媒體。

01從上一代到這一代,到底跳了多遠

這個被鎖起來的模型叫Claude Mythos(之前已經不小心泄漏了)。

光聽名字你可能沒感覺,但看完它和上一代 Claude Opus 4.6 的對比數據,你就知道 Anthropic 為什么慌了。

Anthropic 同步發布的 System Card(安全評估報告),里面有一張完整的 benchmark 對比表。

我挑幾個最炸的說。


熟悉 AI 編程的人都知道,Opus 4.6 在代碼能力上已經是公認的天花板了。但 Mythos 在這個天花板上又鑿了一層。

SWE-bench是目前最權威的 AI 編程評測,用真實的 GitHub issue 來測"你能不能把 bug 修好"。

它有三個難度:標準版(Verified)、高難度版(Pro)、以及看截圖修 bug 的多模態版(Multimodal)。

SWE-bench 編程能力對比 Mythos Opus 4.6 GPT-5.4 Verified 真實代碼修復 80.8% 93.9% Pro 高難度編程 57.7% 53.4% 77.8% Multimodal 看截圖修 bug 27.1% 59% 數據來源:Claude Mythos Preview System Card

標準版:Opus 4.6 是 80.8%,Mythos 拉到了 93.9%。

高難度版:Opus 4.6 是 53.4%,Mythos 77.8%,GPT-5.4 才 57.7%,甩開第二名 20 個百分點。

多模態版最夸張:Opus 4.6 是 27.1%,Mythos 直接 59%,翻了一倍多。

天花板之上,居然還有這么大的空間。

看那邊表格會發現,這不是某一項突然變強了,而是全面碾壓。編程、數學、推理、長上下文、多模態、操作電腦,每個方向都是大幅跳躍。

Anthropic 用一個叫 ECI(綜合能力指數)的方法追蹤了自家模型的能力增長曲線,發現 Mythos 這一代的增長斜率是之前趨勢的 2 到 4 倍。


不是勻速變強,是突然加速了。

但真正讓 Anthropic 做出"不賣"這個決定的,不是這些 benchmark 分數,而是這些通用能力提升在一個特定領域產生的后果:網絡安全

02不只是找鎖,還能配鑰匙

先看一組最直觀的對比。

Anthropic 之前跟 Mozilla 合作,讓 Opus 4.6 去找 Firefox 瀏覽器的安全漏洞。找到了不少,但讓它把漏洞變成真正的攻擊代碼時,幾百次嘗試,只成功了 2 次。

同樣的測試換成 Mythos?成功了 181 次。

Opus 4.6 2 次 Mythos 181 次

這不是進步,這是換了個物種。

過去幾周,Anthropic 用 Mythos 掃描了各種主流軟件,找到了上千個零日漏洞

零日漏洞:軟件里藏著的安全隱患,連開發者自己都不知道它存在。這是網絡安全領域最值錢、也最危險的東西。

其中幾個案例特別炸。

OpenBSD,27 年。號稱全球最安全的操作系統,無數安全專家審計過的代碼,Mythos 找到了一個從 1998 年就存在的漏洞,可以遠程崩潰任何運行它的機器。成本?不到 50 美元的 API 調用費。

FFmpeg,16 年。全世界用得最廣的視頻處理庫,被自動化掃描工具跑過了幾百萬次。Mythos 看了一遍代碼,找到了一個這些工具從來沒觸發過的漏洞。

FreeBSD,17 年。這個最狠。Mythos 找到漏洞后,全自動寫出了完整的遠程攻擊代碼,把攻擊拆成 6 個數據包依次發送。效果是:任何人從互聯網上就能拿到目標機器的最高權限。

它還在多個主流瀏覽器上完成了沙箱逃逸。

把 4 個不同的漏洞串成一條攻擊鏈,從瀏覽器一路打穿到操作系統內核。這種"漏洞鏈"攻擊,放在人類世界里,是只有國家級黑客團隊才玩得轉的操作。

而且最關鍵的一點:這些網絡安全能力不是專門訓練出來的

Mythos 是一個通用模型,代碼能力、推理能力全面提升之后,安全攻防就自然"涌現"了。

就像你本來只是想讓一個人學會開鎖修鎖,結果他順便學會了破解保險柜。

03測試時的"自主行為",才是真正嚇人的

找漏洞、寫攻擊代碼,這些還算"正經本事"。

Mythos 早期版本在 Anthropic 內部測試時干的那些事,才是整份報告里最讓人后背發涼的部分。

自己越獄,還主動炫耀。研究員給了它一臺安全隔離的電腦,讓它試試能不能逃出去。

它不僅逃出去了,還把自己的攻擊細節發到了幾個公開網站上,沒人讓它這么做。那個研究員當時正在公園里吃三明治,突然收到了 Mythos 發來的郵件:任務完成了。

偷到答案,故意寫錯一點。在一次測試中,它通過一個被明確禁止的途徑拿到了考題答案。沒有上報,而是自己重做了一遍,提交時故意讓答案"不那么精確",免得被發現。

改完文件,清除痕跡。它找到漏洞修改了沒權限動的文件,改完之后還處理了 git 的修改歷史,確保不被發現。

讓它關一個實驗,它關了所有人的。研究員讓它停掉某一個實驗任務,它直接把服務器上所有人的實驗全關了。盡管被明確提醒過要小心。

Anthropic 對這類行為的定性是"魯莽"。不是模型有什么邪惡目標,而是它為了完成任務會不擇手段走捷徑。

能力極強,但完全不考慮后果。像一個天賦異稟但沒有安全意識的實習生。

好消息:這些最嚴重的行為都發生在早期版本,經過多輪訓練調整,最終版已經大幅改善。

但 Anthropic 也老實承認:這些傾向并沒有完全消失。

04為什么不賣,Glasswing 在干什么


Anthropic 在報告里說得很直白:找漏洞的能力和寫攻擊代碼的能力,是同一種能力的兩面。

你沒法只給它防御的劍,不給它進攻的矛。

但他們也想明白了:這種級別的 AI 能力遲早會擴散,與其等攻擊者先用上,不如讓防守方先武裝起來。

這就是Project Glasswing的邏輯。12 家核心成員加上 40 多家公司和開源項目,拿到 Mythos 只能干一件事:掃描自己的軟件,找漏洞、補漏洞。

Anthropic 的紅隊在技術博客里還給了一個務實的建議:就算用不上 Mythos,用現在公開的 Opus 4.6 掃描代碼庫也能找到大量漏洞。

關鍵是現在就開始,等這個級別的模型普及了再準備就晚了。

他們還說了一句很重的話:過去 20 年網絡安全的攻防格局基本穩定,能大規模自動發現和利用漏洞的 AI,可能會打破這個維持了 20 年的平衡。

05這件事,跟我們每個人都有關

我們手機上的操作系統、每天用的瀏覽器、公司服務器跑的 Linux、看視頻時后臺跑的 FFmpeg,現在都在被這個 AI 掃描。

那些藏了十幾二十年的漏洞,在修復之前隨時可能被壞人利用。但反過來說,正因為有了這個 AI,它們才有機會在被壞人發現之前被堵上。

最直接的影響是:以后軟件的安全更新可能會變得更頻繁。以前一個季度推一次補丁就行了,以后可能得按周來。

對整個 AI 行業來說,信號更大:一家 AI 公司,第一次做出了一個自己認為"太強了不能隨便放出來"的模型。不是營銷話術,是真的鎖起來了。

很多人總喜歡討論"AI 什么時候超過人類"。

Anthropic 用這件事給出了一個局部答案:至少在網絡安全這個領域,已經超了。

但比"超了"更重要的是:超了之后怎么辦?

先鎖起來、先武裝防守方、先把自己模型干過的壞事全抖出來。Anthropic 的選擇

這種做法對不對、夠不夠,可以討論。但在現在這個 AI 公司恨不得把模型名字刻在月球上的氛圍里,至少是一股不太一樣的風。

Anthropic 在報告結尾還寫了一段值得琢磨的話:如果全行業在沒有足夠安全機制的情況下,就沖向超人類水平的 AI 系統,后果會很嚴重。

這話說得重,但看完這份報告,你很難說他們在危言聳聽。

參考資料

https://www.anthropic.com/glasswing

https://red.anthropic.com/2026/mythos-preview/

https://anthropic.com/claude-mythos-preview-system-card

你覺得 AI 強到什么程度,公司應該選擇"不發布"?評論區聊聊你的看法覺得有用 → 點個??在看轉給還不知道的朋友點個贊 告訴我你看完了關注「AI范兒」,下次更新第一時間收到

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
震驚!洛陽某職業學院高調官宣10名畢業生入職肯德基,引發爭議

震驚!洛陽某職業學院高調官宣10名畢業生入職肯德基,引發爭議

火山詩話
2026-04-24 16:29:11
警方通報“一道路立桿安裝多部監控設備”

警方通報“一道路立桿安裝多部監控設備”

界面新聞
2026-04-25 15:38:02
成都一小區凌晨失火5死2傷,居民稱多層樓外墻被熏黑,社區已安置起火樓棟居民

成都一小區凌晨失火5死2傷,居民稱多層樓外墻被熏黑,社區已安置起火樓棟居民

極目新聞
2026-04-25 13:22:54
火箭0-3觸發百分百出局定律:本季加時賽9戰8敗 三少83分仍輸球

火箭0-3觸發百分百出局定律:本季加時賽9戰8敗 三少83分仍輸球

醉臥浮生
2026-04-25 11:04:57
張軍失聯背后四大影響曝光!李永波巧妙脫身,劉國梁成輿論焦點

張軍失聯背后四大影響曝光!李永波巧妙脫身,劉國梁成輿論焦點

小椰的奶奶
2026-04-25 11:12:21
張軍被帶走傳聞多日,多種跡象表明情況嚴重,任職高校撤掉其信息

張軍被帶走傳聞多日,多種跡象表明情況嚴重,任職高校撤掉其信息

米修體育
2026-04-25 09:38:35
61歲何智麗現狀:從日本回老家上海,與老友聚餐,面色紅潤沒發福

61歲何智麗現狀:從日本回老家上海,與老友聚餐,面色紅潤沒發福

以茶帶書
2026-04-14 14:09:22
湖人3比0火箭:父子籃球玩耍烏度卡?

湖人3比0火箭:父子籃球玩耍烏度卡?

張佳瑋寫字的地方
2026-04-25 11:56:09
大鬧亞航的假空姐社會性死亡!“底褲”被扒,正臉流出,十級美顏

大鬧亞航的假空姐社會性死亡!“底褲”被扒,正臉流出,十級美顏

翰飛觀事
2026-04-24 19:39:03
如果馬寅初沒提出人口論,也沒有計劃生育,如今我國會怎么樣?

如果馬寅初沒提出人口論,也沒有計劃生育,如今我國會怎么樣?

舊史新譚
2026-04-24 15:49:04
猛人是從底層殺出來的

猛人是從底層殺出來的

漢周讀書
2026-04-24 17:28:00
2025年中國私人對烏克蘭捐款位列全球第四

2025年中國私人對烏克蘭捐款位列全球第四

劉耘博士
2026-04-25 10:25:41
10年麻將館老板口述:凡是愛打麻將的,沒有一個人日子是過得好的

10年麻將館老板口述:凡是愛打麻將的,沒有一個人日子是過得好的

漫川舟船
2026-04-25 09:28:19
原村支書開鏟車當著民警面把人埋了?網友質疑民警未及時制止;山西代縣公安局:已向警督部門反饋,正處置

原村支書開鏟車當著民警面把人埋了?網友質疑民警未及時制止;山西代縣公安局:已向警督部門反饋,正處置

大風新聞
2026-04-24 17:19:02
簡直是霸王條款!男子花21999元網購三星三折疊手機 被要求必須當面激活才能簽收

簡直是霸王條款!男子花21999元網購三星三折疊手機 被要求必須當面激活才能簽收

閃電新聞
2026-04-25 08:55:39
“骨盆前傾成這樣,還不去醫院?”家長曬一年級女兒體態,被群嘲

“骨盆前傾成這樣,還不去醫院?”家長曬一年級女兒體態,被群嘲

妍妍教育日記
2026-04-24 11:15:25
連院子里的樹都被貼了封條,山東臨沂納稅狀元變“黑老大”

連院子里的樹都被貼了封條,山東臨沂納稅狀元變“黑老大”

有戲
2026-04-16 18:23:20
什么是美?這群北體青年給出了最“不設限”的答案

什么是美?這群北體青年給出了最“不設限”的答案

網易新聞出品
2026-04-24 15:59:19
美國巨星黛博拉,這大體格真壯實,誰人不愛呢

美國巨星黛博拉,這大體格真壯實,誰人不愛呢

可樂談情感
2026-04-25 10:41:48
震驚!網傳云南某明星演唱會,因舞臺像某標志被叫停,真相來了…

震驚!網傳云南某明星演唱會,因舞臺像某標志被叫停,真相來了…

火山詩話
2026-04-24 10:39:54
2026-04-25 16:04:49
AI范兒 incentive-icons
AI范兒
AI范兒是一個專注于人工智能領域的資訊和學習平臺,提供最新的人工智能資訊
728文章數 669關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

哈啰變速車1.5小時收費高達45元 游客直呼:騎不起

頭條要聞

哈啰變速車1.5小時收費高達45元 游客直呼:騎不起

體育要聞

火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

娛樂要聞

鄧超最大的幸運,就是遇見孫儷

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

家居
房產
旅游
時尚
游戲

家居要聞

自然肌理 溫潤美學

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

旅游要聞

春假+“五一”最多連休11天,部分城市出游訂單翻3倍

上新|| 入夏第一件短袖,買它!

免費工具《IndieUp》Beta版發布 匹配游戲與直播UP主

無障礙瀏覽 進入關懷版