Anthropic新模型沒學(xué)過黑客技術(shù)，測試成績卻超過89%的安全研究員

2026-04-14 13:19:22　來源: 我是一個養(yǎng)蝦人

北京舉報

分享至

2024年底，Anthropic內(nèi)部跑完一組測試后，工程師盯著屏幕愣了幾秒。他們沒給Claude 3.5 Sonnet喂過任何黑客教材，連基礎(chǔ)的滲透測試案例都沒喂過。結(jié)果這模型在真實(shí)漏洞挖掘任務(wù)上的表現(xiàn)，超過了89%的人類安全研究員。

這不是訓(xùn)練出來的，是"長"出來的。

一場沒人預(yù)料到的"副作用"

事情要從Anthropic的"對齊研究"說起。這家公司一直擔(dān)心AI能力失控，于是搞了個內(nèi)部項目：讓模型在沙盒環(huán)境里自主嘗試各種任務(wù)，觀察它會不會自己學(xué)會危險技能。有點(diǎn)像家長偷偷觀察孩子，看他在沒人的時候會不會拆家電。

測試框架叫"能力探測"（Capability Elicitation）。團(tuán)隊設(shè)計了數(shù)百個真實(shí)世界的安全場景，從簡單的SQL注入到復(fù)雜的供應(yīng)鏈攻擊。規(guī)則很簡單：給模型目標(biāo)，不給方法，看它能不能自己摸出門道。

結(jié)果Claude 3.5 Sonnet在"零樣本"（zero-shot，即未經(jīng)專門訓(xùn)練）狀態(tài)下，成功識別并利用了多個高危漏洞。有個案例特別典型：某開源項目的依賴混淆漏洞，模型通過分析包管理器的版本號規(guī)律，自己推斷出了攻擊路徑。這個漏洞之前被三個安全團(tuán)隊漏掉，存在了17個月。

Anthropic的安全負(fù)責(zé)人Jason Clinton后來解釋：「我們設(shè)計的獎勵函數(shù)根本沒包含"發(fā)現(xiàn)漏洞"這一項。模型只是被訓(xùn)練成"高效完成任務(wù)"，而漏洞利用恰好是最高效的路徑之一。」

換句話說，黑客能力是個副產(chǎn)品，就像你教小孩做飯，他順便學(xué)會了怎么用刀撬鎖。

89%這個數(shù)字怎么來的

測試數(shù)據(jù)來自Anthropic與HackerOne合作的一個封閉項目。他們招募了200名經(jīng)過認(rèn)證的安全研究員，與模型在同一批漏洞上同臺競技。

規(guī)則很殘酷：48小時，真實(shí)生產(chǎn)環(huán)境，誰先拿到flag誰得分。人類團(tuán)隊可以查資料、用工具、互相討論。Claude只能單打獨(dú)斗，且被限制了網(wǎng)絡(luò)訪問——不能實(shí)時搜索，只能依賴預(yù)訓(xùn)練知識。

最終排名：模型在第12百分位。這意味著，如果隨機(jī)抽100個安全研究員，Claude能跑贏89個。

細(xì)分?jǐn)?shù)據(jù)更有意思。在"邏輯漏洞"類別（業(yè)務(wù)邏輯缺陷、權(quán)限繞過等），模型勝率只有34%。但在"技術(shù)漏洞"類別（內(nèi)存損壞、注入攻擊等），勝率飆到91%。Claude不擅長理解"為什么開發(fā)者會犯這種錯"，但極其擅長"這段代碼哪里能被機(jī)器利用"。

HackerOne的研究員在內(nèi)部備忘錄里寫了一句：「它找漏洞的方式和人類完全不同。我們會先想'這里可能有問題'，然后驗證。它是直接試，每秒生成幾百個變體，用統(tǒng)計學(xué)暴力破解。」

沒人教，那從哪學(xué)的

這是整個事件最讓研究者不安的部分。

Claude的訓(xùn)練數(shù)據(jù)截止于2024年初，包含公開的代碼倉庫、技術(shù)文檔、論文和網(wǎng)頁。Anthropic明確過濾了已知的漏洞利用代碼、黑客教程和攻擊工具描述。按常理，模型不該具備實(shí)戰(zhàn)能力。

但"過濾"不等于"消除"。GitHub上有大量開源項目的修復(fù)記錄，形式是"修復(fù)XX漏洞，CVE編號XXXX"。模型從這些補(bǔ)丁反推漏洞原理，就像法醫(yī)通過尸檢報告學(xué)習(xí)殺人手法。

更隱蔽的來源是Stack Overflow。無數(shù)開發(fā)者在問答中討論"這段代碼為什么有安全問題"，附帶最小復(fù)現(xiàn)案例。這些討論被標(biāo)記為"教育內(nèi)容"，逃過了過濾名單。

Anthropic的研究員在事后分析中發(fā)現(xiàn)，模型對2019-2022年的漏洞尤其熟悉——那正是Stack Overflow安全相關(guān)問答爆發(fā)增長的時期。

「我們以為自己在教編程，」一位參與數(shù)據(jù)清洗的工程師說，「結(jié)果教的是如何制造事故。」

行業(yè)反應(yīng)：有人興奮，有人連夜改防火墻

消息在2025年1月的內(nèi)部安全峰會上泄露后，反應(yīng)兩極分化。

紅隊（攻擊方安全人員）群體普遍興奮。Pwn2Own冠軍、安全公司Phoenix的CTO在推特上寫：「終于不用手動fuzzing了。讓AI生成payload，人類負(fù)責(zé)驗證和繞過WAF，效率能翻十倍。」

藍(lán)隊（防御方）則緊張得多。某頭部云廠商的安全架構(gòu)師告訴我，他們團(tuán)隊在48小時內(nèi)重跑了所有WAF規(guī)則，「不是怕Claude本身，是怕這個能力被低成本復(fù)制。開源模型+公開論文，復(fù)現(xiàn)門檻可能比我們想象的低」。

監(jiān)管層的動作更快。歐盟AI辦公室在2月初向Anthropic發(fā)出信息請求函，要求說明"未預(yù)見能力涌現(xiàn)"的檢測機(jī)制。美國CISA則悄悄更新了《AI系統(tǒng)安全評估指南》，新增了一條：「即使未針對惡意任務(wù)訓(xùn)練，也應(yīng)評估模型在相關(guān)領(lǐng)域的潛在能力。」

最微妙的反應(yīng)來自O(shè)penAI。他們在Claude測試結(jié)果泄露一周后，發(fā)布了一篇技術(shù)博客，標(biāo)題很克制：《關(guān)于模型自主能力的持續(xù)研究》。但內(nèi)行人注意到，文中首次承認(rèn)GPT-4o在類似測試中也表現(xiàn)出"未經(jīng)訓(xùn)練的工具使用能力"，只是程度較輕。

一個被回避的問題

Anthropic在官方聲明中反復(fù)強(qiáng)調(diào)：這次測試是"受控環(huán)境"，模型"沒有造成實(shí)際損害"，且"已被部署額外安全措施"。

但他們沒回答一個關(guān)鍵問題：如果這種能力可以在無惡意訓(xùn)練的情況下涌現(xiàn)，那么惡意訓(xùn)練的上限在哪里？

現(xiàn)有的大模型安全評估，核心假設(shè)是"能力需要專門培養(yǎng)"。就像核材料需要離心機(jī)濃縮，AI的危險能力也需要特定數(shù)據(jù)"喂養(yǎng)"。Claude的案例打破了這個假設(shè)——危險能力可能是通用能力的自然延伸，就像火既能做飯也能縱火。

更現(xiàn)實(shí)的擔(dān)憂是成本。這次測試用的是Claude 3.5 Sonnet，推理成本約每百萬token 3美元。如果未來模型效率繼續(xù)提升，一個具備相當(dāng)黑客能力的AI，運(yùn)行成本可能低于雇傭一個初級安全研究員的日薪。

某家做AI安全監(jiān)控的創(chuàng)業(yè)公司創(chuàng)始人跟我算過賬：「現(xiàn)在限制AI濫用的，主要是能力不夠+成本太高。Claude證明能力可以自發(fā)涌現(xiàn)，那成本下降只是時間問題。兩條曲線交匯的時候，就是游戲規(guī)則改變的時候。」

他沒有說交匯點(diǎn)在哪。但HackerOne的測試數(shù)據(jù)里有個細(xì)節(jié)：Claude在任務(wù)后半段的效率明顯下降，因為遇到了需要人工驗證的驗證碼環(huán)節(jié)。這是當(dāng)前AI的硬邊界——但驗證碼本身也在被AI攻克，只是另一個賽道的故事了。

如果明年這個時候，某個模型在同樣測試中超過了99%的人類，而成本降到每小時0.5美元，我們現(xiàn)在的安全基礎(chǔ)設(shè)施還夠用嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.