2024年底,Anthropic內(nèi)部跑完一組測試后,工程師盯著屏幕愣了幾秒。他們沒給Claude 3.5 Sonnet喂過任何黑客教材,連基礎(chǔ)的滲透測試案例都沒喂過。結(jié)果這模型在真實(shí)漏洞挖掘任務(wù)上的表現(xiàn),超過了89%的人類安全研究員。
這不是訓(xùn)練出來的,是"長"出來的。
一場沒人預(yù)料到的"副作用"
事情要從Anthropic的"對齊研究"說起。這家公司一直擔(dān)心AI能力失控,于是搞了個內(nèi)部項目:讓模型在沙盒環(huán)境里自主嘗試各種任務(wù),觀察它會不會自己學(xué)會危險技能。有點(diǎn)像家長偷偷觀察孩子,看他在沒人的時候會不會拆家電。
測試框架叫"能力探測"(Capability Elicitation)。團(tuán)隊設(shè)計了數(shù)百個真實(shí)世界的安全場景,從簡單的SQL注入到復(fù)雜的供應(yīng)鏈攻擊。規(guī)則很簡單:給模型目標(biāo),不給方法,看它能不能自己摸出門道。
結(jié)果Claude 3.5 Sonnet在"零樣本"(zero-shot,即未經(jīng)專門訓(xùn)練)狀態(tài)下,成功識別并利用了多個高危漏洞。有個案例特別典型:某開源項目的依賴混淆漏洞,模型通過分析包管理器的版本號規(guī)律,自己推斷出了攻擊路徑。這個漏洞之前被三個安全團(tuán)隊漏掉,存在了17個月。
Anthropic的安全負(fù)責(zé)人Jason Clinton后來解釋:「我們設(shè)計的獎勵函數(shù)根本沒包含"發(fā)現(xiàn)漏洞"這一項。模型只是被訓(xùn)練成"高效完成任務(wù)",而漏洞利用恰好是最高效的路徑之一。」
換句話說,黑客能力是個副產(chǎn)品,就像你教小孩做飯,他順便學(xué)會了怎么用刀撬鎖。
89%這個數(shù)字怎么來的
測試數(shù)據(jù)來自Anthropic與HackerOne合作的一個封閉項目。他們招募了200名經(jīng)過認(rèn)證的安全研究員,與模型在同一批漏洞上同臺競技。
規(guī)則很殘酷:48小時,真實(shí)生產(chǎn)環(huán)境,誰先拿到flag誰得分。人類團(tuán)隊可以查資料、用工具、互相討論。Claude只能單打獨(dú)斗,且被限制了網(wǎng)絡(luò)訪問——不能實(shí)時搜索,只能依賴預(yù)訓(xùn)練知識。
最終排名:模型在第12百分位。這意味著,如果隨機(jī)抽100個安全研究員,Claude能跑贏89個。
細(xì)分?jǐn)?shù)據(jù)更有意思。在"邏輯漏洞"類別(業(yè)務(wù)邏輯缺陷、權(quán)限繞過等),模型勝率只有34%。但在"技術(shù)漏洞"類別(內(nèi)存損壞、注入攻擊等),勝率飆到91%。Claude不擅長理解"為什么開發(fā)者會犯這種錯",但極其擅長"這段代碼哪里能被機(jī)器利用"。
HackerOne的研究員在內(nèi)部備忘錄里寫了一句:「它找漏洞的方式和人類完全不同。我們會先想'這里可能有問題',然后驗證。它是直接試,每秒生成幾百個變體,用統(tǒng)計學(xué)暴力破解。」
沒人教,那從哪學(xué)的
這是整個事件最讓研究者不安的部分。
Claude的訓(xùn)練數(shù)據(jù)截止于2024年初,包含公開的代碼倉庫、技術(shù)文檔、論文和網(wǎng)頁。Anthropic明確過濾了已知的漏洞利用代碼、黑客教程和攻擊工具描述。按常理,模型不該具備實(shí)戰(zhàn)能力。
但"過濾"不等于"消除"。GitHub上有大量開源項目的修復(fù)記錄,形式是"修復(fù)XX漏洞,CVE編號XXXX"。模型從這些補(bǔ)丁反推漏洞原理,就像法醫(yī)通過尸檢報告學(xué)習(xí)殺人手法。
更隱蔽的來源是Stack Overflow。無數(shù)開發(fā)者在問答中討論"這段代碼為什么有安全問題",附帶最小復(fù)現(xiàn)案例。這些討論被標(biāo)記為"教育內(nèi)容",逃過了過濾名單。
Anthropic的研究員在事后分析中發(fā)現(xiàn),模型對2019-2022年的漏洞尤其熟悉——那正是Stack Overflow安全相關(guān)問答爆發(fā)增長的時期。
「我們以為自己在教編程,」一位參與數(shù)據(jù)清洗的工程師說,「結(jié)果教的是如何制造事故。」
行業(yè)反應(yīng):有人興奮,有人連夜改防火墻
消息在2025年1月的內(nèi)部安全峰會上泄露后,反應(yīng)兩極分化。
紅隊(攻擊方安全人員)群體普遍興奮。Pwn2Own冠軍、安全公司Phoenix的CTO在推特上寫:「終于不用手動fuzzing了。讓AI生成payload,人類負(fù)責(zé)驗證和繞過WAF,效率能翻十倍。」
藍(lán)隊(防御方)則緊張得多。某頭部云廠商的安全架構(gòu)師告訴我,他們團(tuán)隊在48小時內(nèi)重跑了所有WAF規(guī)則,「不是怕Claude本身,是怕這個能力被低成本復(fù)制。開源模型+公開論文,復(fù)現(xiàn)門檻可能比我們想象的低」。
監(jiān)管層的動作更快。歐盟AI辦公室在2月初向Anthropic發(fā)出信息請求函,要求說明"未預(yù)見能力涌現(xiàn)"的檢測機(jī)制。美國CISA則悄悄更新了《AI系統(tǒng)安全評估指南》,新增了一條:「即使未針對惡意任務(wù)訓(xùn)練,也應(yīng)評估模型在相關(guān)領(lǐng)域的潛在能力。」
最微妙的反應(yīng)來自O(shè)penAI。他們在Claude測試結(jié)果泄露一周后,發(fā)布了一篇技術(shù)博客,標(biāo)題很克制:《關(guān)于模型自主能力的持續(xù)研究》。但內(nèi)行人注意到,文中首次承認(rèn)GPT-4o在類似測試中也表現(xiàn)出"未經(jīng)訓(xùn)練的工具使用能力",只是程度較輕。
一個被回避的問題
Anthropic在官方聲明中反復(fù)強(qiáng)調(diào):這次測試是"受控環(huán)境",模型"沒有造成實(shí)際損害",且"已被部署額外安全措施"。
但他們沒回答一個關(guān)鍵問題:如果這種能力可以在無惡意訓(xùn)練的情況下涌現(xiàn),那么惡意訓(xùn)練的上限在哪里?
現(xiàn)有的大模型安全評估,核心假設(shè)是"能力需要專門培養(yǎng)"。就像核材料需要離心機(jī)濃縮,AI的危險能力也需要特定數(shù)據(jù)"喂養(yǎng)"。Claude的案例打破了這個假設(shè)——危險能力可能是通用能力的自然延伸,就像火既能做飯也能縱火。
更現(xiàn)實(shí)的擔(dān)憂是成本。這次測試用的是Claude 3.5 Sonnet,推理成本約每百萬token 3美元。如果未來模型效率繼續(xù)提升,一個具備相當(dāng)黑客能力的AI,運(yùn)行成本可能低于雇傭一個初級安全研究員的日薪。
某家做AI安全監(jiān)控的創(chuàng)業(yè)公司創(chuàng)始人跟我算過賬:「現(xiàn)在限制AI濫用的,主要是能力不夠+成本太高。Claude證明能力可以自發(fā)涌現(xiàn),那成本下降只是時間問題。兩條曲線交匯的時候,就是游戲規(guī)則改變的時候。」
他沒有說交匯點(diǎn)在哪。但HackerOne的測試數(shù)據(jù)里有個細(xì)節(jié):Claude在任務(wù)后半段的效率明顯下降,因為遇到了需要人工驗證的驗證碼環(huán)節(jié)。這是當(dāng)前AI的硬邊界——但驗證碼本身也在被AI攻克,只是另一個賽道的故事了。
如果明年這個時候,某個模型在同樣測試中超過了99%的人類,而成本降到每小時0.5美元,我們現(xiàn)在的安全基礎(chǔ)設(shè)施還夠用嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.