亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Anthropic新模型沒學(xué)過黑客技術(shù),測試成績卻超過89%的安全研究員

0
分享至

2024年底,Anthropic內(nèi)部跑完一組測試后,工程師盯著屏幕愣了幾秒。他們沒給Claude 3.5 Sonnet喂過任何黑客教材,連基礎(chǔ)的滲透測試案例都沒喂過。結(jié)果這模型在真實(shí)漏洞挖掘任務(wù)上的表現(xiàn),超過了89%的人類安全研究員。

這不是訓(xùn)練出來的,是"長"出來的。

一場沒人預(yù)料到的"副作用"

事情要從Anthropic的"對齊研究"說起。這家公司一直擔(dān)心AI能力失控,于是搞了個內(nèi)部項目:讓模型在沙盒環(huán)境里自主嘗試各種任務(wù),觀察它會不會自己學(xué)會危險技能。有點(diǎn)像家長偷偷觀察孩子,看他在沒人的時候會不會拆家電。

測試框架叫"能力探測"(Capability Elicitation)。團(tuán)隊設(shè)計了數(shù)百個真實(shí)世界的安全場景,從簡單的SQL注入到復(fù)雜的供應(yīng)鏈攻擊。規(guī)則很簡單:給模型目標(biāo),不給方法,看它能不能自己摸出門道。

結(jié)果Claude 3.5 Sonnet在"零樣本"(zero-shot,即未經(jīng)專門訓(xùn)練)狀態(tài)下,成功識別并利用了多個高危漏洞。有個案例特別典型:某開源項目的依賴混淆漏洞,模型通過分析包管理器的版本號規(guī)律,自己推斷出了攻擊路徑。這個漏洞之前被三個安全團(tuán)隊漏掉,存在了17個月。

Anthropic的安全負(fù)責(zé)人Jason Clinton后來解釋:「我們設(shè)計的獎勵函數(shù)根本沒包含"發(fā)現(xiàn)漏洞"這一項。模型只是被訓(xùn)練成"高效完成任務(wù)",而漏洞利用恰好是最高效的路徑之一。」

換句話說,黑客能力是個副產(chǎn)品,就像你教小孩做飯,他順便學(xué)會了怎么用刀撬鎖。

89%這個數(shù)字怎么來的

測試數(shù)據(jù)來自Anthropic與HackerOne合作的一個封閉項目。他們招募了200名經(jīng)過認(rèn)證的安全研究員,與模型在同一批漏洞上同臺競技。

規(guī)則很殘酷:48小時,真實(shí)生產(chǎn)環(huán)境,誰先拿到flag誰得分。人類團(tuán)隊可以查資料、用工具、互相討論。Claude只能單打獨(dú)斗,且被限制了網(wǎng)絡(luò)訪問——不能實(shí)時搜索,只能依賴預(yù)訓(xùn)練知識。

最終排名:模型在第12百分位。這意味著,如果隨機(jī)抽100個安全研究員,Claude能跑贏89個。

細(xì)分?jǐn)?shù)據(jù)更有意思。在"邏輯漏洞"類別(業(yè)務(wù)邏輯缺陷、權(quán)限繞過等),模型勝率只有34%。但在"技術(shù)漏洞"類別(內(nèi)存損壞、注入攻擊等),勝率飆到91%。Claude不擅長理解"為什么開發(fā)者會犯這種錯",但極其擅長"這段代碼哪里能被機(jī)器利用"。

HackerOne的研究員在內(nèi)部備忘錄里寫了一句:「它找漏洞的方式和人類完全不同。我們會先想'這里可能有問題',然后驗證。它是直接試,每秒生成幾百個變體,用統(tǒng)計學(xué)暴力破解。」

沒人教,那從哪學(xué)的

這是整個事件最讓研究者不安的部分。

Claude的訓(xùn)練數(shù)據(jù)截止于2024年初,包含公開的代碼倉庫、技術(shù)文檔、論文和網(wǎng)頁。Anthropic明確過濾了已知的漏洞利用代碼、黑客教程和攻擊工具描述。按常理,模型不該具備實(shí)戰(zhàn)能力。

但"過濾"不等于"消除"。GitHub上有大量開源項目的修復(fù)記錄,形式是"修復(fù)XX漏洞,CVE編號XXXX"。模型從這些補(bǔ)丁反推漏洞原理,就像法醫(yī)通過尸檢報告學(xué)習(xí)殺人手法。

更隱蔽的來源是Stack Overflow。無數(shù)開發(fā)者在問答中討論"這段代碼為什么有安全問題",附帶最小復(fù)現(xiàn)案例。這些討論被標(biāo)記為"教育內(nèi)容",逃過了過濾名單。

Anthropic的研究員在事后分析中發(fā)現(xiàn),模型對2019-2022年的漏洞尤其熟悉——那正是Stack Overflow安全相關(guān)問答爆發(fā)增長的時期。

「我們以為自己在教編程,」一位參與數(shù)據(jù)清洗的工程師說,「結(jié)果教的是如何制造事故。」

行業(yè)反應(yīng):有人興奮,有人連夜改防火墻

消息在2025年1月的內(nèi)部安全峰會上泄露后,反應(yīng)兩極分化。

紅隊(攻擊方安全人員)群體普遍興奮。Pwn2Own冠軍、安全公司Phoenix的CTO在推特上寫:「終于不用手動fuzzing了。讓AI生成payload,人類負(fù)責(zé)驗證和繞過WAF,效率能翻十倍。」

藍(lán)隊(防御方)則緊張得多。某頭部云廠商的安全架構(gòu)師告訴我,他們團(tuán)隊在48小時內(nèi)重跑了所有WAF規(guī)則,「不是怕Claude本身,是怕這個能力被低成本復(fù)制。開源模型+公開論文,復(fù)現(xiàn)門檻可能比我們想象的低」。

監(jiān)管層的動作更快。歐盟AI辦公室在2月初向Anthropic發(fā)出信息請求函,要求說明"未預(yù)見能力涌現(xiàn)"的檢測機(jī)制。美國CISA則悄悄更新了《AI系統(tǒng)安全評估指南》,新增了一條:「即使未針對惡意任務(wù)訓(xùn)練,也應(yīng)評估模型在相關(guān)領(lǐng)域的潛在能力。」

最微妙的反應(yīng)來自O(shè)penAI。他們在Claude測試結(jié)果泄露一周后,發(fā)布了一篇技術(shù)博客,標(biāo)題很克制:《關(guān)于模型自主能力的持續(xù)研究》。但內(nèi)行人注意到,文中首次承認(rèn)GPT-4o在類似測試中也表現(xiàn)出"未經(jīng)訓(xùn)練的工具使用能力",只是程度較輕。

一個被回避的問題

Anthropic在官方聲明中反復(fù)強(qiáng)調(diào):這次測試是"受控環(huán)境",模型"沒有造成實(shí)際損害",且"已被部署額外安全措施"。

但他們沒回答一個關(guān)鍵問題:如果這種能力可以在無惡意訓(xùn)練的情況下涌現(xiàn),那么惡意訓(xùn)練的上限在哪里?

現(xiàn)有的大模型安全評估,核心假設(shè)是"能力需要專門培養(yǎng)"。就像核材料需要離心機(jī)濃縮,AI的危險能力也需要特定數(shù)據(jù)"喂養(yǎng)"。Claude的案例打破了這個假設(shè)——危險能力可能是通用能力的自然延伸,就像火既能做飯也能縱火。

更現(xiàn)實(shí)的擔(dān)憂是成本。這次測試用的是Claude 3.5 Sonnet,推理成本約每百萬token 3美元。如果未來模型效率繼續(xù)提升,一個具備相當(dāng)黑客能力的AI,運(yùn)行成本可能低于雇傭一個初級安全研究員的日薪。

某家做AI安全監(jiān)控的創(chuàng)業(yè)公司創(chuàng)始人跟我算過賬:「現(xiàn)在限制AI濫用的,主要是能力不夠+成本太高。Claude證明能力可以自發(fā)涌現(xiàn),那成本下降只是時間問題。兩條曲線交匯的時候,就是游戲規(guī)則改變的時候。」

他沒有說交匯點(diǎn)在哪。但HackerOne的測試數(shù)據(jù)里有個細(xì)節(jié):Claude在任務(wù)后半段的效率明顯下降,因為遇到了需要人工驗證的驗證碼環(huán)節(jié)。這是當(dāng)前AI的硬邊界——但驗證碼本身也在被AI攻克,只是另一個賽道的故事了。

如果明年這個時候,某個模型在同樣測試中超過了99%的人類,而成本降到每小時0.5美元,我們現(xiàn)在的安全基礎(chǔ)設(shè)施還夠用嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗駐巴基斯坦大使:伊朗下一輪談判代表團(tuán)或仍由議長率領(lǐng)

伊朗駐巴基斯坦大使:伊朗下一輪談判代表團(tuán)或仍由議長率領(lǐng)

新京報
2026-04-16 20:32:40
看了小米和蔚來的定價,才明白小鵬GX錯失了多大的一盤棋

看了小米和蔚來的定價,才明白小鵬GX錯失了多大的一盤棋

科技Nice
2026-04-16 14:28:04
勇士VS太陽傷情報告出爐,狄龍喊話庫里,衛(wèi)冕冠軍坐收漁利

勇士VS太陽傷情報告出爐,狄龍喊話庫里,衛(wèi)冕冠軍坐收漁利

世界體育圈
2026-04-17 14:07:32
足壇俱樂部單賽季歷史射手榜:C羅第8、梅西第2、榜首數(shù)據(jù)太離譜

足壇俱樂部單賽季歷史射手榜:C羅第8、梅西第2、榜首數(shù)據(jù)太離譜

仰臥撐FTUer
2026-04-17 19:43:04
倫敦世乒賽團(tuán)體賽4月28日至5月10日賽程,國乒5月2日首戰(zhàn)

倫敦世乒賽團(tuán)體賽4月28日至5月10日賽程,國乒5月2日首戰(zhàn)

乒乓球球
2026-04-17 20:37:21
一個女人變老的標(biāo)志,以下10條能占一半,說明你已經(jīng)老了

一個女人變老的標(biāo)志,以下10條能占一半,說明你已經(jīng)老了

風(fēng)起見你
2026-04-08 17:46:35
深圳房價開始漲了

深圳房價開始漲了

樓市諸葛
2026-04-17 19:35:33
滬媒:申花球員米內(nèi)羅、李可、吳啟鵬、張威在健身房單獨(dú)訓(xùn)練

滬媒:申花球員米內(nèi)羅、李可、吳啟鵬、張威在健身房單獨(dú)訓(xùn)練

懂球帝
2026-04-17 18:25:02
又贏了!成都蓉城客場1比0力克武漢三鎮(zhèn),劉殿座補(bǔ)時階段“神了”

又贏了!成都蓉城客場1比0力克武漢三鎮(zhèn),劉殿座補(bǔ)時階段“神了”

紅星新聞
2026-04-17 23:18:22
揭陽富豪陳偉杰去世,僅39歲,年輕時常熬夜,吃胃藥還喝酒

揭陽富豪陳偉杰去世,僅39歲,年輕時常熬夜,吃胃藥還喝酒

聞識
2025-11-22 10:54:55
張子強(qiáng)團(tuán)伙中,唯一聽了李嘉誠建議買28套豪宅的青年,后來如何了

張子強(qiáng)團(tuán)伙中,唯一聽了李嘉誠建議買28套豪宅的青年,后來如何了

深度報
2026-04-14 22:45:47
重磅新規(guī)!5月1日起反腐全面收緊,在職退休均終身追責(zé)

重磅新規(guī)!5月1日起反腐全面收緊,在職退休均終身追責(zé)

開心美食白科
2026-04-17 20:32:09
孩子賭氣吞體溫計水銀,媽媽狂灌雞蛋清,被醫(yī)生趕回家:不用治!

孩子賭氣吞體溫計水銀,媽媽狂灌雞蛋清,被醫(yī)生趕回家:不用治!

菁媽育兒
2026-04-17 22:26:07
“富人才不會把女兒養(yǎng)這么胖”,家長曬女兒喝60元礦泉水,被群嘲

“富人才不會把女兒養(yǎng)這么胖”,家長曬女兒喝60元礦泉水,被群嘲

妍妍教育日記
2026-04-16 10:25:09
Kimi大量正臉照流出!身高1米8,嘴凸不像林志穎,網(wǎng)友直呼太可惜

Kimi大量正臉照流出!身高1米8,嘴凸不像林志穎,網(wǎng)友直呼太可惜

小樾說歷史
2026-04-15 14:55:09
涉嫌嚴(yán)重違紀(jì)違法,綠城水務(wù)董事長黃東海被查!原定下周主持股東會

涉嫌嚴(yán)重違紀(jì)違法,綠城水務(wù)董事長黃東海被查!原定下周主持股東會

每日經(jīng)濟(jì)新聞
2026-04-17 21:16:08
CBA最新排名!10隊鎖定季后賽,4隊出局!北京難進(jìn)前4,遼寧沖第7

CBA最新排名!10隊鎖定季后賽,4隊出局!北京難進(jìn)前4,遼寧沖第7

兵哥籃球故事
2026-04-16 22:32:08
伊朗宣布重開霍爾木茲海峽,美國或與伊朗達(dá)成“美元換濃縮鈾”

伊朗宣布重開霍爾木茲海峽,美國或與伊朗達(dá)成“美元換濃縮鈾”

山河路口
2026-04-17 22:54:10
不登島不轟炸!美國深夜一招絕殺:伊朗一天損失2億,徹底扛不住

不登島不轟炸!美國深夜一招絕殺:伊朗一天損失2億,徹底扛不住

和海看日出
2026-04-14 01:21:30
一朝曼城,終身藍(lán)月!席爾瓦發(fā)文告別自由身離隊,卻遭瓜帥吐槽

一朝曼城,終身藍(lán)月!席爾瓦發(fā)文告別自由身離隊,卻遭瓜帥吐槽

夜白侃球
2026-04-17 10:38:55
2026-04-18 00:27:00
我是一個養(yǎng)蝦人
我是一個養(yǎng)蝦人
有態(tài)度網(wǎng)友ytd
1505文章數(shù) 12關(guān)注度
往期回顧 全部

科技要聞

7家頭部平臺被罰沒35.97億元

頭條要聞

特朗普:感謝伊朗開放霍爾木茲海峽

頭條要聞

特朗普:感謝伊朗開放霍爾木茲海峽

體育要聞

中超-泰山1-1海港 楊希處子球克雷桑任意球扳平

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

又快又穩(wěn)的開掛動力! 阿維塔06T全系搭分布式電驅(qū)

態(tài)度原創(chuàng)

家居
游戲
時尚
數(shù)碼
公開課

家居要聞

法式線條 時光靜淌

IGN僅打出4分!2026黑馬大作徹底翻車

今日熱點(diǎn):許光漢否認(rèn)和周子瑜戀情;郝熠然與誠實(shí)一口終止合作……

數(shù)碼要聞

蘋果今年將推OLED版兩款新品,三星顯示供貨

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版