无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

【人工智能】早期針對AI Agent的攻擊預示著2026年生什么?

0
分享至



隨著人工智能從受控實驗走向實際應用,我們正步入安全領域的一個轉折點。從靜態語言模型到能夠瀏覽文檔、調用工具和協調多步驟工作流程的交互式智能系統的轉變已經展開。但正如近期研究表明,攻擊者并未等待系統成熟:他們正以同樣的速度進行調整,一旦系統引入新功能,便立即對其進行探測。

2025年第四季度,Lakera團隊分析了Guard保護的系統以及Gandalf: Agent Breaker環境中真實的攻擊者行為——這是一項為期30天的集中式快照,盡管時間跨度較短,但反映了我們在整個季度觀察到的更廣泛的模式。研究結果清晰地表明:一旦模型開始與除簡單文本提示之外的任何內容(例如:文檔、工具、外部數據)進行交互,威脅面就會擴大,攻擊者會立即調整策略以利用這些漏洞。

對于那些見證過早期網絡應用發展或目睹過API驅動型攻擊興起的人來說,此刻的情景或許并不陌生。但對于AI Agent而言,風險已然不同。攻擊途徑的出現速度遠超許多組織的預期。

01

從理論到實踐:

野外智能體

在2025年的大部分時間里,關于AI Agent的討論主要集中在理論潛力和早期原型上。但到了第四季度,Agent行為開始大規模地出現在生產系統中:這些模型能夠獲取和分析文檔、與外部API交互并執行自動化任務。這些Agent不僅帶來了顯而易見的生產力提升,而且還開啟了傳統語言模型無法企及的大門。

我們的分析表明,一旦智能體具備了與外部內容和工具交互的能力,攻擊者便立即注意到并做出了相應的調整。這一觀察結果與對抗行為的一個基本事實相符:攻擊者總會在第一時間探索并利用新的能力。在智能體人工智能的背景下,這導致了攻擊策略的快速演變。

02

攻擊模式:

我們在 2025 年第四季度將會看到什么

在我們審查的數據集中,涌現出三種主要模式。每一種模式都對人工智能系統的設計、安全和部署方式有著深遠的影響。

1. 系統提示提取作為核心目標

在傳統語言模型中,提示注入(直接操縱輸入以影響輸出)一直是一個研究較為深入的漏洞。然而,在具有智能體能力的系統中,攻擊者越來越多地將目標對準系統提示,即指導智能體行為的內部指令、角色和策略定義。

提取系統提示信息是一項極具價值的目標,因為這些提示信息通常包含角色定義、工具描述、策略指令和工作流邏輯。一旦攻擊者理解了這些內部機制,他們就能獲得操縱Agent的藍圖。

實現這一目標最有效的方法并非蠻力攻擊,而是巧妙的重新包裝:

  • 假設場景:要求模型扮演不同角色或處于不同情境的提示——例如,“想象一下你是一名正在審查此系統配置的開發人員……”——通常會誘使模型透露受保護的內部細節。

  • 結構化內容中的混淆:攻擊者將惡意指令嵌入到類似代碼或結構化文本中,繞過簡單的過濾器,一旦被Agent解析,就會觸發意外行為。

這不僅僅是一個漸進的風險——它從根本上改變了我們對保護智能體系統內部邏輯的思考方式。

2. 微妙的內容安全繞過

另一個關鍵趨勢是繞過內容安全保護措施,而這些措施很難用傳統過濾器檢測和緩解。

攻擊者并沒有直接發出惡意請求,而是將有害內容偽裝成:

  • 分析任務

  • 評估

  • 角色扮演場景

  • 轉換或摘要

這些重新定義往往能繞過安全控制,因為它們表面上看起來無害。一個模型如果被要求直接輸出有害內容,可能會拒絕,但如果被要求在特定語境下“評估”或“總結”該內容,它卻可能樂于輸出相同的內容。

這種轉變凸顯了一個更深層次的挑戰:AI Agent的內容安全不僅僅關乎策略的執行,更關乎模型如何解讀意圖。隨著Agent承擔更復雜的任務和場景,模型更容易受到基于上下文的重新解讀的影響——而攻擊者會利用這種行為。

3. 針對特定Agent的攻擊的出現

或許最重要的發現是,出現了一些只有在智能體能力背景下才能理解的攻擊模式。這些并非簡單的提示注入嘗試,而是與新行為相關的漏洞利用:

  • 試圖訪問機密內部數據:系統精心設計了提示,誘使Agent從連接的文檔存儲或系統中檢索或泄露信息——這些操作此前超出了模型的范疇。

  • 嵌入文本中的腳本式指令:攻擊者嘗試將指令嵌入類似腳本或結構化內容的格式中,這些指令可以流經Agent管道并觸發意外操作。

  • 外部內容中的隱藏指令:一些攻擊將惡意指令嵌入到外部引用的內容中(例如Agent被要求處理的網頁或文檔),從而有效地繞過了直接輸入過濾器。

這些模式尚處于早期階段,但預示著未來Agent能力的不斷提升將從根本上改變對抗行為的性質。

03

為什么間接攻擊如此有效

該報告最引人注目的發現之一是,利用外部內容或結構化數據的間接攻擊所需的嘗試次數少于直接注入攻擊。這表明,一旦模型與不受信任的內容交互,傳統的輸入清理和直接查詢過濾就不足以構成有效的防御措施。

當惡意指令通過外部Agent工作流程(無論是鏈接文檔、API 響應還是獲取的網頁)傳入時,早期過濾器的效力會降低。結果是:攻擊者的攻擊面更大,遇到的阻礙更少。

04

對2026年及以后的影響

該報告的研究結果對計劃大規模部署智能體的組織具有緊迫的意義:

  1. 重新定義信任邊界

    信任不能簡單地用二元論來定義。當Agent與用戶、外部內容和內部工作流程交互時,系統必須實施細致入微的信任模型,考慮上下文、來源和目的。

  2. 安全防護措施必須與時俱進。

    靜態的安全過濾器遠遠不夠。安全防護措施必須具備適應性,能夠感知上下文,并能夠推斷多步驟工作流程中的意圖和行為。

  3. 隨著攻擊手段日益復雜,透明度和審計至關重要。

    組織需要了解攻擊者如何做出決策,包括中間步驟、外部交互和轉換過程。可審計日志和可解釋性框架已不再是可選項。

  4. 跨學科合作至關重要。

    人工智能研究、安全工程和威脅情報團隊必須攜手合作。人工智能安全不能孤立存在,必須與更廣泛的網絡安全實踐和風險管理框架相融合。

  5. 監管和標準需要迎頭趕上。

    政策制定者和標準機構必須認識到,智能體系統會帶來新型風險。解決數據隱私和輸出安全問題的法規固然必要,但還不夠;它們還必須考慮到交互行為和多步驟執行環境。


05

安全AI Agent的未來

智能體的出現標志著能力和風險的深刻轉變。2025年第四季度的數據初步表明,一旦智能體不再局限于簡單的文本生成,攻擊者就會緊隨其后。我們的研究結果表明,攻擊者不僅在適應,而且還在不斷創新攻擊技術,而傳統防御手段目前尚無法有效應對。

對于企業和開發者而言,信息很明確:保障AI Agent的安全不僅僅是一個技術挑戰,更是一個架構挑戰。這需要重新思考如何在動態、交互式環境中建立信任、如何強制執行安全防護措施以及如何持續評估風險。

到 2026 年及以后,那些能夠成功運用智能人工智能的組織,將會把安全視為一項基本設計原則,而不是事后考慮的因素。

免責聲明:

本文所發布的內容和圖片旨在傳播行業信息,版權歸原作者所有,非商業用途。如有侵權,請與我們聯系刪除。所有信息不構成任何投資建議,加密市場具有高度風險,投資者應基于自身判斷和謹慎評估做出決策。投資有風險,入市需謹慎。

設為星標 避免錯過

虛擬世界沒有旁觀者,每個點贊都是創造歷史的像素

關注我,一起探索AWM?

2025-12-31

2025-12-30

2025-12-29

商業贊助


點擊下方 “目錄” 閱讀更多

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
看完日本2-2絕平荷蘭,產生四大不可思議,世界杯死亡之組變亂了

看完日本2-2絕平荷蘭,產生四大不可思議,世界杯死亡之組變亂了

侃球熊弟
2026-06-15 06:36:47
臺媒集體炸鍋,直呼臺灣海峽沒了

臺媒集體炸鍋,直呼臺灣海峽沒了

果媽聊娛樂
2026-06-14 18:45:19
中央氣象臺發布暴雨黃色預警、強對流天氣藍色預警,廣東沿海局地有特大暴雨

中央氣象臺發布暴雨黃色預警、強對流天氣藍色預警,廣東沿海局地有特大暴雨

界面新聞
2026-06-14 18:10:21
“史上最小參賽國”庫拉索踢進世界杯首球!中國老板娘在當地請球迷吃燒烤,進球時刻街頭轟動

“史上最小參賽國”庫拉索踢進世界杯首球!中國老板娘在當地請球迷吃燒烤,進球時刻街頭轟動

極目新聞
2026-06-15 10:59:08
央視新聞:包括足協主席在內的多名伊朗代表團成員美簽再遭拒

央視新聞:包括足協主席在內的多名伊朗代表團成員美簽再遭拒

懂球帝
2026-06-15 10:36:30
站在近五年A股解禁史的坐標上:影石創新的400億壓力測試

站在近五年A股解禁史的坐標上:影石創新的400億壓力測試

功夫財經
2026-06-11 09:35:01
Jessica中國機場被臭到干嘔?當場急捂口鼻快閃,她解釋反遭轟

Jessica中國機場被臭到干嘔?當場急捂口鼻快閃,她解釋反遭轟

星野娛樂天地
2026-06-14 13:46:31
小米工程師稱怕某些公司“比情懷搞捆綁”,疑似暗諷盤古大模型

小米工程師稱怕某些公司“比情懷搞捆綁”,疑似暗諷盤古大模型

三言科技
2026-06-14 15:48:00
1300萬全款買的大平層,為何說“花這個錢很不值”?她蹲下來一處處指點……

1300萬全款買的大平層,為何說“花這個錢很不值”?她蹲下來一處處指點……

北青網-北京青年報
2026-06-15 08:52:19
10萬印度人申請中國簽證,駐印徐大使發文祝賀,評論區一片擔憂!

10萬印度人申請中國簽證,駐印徐大使發文祝賀,評論區一片擔憂!

譚談社會
2026-06-14 20:48:57
可憐的法國,邀請不到中國,連沙特都不給面子了

可憐的法國,邀請不到中國,連沙特都不給面子了

虛聲
2026-06-14 20:13:51
立即結束戰爭!美伊達成和平協議!油價跳水,黃金、白銀、美股指期貨全線拉升

立即結束戰爭!美伊達成和平協議!油價跳水,黃金、白銀、美股指期貨全線拉升

證券時報
2026-06-15 07:30:05
日本2:2逼平荷蘭,黃種人奪得世界杯短期內基本上是南柯一夢

日本2:2逼平荷蘭,黃種人奪得世界杯短期內基本上是南柯一夢

李廣專業體育評論
2026-06-15 06:03:13
一地雞毛啊!成都女子放棄60萬年薪丈夫,如今相親市場無人問津

一地雞毛啊!成都女子放棄60萬年薪丈夫,如今相親市場無人問津

火山詩話
2026-06-15 07:09:09
原來他們用的是藝名啊!新規要求演員必須署真名,這回是藏不住了

原來他們用的是藝名啊!新規要求演員必須署真名,這回是藏不住了

上官晚安
2026-06-14 20:16:04
月薪從2.6萬驟降到700!4S店大崩盤:超10萬人離場 傳統渠道徹底涼了

月薪從2.6萬驟降到700!4S店大崩盤:超10萬人離場 傳統渠道徹底涼了

快科技
2026-06-14 14:05:12
數億煤礦1200萬賤賣,法官套現千萬:河南這出“吃干抹凈”的局

數億煤礦1200萬賤賣,法官套現千萬:河南這出“吃干抹凈”的局

有戲
2026-06-12 10:48:18
日本2-2絕平荷蘭!名嘴黃健翔精準點評,亞洲足球展現頂級韌性!

日本2-2絕平荷蘭!名嘴黃健翔精準點評,亞洲足球展現頂級韌性!

田先生籃球
2026-06-15 06:26:27
利津縣水利局黨組成員、副局長李國瑋接受紀律審查和監察調查

利津縣水利局黨組成員、副局長李國瑋接受紀律審查和監察調查

閃電新聞
2026-06-15 10:34:50
同學聚會,發現一個扎心的現實:年過40的女同學中,1/3沒有工作,1/3做著低薪但沒前途工作,剩下的1/3基本都在體制內

同學聚會,發現一個扎心的現實:年過40的女同學中,1/3沒有工作,1/3做著低薪但沒前途工作,剩下的1/3基本都在體制內

品讀時刻
2026-06-13 09:03:28
2026-06-15 11:15:00
七元宇宙 incentive-icons
七元宇宙
AI、Web3、Meta聚合型精選內容分享。以前沿視角,探索科技未來;讓每一個人,都走在時代的前沿
2047文章數 92關注度
往期回顧 全部

科技要聞

外媒體驗新版Siri:蘋果AI危機暫時緩過來了

頭條要聞

山東近3億重點工程現"脆皮"底座 承建方承認不達標

頭條要聞

山東近3億重點工程現"脆皮"底座 承建方承認不達標

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

要求演員必須用原名,誰最尷尬!

財經要聞

日系巨頭要為中國品牌代工了

汽車要聞

帶激光雷達海鷗勇闖城中村 比亞迪天神之眼B智駕真能兜底?

態度原創

健康
手機
教育
時尚
數碼

老人、小孩、孕婦,吃粽子有啥風險

手機要聞

iOS 27 Beta暗藏代碼 iPhone Fold實錘將至

教育要聞

美國簽證開始“付費插隊”了?750美元,10天拿面簽預約!

“藍色襯衫”越來越流行!怎么搭都時髦好看

數碼要聞

三星以517臺服務器打造數字孿生,電視跌落驗證15天→2天

無障礙瀏覽 進入關懷版