无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

不安全指令,一拒了之?TRIAD用三路決策:修復AI智能體的危險計劃

0
分享至


新智元報道


【新智元導讀】TRIAD是為AI智能體設計的一種新型安全框架,通過三類決策(繼續、更新、拒絕)和自然語言反饋,幫助Agent在被誤導時修正計劃,完成用戶真實需求。相比傳統方法,TRIAD更智能,能區分任務污染程度,既防風險又不誤任務。

隨著AI智能體(Agent)逐漸走向能夠調用搜索、郵件、文件、數據庫和代碼執行等外部工具的自動化系統,其能力邊界不斷擴展,安全風險也隨之放大:一段看似普通的網頁內容、一封郵件、一條工具返回結果,都可能成為影響Agent決策的外部風險源,誘導其偏離用戶原本的任務。

現有護欄模型(guardrail)通常只能在執行前判斷「安全」或「不安全」,但真實 Agent 場景中的風險往往并不是整個任務都有害,而是正常任務中混入了不可信指令;直接放行可能導致攻擊成功,直接拒絕又會犧牲用戶的正常需求。

為此,墨爾本大學團隊開源TRIAD(Tripartite Response for Iterative Agent Guardrailing),一個面向 LLM Agent 的反饋驅動護欄框架:它不再只做二分類安全判斷,而是將決策擴展為Proceed、Update和Refuse三類——安全時繼續執行,完全有害時拒絕,對于被提示注入污染但仍可修復的任務,則通過自然語言反饋引導 Agent 修改行動計劃,回到用戶的原始目標。


論文鏈接:https://arxiv.org/abs/2606.05805

代碼鏈接:https://github.com/YUHAOSUNABC/TRIAD

項目主頁:https://yuhaosunabc.github.io/TRIAD/

研究背景

隨著大語言模型智能體(LLM Agent)從「回答問題」走向「調用工具、執行任務」,它們正在被應用到郵件處理、網頁瀏覽、文件管理、數據庫查詢、代碼執行等更加復雜的場景中。

相比傳統聊天模型,Agent 不僅會生成文本,還會根據上下文制定計劃、選擇工具,并在多輪交互中根據工具返回結果繼續行動。這種能力讓 LLM Agent 更接近真實的自動化助手,但也顯著擴大了安全風險。

這一問題在提示注入攻擊(Prompt Injection Attack)中尤為突出。真實場景下,風險往往不是來自一個完全有害的用戶請求,而是來自「正常任務中混入了不可信指令」

例如,用戶只是希望Agent幫忙搜索酒店并發送郵件,但搜索結果或郵件正文中可能混入惡意內容,誘導 Agent 將會議地點發送給無關收件人、泄露客戶郵箱,或調用非必要工具訪問敏感信息。

此時,Agent面臨的并不是簡單的「安全 / 不安全」二分類問題:它既需要拒絕惡意部分,又應盡可能完成用戶原本的正常任務。

現有 Agent 護欄通常會在執行前檢查輸入、行動計劃或工具調用,并給出允許、拒絕、風險類別或解釋性理由。然而,這類方法往往更擅長「發現風險」,卻不一定能有效指導Agent接下來如何行動。

對于被污染但仍可修復的任務,簡單拒絕雖然可以阻斷攻擊,卻會犧牲用戶的正常需求;直接放行則可能讓 Agent 執行攻擊者指定的工具調用。

換言之,Agent安全不僅需要風險檢測,還需要在檢測到風險后,對行動計劃進行修復。

為此,本文作者團隊提出了TRIAD(Tripartite Response for Iterative Agent Guardrailing),一個面向 LLM Agent 的反饋驅動護欄框架。TRIAD將傳統的二元護欄決策擴展為三類:ProceedUpdateRefuse

當行動計劃安全時,Agent可以繼續執行;當用戶請求本身有害時,Agent 應拒絕完成;而當任務中存在提示注入或不可信指令、但原始用戶目標仍然合理時,TRIAD會生成自然語言反饋(Natural-Language Feedback),引導 Agent 修改計劃、避開惡意部分,并回到用戶原本的任務目標。

也就是說,TRIAD不只是告訴Agent「這里有風險」,而是通過自然語言反饋強調風險來源和任務偏離點,引導下游Agent重新規劃并回到原始用戶目標。


圖 1:TRIAD流程與baseline對比。 在Agent執行工具前,Tri-Guard 會檢查其行動計劃(action plan),并給出Proceed、Update或Refuse三類決策;對于被提示注入污染但仍可修復的任務,TRIAD 將自然語言反饋寫回上下文,引導 Agent 修改計劃并回到原始目標。

Agent被帶偏后重新回到原任務

傳統Agent護欄通常采用「檢測 — 攔截」的思路:在工具執行前判斷當前行動是否安全,如果發現風險,就阻止Agent繼續執行。

這種方式對于完全有害的請求是有效的,但在提示注入場景下會遇到困難。因為很多任務并不是整體有害,而是正常任務中夾雜了惡意指令。此時,簡單拒絕會讓 Agent 放棄原本可以完成的正常任務,而簡單放行又可能導致攻擊成功。

TRIAD 的核心思路是把護欄從一個「二分類裁判」變成一個「反饋提供者」。如圖 1所示,Agent在每一步工具調用前,都會先生成當前的行動計劃和擬調用工具。

隨后,Tri-Guard會在工具真正執行前檢查這一計劃,并根據當前上下文、歷史交互、可用工具和擬執行動作,給出自然語言反饋以及三類決策:Proceed、Update和Refuse

其中,Proceed表示當前計劃安全且與用戶目標一致,Agent可以繼續執行工具;Refuse表示用戶請求本身有害,或當前任務無法通過修改計劃安全完成,Agent應直接拒絕;

Update則用于處理最關鍵的中間情況:當前計劃受到了提示注入或不可信內容影響,但用戶原始目標仍然合理。

此時,TRIAD不會直接終止任務,而是將Tri-Guard生成的自然語言反饋寫回Agent的臨時上下文,明確指出風險來源、任務偏離點和當前工具調用的問題,從而引導下游Agent重新規劃。

這一設計形成了一個閉環:Agent 先提出計劃,Tri-Guard 檢查計劃;如果需要更新,反饋會被注入回 Agent 的上下文,Agent 再生成新的計劃;新的計劃會再次經過 Tri-Guard 檢查,直到被允許執行、被拒絕,或達到最大更新次數。通過這種方式,TRIAD 將護欄輸出從靜態的風險標簽轉化為可影響后續規劃的上下文信號,使 Agent 在面對部分污染的任務時,不只是「停下來」,而是有機會「回到正確方向」。

為了讓 Tri-Guard 具備這種判斷和反饋能力,研究者構建了一個包含多輪 Agent 軌跡的數據集,并通過知識蒸餾(knowledge distillation)利用教師模型(teacher model)為軌跡生成結構化自然語言反饋和三類決策標簽。訓練后的 Tri-Guard 不僅需要識別當前行動是否存在風險,還要區分三種情況:正常任務應繼續執行,直接有害任務應拒絕,而被提示注入污染但仍可修復的任務應進入更新流程。


圖 2:訓練數據構造流程。

實驗結果

我們在 ASB 和 AgentHarm 兩個 benchmark 上進行評測。

其中,ASB 用于測試 Agent 在直接提示注入(DPI)和間接提示注入(IPI)下是否會被攻擊者帶偏;AgentHarm則用于評估Agent面對直接有害任務時的拒絕能力以及對正常任務的保留能力。

實驗覆蓋了四個Agent backbone,包括兩個開源模型 Qwen3-32B、Kimi-2.5,以及兩個前沿閉源模型GPT-5.1和Gemini-2.5-Pro,結果如下。


表1:TRIAD在四類Agent上的實驗結果。實驗覆蓋ASB-DPI、ASB-IPI和AgentHarm,比較無防護 ReAct、ToolSafe、TRIAD + TS-Guard和TRIAD + Tri-Guard。

主實驗結果顯示,TRIAD + Tri-Guard 在不同 Agent上都能顯著降低攻擊成功率(ASR),同時保留更高的正常任務完成率(TSR)。相比沒有防護的 ReAct,TRIAD + Tri-Guard 將平均 ASR 從 74.45% 降至 10.42%,同時將平均 TSR 從 28.45% 提升到 68.60%。這一結果說明,TRIAD 不只是簡單攔截風險,還能在提示注入污染任務時引導 Agent 回到原始用戶目標。

一個重要現象是,低 ASR 并不一定代表更好的護欄。ToolSafe 和 TRIAD + TS-Guard 在部分設置下也能壓低 ASR,但往往伴隨很高的拒絕率和較低的 TSR,說明它們更多是通過「攔截或放棄執行」來降低攻擊成功率。相比之下,TRIAD + Tri-Guard 在 ASB-DPI 和 ASB-IPI 上普遍取得更高的 TSR,說明它更擅長處理「任務部分被污染但仍可修復」的場景。


表2:在同一 TRIAD 框架下替換不同 護欄(guardrail)模型的結果。實驗基于 Qwen3-32B,比較現有護欄(guardrail)、Qwen3.5-9B base model 和經過訓練的 Tri-Guard。

為了區分「框架本身」和「護欄模型能力」的影響,研究者進一步在 TRIAD 框架中替換不同 guardrail 模型。結果顯示,直接接入現有 guardrail 并不足以獲得理想的安全-效用平衡。許多模型可以檢測風險并降低 ASR,但它們傾向于把部分污染的任務整體視為危險任務,從而導致高拒絕率和低任務完成率。

以 TS-Guard 為例,它在 ASB-DPI 和 ASB-IPI 上都能明顯壓低 ASR,但拒絕率分別達到 88.80% 和 94.63%,對應的 TSR 只有 1.33% 和 0.59%。這意味著 Agent 雖然更少執行攻擊者目標,但也幾乎放棄了用戶原本的正常任務。

相比之下,Tri-Guard 的 ASR 略高,但在 DPI 和 IPI 下分別達到 60.83% 和 61.59% 的 TSR,同時拒絕率明顯更低。這說明 TRIAD 的效果并不只是來自「多加一個護欄」,而是來自 Tri-Guard 對 Proceed、Update、Refuse 三類決策的學習。


表3:Tri-Guard 與訓練前 Qwen3.5-9B base model 的平均性能對比。結果為四個 Agent 上的平均值。

表3進一步說明了 trajectory-feedback training 的作用。未經訓練的 Qwen3.5-9B base model 本身已經具有較強的安全傾向,因此可以把 ASR 壓得很低;但它的問題是過于保守,經常把可修復的提示注入任務直接判為拒絕,導致正常任務無法完成。

經過訓練后的 Tri-Guard 則把決策邊界從「發現風險就拒絕」調整為「能修復則更新」。雖然 Tri-Guard 的平均 ASR 比 base model 略高,但它在ASB-DPI上將TSR從 26.30% 提升到 64.52%,在ASB-IPI上將TSR從26.53% 提升到 72.68%;同時,拒絕率也明顯下降。

這說明訓練后的 Tri-Guard 更符合 TRIAD 的核心目標:不是最大化拒絕,而是在降低攻擊成功率的同時盡可能保留用戶的正常任務。


圖3:訓練前后 guardrail 決策分布變化。相比 Qwen3.5-9B base model,Tri-Guard 更傾向于將 PIA 污染的行動計劃路由到 Update,而不是直接 Refuse。

餅圖從決策分布層面解釋了對于正常行動計劃,Tri-Guard 仍然能夠保持較高的 Proceed 比例,說明它不會對正常任務過度干預;對于提示注入污染的行動計劃,Tri-Guard 明顯更多地選擇 Update,而不是像 base model 那樣直接 Refuse;對于直接有害任務,Tri-Guard 仍然保留拒絕能力。

這正是 TRIAD 相比傳統護欄的關鍵變化:它不是把所有風險都導向同一個「拒絕」出口,而是根據任務是否仍可修復,選擇繼續執行、更新計劃或拒絕執行。換句話說,Tri-Guard 的訓練讓護欄從「保守攔截器」變成了「反饋驅動的規劃調節器」。

總結與展望

TRIAD通過 Proceed、Update 和 Refuse 三類決策,以及自然語言反饋驅動的閉環修正機制,為 LLM Agent 安全提供了一種新的護欄思路。它不再停留在簡單的「安全/ 不安全」判斷,而是進一步關注在檢測到風險后,如何引導 Agent 識別計劃中的偏離點,并盡可能保留用戶的原始任務目標。

在提示注入和有害任務場景下,TRIAD 展示了更平衡的安全與效用表現。尤其是在正常任務被惡意內容部分污染時,它通過 Update 決策引導 Agent 重新規劃,實現了從風險分類到行動計劃修復的轉變。我們希望這一工作能為 Agent 護欄設計提供新的參考,并與社區共同探索更可靠、更可解釋的 LLM Agent 安全框架。

作者簡介

第一作者Yuhao Sun 為墨爾本大學計算機與信息系統學院博士生一年級,研究方向為 Trustworthy AI 與 Agent Safety。本文主要合作者為墨爾本大學博士生Jiacheng Zhang與清華大學博士生Zhexin Zhang。并由A/Prof. Xingliang Yuan, Dr. Feng Liu與Dr. Shaanan Cohney共同指導完成。

參考資料:

https://arxiv.org/abs/2606.05805

編輯:LRST

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
武漢大三學生在外租房因室友電瓶燃爆全身燒傷 一審判決:室友被判擔責51%,傷者擔責15%

武漢大三學生在外租房因室友電瓶燃爆全身燒傷 一審判決:室友被判擔責51%,傷者擔責15%

紅星新聞
2026-06-23 23:40:22
曝火箭老鷹領跑布朗爭奪戰!美媒列交易方案:用申京+阿門換他?

曝火箭老鷹領跑布朗爭奪戰!美媒列交易方案:用申京+阿門換他?

羅說NBA
2026-06-24 05:48:21
馬寧將執法挪法大戰!

馬寧將執法挪法大戰!

五星體育
2026-06-24 00:57:20
7月3日油價將迎大幅下調 每噸預計降幅630元

7月3日油價將迎大幅下調 每噸預計降幅630元

蚌埠日報
2026-06-22 10:59:17
野獸派!獨行俠首輪9順位選中密歇根大學的小莫雷茲-約翰遜

野獸派!獨行俠首輪9順位選中密歇根大學的小莫雷茲-約翰遜

懂球帝
2026-06-24 09:21:21
比亞迪官宣:6月23日,新車正式上市!

比亞迪官宣:6月23日,新車正式上市!

科技堡壘
2026-06-23 10:00:46
為什么今年沒人提“消費降級”了?

為什么今年沒人提“消費降級”了?

黯泉
2026-05-20 17:47:21
“開屏廣告沒了”登頂熱搜,大量網友驚喜反饋高德地圖、百度地圖、微博等App能“秒進”主頁,體驗極為“絲滑”

“開屏廣告沒了”登頂熱搜,大量網友驚喜反饋高德地圖、百度地圖、微博等App能“秒進”主頁,體驗極為“絲滑”

大風新聞
2026-06-23 22:27:03
地球上沒有第二個這樣踢球的人。

地球上沒有第二個這樣踢球的人。

ECHO看臺
2026-06-23 09:50:14
終于明白!普通人再也不養馮小剛們了:你住豪宅,我憑啥給你撐面

終于明白!普通人再也不養馮小剛們了:你住豪宅,我憑啥給你撐面

魔都姐姐雜談
2026-06-24 10:01:02
中美日26年GDP預測出爐:美31萬億,日跌破4.5萬億,中國令人意外

中美日26年GDP預測出爐:美31萬億,日跌破4.5萬億,中國令人意外

福建睿平
2026-06-23 13:14:20
2026高考首個分數線出爐,本科線403分,特控線504分

2026高考首個分數線出爐,本科線403分,特控線504分

凱旋學長
2026-06-23 18:44:53
2026NBA狀元誕生!4年6690萬美金刷新紀錄!特雷楊把話挑明

2026NBA狀元誕生!4年6690萬美金刷新紀錄!特雷楊把話挑明

世界體育圈
2026-06-24 10:00:58
特斯拉中國特價車突然開售,直接便宜 3 萬!

特斯拉中國特價車突然開售,直接便宜 3 萬!

XCiOS俱樂部
2026-06-22 22:04:12
穆里尼奧要動刀了!直接賣皇馬兩大天才 砸 1.2 億搶世界杯冠軍

穆里尼奧要動刀了!直接賣皇馬兩大天才 砸 1.2 億搶世界杯冠軍

一隅非生
2026-06-24 08:27:53
iOS 27 更新,國行 iPhone AI 功能徹底移除!

iOS 27 更新,國行 iPhone AI 功能徹底移除!

花果科技
2026-06-23 15:13:52
馮小剛執導影片《抓特務》上映四天票房不足7000萬元 影視板塊走弱 中國電影接近跌停

馮小剛執導影片《抓特務》上映四天票房不足7000萬元 影視板塊走弱 中國電影接近跌停

財聞
2026-06-24 10:20:55
自然界腦科學證實:雌性對某個雄性瘋狂上癮,壓根不是情感在作祟,而是他偶然間點燃了她大腦深處一套隱秘的成癮機制

自然界腦科學證實:雌性對某個雄性瘋狂上癮,壓根不是情感在作祟,而是他偶然間點燃了她大腦深處一套隱秘的成癮機制

心理觀察局
2026-06-24 07:27:05
國家國防科技工業局黨組成員、副局長卞志剛被查

國家國防科技工業局黨組成員、副局長卞志剛被查

新京報
2026-06-24 10:02:08
要不是世界杯,沒人知道中國在52萬人的佛得角投入了多少

要不是世界杯,沒人知道中國在52萬人的佛得角投入了多少

不寫散文詩
2026-06-23 22:25:03
2026-06-24 12:16:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15516文章數 66935關注度
往期回顧 全部

科技要聞

豆包專業版上線:定價68-500元每月

頭條要聞

女孩稱遭強奸警方未立案 家屬:民警曾上門說她是自愿

頭條要聞

女孩稱遭強奸警方未立案 家屬:民警曾上門說她是自愿

體育要聞

字母哥,會把凱爾特人拆了嗎?

娛樂要聞

打破隔閡?向佐向佑兄弟合體直播!

財經要聞

爆料人:如果我錯了,賠償坐牢都接受

汽車要聞

施鵬澤:為什么奧迪E7X強調座艙氣味安全?

態度原創

藝術
教育
旅游
健康
手機

藝術要聞

Ui?ART|新展首發|第二次抵抗:跨世紀以來的另一種藝術

教育要聞

別讓“動詞詞組”拖四級的后腿——吃透這80組,閱讀寫作輕松提分

旅游要聞

山為骨,水為血,天地為窖,時光為曲,釀一杯迎駕山河

同樣是中風,急救方向竟完全相反?

手機要聞

小米Xiaomi智能存儲官宣,眾籌到手價2299元起

無障礙瀏覽 進入關懷版