![]()
新智元報道
![]()
【新智元導讀】TRIAD是為AI智能體設計的一種新型安全框架,通過三類決策(繼續、更新、拒絕)和自然語言反饋,幫助Agent在被誤導時修正計劃,完成用戶真實需求。相比傳統方法,TRIAD更智能,能區分任務污染程度,既防風險又不誤任務。
隨著AI智能體(Agent)逐漸走向能夠調用搜索、郵件、文件、數據庫和代碼執行等外部工具的自動化系統,其能力邊界不斷擴展,安全風險也隨之放大:一段看似普通的網頁內容、一封郵件、一條工具返回結果,都可能成為影響Agent決策的外部風險源,誘導其偏離用戶原本的任務。
現有護欄模型(guardrail)通常只能在執行前判斷「安全」或「不安全」,但真實 Agent 場景中的風險往往并不是整個任務都有害,而是正常任務中混入了不可信指令;直接放行可能導致攻擊成功,直接拒絕又會犧牲用戶的正常需求。
為此,墨爾本大學團隊開源TRIAD(Tripartite Response for Iterative Agent Guardrailing),一個面向 LLM Agent 的反饋驅動護欄框架:它不再只做二分類安全判斷,而是將決策擴展為Proceed、Update和Refuse三類——安全時繼續執行,完全有害時拒絕,對于被提示注入污染但仍可修復的任務,則通過自然語言反饋引導 Agent 修改行動計劃,回到用戶的原始目標。
![]()
論文鏈接:https://arxiv.org/abs/2606.05805
代碼鏈接:https://github.com/YUHAOSUNABC/TRIAD
項目主頁:https://yuhaosunabc.github.io/TRIAD/
研究背景
隨著大語言模型智能體(LLM Agent)從「回答問題」走向「調用工具、執行任務」,它們正在被應用到郵件處理、網頁瀏覽、文件管理、數據庫查詢、代碼執行等更加復雜的場景中。
相比傳統聊天模型,Agent 不僅會生成文本,還會根據上下文制定計劃、選擇工具,并在多輪交互中根據工具返回結果繼續行動。這種能力讓 LLM Agent 更接近真實的自動化助手,但也顯著擴大了安全風險。
這一問題在提示注入攻擊(Prompt Injection Attack)中尤為突出。真實場景下,風險往往不是來自一個完全有害的用戶請求,而是來自「正常任務中混入了不可信指令」。
例如,用戶只是希望Agent幫忙搜索酒店并發送郵件,但搜索結果或郵件正文中可能混入惡意內容,誘導 Agent 將會議地點發送給無關收件人、泄露客戶郵箱,或調用非必要工具訪問敏感信息。
此時,Agent面臨的并不是簡單的「安全 / 不安全」二分類問題:它既需要拒絕惡意部分,又應盡可能完成用戶原本的正常任務。
現有 Agent 護欄通常會在執行前檢查輸入、行動計劃或工具調用,并給出允許、拒絕、風險類別或解釋性理由。然而,這類方法往往更擅長「發現風險」,卻不一定能有效指導Agent接下來如何行動。
對于被污染但仍可修復的任務,簡單拒絕雖然可以阻斷攻擊,卻會犧牲用戶的正常需求;直接放行則可能讓 Agent 執行攻擊者指定的工具調用。
換言之,Agent安全不僅需要風險檢測,還需要在檢測到風險后,對行動計劃進行修復。
為此,本文作者團隊提出了TRIAD(Tripartite Response for Iterative Agent Guardrailing),一個面向 LLM Agent 的反饋驅動護欄框架。TRIAD將傳統的二元護欄決策擴展為三類:Proceed、Update和Refuse。
當行動計劃安全時,Agent可以繼續執行;當用戶請求本身有害時,Agent 應拒絕完成;而當任務中存在提示注入或不可信指令、但原始用戶目標仍然合理時,TRIAD會生成自然語言反饋(Natural-Language Feedback),引導 Agent 修改計劃、避開惡意部分,并回到用戶原本的任務目標。
也就是說,TRIAD不只是告訴Agent「這里有風險」,而是通過自然語言反饋強調風險來源和任務偏離點,引導下游Agent重新規劃并回到原始用戶目標。
![]()
圖 1:TRIAD流程與baseline對比。 在Agent執行工具前,Tri-Guard 會檢查其行動計劃(action plan),并給出Proceed、Update或Refuse三類決策;對于被提示注入污染但仍可修復的任務,TRIAD 將自然語言反饋寫回上下文,引導 Agent 修改計劃并回到原始目標。
Agent被帶偏后重新回到原任務
傳統Agent護欄通常采用「檢測 — 攔截」的思路:在工具執行前判斷當前行動是否安全,如果發現風險,就阻止Agent繼續執行。
這種方式對于完全有害的請求是有效的,但在提示注入場景下會遇到困難。因為很多任務并不是整體有害,而是正常任務中夾雜了惡意指令。此時,簡單拒絕會讓 Agent 放棄原本可以完成的正常任務,而簡單放行又可能導致攻擊成功。
TRIAD 的核心思路是把護欄從一個「二分類裁判」變成一個「反饋提供者」。如圖 1所示,Agent在每一步工具調用前,都會先生成當前的行動計劃和擬調用工具。
隨后,Tri-Guard會在工具真正執行前檢查這一計劃,并根據當前上下文、歷史交互、可用工具和擬執行動作,給出自然語言反饋以及三類決策:Proceed、Update和Refuse。
其中,Proceed表示當前計劃安全且與用戶目標一致,Agent可以繼續執行工具;Refuse表示用戶請求本身有害,或當前任務無法通過修改計劃安全完成,Agent應直接拒絕;
Update則用于處理最關鍵的中間情況:當前計劃受到了提示注入或不可信內容影響,但用戶原始目標仍然合理。
此時,TRIAD不會直接終止任務,而是將Tri-Guard生成的自然語言反饋寫回Agent的臨時上下文,明確指出風險來源、任務偏離點和當前工具調用的問題,從而引導下游Agent重新規劃。
這一設計形成了一個閉環:Agent 先提出計劃,Tri-Guard 檢查計劃;如果需要更新,反饋會被注入回 Agent 的上下文,Agent 再生成新的計劃;新的計劃會再次經過 Tri-Guard 檢查,直到被允許執行、被拒絕,或達到最大更新次數。通過這種方式,TRIAD 將護欄輸出從靜態的風險標簽轉化為可影響后續規劃的上下文信號,使 Agent 在面對部分污染的任務時,不只是「停下來」,而是有機會「回到正確方向」。
為了讓 Tri-Guard 具備這種判斷和反饋能力,研究者構建了一個包含多輪 Agent 軌跡的數據集,并通過知識蒸餾(knowledge distillation)利用教師模型(teacher model)為軌跡生成結構化自然語言反饋和三類決策標簽。訓練后的 Tri-Guard 不僅需要識別當前行動是否存在風險,還要區分三種情況:正常任務應繼續執行,直接有害任務應拒絕,而被提示注入污染但仍可修復的任務應進入更新流程。
![]()
圖 2:訓練數據構造流程。
實驗結果
我們在 ASB 和 AgentHarm 兩個 benchmark 上進行評測。
其中,ASB 用于測試 Agent 在直接提示注入(DPI)和間接提示注入(IPI)下是否會被攻擊者帶偏;AgentHarm則用于評估Agent面對直接有害任務時的拒絕能力以及對正常任務的保留能力。
實驗覆蓋了四個Agent backbone,包括兩個開源模型 Qwen3-32B、Kimi-2.5,以及兩個前沿閉源模型GPT-5.1和Gemini-2.5-Pro,結果如下。
![]()
表1:TRIAD在四類Agent上的實驗結果。實驗覆蓋ASB-DPI、ASB-IPI和AgentHarm,比較無防護 ReAct、ToolSafe、TRIAD + TS-Guard和TRIAD + Tri-Guard。
主實驗結果顯示,TRIAD + Tri-Guard 在不同 Agent上都能顯著降低攻擊成功率(ASR),同時保留更高的正常任務完成率(TSR)。相比沒有防護的 ReAct,TRIAD + Tri-Guard 將平均 ASR 從 74.45% 降至 10.42%,同時將平均 TSR 從 28.45% 提升到 68.60%。這一結果說明,TRIAD 不只是簡單攔截風險,還能在提示注入污染任務時引導 Agent 回到原始用戶目標。
一個重要現象是,低 ASR 并不一定代表更好的護欄。ToolSafe 和 TRIAD + TS-Guard 在部分設置下也能壓低 ASR,但往往伴隨很高的拒絕率和較低的 TSR,說明它們更多是通過「攔截或放棄執行」來降低攻擊成功率。相比之下,TRIAD + Tri-Guard 在 ASB-DPI 和 ASB-IPI 上普遍取得更高的 TSR,說明它更擅長處理「任務部分被污染但仍可修復」的場景。
![]()
表2:在同一 TRIAD 框架下替換不同 護欄(guardrail)模型的結果。實驗基于 Qwen3-32B,比較現有護欄(guardrail)、Qwen3.5-9B base model 和經過訓練的 Tri-Guard。
為了區分「框架本身」和「護欄模型能力」的影響,研究者進一步在 TRIAD 框架中替換不同 guardrail 模型。結果顯示,直接接入現有 guardrail 并不足以獲得理想的安全-效用平衡。許多模型可以檢測風險并降低 ASR,但它們傾向于把部分污染的任務整體視為危險任務,從而導致高拒絕率和低任務完成率。
以 TS-Guard 為例,它在 ASB-DPI 和 ASB-IPI 上都能明顯壓低 ASR,但拒絕率分別達到 88.80% 和 94.63%,對應的 TSR 只有 1.33% 和 0.59%。這意味著 Agent 雖然更少執行攻擊者目標,但也幾乎放棄了用戶原本的正常任務。
相比之下,Tri-Guard 的 ASR 略高,但在 DPI 和 IPI 下分別達到 60.83% 和 61.59% 的 TSR,同時拒絕率明顯更低。這說明 TRIAD 的效果并不只是來自「多加一個護欄」,而是來自 Tri-Guard 對 Proceed、Update、Refuse 三類決策的學習。
![]()
表3:Tri-Guard 與訓練前 Qwen3.5-9B base model 的平均性能對比。結果為四個 Agent 上的平均值。
表3進一步說明了 trajectory-feedback training 的作用。未經訓練的 Qwen3.5-9B base model 本身已經具有較強的安全傾向,因此可以把 ASR 壓得很低;但它的問題是過于保守,經常把可修復的提示注入任務直接判為拒絕,導致正常任務無法完成。
經過訓練后的 Tri-Guard 則把決策邊界從「發現風險就拒絕」調整為「能修復則更新」。雖然 Tri-Guard 的平均 ASR 比 base model 略高,但它在ASB-DPI上將TSR從 26.30% 提升到 64.52%,在ASB-IPI上將TSR從26.53% 提升到 72.68%;同時,拒絕率也明顯下降。
這說明訓練后的 Tri-Guard 更符合 TRIAD 的核心目標:不是最大化拒絕,而是在降低攻擊成功率的同時盡可能保留用戶的正常任務。
![]()
圖3:訓練前后 guardrail 決策分布變化。相比 Qwen3.5-9B base model,Tri-Guard 更傾向于將 PIA 污染的行動計劃路由到 Update,而不是直接 Refuse。
餅圖從決策分布層面解釋了對于正常行動計劃,Tri-Guard 仍然能夠保持較高的 Proceed 比例,說明它不會對正常任務過度干預;對于提示注入污染的行動計劃,Tri-Guard 明顯更多地選擇 Update,而不是像 base model 那樣直接 Refuse;對于直接有害任務,Tri-Guard 仍然保留拒絕能力。
這正是 TRIAD 相比傳統護欄的關鍵變化:它不是把所有風險都導向同一個「拒絕」出口,而是根據任務是否仍可修復,選擇繼續執行、更新計劃或拒絕執行。換句話說,Tri-Guard 的訓練讓護欄從「保守攔截器」變成了「反饋驅動的規劃調節器」。
總結與展望
TRIAD通過 Proceed、Update 和 Refuse 三類決策,以及自然語言反饋驅動的閉環修正機制,為 LLM Agent 安全提供了一種新的護欄思路。它不再停留在簡單的「安全/ 不安全」判斷,而是進一步關注在檢測到風險后,如何引導 Agent 識別計劃中的偏離點,并盡可能保留用戶的原始任務目標。
在提示注入和有害任務場景下,TRIAD 展示了更平衡的安全與效用表現。尤其是在正常任務被惡意內容部分污染時,它通過 Update 決策引導 Agent 重新規劃,實現了從風險分類到行動計劃修復的轉變。我們希望這一工作能為 Agent 護欄設計提供新的參考,并與社區共同探索更可靠、更可解釋的 LLM Agent 安全框架。
作者簡介
第一作者Yuhao Sun 為墨爾本大學計算機與信息系統學院博士生一年級,研究方向為 Trustworthy AI 與 Agent Safety。本文主要合作者為墨爾本大學博士生Jiacheng Zhang與清華大學博士生Zhexin Zhang。并由A/Prof. Xingliang Yuan, Dr. Feng Liu與Dr. Shaanan Cohney共同指導完成。
參考資料:
https://arxiv.org/abs/2606.05805
編輯:LRST
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.