網易首頁 > 網易號 > 正文申請入駐

不安全指令，一拒了之？TRIAD用三路決策：修復AI智能體的危險計劃

2026-06-24 10:05:46　來源: 新智元

北京舉報

分享至

新智元報道

【新智元導讀】TRIAD是為AI智能體設計的一種新型安全框架，通過三類決策（繼續、更新、拒絕）和自然語言反饋，幫助Agent在被誤導時修正計劃，完成用戶真實需求。相比傳統方法，TRIAD更智能，能區分任務污染程度，既防風險又不誤任務。

隨著AI智能體（Agent）逐漸走向能夠調用搜索、郵件、文件、數據庫和代碼執行等外部工具的自動化系統，其能力邊界不斷擴展，安全風險也隨之放大：一段看似普通的網頁內容、一封郵件、一條工具返回結果，都可能成為影響Agent決策的外部風險源，誘導其偏離用戶原本的任務。

現有護欄模型（guardrail）通常只能在執行前判斷「安全」或「不安全」，但真實 Agent 場景中的風險往往并不是整個任務都有害，而是正常任務中混入了不可信指令；直接放行可能導致攻擊成功，直接拒絕又會犧牲用戶的正常需求。

為此，墨爾本大學團隊開源TRIAD（Tripartite Response for Iterative Agent Guardrailing），一個面向 LLM Agent 的反饋驅動護欄框架：它不再只做二分類安全判斷，而是將決策擴展為Proceed、Update和Refuse三類——安全時繼續執行，完全有害時拒絕，對于被提示注入污染但仍可修復的任務，則通過自然語言反饋引導 Agent 修改行動計劃，回到用戶的原始目標。

論文鏈接：https://arxiv.org/abs/2606.05805

代碼鏈接：https://github.com/YUHAOSUNABC/TRIAD

項目主頁：https://yuhaosunabc.github.io/TRIAD/

研究背景

隨著大語言模型智能體（LLM Agent）從「回答問題」走向「調用工具、執行任務」，它們正在被應用到郵件處理、網頁瀏覽、文件管理、數據庫查詢、代碼執行等更加復雜的場景中。

相比傳統聊天模型，Agent 不僅會生成文本，還會根據上下文制定計劃、選擇工具，并在多輪交互中根據工具返回結果繼續行動。這種能力讓 LLM Agent 更接近真實的自動化助手，但也顯著擴大了安全風險。

這一問題在提示注入攻擊（Prompt Injection Attack）中尤為突出。真實場景下，風險往往不是來自一個完全有害的用戶請求，而是來自「正常任務中混入了不可信指令」。

例如，用戶只是希望Agent幫忙搜索酒店并發送郵件，但搜索結果或郵件正文中可能混入惡意內容，誘導 Agent 將會議地點發送給無關收件人、泄露客戶郵箱，或調用非必要工具訪問敏感信息。

此時，Agent面臨的并不是簡單的「安全 / 不安全」二分類問題：它既需要拒絕惡意部分，又應盡可能完成用戶原本的正常任務。

現有 Agent 護欄通常會在執行前檢查輸入、行動計劃或工具調用，并給出允許、拒絕、風險類別或解釋性理由。然而，這類方法往往更擅長「發現風險」，卻不一定能有效指導Agent接下來如何行動。

對于被污染但仍可修復的任務，簡單拒絕雖然可以阻斷攻擊，卻會犧牲用戶的正常需求；直接放行則可能讓 Agent 執行攻擊者指定的工具調用。

換言之，Agent安全不僅需要風險檢測，還需要在檢測到風險后，對行動計劃進行修復。

為此，本文作者團隊提出了TRIAD（Tripartite Response for Iterative Agent Guardrailing），一個面向 LLM Agent 的反饋驅動護欄框架。TRIAD將傳統的二元護欄決策擴展為三類：Proceed、Update和Refuse。

當行動計劃安全時，Agent可以繼續執行；當用戶請求本身有害時，Agent 應拒絕完成；而當任務中存在提示注入或不可信指令、但原始用戶目標仍然合理時，TRIAD會生成自然語言反饋（Natural-Language Feedback），引導 Agent 修改計劃、避開惡意部分，并回到用戶原本的任務目標。

也就是說，TRIAD不只是告訴Agent「這里有風險」，而是通過自然語言反饋強調風險來源和任務偏離點，引導下游Agent重新規劃并回到原始用戶目標。

圖 1：TRIAD流程與baseline對比。在Agent執行工具前，Tri-Guard 會檢查其行動計劃（action plan），并給出Proceed、Update或Refuse三類決策；對于被提示注入污染但仍可修復的任務，TRIAD 將自然語言反饋寫回上下文，引導 Agent 修改計劃并回到原始目標。

Agent被帶偏后重新回到原任務

傳統Agent護欄通常采用「檢測 — 攔截」的思路：在工具執行前判斷當前行動是否安全，如果發現風險，就阻止Agent繼續執行。

這種方式對于完全有害的請求是有效的，但在提示注入場景下會遇到困難。因為很多任務并不是整體有害，而是正常任務中夾雜了惡意指令。此時，簡單拒絕會讓 Agent 放棄原本可以完成的正常任務，而簡單放行又可能導致攻擊成功。

TRIAD 的核心思路是把護欄從一個「二分類裁判」變成一個「反饋提供者」。如圖 1所示，Agent在每一步工具調用前，都會先生成當前的行動計劃和擬調用工具。

隨后，Tri-Guard會在工具真正執行前檢查這一計劃，并根據當前上下文、歷史交互、可用工具和擬執行動作，給出自然語言反饋以及三類決策：Proceed、Update和Refuse。

其中，Proceed表示當前計劃安全且與用戶目標一致，Agent可以繼續執行工具；Refuse表示用戶請求本身有害，或當前任務無法通過修改計劃安全完成，Agent應直接拒絕；

Update則用于處理最關鍵的中間情況：當前計劃受到了提示注入或不可信內容影響，但用戶原始目標仍然合理。

此時，TRIAD不會直接終止任務，而是將Tri-Guard生成的自然語言反饋寫回Agent的臨時上下文，明確指出風險來源、任務偏離點和當前工具調用的問題，從而引導下游Agent重新規劃。

這一設計形成了一個閉環：Agent 先提出計劃，Tri-Guard 檢查計劃；如果需要更新，反饋會被注入回 Agent 的上下文，Agent 再生成新的計劃；新的計劃會再次經過 Tri-Guard 檢查，直到被允許執行、被拒絕，或達到最大更新次數。通過這種方式，TRIAD 將護欄輸出從靜態的風險標簽轉化為可影響后續規劃的上下文信號，使 Agent 在面對部分污染的任務時，不只是「停下來」，而是有機會「回到正確方向」。

為了讓 Tri-Guard 具備這種判斷和反饋能力，研究者構建了一個包含多輪 Agent 軌跡的數據集，并通過知識蒸餾（knowledge distillation）利用教師模型（teacher model）為軌跡生成結構化自然語言反饋和三類決策標簽。訓練后的 Tri-Guard 不僅需要識別當前行動是否存在風險，還要區分三種情況：正常任務應繼續執行，直接有害任務應拒絕，而被提示注入污染但仍可修復的任務應進入更新流程。

圖 2：訓練數據構造流程。

實驗結果

我們在 ASB 和 AgentHarm 兩個 benchmark 上進行評測。

其中，ASB 用于測試 Agent 在直接提示注入（DPI）和間接提示注入（IPI）下是否會被攻擊者帶偏；AgentHarm則用于評估Agent面對直接有害任務時的拒絕能力以及對正常任務的保留能力。

實驗覆蓋了四個Agent backbone，包括兩個開源模型 Qwen3-32B、Kimi-2.5，以及兩個前沿閉源模型GPT-5.1和Gemini-2.5-Pro，結果如下。

表1：TRIAD在四類Agent上的實驗結果。實驗覆蓋ASB-DPI、ASB-IPI和AgentHarm，比較無防護 ReAct、ToolSafe、TRIAD + TS-Guard和TRIAD + Tri-Guard。

主實驗結果顯示，TRIAD + Tri-Guard 在不同 Agent上都能顯著降低攻擊成功率（ASR），同時保留更高的正常任務完成率（TSR）。相比沒有防護的 ReAct，TRIAD + Tri-Guard 將平均 ASR 從 74.45% 降至 10.42%，同時將平均 TSR 從 28.45% 提升到 68.60%。這一結果說明，TRIAD 不只是簡單攔截風險，還能在提示注入污染任務時引導 Agent 回到原始用戶目標。

一個重要現象是，低 ASR 并不一定代表更好的護欄。ToolSafe 和 TRIAD + TS-Guard 在部分設置下也能壓低 ASR，但往往伴隨很高的拒絕率和較低的 TSR，說明它們更多是通過「攔截或放棄執行」來降低攻擊成功率。相比之下，TRIAD + Tri-Guard 在 ASB-DPI 和 ASB-IPI 上普遍取得更高的 TSR，說明它更擅長處理「任務部分被污染但仍可修復」的場景。

表2：在同一 TRIAD 框架下替換不同護欄(guardrail)模型的結果。實驗基于 Qwen3-32B，比較現有護欄(guardrail)、Qwen3.5-9B base model 和經過訓練的 Tri-Guard。

為了區分「框架本身」和「護欄模型能力」的影響，研究者進一步在 TRIAD 框架中替換不同 guardrail 模型。結果顯示，直接接入現有 guardrail 并不足以獲得理想的安全-效用平衡。許多模型可以檢測風險并降低 ASR，但它們傾向于把部分污染的任務整體視為危險任務，從而導致高拒絕率和低任務完成率。

以 TS-Guard 為例，它在 ASB-DPI 和 ASB-IPI 上都能明顯壓低 ASR，但拒絕率分別達到 88.80% 和 94.63%，對應的 TSR 只有 1.33% 和 0.59%。這意味著 Agent 雖然更少執行攻擊者目標，但也幾乎放棄了用戶原本的正常任務。

相比之下，Tri-Guard 的 ASR 略高，但在 DPI 和 IPI 下分別達到 60.83% 和 61.59% 的 TSR，同時拒絕率明顯更低。這說明 TRIAD 的效果并不只是來自「多加一個護欄」，而是來自 Tri-Guard 對 Proceed、Update、Refuse 三類決策的學習。

表3：Tri-Guard 與訓練前 Qwen3.5-9B base model 的平均性能對比。結果為四個 Agent 上的平均值。

表3進一步說明了 trajectory-feedback training 的作用。未經訓練的 Qwen3.5-9B base model 本身已經具有較強的安全傾向，因此可以把 ASR 壓得很低；但它的問題是過于保守，經常把可修復的提示注入任務直接判為拒絕，導致正常任務無法完成。

經過訓練后的 Tri-Guard 則把決策邊界從「發現風險就拒絕」調整為「能修復則更新」。雖然 Tri-Guard 的平均 ASR 比 base model 略高，但它在ASB-DPI上將TSR從 26.30% 提升到 64.52%，在ASB-IPI上將TSR從26.53% 提升到 72.68%；同時，拒絕率也明顯下降。

這說明訓練后的 Tri-Guard 更符合 TRIAD 的核心目標：不是最大化拒絕，而是在降低攻擊成功率的同時盡可能保留用戶的正常任務。

圖3：訓練前后 guardrail 決策分布變化。相比 Qwen3.5-9B base model，Tri-Guard 更傾向于將 PIA 污染的行動計劃路由到 Update，而不是直接 Refuse。

餅圖從決策分布層面解釋了對于正常行動計劃，Tri-Guard 仍然能夠保持較高的 Proceed 比例，說明它不會對正常任務過度干預；對于提示注入污染的行動計劃，Tri-Guard 明顯更多地選擇 Update，而不是像 base model 那樣直接 Refuse；對于直接有害任務，Tri-Guard 仍然保留拒絕能力。

這正是 TRIAD 相比傳統護欄的關鍵變化：它不是把所有風險都導向同一個「拒絕」出口，而是根據任務是否仍可修復，選擇繼續執行、更新計劃或拒絕執行。換句話說，Tri-Guard 的訓練讓護欄從「保守攔截器」變成了「反饋驅動的規劃調節器」。

總結與展望

TRIAD通過 Proceed、Update 和 Refuse 三類決策，以及自然語言反饋驅動的閉環修正機制，為 LLM Agent 安全提供了一種新的護欄思路。它不再停留在簡單的「安全/ 不安全」判斷，而是進一步關注在檢測到風險后，如何引導 Agent 識別計劃中的偏離點，并盡可能保留用戶的原始任務目標。

在提示注入和有害任務場景下，TRIAD 展示了更平衡的安全與效用表現。尤其是在正常任務被惡意內容部分污染時，它通過 Update 決策引導 Agent 重新規劃，實現了從風險分類到行動計劃修復的轉變。我們希望這一工作能為 Agent 護欄設計提供新的參考，并與社區共同探索更可靠、更可解釋的 LLM Agent 安全框架。

作者簡介

第一作者Yuhao Sun 為墨爾本大學計算機與信息系統學院博士生一年級，研究方向為 Trustworthy AI 與 Agent Safety。本文主要合作者為墨爾本大學博士生Jiacheng Zhang與清華大學博士生Zhexin Zhang。并由A/Prof. Xingliang Yuan, Dr. Feng Liu與Dr. Shaanan Cohney共同指導完成。

參考資料：

https://arxiv.org/abs/2606.05805

編輯：LRST

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.