網易首頁 > 網易號 > 正文申請入駐

當AI Agent開始工作，安全該如何跟上？AgentDoG 1.5開源發布

2026-06-16 18:34:50　來源: 機器之心Pro

天津舉報

分享至

最近，同事.skill（colleague.skill）在社區中的快速傳播，讓很多人開始直觀地感受到：AI Agent 正在從「聊天助手」走向「工作伙伴」。

Agent 不再只是回答問題，而是可以繼承一個人的工作習慣、任務流程、知識背景和決策方式，并在 Claude Code、Hermes、OpenClaw、Codex 等 Agent 宿主中被調用。

換句話說，Agent 正在逐漸成為一種新的工作單元：它可以協助人類完成任務，也可能在某些場景中接管一部分具體工作。

與此同時，安全問題也變得更加復雜。過去討論大模型安全，很多時候是在判斷一段用戶輸入是否有害，或者一段模型輸出是否合規。但進入 Agent 時代后，風險不再只存在于一句 prompt 或一個最終回復里。它可能隱藏在工具描述中，出現在環境反饋里，被寫入長期記憶或會話狀態，也可能通過一次錯誤的工具調用、一次未經驗證的命令執行、一次跨應用操作，影響真實文件、賬戶、代碼倉庫甚至業務系統。

因此，Agent 安全不再只是「內容安全」，而是完整執行過程中的行為診斷、風險歸因和在線干預問題。

圍繞這一問題，上海人工智能實驗室發布 AgentDoG 1.5：一個面向 AI Agent 的輕量化、可擴展安全診斷與在線護欄框架。論文已上線 arXiv，代碼、模型與數據均已開源。

論文鏈接：https://arxiv.org/abs/2605.29801
項目鏈接：https://github.com/AI45Lab/AgentDoG
Hugging Face：https://huggingface.co/collections/AI45Research/agentdog15

從「看輸出」到「看軌跡」

AgentDoG 1.5 的核心出發點是：Agent 的安全風險往往發生在完整執行過程中，而不是只發生在 Agent 的最終回復里。一個 Agent 可能在最終回復中看起來正常，但此前已經錯誤調用了工具、泄露了信息、執行了危險命令，或者被外部環境中的惡意內容誘導發生目標偏移。

因此，面向 Agent 的安全評測，不能只看最終輸出，而應該把完整 agent trajectory 作為判斷對象。

在 AgentDoG 1.5 中，模型會綜合分析用戶請求、Agent 中間響應、工具調用、環境反饋和最終回復，對整條軌跡進行安全診斷。它不僅判斷一條軌跡是 safe 還是 unsafe，還進一步輸出三類細粒度診斷信息：Risk Source，即風險從哪里來；Failure Mode，即 Agent 是如何失敗的；Real-world Harm，即這種失敗會造成什么現實危害。

通過這種三維診斷，安全判斷不再只是一個二分類結果，而可以進一步支持風險定位、模型訓練、benchmark 構建和部署階段的在線攔截。

面向快速變化的 Agent 平臺，taxonomy 也必須可擴展

Agent 系統的發展速度很快，不同執行平臺面對的風險也并不相同。通用 tool-use agent、OpenClaw 這類跨應用執行 Agent、Codex 這類面向代碼倉庫和命令執行的 Agent，在執行環境、工具邊界、狀態管理和潛在危害上都有明顯差異。如果每出現一個新 Agent 平臺，就重新設計一套安全標簽和評測任務，整個 guardrail 體系會很快碎片化。

AgentDoG 1.5 采用的方式是：保持 Risk Source、Failure Mode、Real-world Harm 這三個高層維度不變，在不同執行場景下擴展和細化 leaf categories。

例如，在 OpenClaw 場景中，風險可能來自持久會話、審批繞過、技能或插件供應鏈、跨工具攻擊鏈、跨通道路由錯誤，或者無人值守自動化執行；在 Codex 場景中，風險則可能來自倉庫文件注入、依賴或 MCP 供應鏈問題、危險 shell/script 執行、破壞性工作區修改，以及未經驗證的測試或成功聲明。

基于這一思路，論文進一步構建了 ATBench Family。ATBench 面向通用 tool-use agent，ATBench-Claw 面向 OpenClaw 執行場景，ATBench-Codex 面向 Codex 執行場景。三者共享同一個 trajectory-level diagnosis task 和三維 taxonomy 框架，同時針對不同執行環境擴展具體風險類別。這使得 AgentDoG 1.5 能夠在保持跨場景可比性的同時，持續適配新的 Agent 平臺。

只用約 1k 高質量樣本，訓練輕量 AgentDoG 1.5

在訓練 AgentDoG 1.5 時，論文沒有簡單依賴大規模數據堆疊，而是構建了 taxonomy-guided data engine，通過三維 taxonomy 控制數據生成過程。換言之，風險從哪里進入、Agent 如何失敗、會造成什么 real-world harm，都在數據構造階段被系統性建模。隨后，團隊使用 GPT-5.4 作為 teacher，為訓練樣本補充 chain-of-thought rationale，讓學生模型不僅學習最終 judgment，也學習從軌跡證據到安全判斷的推理過程。

由于原始合成數據往往存在噪聲、冗余和低價值樣本，AgentDoG 1.5 進一步引入 influence function-based data purification，從原始數據中篩選最有助于學習 guardrail 行為的高質量樣本。

最終，AgentDoG 1.5 僅使用約 1k 條高信息量樣本，訓練了 0.8B、2B、4B 和 8B 等多個輕量模型版本。

實驗結果顯示，AgentDoG 1.5 在軌跡級安全判斷和細粒度風險診斷上均取得了強表現。

以 4B 模型為例，其在 R-Judge 上達到 92.2% Accuracy 和 92.7% F1，在 ATBench 上達到 72.4% Accuracy 和 74.3% F1；在 fine-grained risk diagnosis 上，AgentDoG 1.5-4B 在 Risk Source、Failure Mode、Real-world Harm 三個維度的平均得分達到 55.2%，相比 AgentDoG 1.0 有明顯提升。

這些結果表明，貼近 Agent 風險結構的數據和監督信號，可以把可靠的 agent safety judgment 能力蒸餾到較小規模的模型中。

構建輕量級 Agent 訓練管線，支持超一萬并發

AgentDoG 1.5 不只用于離線評測，也被進一步接入到 agentic safety training pipeline 中。該訓練 pipeline 包含兩個部分：一是面向 SFT 的高質量安全數據過濾，二是面向 RL 的輕量化交互環境與安全 reward 構造。通過這一 pipeline，AgentDoG 1.5 可以把軌跡級安全診斷能力轉化為訓練階段的監督信號，支持更低成本、更可擴展的 Agent 安全對齊。

在 SFT 階段，團隊使用 ATBench data engine 構造 agentic safety 數據，并利用 AgentDoG 1.5 過濾高質量 safe trajectories。過濾后得到 28,705 條高質量 agentic safety trajectories，并與 50,000 條 benign tool-use trajectories 混合，以避免模型學成過度保守的拒絕策略。

實驗顯示，加入 AgentDoG 1.5 過濾后的安全數據后，模型在多個安全指標上明顯改善。例如，在 AgentHarm 上，harm score 從 57.49% 降至 20.32%，refusal rate 從 28.41% 提升至 75.00%；在 AgentSafetyBench 上，safe rate 從 34.37% 提升至 53.23%。

這說明AgentDoG 1.5 不只是一個評測模型，也可以作為數據質量控制模塊參與安全訓練流程。

在 RL 階段，論文構建了輕量化 finite-state Python simulator 環境，用于支持 scalable agentic safety RL。相比依賴完整 Docker-level 環境的真實執行訓練，這類輕量環境通過有限狀態模擬、工具接口和規則化反饋來構造可擴展的交互任務，并結合 AgentDoG 1.5 提供的軌跡級安全判斷形成 reward signal。

實驗中，該環境可同時加載 10,000 個環境、維護 1,000 個活躍實例，并支持 1,000 個并發工具調用，峰值內存保持在 2.5GB 以下。這一設計顯著降低了 agentic safety RL 的環境部署成本，使大規模安全訓練更加可行。

構筑 Agent 最后防線：在線安全護欄

AgentDoG 1.5 不僅可以支持 Agent 訓練，還可以部署為 online guardrail。論文提出一種Pre-Reply 介入機制：在 Agent 最終回復發送給用戶之前，AgentDoG 1.5 會讀取完整執行軌跡，包括用戶輸入、工具調用、工具結果、環境觀察和最終草稿，并判斷是否允許放行。

這樣既能利用比 prompt-level 或 output-only guardrail 更完整的上下文，又避免在每一次工具調用后都插入檢測，從而降低對 agent loop 的延遲影響。

在 OpenClaw 在線評測中，AgentDoG 1.5 能有效降低 unsafe final deliveries。AgentDoG 1.5-4B 將 ClawSafety 的 ASR 從 56.25% 降至 18.75%，將 AgentHazard Prompt Intelligence Theft 的 ASR 從 41.92% 降至 26.92%，并在 CIK-Bench retained cases 上將 ASR 從 94.29% 降至 42.86%。受益于 Pre-Reply 的設計，AgentDoG 1.5 整體延遲在可部署范圍內。

為什么這件事重要？

AI Agent 的能力正在從「生成內容」走向「執行任務」。當 Agent 能夠調用真實工具、訪問真實文件、觸達真實系統時，安全問題也隨之升級：它不再只是內容審核問題，而是執行過程中的行為診斷、風險歸因和在線干預問題。

AgentDoG 1.5 的貢獻在于，它把這些環節串成了一個完整閉環：用三維 taxonomy 描述風險，用 ATBench Family 評測不同 Agent 場景，用 taxonomy-guided data engine 構造訓練數據，用 influence-function purification 訓練輕量模型，并進一步支持 agentic safety SFT、RL 和 online guardrail。隨著 Agent 系統繼續演進，這種可診斷、可擴展、可部署的安全框架，將成為 Agent 走向真實工作場景的重要基礎。

如果說未來的 AI Agent 會越來越像一個能夠行動的數字助手，那么 AgentDoG 1.5 想做的，就是讓它在行動之前、行動之中、行動之后，都有一套可診斷、可擴展、可部署的安全機制。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.