![]()
最近,同事.skill(colleague.skill)在社區中的快速傳播,讓很多人開始直觀地感受到:AI Agent 正在從「聊天助手」走向「工作伙伴」。
Agent 不再只是回答問題,而是可以繼承一個人的工作習慣、任務流程、知識背景和決策方式,并在 Claude Code、Hermes、OpenClaw、Codex 等 Agent 宿主中被調用。
換句話說,Agent 正在逐漸成為一種新的工作單元:它可以協助人類完成任務,也可能在某些場景中接管一部分具體工作。
與此同時,安全問題也變得更加復雜。過去討論大模型安全,很多時候是在判斷一段用戶輸入是否有害,或者一段模型輸出是否合規。但進入 Agent 時代后,風險不再只存在于一句 prompt 或一個最終回復里。它可能隱藏在工具描述中,出現在環境反饋里,被寫入長期記憶或會話狀態,也可能通過一次錯誤的工具調用、一次未經驗證的命令執行、一次跨應用操作,影響真實文件、賬戶、代碼倉庫甚至業務系統。
因此,Agent 安全不再只是「內容安全」,而是完整執行過程中的行為診斷、風險歸因和在線干預問題。
圍繞這一問題,上海人工智能實驗室發布 AgentDoG 1.5:一個面向 AI Agent 的輕量化、可擴展安全診斷與在線護欄框架。論文已上線 arXiv,代碼、模型與數據均已開源。
![]()
![]()
- 論文鏈接:https://arxiv.org/abs/2605.29801
- 項目鏈接:https://github.com/AI45Lab/AgentDoG
- Hugging Face:https://huggingface.co/collections/AI45Research/agentdog15
從「看輸出」到「看軌跡」
AgentDoG 1.5 的核心出發點是:Agent 的安全風險往往發生在完整執行過程中,而不是只發生在 Agent 的最終回復里。一個 Agent 可能在最終回復中看起來正常,但此前已經錯誤調用了工具、泄露了信息、執行了危險命令,或者被外部環境中的惡意內容誘導發生目標偏移。
因此,面向 Agent 的安全評測,不能只看最終輸出,而應該把完整 agent trajectory 作為判斷對象。
在 AgentDoG 1.5 中,模型會綜合分析用戶請求、Agent 中間響應、工具調用、環境反饋和最終回復,對整條軌跡進行安全診斷。它不僅判斷一條軌跡是 safe 還是 unsafe,還進一步輸出三類細粒度診斷信息:Risk Source,即風險從哪里來;Failure Mode,即 Agent 是如何失敗的;Real-world Harm,即這種失敗會造成什么現實危害。
通過這種三維診斷,安全判斷不再只是一個二分類結果,而可以進一步支持風險定位、模型訓練、benchmark 構建和部署階段的在線攔截。
面向快速變化的 Agent 平臺,taxonomy 也必須可擴展
![]()
Agent 系統的發展速度很快,不同執行平臺面對的風險也并不相同。通用 tool-use agent、OpenClaw 這類跨應用執行 Agent、Codex 這類面向代碼倉庫和命令執行的 Agent,在執行環境、工具邊界、狀態管理和潛在危害上都有明顯差異。如果每出現一個新 Agent 平臺,就重新設計一套安全標簽和評測任務,整個 guardrail 體系會很快碎片化。
AgentDoG 1.5 采用的方式是:保持 Risk Source、Failure Mode、Real-world Harm 這三個高層維度不變,在不同執行場景下擴展和細化 leaf categories。
例如,在 OpenClaw 場景中,風險可能來自持久會話、審批繞過、技能或插件供應鏈、跨工具攻擊鏈、跨通道路由錯誤,或者無人值守自動化執行;在 Codex 場景中,風險則可能來自倉庫文件注入、依賴或 MCP 供應鏈問題、危險 shell/script 執行、破壞性工作區修改,以及未經驗證的測試或成功聲明。
![]()
基于這一思路,論文進一步構建了 ATBench Family。ATBench 面向通用 tool-use agent,ATBench-Claw 面向 OpenClaw 執行場景,ATBench-Codex 面向 Codex 執行場景。三者共享同一個 trajectory-level diagnosis task 和三維 taxonomy 框架,同時針對不同執行環境擴展具體風險類別。這使得 AgentDoG 1.5 能夠在保持跨場景可比性的同時,持續適配新的 Agent 平臺。
只用約 1k 高質量樣本,訓練輕量 AgentDoG 1.5
在訓練 AgentDoG 1.5 時,論文沒有簡單依賴大規模數據堆疊,而是構建了 taxonomy-guided data engine,通過三維 taxonomy 控制數據生成過程。換言之,風險從哪里進入、Agent 如何失敗、會造成什么 real-world harm,都在數據構造階段被系統性建模。隨后,團隊使用 GPT-5.4 作為 teacher,為訓練樣本補充 chain-of-thought rationale,讓學生模型不僅學習最終 judgment,也學習從軌跡證據到安全判斷的推理過程。
由于原始合成數據往往存在噪聲、冗余和低價值樣本,AgentDoG 1.5 進一步引入 influence function-based data purification,從原始數據中篩選最有助于學習 guardrail 行為的高質量樣本。
最終,AgentDoG 1.5 僅使用約 1k 條高信息量樣本,訓練了 0.8B、2B、4B 和 8B 等多個輕量模型版本。
實驗結果顯示,AgentDoG 1.5 在軌跡級安全判斷和細粒度風險診斷上均取得了強表現。
以 4B 模型為例,其在 R-Judge 上達到 92.2% Accuracy 和 92.7% F1,在 ATBench 上達到 72.4% Accuracy 和 74.3% F1;在 fine-grained risk diagnosis 上,AgentDoG 1.5-4B 在 Risk Source、Failure Mode、Real-world Harm 三個維度的平均得分達到 55.2%,相比 AgentDoG 1.0 有明顯提升。
這些結果表明,貼近 Agent 風險結構的數據和監督信號,可以把可靠的 agent safety judgment 能力蒸餾到較小規模的模型中。
![]()
構建輕量級 Agent 訓練管線,支持超一萬并發
AgentDoG 1.5 不只用于離線評測,也被進一步接入到 agentic safety training pipeline 中。該訓練 pipeline 包含兩個部分:一是面向 SFT 的高質量安全數據過濾,二是面向 RL 的輕量化交互環境與安全 reward 構造。通過這一 pipeline,AgentDoG 1.5 可以把軌跡級安全診斷能力轉化為訓練階段的監督信號,支持更低成本、更可擴展的 Agent 安全對齊。
在 SFT 階段,團隊使用 ATBench data engine 構造 agentic safety 數據,并利用 AgentDoG 1.5 過濾高質量 safe trajectories。過濾后得到 28,705 條高質量 agentic safety trajectories,并與 50,000 條 benign tool-use trajectories 混合,以避免模型學成過度保守的拒絕策略。
實驗顯示,加入 AgentDoG 1.5 過濾后的安全數據后,模型在多個安全指標上明顯改善。例如,在 AgentHarm 上,harm score 從 57.49% 降至 20.32%,refusal rate 從 28.41% 提升至 75.00%;在 AgentSafetyBench 上,safe rate 從 34.37% 提升至 53.23%。
這說明AgentDoG 1.5 不只是一個評測模型,也可以作為數據質量控制模塊參與安全訓練流程。
![]()
在 RL 階段,論文構建了輕量化 finite-state Python simulator 環境,用于支持 scalable agentic safety RL。相比依賴完整 Docker-level 環境的真實執行訓練,這類輕量環境通過有限狀態模擬、工具接口和規則化反饋來構造可擴展的交互任務,并結合 AgentDoG 1.5 提供的軌跡級安全判斷形成 reward signal。
實驗中,該環境可同時加載 10,000 個環境、維護 1,000 個活躍實例,并支持 1,000 個并發工具調用,峰值內存保持在 2.5GB 以下。這一設計顯著降低了 agentic safety RL 的環境部署成本,使大規模安全訓練更加可行。
![]()
構筑 Agent 最后防線:在線安全護欄
![]()
AgentDoG 1.5 不僅可以支持 Agent 訓練,還可以部署為 online guardrail。論文提出一種Pre-Reply 介入機制:在 Agent 最終回復發送給用戶之前,AgentDoG 1.5 會讀取完整執行軌跡,包括用戶輸入、工具調用、工具結果、環境觀察和最終草稿,并判斷是否允許放行。
這樣既能利用比 prompt-level 或 output-only guardrail 更完整的上下文,又避免在每一次工具調用后都插入檢測,從而降低對 agent loop 的延遲影響。
在 OpenClaw 在線評測中,AgentDoG 1.5 能有效降低 unsafe final deliveries。AgentDoG 1.5-4B 將 ClawSafety 的 ASR 從 56.25% 降至 18.75%,將 AgentHazard Prompt Intelligence Theft 的 ASR 從 41.92% 降至 26.92%,并在 CIK-Bench retained cases 上將 ASR 從 94.29% 降至 42.86%。受益于 Pre-Reply 的設計,AgentDoG 1.5 整體延遲在可部署范圍內。
![]()
為什么這件事重要?
AI Agent 的能力正在從「生成內容」走向「執行任務」。當 Agent 能夠調用真實工具、訪問真實文件、觸達真實系統時,安全問題也隨之升級:它不再只是內容審核問題,而是執行過程中的行為診斷、風險歸因和在線干預問題。
AgentDoG 1.5 的貢獻在于,它把這些環節串成了一個完整閉環:用三維 taxonomy 描述風險,用 ATBench Family 評測不同 Agent 場景,用 taxonomy-guided data engine 構造訓練數據,用 influence-function purification 訓練輕量模型,并進一步支持 agentic safety SFT、RL 和 online guardrail。隨著 Agent 系統繼續演進,這種可診斷、可擴展、可部署的安全框架,將成為 Agent 走向真實工作場景的重要基礎。
如果說未來的 AI Agent 會越來越像一個能夠行動的數字助手,那么 AgentDoG 1.5 想做的,就是讓它在行動之前、行動之中、行動之后,都有一套可診斷、可擴展、可部署的安全機制。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.