无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

當AI Agent開始工作,安全該如何跟上?AgentDoG 1.5開源發布

0
分享至



最近,同事.skill(colleague.skill)在社區中的快速傳播,讓很多人開始直觀地感受到:AI Agent 正在從「聊天助手」走向「工作伙伴」。

Agent 不再只是回答問題,而是可以繼承一個人的工作習慣、任務流程、知識背景和決策方式,并在 Claude Code、Hermes、OpenClaw、Codex 等 Agent 宿主中被調用。

換句話說,Agent 正在逐漸成為一種新的工作單元:它可以協助人類完成任務,也可能在某些場景中接管一部分具體工作。

與此同時,安全問題也變得更加復雜。過去討論大模型安全,很多時候是在判斷一段用戶輸入是否有害,或者一段模型輸出是否合規。但進入 Agent 時代后,風險不再只存在于一句 prompt 或一個最終回復里。它可能隱藏在工具描述中,出現在環境反饋里,被寫入長期記憶或會話狀態,也可能通過一次錯誤的工具調用、一次未經驗證的命令執行、一次跨應用操作,影響真實文件、賬戶、代碼倉庫甚至業務系統。

因此,Agent 安全不再只是「內容安全」,而是完整執行過程中的行為診斷、風險歸因和在線干預問題。

圍繞這一問題,上海人工智能實驗室發布 AgentDoG 1.5:一個面向 AI Agent 的輕量化、可擴展安全診斷與在線護欄框架。論文已上線 arXiv,代碼、模型與數據均已開源。





  • 論文鏈接:https://arxiv.org/abs/2605.29801
  • 項目鏈接:https://github.com/AI45Lab/AgentDoG
  • Hugging Face:https://huggingface.co/collections/AI45Research/agentdog15

從「看輸出」到「看軌跡」

AgentDoG 1.5 的核心出發點是:Agent 的安全風險往往發生在完整執行過程中,而不是只發生在 Agent 的最終回復里。一個 Agent 可能在最終回復中看起來正常,但此前已經錯誤調用了工具、泄露了信息、執行了危險命令,或者被外部環境中的惡意內容誘導發生目標偏移。

因此,面向 Agent 的安全評測,不能只看最終輸出,而應該把完整 agent trajectory 作為判斷對象。

在 AgentDoG 1.5 中,模型會綜合分析用戶請求、Agent 中間響應、工具調用、環境反饋和最終回復,對整條軌跡進行安全診斷。它不僅判斷一條軌跡是 safe 還是 unsafe,還進一步輸出三類細粒度診斷信息:Risk Source,即風險從哪里來;Failure Mode,即 Agent 是如何失敗的;Real-world Harm,即這種失敗會造成什么現實危害。

通過這種三維診斷,安全判斷不再只是一個二分類結果,而可以進一步支持風險定位、模型訓練、benchmark 構建和部署階段的在線攔截。

面向快速變化的 Agent 平臺,taxonomy 也必須可擴展



Agent 系統的發展速度很快,不同執行平臺面對的風險也并不相同。通用 tool-use agent、OpenClaw 這類跨應用執行 Agent、Codex 這類面向代碼倉庫和命令執行的 Agent,在執行環境、工具邊界、狀態管理和潛在危害上都有明顯差異。如果每出現一個新 Agent 平臺,就重新設計一套安全標簽和評測任務,整個 guardrail 體系會很快碎片化。

AgentDoG 1.5 采用的方式是:保持 Risk Source、Failure Mode、Real-world Harm 這三個高層維度不變,在不同執行場景下擴展和細化 leaf categories。

例如,在 OpenClaw 場景中,風險可能來自持久會話、審批繞過、技能或插件供應鏈、跨工具攻擊鏈、跨通道路由錯誤,或者無人值守自動化執行;在 Codex 場景中,風險則可能來自倉庫文件注入、依賴或 MCP 供應鏈問題、危險 shell/script 執行、破壞性工作區修改,以及未經驗證的測試或成功聲明。



基于這一思路,論文進一步構建了 ATBench Family。ATBench 面向通用 tool-use agent,ATBench-Claw 面向 OpenClaw 執行場景,ATBench-Codex 面向 Codex 執行場景。三者共享同一個 trajectory-level diagnosis task 和三維 taxonomy 框架,同時針對不同執行環境擴展具體風險類別。這使得 AgentDoG 1.5 能夠在保持跨場景可比性的同時,持續適配新的 Agent 平臺。

只用約 1k 高質量樣本,訓練輕量 AgentDoG 1.5

在訓練 AgentDoG 1.5 時,論文沒有簡單依賴大規模數據堆疊,而是構建了 taxonomy-guided data engine,通過三維 taxonomy 控制數據生成過程。換言之,風險從哪里進入、Agent 如何失敗、會造成什么 real-world harm,都在數據構造階段被系統性建模。隨后,團隊使用 GPT-5.4 作為 teacher,為訓練樣本補充 chain-of-thought rationale,讓學生模型不僅學習最終 judgment,也學習從軌跡證據到安全判斷的推理過程。

由于原始合成數據往往存在噪聲、冗余和低價值樣本,AgentDoG 1.5 進一步引入 influence function-based data purification,從原始數據中篩選最有助于學習 guardrail 行為的高質量樣本。

最終,AgentDoG 1.5 僅使用約 1k 條高信息量樣本,訓練了 0.8B、2B、4B 和 8B 等多個輕量模型版本。

實驗結果顯示,AgentDoG 1.5 在軌跡級安全判斷和細粒度風險診斷上均取得了強表現。

以 4B 模型為例,其在 R-Judge 上達到 92.2% Accuracy 和 92.7% F1,在 ATBench 上達到 72.4% Accuracy 和 74.3% F1;在 fine-grained risk diagnosis 上,AgentDoG 1.5-4B 在 Risk Source、Failure Mode、Real-world Harm 三個維度的平均得分達到 55.2%,相比 AgentDoG 1.0 有明顯提升。

這些結果表明,貼近 Agent 風險結構的數據和監督信號,可以把可靠的 agent safety judgment 能力蒸餾到較小規模的模型中。



構建輕量級 Agent 訓練管線,支持超一萬并發

AgentDoG 1.5 不只用于離線評測,也被進一步接入到 agentic safety training pipeline 中。該訓練 pipeline 包含兩個部分:一是面向 SFT 的高質量安全數據過濾,二是面向 RL 的輕量化交互環境與安全 reward 構造。通過這一 pipeline,AgentDoG 1.5 可以把軌跡級安全診斷能力轉化為訓練階段的監督信號,支持更低成本、更可擴展的 Agent 安全對齊。

在 SFT 階段,團隊使用 ATBench data engine 構造 agentic safety 數據,并利用 AgentDoG 1.5 過濾高質量 safe trajectories。過濾后得到 28,705 條高質量 agentic safety trajectories,并與 50,000 條 benign tool-use trajectories 混合,以避免模型學成過度保守的拒絕策略。

實驗顯示,加入 AgentDoG 1.5 過濾后的安全數據后,模型在多個安全指標上明顯改善。例如,在 AgentHarm 上,harm score 從 57.49% 降至 20.32%,refusal rate 從 28.41% 提升至 75.00%;在 AgentSafetyBench 上,safe rate 從 34.37% 提升至 53.23%。

這說明AgentDoG 1.5 不只是一個評測模型,也可以作為數據質量控制模塊參與安全訓練流程。



在 RL 階段,論文構建了輕量化 finite-state Python simulator 環境,用于支持 scalable agentic safety RL。相比依賴完整 Docker-level 環境的真實執行訓練,這類輕量環境通過有限狀態模擬、工具接口和規則化反饋來構造可擴展的交互任務,并結合 AgentDoG 1.5 提供的軌跡級安全判斷形成 reward signal。

實驗中,該環境可同時加載 10,000 個環境、維護 1,000 個活躍實例,并支持 1,000 個并發工具調用,峰值內存保持在 2.5GB 以下。這一設計顯著降低了 agentic safety RL 的環境部署成本,使大規模安全訓練更加可行。




構筑 Agent 最后防線:在線安全護欄




AgentDoG 1.5 不僅可以支持 Agent 訓練,還可以部署為 online guardrail。論文提出一種Pre-Reply 介入機制:在 Agent 最終回復發送給用戶之前,AgentDoG 1.5 會讀取完整執行軌跡,包括用戶輸入、工具調用、工具結果、環境觀察和最終草稿,并判斷是否允許放行。

這樣既能利用比 prompt-level 或 output-only guardrail 更完整的上下文,又避免在每一次工具調用后都插入檢測,從而降低對 agent loop 的延遲影響。

在 OpenClaw 在線評測中,AgentDoG 1.5 能有效降低 unsafe final deliveries。AgentDoG 1.5-4B 將 ClawSafety 的 ASR 從 56.25% 降至 18.75%,將 AgentHazard Prompt Intelligence Theft 的 ASR 從 41.92% 降至 26.92%,并在 CIK-Bench retained cases 上將 ASR 從 94.29% 降至 42.86%。受益于 Pre-Reply 的設計,AgentDoG 1.5 整體延遲在可部署范圍內。



為什么這件事重要?

AI Agent 的能力正在從「生成內容」走向「執行任務」。當 Agent 能夠調用真實工具、訪問真實文件、觸達真實系統時,安全問題也隨之升級:它不再只是內容審核問題,而是執行過程中的行為診斷、風險歸因和在線干預問題。

AgentDoG 1.5 的貢獻在于,它把這些環節串成了一個完整閉環:用三維 taxonomy 描述風險,用 ATBench Family 評測不同 Agent 場景,用 taxonomy-guided data engine 構造訓練數據,用 influence-function purification 訓練輕量模型,并進一步支持 agentic safety SFT、RL 和 online guardrail。隨著 Agent 系統繼續演進,這種可診斷、可擴展、可部署的安全框架,將成為 Agent 走向真實工作場景的重要基礎。

如果說未來的 AI Agent 會越來越像一個能夠行動的數字助手,那么 AgentDoG 1.5 想做的,就是讓它在行動之前、行動之中、行動之后,都有一套可診斷、可擴展、可部署的安全機制。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國安部披露:石某某前往深山中一處軍事基地,拍攝軍事設施照片記錄“越野成果”,被處罰

國安部披露:石某某前往深山中一處軍事基地,拍攝軍事設施照片記錄“越野成果”,被處罰

政知新媒體
2026-06-14 08:28:49
經常早醒,可能是這 4 種疾病的信號!

經常早醒,可能是這 4 種疾病的信號!

丁香生活研究所
2026-06-16 11:58:16
木村拓哉零偽裝現身地鐵!眼睛部分有亮點:想耍帥時就戴

木村拓哉零偽裝現身地鐵!眼睛部分有亮點:想耍帥時就戴

ETtoday星光云
2026-06-16 15:20:05
159元套餐不如39元的劃算、套餐“升級容易降費難”,三大電信運營商被指“新老用戶不同權”,“殺熟”底氣從何而來?

159元套餐不如39元的劃算、套餐“升級容易降費難”,三大電信運營商被指“新老用戶不同權”,“殺熟”底氣從何而來?

上觀新聞
2026-06-16 06:42:49
壞消息!一旦國家全面收購開發商賣不掉的房子,恐將難逃5大厄運

壞消息!一旦國家全面收購開發商賣不掉的房子,恐將難逃5大厄運

巢客HOME
2026-05-17 05:50:03
比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

芳芳歷史燴
2025-12-25 20:32:52
演員吳倩首次正面回應“復婚”傳聞:沒有復婚,與張雨劍現在關系相處融洽,并表示:“這輩子不會因自私讓孩子跟父親斷聯”

演員吳倩首次正面回應“復婚”傳聞:沒有復婚,與張雨劍現在關系相處融洽,并表示:“這輩子不會因自私讓孩子跟父親斷聯”

極目新聞
2026-06-16 11:55:18
王毅拿出30多年前的約定,成功從蒙古手中,得到了4個關鍵承諾

王毅拿出30多年前的約定,成功從蒙古手中,得到了4個關鍵承諾

混沌錄
2026-06-16 16:42:41
李鐵的罪,不光在于利益輸送,還在于他封死了中國男足世界杯之路

李鐵的罪,不光在于利益輸送,還在于他封死了中國男足世界杯之路

丁懰驚悚影視解說
2026-06-08 11:03:59
王曉晨,泳裝好凸出啊

王曉晨,泳裝好凸出啊

TVB的四小花
2026-06-16 19:07:05
5大書記走了3個!高崗到東北后,為何形成了“前林后高”的局面

5大書記走了3個!高崗到東北后,為何形成了“前林后高”的局面

海佑講史
2026-06-16 18:40:11
調查發現,每天晚飯后要散步的人,不出5個月,身體或有3種改變!

調查發現,每天晚飯后要散步的人,不出5個月,身體或有3種改變!

芹姐說生活
2026-06-15 22:56:33
常規賽MVP一票沒有!布倫森一年3個MVP,成歷史第四位次輪秀FMVP

常規賽MVP一票沒有!布倫森一年3個MVP,成歷史第四位次輪秀FMVP

無術不學
2026-06-16 09:18:04
凌晨1點,72歲濮存昕用一根布繩,將自己和94歲老母狠狠綁在一起

凌晨1點,72歲濮存昕用一根布繩,將自己和94歲老母狠狠綁在一起

小椰的奶奶
2026-06-15 07:39:15
重慶小面協會發聲:“渝”“小面”屬公共資源不容獨占 認可撤訴處理共建共生行業生態

重慶小面協會發聲:“渝”“小面”屬公共資源不容獨占 認可撤訴處理共建共生行業生態

證券時報
2026-06-16 16:22:45
臺媒集體炸鍋,直呼臺灣海峽沒了

臺媒集體炸鍋,直呼臺灣海峽沒了

果媽聊娛樂
2026-06-14 18:45:19
勸退普通人!iPhone 18 Pro Max頂配,只適合兩類人

勸退普通人!iPhone 18 Pro Max頂配,只適合兩類人

小柱解說游戲
2026-06-16 02:50:38
處理干凈的牛蛙放進冰箱,第二天竟長出細長“白線”,網友:是裂頭蚴,要煮熟

處理干凈的牛蛙放進冰箱,第二天竟長出細長“白線”,網友:是裂頭蚴,要煮熟

大象新聞
2026-06-16 15:29:09
解密加勒萬河谷沖突全過程,我軍是如何以80人擊潰印軍600人的?

解密加勒萬河谷沖突全過程,我軍是如何以80人擊潰印軍600人的?

阿胡
2024-12-02 14:33:09
馬奎爾:圖赫爾FaceTime通知我落選世界杯,但他說他也給不出借口

馬奎爾:圖赫爾FaceTime通知我落選世界杯,但他說他也給不出借口

硯底沉香
2026-06-16 16:12:05
2026-06-16 21:20:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13278文章數 142670關注度
往期回顧 全部

科技要聞

DeepSeek融資500億,梁文鋒牢牢握住控制權

頭條要聞

歐盟稱已核實"中方訓練俄軍人員在烏作戰" 外交部回應

頭條要聞

歐盟稱已核實"中方訓練俄軍人員在烏作戰" 外交部回應

體育要聞

身價5萬的門將,擋住了12億歐元的狂轟濫炸

娛樂要聞

吳文忻葬禮:2個女兒在靈堂內茫然失措

財經要聞

2萬億存款去哪兒了?

汽車要聞

smart #6上市后 竟然很少被討論參數

態度原創

家居
親子
健康
公開課
軍事航空

家居要聞

綠意盎然 自然之境

親子要聞

寶藍和爸爸比賽用箱子的化妝品化妝,誰贏了誰就可以去參加舞會

粽子一次吃多少不傷胃?專家講解

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美伊達成諒解備忘錄 內塔尼亞胡表態

無障礙瀏覽 進入關懷版