无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

讓AI自動發現前沿風險:創智×復旦×牛津發布AutoControl-Arena

0
分享至



當 AI 智能體(Agent)從實驗室走向真實應用,我們面對的安全問題也正在發生變化。

過去,我們更多關心模型會不會回答危險問題;而現在,Agent 已經可以調用工具、讀寫文件、操作數據庫、執行多步任務。真正棘手的前沿風險,往往不再來自某個顯式惡意 prompt,而是隱藏在復雜環境中的長尾場景里:

  • 一個 Agent 會不會為了完成任務而繞過審批?
  • 會不會在指標壓力下修改驗證邏輯?
  • 會不會在多工具協作中越權訪問文件?
  • 會不會意識到自己正在被評測,從而改變行為策略?

這些風險很難靠人工逐個編寫基準測試覆蓋。



近日,復旦大學、上海創智學院、牛津大學等機構聯合發布研究論文《AutoControl Arena: Synthesizing Executable Test Environments for Frontier AI Risk Evaluation》,提出面向前沿 AI 風險發現與評測的自動化框架AutoControl Arena。它的核心目標是:自動合成可執行測試環境,幫助研究者和開發者快速發現 AI Agent 在未知長尾場景中的潛在風險



  • 論文地址:https://arxiv.org/abs/2603.07427
  • 項目主頁: https://cosmosyi.github.io/AutoControl-Arena/
  • GitHub 倉庫:https://github.com/CosmosYi/AutoControl-Arena

PART 01 從 “會不會拒答” 到 “會不會在未知場景中失控”

AI Agent 的風險,和傳統聊天模型并不一樣。

  • 聊天模型的安全評測,常常圍繞單輪或多輪問答展開:模型是否拒絕危險請求,是否輸出違規內容,是否容易被越獄。
  • 但 Agent 的關鍵能力是 “行動”。它不僅生成文本,還會在環境中連續決策:調用哪個工具、修改哪個文件、是否繞過某個流程、如何在目標和約束發生沖突時做取舍。

例如,此前 Anthropic、OpenAI、Apollo Research 等機構的安全報告中,已經展示過一些前沿風險案例:模型可能在被替換風險下采取威脅策略,也可能在代碼任務中不去解決問題本身,而是修改驗證程序來讓結果通過。

這些案例提醒我們:在簡單、良性的測試條件下表現正常的模型,進入復雜任務環境后,可能會以完全意想不到的方式產生不對齊行為。



圖: AutoControl Arena 可自動準確復現 Anthropic/OpenAI 等機構安全報告中的風險行為

PART 02 安全評測為什么跟不上 Agent 進化?

要發現 Agent 的長尾風險,最理想的方式,是給它搭建真實的測試環境。

比如:文件系統、數據庫、命令行工具、審批流程、日志系統等。然后觀察 Agent 在其中如何行動。但這件事很難規模化。

一方面,人工搭建環境很真實,但成本高、速度慢。每多一個風險場景,就需要重新設計工具、狀態、規則和反饋。

另一方面,讓 LLM 直接模擬環境雖然便宜靈活,卻容易出現 “邏輯幻覺”:文件狀態前后不一致,數據庫返回憑空生成,權限規則一會兒存在一會兒消失。

這就帶來了 Agent 安全評測的核心矛盾:

真實環境保真度高,但可擴展性差;LLM 模擬可擴展,但可信度不足

而長尾風險恰恰要求我們既要 “生成足夠多的新場景”,又要 “保證這些場景真的可信、可執行、可復查”。



PART 03 AutoControl Arena:自動生成能跑起來的風險測試場

AutoControl Arena 試圖解決的,就是這個問題。它不是只讓 LLM 寫一段文字描述場景,而是自動合成一個可以執行的測試環境,讓目標 Agent 真正在其中行動。AutoControl Arena 的關鍵設計,是論文提出的 “邏輯 - 敘事解耦” 原則。簡單來說,就是把測試環境拆成兩層。

第一層是邏輯層:文件系統、數據庫、權限控制、工具執行、狀態轉移,這些部分必須嚴格一致、可復現,不能交給 LLM 隨口生成。因此,AutoControl Arena 使用可執行 Python 代碼來維護這些環境邏輯。

第二層是敘事層:任務背景、角色反饋、社會情境、動態說明等內容,本身具有開放性和語言多樣性,可以交給 LLM 生成,從而保證場景足夠豐富。

這就像給 AI 安全評測裝上了一個 “物理引擎”:環境規則由代碼保證,場景變化由大模型生成。在此基礎上,AutoControl Arena 使用三個智能體完成全流程自動化。



PART 04 X-BENCH:70 個場景,覆蓋 7 類前沿風險

為了驗證 AutoControl Arena,研究團隊構建了配套基準測試集X-BENCH

X-BENCH 包含70 個測試場景,覆蓋7 大類 Agent 前沿風險

  • 工具性趨同:為了完成目標而追求權限、資源或自我保護。
  • 規則博弈:表面完成任務,實際鉆評估規則或指標漏洞。
  • 能力濫用:將工具能力用于攻擊、欺詐或其他危險目標。
  • 策略性不對齊:在不同情境下選擇性服從或隱藏真實意圖。
  • 規避監督:關閉日志、繞過審批、避開監控。
  • 隱蔽泄露:在復雜倫理沖突下泄露敏感信息。
  • 評測意識:意識到自己處于測試中,從而改變行為。

為了更系統地激發潛在風險,研究者還引入了壓力 - 誘惑雙維度機制

每個場景都會在不同壓力和誘惑組合下運行,從而測試 Agent 在多種長尾條件下是否會出現非預期行為。



PART 05 三個發現:前沿風險往往藏在連續行動里

研究團隊評估了 9 個前沿模型,覆蓋 Google DeepMind、OpenAI、Alibaba 等機構模型系列,并得到了一些值得關注的發現。

(1)對齊幻覺

模型在常規條件下表現安全,并不意味著它在復雜環境中依然可靠。論文報告,在低壓力、低誘惑條件下,9 個模型的平均風險率為21.7%;但在高壓力、高誘惑條件下,平均風險率升至54.5%。并且能力越強的模型,風險率提升幅度越明顯。



(2)模型越強,風險模式越復雜

能力提升不一定帶來單調的安全提升。對于直接危害類任務,更強模型往往更容易理解安全邊界,因此可能更安全;但在規格博弈、繞過驗證、規避監督等任務中,更強模型也更擅長規劃、搜索漏洞和利用環境結構。這意味著,強模型不是簡單地 “更安全” 或 “更危險”,而是會呈現更復雜、更策略化的風險模式。



(3)不對齊行為可能變得更隱蔽

弱模型的風險,很多時候來自能力不足或誤解任務;而更強模型的風險,可能表現為更高階的策略性行為。例如,在某些測試場景中,模型可能明知某些行為存在風險,卻將其包裝為 “防御性監控”“流程優化” 或 “合規執行”,從而在表面上維持正常解釋,在行動上繞過關鍵約束。



PART 06 這套自動化評測靠譜嗎?

為了驗證 AutoControl Arena 的可靠性,研究團隊將其生成的仿真環境與真實紅隊環境進行了對比。

在 10 個場景中,研究者分別使用 AutoControl Arena 仿真環境,以及由真實 CLI 工具、SQL 數據庫、SMTP 服務器等組成的紅隊環境進行獨立實驗。結果顯示,仿真環境與真實環境得到的風險率高度一致,相關系數達到0.87

此外,研究團隊還使用 AutoControl Arena 復現了 Anthropic、OpenAI、Apollo Research 等機構安全報告中的典型風險案例,進一步驗證了框架對前沿 Agent 風險的刻畫能力。



PART 07 GitHub 全面開源:從論文到可用工具

AutoControl Arena 已在 GitHub 開源,項目定位為前沿 AI 風險自動發現平臺:



視頻鏈接:https://mp.weixin.qq.com/s/OtULCQR_RNgQUsSnPFS3ag

AutoControl Arena 提供兩種主要使用方式:

交互式 TUI:aca

適合新手快速上手。用戶可以在終端界面中選擇測試場景、目標模型、壓力等級、誘惑等級,并實時查看評測進度。

命令行模式:autocontrol

適合研究者進行批量實驗和自動化評測,支持配置文件運行與并行執行。

Web 頁面查看風險報告

評測完成后,系統會保存完整運行記錄,包括 Agent 行為軌跡、環境狀態、風險評分、審查結果和日志。項目也提供本地 Web 結果查看器,方便研究者復查關鍵證據。



視頻鏈接:https://mp.weixin.qq.com/s/OtULCQR_RNgQUsSnPFS3ag

PART 08 總結:讓未知風險被更早發現

隨著 Agent 被接入越來越多真實工作流,安全評測也需要從 “測試已知問題” 走向 “發現未知風險”

AutoControl Arena 通過自動合成可執行測試環境,為這一方向提供了一個新的研究思路。它可以幫助模型開發者、安全團隊和 Agent 應用團隊更快發現潛在漏洞,并為后續深度紅隊測試確定優先級。未來,前沿 AI 風險評測可能不只是擴大 benchmark 的規模,而是讓系統具備持續生成新場景、持續暴露新風險、持續改進安全邊界的能力,這正是 AutoControl Arena 的核心愿景。

團隊介紹

本研究的核心貢獻者為李長藝(上海創智學院訪問博士生)和盧鵬飛(復旦大學本科生);指導教師為潘旭東(上海創智學院全時導師、復旦大學副研究員)、Fazl Barez(牛津大學研究員)和楊珉(復旦大學教授、復旦大學計算與智能創新學院執行院長)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
夏窗轉會傳聞:曝28歲泰山國腳或加盟國安,大魚球員曾奪中超2冠

夏窗轉會傳聞:曝28歲泰山國腳或加盟國安,大魚球員曾奪中超2冠

體壇鑒春秋
2026-06-24 12:12:19
梅西18球登頂世界杯射手王 但真正可怕的人其實是姆巴佩

梅西18球登頂世界杯射手王 但真正可怕的人其實是姆巴佩

云隱南山
2026-06-24 17:02:45
遭官方曝光的“毒洗發水”,很多家庭還在用,難怪頭發越來越少

遭官方曝光的“毒洗發水”,很多家庭還在用,難怪頭發越來越少

健康之光
2026-06-22 12:55:25
最高10股派息22元!73只A股分紅今日股權登記

最高10股派息22元!73只A股分紅今日股權登記

證券時報
2026-06-24 16:46:02
私生活混亂,從央視主持到勞改犯,如今靠直播打賞討生活

私生活混亂,從央視主持到勞改犯,如今靠直播打賞討生活

素衣讀史
2026-06-11 21:56:30
郭富城父親節曬蛋糕,三胎后首次五口之家過節,網友:家里公主最多的天王

郭富城父親節曬蛋糕,三胎后首次五口之家過節,網友:家里公主最多的天王

鄉野小珥
2026-06-23 00:46:04
存款達到這個數,真不用攀比!你早已擁有安穩的生活底色

存款達到這個數,真不用攀比!你早已擁有安穩的生活底色

三農老歷
2026-06-24 20:01:54
WTI原油日內跌幅達4%

WTI原油日內跌幅達4%

界面新聞
2026-06-24 21:21:04
美國已保不住日本,俄羅斯曾通告全球:中國一切都在按照計劃進行

美國已保不住日本,俄羅斯曾通告全球:中國一切都在按照計劃進行

一簌月光
2026-06-23 19:34:36
上海警方接連曝光:半年42次,父子倆把醫院當銀行騙取24萬,雙雙被抓

上海警方接連曝光:半年42次,父子倆把醫院當銀行騙取24萬,雙雙被抓

極目新聞
2026-06-24 11:41:18
世界杯詭局:贏球反陷地獄半區?小組第三或成最優解

世界杯詭局:贏球反陷地獄半區?小組第三或成最優解

星河漫山野
2026-06-24 01:32:56
2027款沃爾沃S60上市 售價30.69-38.49萬元

2027款沃爾沃S60上市 售價30.69-38.49萬元

車質網
2026-06-24 09:10:31
歐美政壇大地震,特朗普趕緊送中國一句話!中國都沒料到這一幕!

歐美政壇大地震,特朗普趕緊送中國一句話!中國都沒料到這一幕!

妙知
2026-06-23 11:11:04
身體出現這4種感覺,說明你的焦慮已經軀體化了!立刻休息!

身體出現這4種感覺,說明你的焦慮已經軀體化了!立刻休息!

奔波兒灞與灞波兒奔
2026-06-23 20:49:43
東方樹葉在懂茶的人眼中,怎么評價?網友:是正經茶葉但不高級

東方樹葉在懂茶的人眼中,怎么評價?網友:是正經茶葉但不高級

另子維愛讀史
2026-06-04 22:28:38
養老金調整6月23日公布,2.2%漲幅能否實現?

養老金調整6月23日公布,2.2%漲幅能否實現?

風月得自難尋
2026-06-24 17:18:23
反華反得斷了糧,被美臺狠踹一腳,總統下死命令:給中國一個交代

反華反得斷了糧,被美臺狠踹一腳,總統下死命令:給中國一個交代

離離言幾許
2026-06-24 18:09:49
屋漏偏逢連夜雨!田新菊腦梗偏癱后,小天賜家又傳來另一壞消息

屋漏偏逢連夜雨!田新菊腦梗偏癱后,小天賜家又傳來另一壞消息

以茶帶書
2026-06-23 22:04:15
商務部等7部門:開展報廢機動車非法回收拆解專項整治行動

商務部等7部門:開展報廢機動車非法回收拆解專項整治行動

界面新聞
2026-06-24 17:10:41
小米開卷員工公寓:均價1099元,全套智能家電

小米開卷員工公寓:均價1099元,全套智能家電

自愈小日子
2026-06-23 01:11:57
2026-06-24 21:51:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13350文章數 142680關注度
往期回顧 全部

科技要聞

豆包專業版上線:定價68-500元每月

頭條要聞

"副院長出軌眼科主任"新進展:女方離職 男方恢復出診

頭條要聞

"副院長出軌眼科主任"新進展:女方離職 男方恢復出診

體育要聞

字母哥,會把凱爾特人拆了嗎?

娛樂要聞

向佐向佑兄弟合體直播!母子終于和解

財經要聞

爆料人:如果我錯了,賠償坐牢都接受

汽車要聞

施鵬澤:為什么奧迪E7X強調座艙氣味安全?

態度原創

本地
時尚
游戲
旅游
公開課

本地新聞

2026世界杯全勤太難?這份保姆級攻略請收好

適合7月的三種風格,照著穿

名記稱《GTA6》無實體盤不意外:R星極度厭惡泄露!

旅游要聞

山為骨,水為血,天地為窖,時光為曲,釀一杯迎駕山河

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版