網易首頁 > 網易號 > 正文申請入駐

360潘劍鋒：安全的老路走不通了 360首提智能體安全治理方案

2026-06-09 18:15:05　來源: 運營商財經網

北京舉報

分享至

?根據斯坦福《AI Index 2026》報告，主流大模型在垂直領域的幻覺率高達22%至94%。360安全團隊監測顯示，僅OpenClaw框架累計披露漏洞82個，高危占比近四成，公網上數百萬AI資產更是處于無防護狀態。模型幻覺、框架漏洞與資產暴露的三重疊加，正讓傳統“只防外部攻擊”的防線顯得捉襟見肘。

在近日舉辦的"2026華為云暢想者大會”上，360 集團首席科學家、集團副總裁潘劍鋒博士首次系統性指出：AI 智能體安全風險的本質并非只有外部攻擊，而是大模型底層機制衍生的“原生不確定性”。

潘劍鋒表示，傳統安全的核心范式是"防御確定性威脅"——基于已知的漏洞特征和攻擊模式，構建規則化的檢測與響應體系。當AI從被動執行指令的工具躍升為具備自主決策能力的新型主體時，這一前提已被徹底打破。智能體的"自主性"意味著一旦遭惡意誘導，它會自主走完整個攻擊鏈；"協同性"使得單點失陷的風險沿協作網絡指數級蔓延；"演化性"則讓它持續自我迭代，靜態檢測規則迅速過時。

潘劍鋒將這種無法通過代碼修補徹底消除的特性定義為"原生不確定性"，并強調這并非工程缺陷，而是AI處理開放性、創造性任務的能力源泉。能力與風險同根同源，試圖徹底消滅不確定性，無異于扼殺智能本身。

更值得警惕的是，在多智能體協同的復雜網絡中，單個節點的判斷偏差或幻覺并不會在傳遞中被自然過濾，反而會作為下游節點的輸入被逐級放大，形成潘劍鋒所警示的"不確定性傳導放大效應"，最終釀成系統性坍塌。

面對無法被徹底消除的不確定性，潘劍鋒分享了360以"管控不確定性"為核心的全鏈路治理實踐。該方案通過"管意圖、校認知、控行為"的三層架構，為智能體的不可預知性構建動態治理體系。

在意圖接入層，360落地了"以模治模"的惡意意圖識別引擎，打通惡意樣本運營與意圖識別大模型訓練的閉環，確保對新型攻擊手法快速響應，實測可將DeepSeek R1等主流模型的安全水位從82%拉升至94%；在邏輯推理層，360首創"世界認知模型"（WCM），針對任務目標世界建立語義化數據與邏輯體系，與大語言模型雙引擎協同工作，以預測能力約束和引導推理過程，從根源上抑制幻覺；在行為執行層，360構建"環境孿生沙箱"限制智能體行動半徑，每個Agent獨立運行于受信執行環境，動態行為分析引擎實時識別異常，狀態監控與自動回滾全程兜底。

“傳統安全是修圍墻，智能體安全是馭馬。”潘劍鋒最后總結道，AI 安全的目標不應是讓模型變得絕對確定，而是建立一套與不確定性共存的治理體系。這場從"防御"到"管控"的范式重構，才剛剛開始。

（責任編輯：楊丹丹）

?????????????????????????????????????????????????????????運營商財經（官方微信公眾號yyscjrd）—— 主流財經網站，一家全面覆蓋科技、金融、證券、汽車、房產、食品、醫藥、日化、酒業及其他各種消費品網站。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.