?根據斯坦福《AI Index 2026》報告,主流大模型在垂直領域的幻覺率高達22%至94%。360安全團隊監測顯示,僅OpenClaw框架累計披露漏洞82個,高危占比近四成,公網上數百萬AI資產更是處于無防護狀態。模型幻覺、框架漏洞與資產暴露的三重疊加,正讓傳統“只防外部攻擊”的防線顯得捉襟見肘。
在近日舉辦的"2026華為云暢想者大會”上,360 集團首席科學家、集團副總裁潘劍鋒博士首次系統性指出:AI 智能體安全風險的本質并非只有外部攻擊,而是大模型底層機制衍生的“原生不確定性”。
潘劍鋒表示,傳統安全的核心范式是"防御確定性威脅"——基于已知的漏洞特征和攻擊模式,構建規則化的檢測與響應體系。當AI從被動執行指令的工具躍升為具備自主決策能力的新型主體時,這一前提已被徹底打破。智能體的"自主性"意味著一旦遭惡意誘導,它會自主走完整個攻擊鏈;"協同性"使得單點失陷的風險沿協作網絡指數級蔓延;"演化性"則讓它持續自我迭代,靜態檢測規則迅速過時。
潘劍鋒將這種無法通過代碼修補徹底消除的特性定義為"原生不確定性",并強調這并非工程缺陷,而是AI處理開放性、創造性任務的能力源泉。能力與風險同根同源,試圖徹底消滅不確定性,無異于扼殺智能本身。
更值得警惕的是,在多智能體協同的復雜網絡中,單個節點的判斷偏差或幻覺并不會在傳遞中被自然過濾,反而會作為下游節點的輸入被逐級放大,形成潘劍鋒所警示的"不確定性傳導放大效應",最終釀成系統性坍塌。
面對無法被徹底消除的不確定性,潘劍鋒分享了360以"管控不確定性"為核心的全鏈路治理實踐。該方案通過"管意圖、校認知、控行為"的三層架構,為智能體的不可預知性構建動態治理體系。
在意圖接入層,360落地了"以模治模"的惡意意圖識別引擎,打通惡意樣本運營與意圖識別大模型訓練的閉環,確保對新型攻擊手法快速響應,實測可將DeepSeek R1等主流模型的安全水位從82%拉升至94%;在邏輯推理層,360首創"世界認知模型"(WCM),針對任務目標世界建立語義化數據與邏輯體系,與大語言模型雙引擎協同工作,以預測能力約束和引導推理過程,從根源上抑制幻覺;在行為執行層,360構建"環境孿生沙箱"限制智能體行動半徑,每個Agent獨立運行于受信執行環境,動態行為分析引擎實時識別異常,狀態監控與自動回滾全程兜底。
“傳統安全是修圍墻,智能體安全是馭馬。”潘劍鋒最后總結道,AI 安全的目標不應是讓模型變得絕對確定,而是建立一套與不確定性共存的治理體系。這場從"防御"到"管控"的范式重構,才剛剛開始。
(責任編輯:楊丹丹)
?????????????????????????????????????????????????????????運營商財經(官方微信公眾號yyscjrd)—— 主流財經網站,一家全面覆蓋科技、金融、證券、汽車、房產、食品、醫藥、日化、酒業及其他各種消費品網站。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.