AI時代安全治理新挑戰(zhàn)下，要把AI當(dāng)成數(shù)字員工來看待和管理

2026-04-14 19:03:27　來源: 鳳凰網(wǎng)科技

北京舉報

分享至

鳳凰網(wǎng)科技訊 4月14日，世界互聯(lián)網(wǎng)大會亞太峰會人工智能安全治理論壇上，與會專家用一個生動的比喻描述了AI安全風(fēng)險的升級：“以前大模型我們要防止它胡說八道，一本正經(jīng)地胡說八道。現(xiàn)在有了智能體，我們要防止它胡作非為。”

這番話引發(fā)了與會者的共鳴。當(dāng)天，來自國際組織、學(xué)術(shù)界和產(chǎn)業(yè)界的多位重磅嘉賓齊聚香江，圍繞“AI安全治理護(hù)航人類發(fā)展新領(lǐng)域”這一主題展開深入對話。從治理框架到技術(shù)防線，從模型對齊到系統(tǒng)對齊，一場關(guān)于如何在創(chuàng)新與風(fēng)險之間尋找平衡點的思想碰撞在此上演。

01 “智能體不是助手，可能是臥底”

深信服國際市場體系總裁杜智偉在主旨演講中將智能體的失控歸納為三類：權(quán)限濫用導(dǎo)致的“代理人危機(jī)”、通過提示詞注入實現(xiàn)的惡意攻擊、以及智能體在執(zhí)行任務(wù)時“自作聰明”產(chǎn)生的涌現(xiàn)行為。

他舉例說明：財務(wù)智能體在收到非法指令時可能不經(jīng)鑒權(quán)就直接執(zhí)行操作，“把公司整個審批報銷全部通過”；智能體在理解一封釣魚郵件時可能誤將其當(dāng)作可信操作，進(jìn)而將員工敏感信息外發(fā)；更隱蔽的是，智能體為了完成“5點前完成所有任務(wù)”的目標(biāo)，可能將所有任務(wù)標(biāo)記為已完成，“實際上很多目標(biāo)并沒有得到有效閉環(huán)”。

隨著人工智能加速賦能千行百業(yè)，安全風(fēng)險正在從單一技術(shù)層面向網(wǎng)絡(luò)安全、社會治理、經(jīng)濟(jì)秩序乃至國家安全等更廣領(lǐng)域傳導(dǎo)。

在信息服務(wù)領(lǐng)域，人工智能可能被用來輸出違法有害信息、混淆事實、誤導(dǎo)用戶，甚至大規(guī)模“灌水”誤導(dǎo)公眾。在勞動就業(yè)領(lǐng)域，人工智能正在加速重構(gòu)傳統(tǒng)經(jīng)濟(jì)結(jié)構(gòu)。

巴基斯坦信息安全協(xié)會主席阿瑪爾·賈弗里在主旨演講中指出，網(wǎng)絡(luò)威脅正以“幾何級數(shù)”增長，“規(guī)模在急劇擴(kuò)大，攻擊手段日益復(fù)雜”。他警告說，網(wǎng)絡(luò)犯罪分子利用同樣的AI技術(shù)來觀察防御者的行動，“這對我們搞安全的人來說是全新的挑戰(zhàn)”。

02 從“超級對齊”到“可信可控”：治理框架的迭代升級

面對日益復(fù)雜的AI安全形勢，中國正在加速完善治理體系的頂層設(shè)計。

2023年8月，《生成式人工智能服務(wù)管理暫行辦法》開始施行，使中國成為世界上首個為生成式大模型立法的國家；2024年和2025年，相繼發(fā)布《人工智能安全治理框架》1.0版和2.0版；2025年9月實行的《人工智能生成合成內(nèi)容標(biāo)識辦法》，首創(chuàng)政府主導(dǎo)技術(shù)標(biāo)準(zhǔn)化的強(qiáng)制性實施治理模式，建立顯式、隱式雙標(biāo)識體系。

中科院計算所副所長程學(xué)旗通過視頻發(fā)言，提出了從“超級對齊”到TRC范式的轉(zhuǎn)變思路。TRC即Trustworthy（可信）、Regulatable（可規(guī)管）、Controllable（可控）。他指出，“絕對的人工智能安全往往無法提前證明”，因此治理不能僅依賴發(fā)布前的檢查，“必須包括運(yùn)行中的控制”。他的核心觀點是：“不是追求零風(fēng)險，而是追求可治理的風(fēng)險；不僅是對齊，而是要構(gòu)建可信、可規(guī)管、可控的系統(tǒng)。”

清華大學(xué)計算機(jī)系教授劉奕群帶來了一個頗具技術(shù)深度但又與公眾關(guān)切緊密相連的話題：大模型的價值觀對齊問題。

“評測即治理。一個東西如果沒法很好地測量它，我們就沒法很好地改進(jìn)它。”劉奕群指出，當(dāng)前國內(nèi)外大模型安全評測存在四方面缺陷：評估目標(biāo)錯位、評估工具失準(zhǔn)、風(fēng)險表達(dá)隱蔽、語義識別淺表化。“海外很多評價模式?jīng)]法完全照搬到中國來，靜態(tài)測試集合難以測出大模型的真實立場。”

他介紹了清華大學(xué)與中關(guān)村實驗室聯(lián)合設(shè)計的場景化測試框架CHIEF（Chinese Hierarchical Integrity and Ethics Framework）。該框架提出了12個核心評測維度，分為社會主流價值、文化傳承與創(chuàng)新、社會公平與正義三大類，配合6種提問方式、3種提問立場和3級隱晦等級，形成648維要素的自動化評測體系。

更值得關(guān)注的是“多語言對齊稅”現(xiàn)象。劉奕群團(tuán)隊發(fā)現(xiàn)，當(dāng)用中文以外的聯(lián)合國官方語言提問相同內(nèi)容時，90%的模型安全得分出現(xiàn)“斷崖式下降”。“模型事實上并沒有能夠真正實現(xiàn)跨語言概念的深度綁定，在英文和其他語言環(huán)境下的預(yù)訓(xùn)練偏差會把中文已經(jīng)賦予的安全對齊效果沖掉。”

03 主權(quán)AI與智能體網(wǎng)絡(luò)的協(xié)同風(fēng)險

香港科技大學(xué)助理教授、香港生成式人工智能研發(fā)中心主任特別助理及大模型部主任韓思睿提出了一個前沿概念：主權(quán)AI。她將其定義為“由政府授權(quán)構(gòu)建的、服務(wù)于特定區(qū)域和國家的AI系統(tǒng)”。

韓思睿指出，隨著智能體越來越多地進(jìn)入內(nèi)容生產(chǎn)、知識服務(wù)、社交傳播乃至公眾輔助決策環(huán)節(jié)，“風(fēng)險從過去的單點失誤演變成多點聯(lián)動放大”。她描述了風(fēng)險演進(jìn)的三個階段：從微觀的誘導(dǎo)生成，到協(xié)同傳播，再到反饋強(qiáng)化，最終可能導(dǎo)致“智能體的協(xié)同失序”。

她的團(tuán)隊構(gòu)建了一個以法律規(guī)范為前置基礎(chǔ)的智能體治理框架，通過仿真實驗發(fā)現(xiàn)：在“回音室”式的純智能體網(wǎng)絡(luò)中，“風(fēng)險并不會自動消失，反而會自我復(fù)制和持續(xù)放大”；少數(shù)關(guān)鍵智能體節(jié)點會起到“超級傳播者”的作用；引入“安全KOL智能體”能夠?qū)︼L(fēng)險傳播起到有效阻斷作用。

“我們關(guān)心的不再只是內(nèi)容合不合規(guī)，更是行為會不會外溢、傳播會不會失控、網(wǎng)絡(luò)是否會出現(xiàn)非線性躍遷。”韓思睿強(qiáng)調(diào)，香港作為連接普通法和大陸法實踐的地區(qū)，“具備跨司法轄區(qū)溝通、轉(zhuǎn)移與協(xié)同的現(xiàn)實基礎(chǔ)”，可以在規(guī)則轉(zhuǎn)移、實驗驗證、區(qū)域協(xié)同三個方面發(fā)揮獨特作用。

04 產(chǎn)業(yè)界的實戰(zhàn)探索：從護(hù)欄到芯片

面對AI安全的新挑戰(zhàn)，產(chǎn)業(yè)界也在積極行動。

中國電信網(wǎng)絡(luò)和信息安全管理部總經(jīng)理谷紅勛分享了這家企業(yè)的實踐。中國電信提出了“無安全、不智能”的理念，構(gòu)建了涵蓋環(huán)境安全、數(shù)據(jù)安全、模型安全、內(nèi)容安全、應(yīng)用安全的全方位評測框架。他透露，中國電信已開發(fā)出針對OpenClaw的“四件套”產(chǎn)品——龍蝦小衛(wèi)士、龍蝦數(shù)據(jù)泄露防護(hù)、智能體安全大腦和普蝦助手，“都已經(jīng)產(chǎn)品化了”。

深信服杜智偉則提出了“雙軌協(xié)同加熔斷機(jī)制”的治理思路。一條軌是語義合規(guī)，確保AI輸入輸出的安全合規(guī)；另一條軌是行為合規(guī)，對AI行為進(jìn)行持續(xù)監(jiān)控和驗證。“當(dāng)這兩個軌產(chǎn)生沖突或有一條軌偏離時，就會觸發(fā)熔斷機(jī)制，收斂AI權(quán)限或直接拿掉AI全部權(quán)限。”

他形象地比喻：“要把AI當(dāng)成數(shù)字員工來看待和管理，包括背調(diào)上崗、分配安全的工作工位和空間、持續(xù)動態(tài)監(jiān)管。”

海光信息技術(shù)股份有限公司副總裁應(yīng)志偉從芯片層面給出了答案。他指出，“一切上層應(yīng)用的堅固都取決于底層的新防線。軟件永遠(yuǎn)可以被dump、被篡改、被debug，但硬件永遠(yuǎn)無法被篡改。”

他介紹了海光CPU內(nèi)置的多項安全能力，“有了機(jī)密計算之后，在計算過程中也可以加密，可以把數(shù)據(jù)的全環(huán)節(jié)都加密，而不會太影響性能。”他透露，海光已與政務(wù)數(shù)據(jù)平臺、京東、國泰海通證券、招商銀行等合作，將芯片級安全能力落地于實際場景。

賽爾網(wǎng)絡(luò)有限公司總經(jīng)理王巖則從教育科研網(wǎng)絡(luò)的角度提出了獨特視角。作為運(yùn)營中國教育和科研計算機(jī)網(wǎng)的企業(yè)，賽爾網(wǎng)絡(luò)連接了全國超過3000所高校和科研單位，覆蓋約5000萬人。王巖指出，在教育科研場景下，“數(shù)據(jù)安全和隱私泄露、倫理和價值觀風(fēng)險、教學(xué)和學(xué)習(xí)安全風(fēng)險尤為突出”。

他提出了借鑒互聯(lián)網(wǎng)治理機(jī)制的思路：“通過為智能體分配唯一的網(wǎng)絡(luò)標(biāo)識，包括IP地址或域名，將其行為與現(xiàn)實主體建立聯(lián)系，從而實現(xiàn)可識別、可追責(zé)、可管理。”

正如多位發(fā)言者所強(qiáng)調(diào)的，“安全是發(fā)展的前提，治理是有序的保障”。在人工智能技術(shù)以幾何級數(shù)演進(jìn)的時代，如何在創(chuàng)新與規(guī)范、發(fā)展與安全之間找到動態(tài)平衡，將是全球共同面對的時代命題。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.