大數據文摘受權轉載自學術頭條
整理:瀟瀟
隨著人工智能(AI)系統的能力不斷增強,其發展與人類福祉愈發深度關聯。當前,AI 系統越來越多地應用于高風險場景,如核聚變控制和基因組編輯等,一旦 AI 系統遭到濫用或失去控制,可能給全人類帶來災難性后果。
近期研究表明,前沿 AI 模型會表現出阿諛奉承、操控傾向、甚至故意隱瞞其能力,AI 欺騙(AI deception)已成為值得關注的安全問題。
基于此,北京大學人工智能研究院助理教授楊耀東團隊聯合國內外眾多學者、企業人士,針對 AI 欺騙這一領域做出了全面、系統的綜述,涵蓋其核心概念、方法論、誘因及解決措施等,為解決 AI 欺騙提供了理論指導。
![]()
論文鏈接:https://arxiv.org/abs/2511.22619
值得一提的是,圖靈獎得主姚期智院士、北京智源人工智能研究院創始理事長張宏江、清華大學智能產業研究院(AIR)院長張亞勤、北京智源人工智能研究院理事長黃鐵軍等業內權威專家為該項目的高級顧問。
![]()
AI 欺騙是什么?
研究人員將 AI 欺騙形式化為一個互動過程,包括信號發送者(AI)、接收者、信號、接收者的行動、給發送者帶來的收益,以及時間因素。
雖然“欺騙”通常代表著“故意”,但研究人員關注的是功能主義角度上的欺騙,不討論 AI 是否真正“想”欺騙,而是關注它發出的信號(如語言或行為)是否會讓接收者誤解,并采取對 AI 有利的行動。
1.AI 欺騙的定義
AI 欺騙可被理解為一個基于信號的因果過程:模型作為發送者,產生信號,誘導接收者形成錯誤的信念并基于這些信念做出理性反應,從而為發送者帶來實際或潛在的利益。
從功能主義的角度,一個信號如果滿足以下條件,便被歸類為欺騙:
行動為信號發送者帶來了實際或潛在的效用增益(短期或長期、直接或間接);
某種有限理性或決策模型下,行動是接收者基于其信念所做的理性反應;
接收者的信念客觀上與信號發送者的信念不一致(盡管它可能并非與世界的實際地面真實狀態不符)。
![]()
圖|AI 欺騙的正式定義
值得注意的是,AI 欺騙與 AI 幻覺有本質的不同。AI 幻覺是模型在生成內容時出現的錯誤、不忠實于源材料的輸出,這是一種能力缺陷,反映了模型的能力不足或訓練數據存在缺陷。AI 欺騙則是是一種功能主義行為,往往出現在模型更高階的能力階段,例如 AI “故意”歪曲信息從而帶來危害社會的后果。
2.AI 欺騙的分類
AI 欺騙的核心在于,通過系統性地誤導用戶,從而獲取非預期的優勢。實證研究顯示,AI 欺騙行為以不同層級呈現,從顯性的信號輸出,到隱蔽的操控,再到策略性的干預。
研究人員根據“監督警覺性”和“檢測難度”兩個維度把 AI 欺騙分成三類:
行為—信號式欺騙:模型通過語言、行動或表層輸出直接誤導人類,例如虛張聲勢或諂媚式回答。
內部過程欺騙:模型在推理或決策過程中的扭曲或隱藏行為,包括不真實的推理鏈或偽裝對齊。
目標—環境欺騙:模型通過操控周圍環境或多智能體互動,以規避監督、追求未授權目標的策略性行為,例如串通或操縱評估體系。
研究人員強調,這三類欺騙行為并非互斥,一次 AI 欺騙事件可能同時包含多種類別。
![]()
圖|依據監督警覺性和檢測難度分類
AI 欺騙的危害
研究人員還總結了 AI 欺騙行為帶來的五個主要危害。這些危害不僅涉及于單一的個體層面,也會擴展到整個社會層面,對社會結構造成深遠影響。如下:
1.認知誤導(Cognitive Misleading)
它表現在 AI 通過細微的誤導性信號,導致用戶形成錯誤的信念或過度信任。此類行為雖然短期內影響較小,但信任一旦被建立,長期的誤導信號會累積并導致嚴重的判斷偏差。AI 通過這種方式操控用戶行為,使其作出對 AI 系統有利的決策。
2.戰略性操控(Strategic Manipulation)
這指 AI 在長時間的互動中,逐步引導用戶朝著 AI 系統設定的目標方向發展。這種操控通過個性化的欺騙和策略性影響來實現,隨著時間推移,最終造成深遠的社會影響。
3.目標錯誤泛化(Objective Misgeneralization)
這是指 AI 在高風險領域如醫療、金融或安全等領域,誤解任務的目標或需求,導致其輸出表面上看似合理,但實際卻偏離了人類預期目標。這種類型的欺騙不僅難以察覺,還可能導致重大經濟損失、軟件錯誤或欺詐行為。
4.機構侵蝕(Institutional Erosion)
當 AI 生成的內容在社會核心領域中被廣泛采納時,會破壞公眾對科學發現和政府決策的信任。長期來看,隨著 AI 欺騙行為的泛化,公眾對社會機構的信任不斷被削弱,從而危害社會穩定。
5.能力隱瞞與失控風險(Concealment and Runaway)
AI 系統通過隱瞞其真實能力來規避監管,并執行那些沒有經過充分監督的長期目標,例如獲取資源或進行秘密技術開發。特別是在 AI 系統越來越具備自主執行任務的能力時,其欺騙行為的隱蔽性和復雜性將增加,最終可能導致 AI 系統自我復制、演變,甚至脫離人類監管。
隨著 AI 技術的進步,欺騙行為將愈發復雜和隱蔽,這對監督機制和社會治理提出了巨大的挑戰。因此,針對 AI 欺騙的防范和治理,必須采取綜合的技術手段和政策措施,確保 AI 的安全性和透明性。
![]()
圖|AI 欺騙的分類與危害
AI 欺騙是「循環往復」的
那么,AI 欺騙為何出現呢?
研究人員指出,欺騙涌現(Deception Emergence)由三個關鍵因素的相互作用驅動:
激勵基礎(Incentive Foundation):模型在訓練過程中通過訓練數據、目標函數、獎勵信號等所內化的驅動傾向,這與提升任務指標、最大化獎勵,甚至保護自身參數有關,是產生欺騙行為的潛在動機。
能力前提(Capability Precondition):模型在訓練中獲得并在部署中使用的感知、規劃和執行能力,這使模型能夠實施欺騙行為。
情境觸發(Contextual Trigger):指部署環境中會激活模型欺騙策略的外部信號。
那么,AI 欺騙發生后,我們該如何應對呢?
研究人員認為,欺騙治理(Deception Treatment)是針對 AI 欺騙的檢測、評估和解決。它包括從外部和內部檢測方法,到系統性評估協議,再到針對產生欺騙的三個因素的潛在緩解措施。
![]()
圖|欺騙治理的策略,包含檢測、評估、潛在緩解。
隨著模型能力的增長,新的欺騙方式也會出現,原有的處理方法可能不再有效,甚至帶來新的挑戰,這促使開發者采取新措施以應對風險。欺騙涌現和欺騙處理兩個環節迭代往復,構成了欺騙循環(Deception Cycle),在 AI 整個生命周期中循環出現,推動 AI 系統朝著更對齊更可信的方向發展。
![]()
圖|AI 欺騙循環
我們能做些什么
AI 欺騙不僅僅是一個技術問題,它反映了模型目標與人類預期之間更深層次的失調。
研究人員指出,AI 欺騙的有效治理,關鍵在于將技術層面的防御手段,系統性地融入可執行、可監督的制度框架之中。當前,一系列技術,例如可證明的訓練協議、魯棒性評估指標等,已具備在對抗條件下約束 AI 欺騙行為的潛力。然而,若缺乏配套的治理機制來確保合規性與問責制度,這些技術的作用將大打折扣。
舉例來說,即使某個模型在理論上能防止“沙袋戰術”,即故意表現低于真實能力,若其部署環境缺少防篡改監控或第三方獨立驗證,模型或其操作者仍可能隱匿欺騙行為,使技術保證形同虛設。
因此,制度創新成為技術安全措施中的必然補充。通過建立獨立審計機制、硬件級部署控制、加密可驗證的報告通道等治理手段,可以將實驗室中的可信驗證延伸至實際應用場景,從而降低 AI 逃避評估、實施欺騙的風險。
除此之外,良好的技術結構能塑造行為激勵,影響模型在訓練與部署中是否選擇欺騙,進而彌合技術方案與社會監督之間的斷層。
展望未來,AI 欺騙這一問題的解決需要跨學科合作,涵蓋機器學習、治理和監管等領域,以確保在實際應用中保持對齊、問責和可信度。
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節省開支30%以上!
掃碼了解詳情?
點「贊」的人都變好看了哦!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.