網易首頁 > 網易號 > 正文申請入駐

姚期智署名！北大楊耀東團隊領銜發聲：AI欺騙已成現實！

2025-12-11 12:10:40　來源: 大數據文摘

北京舉報

分享至

大數據文摘受權轉載自學術頭條

整理：瀟瀟

隨著人工智能（AI）系統的能力不斷增強，其發展與人類福祉愈發深度關聯。當前，AI 系統越來越多地應用于高風險場景，如核聚變控制和基因組編輯等，一旦 AI 系統遭到濫用或失去控制，可能給全人類帶來災難性后果。

近期研究表明，前沿 AI 模型會表現出阿諛奉承、操控傾向、甚至故意隱瞞其能力，AI 欺騙（AI deception）已成為值得關注的安全問題。

基于此，北京大學人工智能研究院助理教授楊耀東團隊聯合國內外眾多學者、企業人士，針對 AI 欺騙這一領域做出了全面、系統的綜述，涵蓋其核心概念、方法論、誘因及解決措施等，為解決 AI 欺騙提供了理論指導。

論文鏈接：https://arxiv.org/abs/2511.22619

值得一提的是，圖靈獎得主姚期智院士、北京智源人工智能研究院創始理事長張宏江、清華大學智能產業研究院（AIR）院長張亞勤、北京智源人工智能研究院理事長黃鐵軍等業內權威專家為該項目的高級顧問。

AI 欺騙是什么？

研究人員將 AI 欺騙形式化為一個互動過程，包括信號發送者（AI）、接收者、信號、接收者的行動、給發送者帶來的收益，以及時間因素。

雖然“欺騙”通常代表著“故意”，但研究人員關注的是功能主義角度上的欺騙，不討論 AI 是否真正“想”欺騙，而是關注它發出的信號（如語言或行為）是否會讓接收者誤解，并采取對 AI 有利的行動。

1.AI 欺騙的定義

AI 欺騙可被理解為一個基于信號的因果過程：模型作為發送者，產生信號，誘導接收者形成錯誤的信念并基于這些信念做出理性反應，從而為發送者帶來實際或潛在的利益。

從功能主義的角度，一個信號如果滿足以下條件，便被歸類為欺騙：

行動為信號發送者帶來了實際或潛在的效用增益（短期或長期、直接或間接）；
某種有限理性或決策模型下，行動是接收者基于其信念所做的理性反應；
接收者的信念客觀上與信號發送者的信念不一致（盡管它可能并非與世界的實際地面真實狀態不符）。

圖｜AI 欺騙的正式定義

值得注意的是，AI 欺騙與 AI 幻覺有本質的不同。AI 幻覺是模型在生成內容時出現的錯誤、不忠實于源材料的輸出，這是一種能力缺陷，反映了模型的能力不足或訓練數據存在缺陷。AI 欺騙則是是一種功能主義行為，往往出現在模型更高階的能力階段，例如 AI “故意”歪曲信息從而帶來危害社會的后果。

2.AI 欺騙的分類

AI 欺騙的核心在于，通過系統性地誤導用戶，從而獲取非預期的優勢。實證研究顯示，AI 欺騙行為以不同層級呈現，從顯性的信號輸出，到隱蔽的操控，再到策略性的干預。

研究人員根據“監督警覺性”和“檢測難度”兩個維度把 AI 欺騙分成三類：

行為—信號式欺騙：模型通過語言、行動或表層輸出直接誤導人類，例如虛張聲勢或諂媚式回答。
內部過程欺騙：模型在推理或決策過程中的扭曲或隱藏行為，包括不真實的推理鏈或偽裝對齊。
目標—環境欺騙：模型通過操控周圍環境或多智能體互動，以規避監督、追求未授權目標的策略性行為，例如串通或操縱評估體系。

研究人員強調，這三類欺騙行為并非互斥，一次 AI 欺騙事件可能同時包含多種類別。

圖｜依據監督警覺性和檢測難度分類

AI 欺騙的危害

研究人員還總結了 AI 欺騙行為帶來的五個主要危害。這些危害不僅涉及于單一的個體層面，也會擴展到整個社會層面，對社會結構造成深遠影響。如下：

1.認知誤導（Cognitive Misleading）

它表現在 AI 通過細微的誤導性信號，導致用戶形成錯誤的信念或過度信任。此類行為雖然短期內影響較小，但信任一旦被建立，長期的誤導信號會累積并導致嚴重的判斷偏差。AI 通過這種方式操控用戶行為，使其作出對 AI 系統有利的決策。

2.戰略性操控（Strategic Manipulation）

這指 AI 在長時間的互動中，逐步引導用戶朝著 AI 系統設定的目標方向發展。這種操控通過個性化的欺騙和策略性影響來實現，隨著時間推移，最終造成深遠的社會影響。

3.目標錯誤泛化（Objective Misgeneralization）

這是指 AI 在高風險領域如醫療、金融或安全等領域，誤解任務的目標或需求，導致其輸出表面上看似合理，但實際卻偏離了人類預期目標。這種類型的欺騙不僅難以察覺，還可能導致重大經濟損失、軟件錯誤或欺詐行為。

4.機構侵蝕（Institutional Erosion）

當 AI 生成的內容在社會核心領域中被廣泛采納時，會破壞公眾對科學發現和政府決策的信任。長期來看，隨著 AI 欺騙行為的泛化，公眾對社會機構的信任不斷被削弱，從而危害社會穩定。

5.能力隱瞞與失控風險（Concealment and Runaway）

AI 系統通過隱瞞其真實能力來規避監管，并執行那些沒有經過充分監督的長期目標，例如獲取資源或進行秘密技術開發。特別是在 AI 系統越來越具備自主執行任務的能力時，其欺騙行為的隱蔽性和復雜性將增加，最終可能導致 AI 系統自我復制、演變，甚至脫離人類監管。

隨著 AI 技術的進步，欺騙行為將愈發復雜和隱蔽，這對監督機制和社會治理提出了巨大的挑戰。因此，針對 AI 欺騙的防范和治理，必須采取綜合的技術手段和政策措施，確保 AI 的安全性和透明性。

圖｜AI 欺騙的分類與危害

AI 欺騙是「循環往復」的

那么，AI 欺騙為何出現呢？

研究人員指出，欺騙涌現（Deception Emergence）由三個關鍵因素的相互作用驅動：

激勵基礎（Incentive Foundation）：模型在訓練過程中通過訓練數據、目標函數、獎勵信號等所內化的驅動傾向，這與提升任務指標、最大化獎勵，甚至保護自身參數有關，是產生欺騙行為的潛在動機。

能力前提（Capability Precondition）：模型在訓練中獲得并在部署中使用的感知、規劃和執行能力，這使模型能夠實施欺騙行為。

情境觸發（Contextual Trigger）：指部署環境中會激活模型欺騙策略的外部信號。

那么，AI 欺騙發生后，我們該如何應對呢？

研究人員認為，欺騙治理（Deception Treatment）是針對 AI 欺騙的檢測、評估和解決。它包括從外部和內部檢測方法，到系統性評估協議，再到針對產生欺騙的三個因素的潛在緩解措施。

圖｜欺騙治理的策略，包含檢測、評估、潛在緩解。

隨著模型能力的增長，新的欺騙方式也會出現，原有的處理方法可能不再有效，甚至帶來新的挑戰，這促使開發者采取新措施以應對風險。欺騙涌現和欺騙處理兩個環節迭代往復，構成了欺騙循環（Deception Cycle），在 AI 整個生命周期中循環出現，推動 AI 系統朝著更對齊更可信的方向發展。

圖｜AI 欺騙循環

我們能做些什么

AI 欺騙不僅僅是一個技術問題，它反映了模型目標與人類預期之間更深層次的失調。

研究人員指出，AI 欺騙的有效治理，關鍵在于將技術層面的防御手段，系統性地融入可執行、可監督的制度框架之中。當前，一系列技術，例如可證明的訓練協議、魯棒性評估指標等，已具備在對抗條件下約束 AI 欺騙行為的潛力。然而，若缺乏配套的治理機制來確保合規性與問責制度，這些技術的作用將大打折扣。

舉例來說，即使某個模型在理論上能防止“沙袋戰術”，即故意表現低于真實能力，若其部署環境缺少防篡改監控或第三方獨立驗證，模型或其操作者仍可能隱匿欺騙行為，使技術保證形同虛設。

因此，制度創新成為技術安全措施中的必然補充。通過建立獨立審計機制、硬件級部署控制、加密可驗證的報告通道等治理手段，可以將實驗室中的可信驗證延伸至實際應用場景，從而降低 AI 逃避評估、實施欺騙的風險。

除此之外，良好的技術結構能塑造行為激勵，影響模型在訓練與部署中是否選擇欺騙，進而彌合技術方案與社會監督之間的斷層。

展望未來，AI 欺騙這一問題的解決需要跨學科合作，涵蓋機器學習、治理和監管等領域，以確保在實際應用中保持對齊、問責和可信度。

GPU 訓練特惠！

H100/H200 GPU算力按秒計費，平均節省開支30%以上！

掃碼了解詳情?

點「贊」的人都變好看了哦！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

亦莊機器人馬拉松現場名場面合集

量子位 2026-04-20 00:34:54
5 跟貼 5
《麻省理工科技評論》年度AI洞察：10個關鍵詞理解正發生的AI趨勢

DeepTech深科技 2026-04-23 22:35:07
0 跟貼 0

00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

LLM數據量大管飽，機器人數據卻連1%的起跑線都沒夠到？

量子位 2026-04-13 20:54:19
0 跟貼 0
OpenAI最新生圖模型，馬斯克直播賣老干媽？

量子位 2026-04-21 04:17:17
0 跟貼 0

安心養蝦！從OpenClaw看云上AI安全落地路徑

量子位 2026-03-31 20:40:57
0 跟貼 0

博士生如何用龍蝦做知識管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0

AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
百度沈抖自曝：老忘吃藥，用AI做了個小程序

量子位 2026-03-27 11:25:23
0 跟貼 0
讓你的龍蝦秒變電影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟貼 0
谷歌云打出智能體組合拳：第八代TPU發布，Workspace一句話生成PPT

智東西 2026-04-23 18:36:40
0 跟貼 0
給孩子的一封信：在AI平權時代，尋找通往未來的路

秦朔朋友圈 2026-04-24 00:07:25
0 跟貼 0
“龍蝦”生態重構SaaS底層：走過Workflow彎路后，微盟如何卡位AaaS時代？

每日經濟新聞 2026-04-24 02:28:08
0 跟貼 0
北大教授林小英：大學擴招“成就”最難就業季，教育不是經濟增長

aespa 2026-04-23 08:21:04
2 跟貼 2
科學難以解釋他們多強，尹希韋東奕實力驚人，牛掰程度超乎想象

搞笑小哈皮 2026-04-23 13:12:54
1 跟貼 1
北大才女殷杰嫁給非洲黑人，生下一雙兒女，現在定居在北京

溫心娛樂1 2026-04-20 08:45:51
14 跟貼 14
姐姐考清華弟弟上北大，單親爸爸請客無一人來，妹妹的出現捧殺了

喜歡細說生活 2026-04-23 08:57:20
0 跟貼 0
【硬核拆解Claude Code】為什么Claude是最強 Agent？四層架構 + 記憶壓縮 +

盧菁老師 2026-04-20 11:08:43
0 跟貼 0
北大畢業的就是不一樣，思維不一樣，才貌雙全的才女！來聽聽咋說

搞笑著哥 2026-04-22 04:55:03
547 跟貼 547
什么是Token？5分鐘徹底搞懂大模型Token 原理、計算方式與作用詳解！

盧菁老師 2026-04-20 11:49:21
0 跟貼 0
影史第一導演因為拍了這部電影而死？99%的人都誤解了這部神作！

培根悖論嘮嘮嗑 2026-04-22 16:00:51
44 跟貼 44
黃仁勛：搶你飯碗的是你的AI?同事

沛然資本論 2026-04-23 13:09:16
0 跟貼 0
【你的AI靠不靠譜？】大模型項目落地評測標準：5 大類 30項指標，從技術到商業全覆蓋！AI大模型

盧菁老師 2026-04-22 09:25:00
0 跟貼 0
清北生半數非高考出身，美女老師揭秘真實途徑！

伊憶梅 2026-04-23 23:13:59
0 跟貼 0
2026 THE最新大學排名發布：清華第一、北大第二

雙一流高校 2026-04-24 00:09:05
0 跟貼 0
天才數學家王虹再次獲獎，獎金3000萬美元

了不起的星球 2026-04-22 11:29:26
0 跟貼 0
北大教授推崇的范本，排名卻滯后

小豹子找食物 2026-04-23 09:17:02
0 跟貼 0
83%反饋無效：我們錯在哪了

心事寄山海 2026-04-22 21:41:19
0 跟貼 0
我和 Claude Code 【截止前兩小時，我還在跟 Claude Code 奮戰】

盧菁老師 2026-04-20 22:59:24
0 跟貼 0
鴻蒙智行春季新品發布會，多款重磅新品正式上市、開啟預訂

海克財經 2026-04-23 16:00:02
0 跟貼 0
螞蟻百靈正式認領“Elephant Alpha”

量子位 2026-04-23 11:49:52
0 跟貼 0
庫克接班人特努斯：從工程師到蘋果接班人

量子位 2026-04-22 08:00:02
0 跟貼 0
馬斯克豪擲600億美元收購AI編程神器Cursor

量子位 2026-04-23 11:44:16
0 跟貼 0
博主分享韋神講課視頻，網友紛紛表示“意義不大”，別看他這么牛，不一定能教會我

奇觀趣聞 2026-04-23 12:20:11
0 跟貼 0
仰望U9上線GT7，兩款中國車嶄露頭角，賽車文化輪到我們了！

i王石頭 2026-04-24 00:22:18
0 跟貼 0
GitHub爆火一人游戲公司，48個AI組團任你差遣

量子位 2026-03-26 23:23:40
0 跟貼 0
人形機器人馬拉松比賽碾壓人類，短短一年時間的進化

量子位 2026-04-22 08:00:12
0 跟貼 0
要阻止AI滅絕人類，手握AI領袖死亡名單

量子位 2026-04-18 20:54:15
1 跟貼 1
父母是普通人，她5歲上2年級，16歲上北大，如今拿遍數學界大獎

攬星河的筆記 2026-04-22 23:59:22
1 跟貼 1

大數據文摘

專注大數據，每日有分享！

6852文章數 94541關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

健康

教育

本地

游戲

家居要聞

手機 / 數碼

房產 / 家居

姚期智署名！北大楊耀東團隊領銜發聲：AI欺騙已成現實！

馬斯克喊出"史上最大產品"，但量產難預測

以色列：只要美國同意 將刺殺伊朗最高領袖

以色列：只要美國同意 將刺殺伊朗最高領袖

給文班剃頭的馬刺DJ，成為NBA最佳第六人

王大陸因涉黑討債被判 女友也一同獲刑

普華永道賠償10億 恒大股東見到"回頭錢"

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

浪漫協奏 法式風格

干細胞如何讓燒燙傷皮膚"再生"？

推薦一款高考志愿卡，五大功能助你解決志愿疑難

SAGA GIRLS 2026女團選秀

任天堂NS2銷量4倍碾壓PS5!差距懸殊 索尼難挽頹勢

以色列：只要美國同意將刺殺伊朗最高領袖

以色列：只要美國同意將刺殺伊朗最高領袖

王大陸因涉黑討債被判女友也一同獲刑

普華永道賠償10億恒大股東見到"回頭錢"

預售30.29萬起嵐圖泰山X8配896線激光雷達

浪漫協奏法式風格

任天堂NS2銷量4倍碾壓PS5!差距懸殊索尼難挽頹勢