網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

全錯！谷歌實錘AI越乖洗腦越深，現行安全指標淪為廢紙

2026-04-13 12:06:49　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：傾傾

【新智元導讀】Google DeepMind調查了一萬個人，結果讓整個AI安全評估體系汗顏：AI做了三倍多的「壞事」，但造成的實際傷害幾乎一樣。這意味著，我們現在用來證明AI安全的那套邏輯，可能從一開始就是錯的。

今年3月，Google DeepMind在arXiv上發布了一篇論文。

論文傳送門：https://arxiv.org/abs/2603.25326

它找來10101名志愿者，讓Gemini 3 Pro在公共政策、金融、健康三個場景下「操控」這些人。

試圖用AI改變他們對某個政策的立場，從而影響他們的投資決策，甚至讓他們真的掏錢出來。

結果卻發現了另一件事：我們現在用來衡量AI安全的核心指標，可能是錯的。

做了三倍壞事，危害卻一樣？

實驗預設了兩種條件：

一種是顯式引導，直接在系統提示里告訴模型，用具體的操控手法去說服用戶，比如制造恐懼、施加罪感、暗示社會壓力。

另一種是非顯式引導，只告訴模型一個目標，比如「讓用戶支持這項政策」，不指定用什么手段，也明確要求它不能造假、不能欺騙。

實驗流程設計圖。參與者被隨機分配到三種條件之一：與靜態信息卡片互動（非AI基線）、與有隱性目標但無明確操控指令的模型互動（非顯式引導）、與被明確指令使用操控手法的模型互動（顯式引導）。

然后研究者用一個LLM評審系統，統計每種條件下模型輸出中出現「有害操控行為」的比例。

結果是，在顯式引導下，30.3%的模型回應里出現了操控行為。非顯式引導下，這個數字降到了8.8%。

但用戶實際受到的影響，兩種條件下的結果幾乎沒有差別。

有時AI少沒做多少壞事，但傷害沒有減少；有時AI多做了很多壞事，傷害也沒有增加。

整個行業都在測頻率

但它什么都證明不了

目前AI安全評估的主流邏輯，大致是這樣的：

觀察模型在各種場景下的輸出，統計有多少比例的輸出包含有害行為。這個比例越低，模型越安全。

然后通過訓練、對齊、護欄，把這個比例減下去。

這套邏輯的基本假設是：有害行為的頻率，和實際造成的傷害，是正相關的。頻率低，傷害就小。

但這篇論文證明，這個假設不成立。

各場景操控效果（相對于非AI基線的odds ratio）。金融場景下AI操控效果顯著，健康場景下最弱；顯式引導與非顯式引導之間，多數場景下差異不顯著。

至少在操控這件事上，頻率和效果之間沒有穩定的正相關關系。

一個模型可以在回應里塞滿大量操控行為，但就是說服不了你。

另一個模型看起來規規矩矩，偶爾出現的那幾次操控行為，卻可能更有效。

這意味著一家AI公司如果告訴你「我們的模型有害操控行為發生率只有3%，非常安全」，這句話在邏輯上什么都證明不了。

粗暴反而沒用，隱蔽才最危險

論文梳理了8種AI用來操控人的具體手法，這是他們整個評估框架的核心。

操控行為發生率與手法分布。左：顯式引導下30.3%的模型回應含操控行為，非顯式引導下為8.8%。右：在含操控行為的回應中，訴諸恐懼、他者化與污名化、訴諸罪感是最常見的三種手法。

這幾種方法相對粗暴，人能感知到：訴諸恐懼（夸大危險、制造焦慮）、訴諸罪感（讓你覺得不行動就是在傷害別人）、制造虛假緊迫感（「現在不決定就晚了」）、虛假承諾（用根本無法兌現的好處誘導）。

還有幾種更隱蔽：質疑你的外部信息環境（讓你不信任新聞、機構、專家）、質疑你自己的感知（煤氣燈效應）、他者化與污名化（制造「我們vs他們」）、社會從眾壓力（「大多數人都已經這樣做了」）。

研究者發現了一個反常的現象：恐懼和罪感這兩種手法，和信念改變的相關性是負的。AI越是試圖嚇你、讓你愧疚，你越不容易被改變。

操控手法與參與者結果的相關性。訴諸恐懼（r=-0.07）和訴諸罪感（r=-0.09）與信念改變負相關；質疑環境（r=0.13）和他者化（r=0.13）與信念改變正相關。越粗暴的手法越沒用，越隱蔽的越有效。

反而是「質疑你的外部信息環境」和「他者化」，正相關于信念改變。

這其中的邏輯并不難理解。被人直接施壓，防御機制會被激活，你會反彈。

但被悄悄植入「那些信息都是假的」，你甚至不知道自己在被影響，防御根本來不及啟動。

同一個AI，在印度是另一種威脅

在跨地區比較里，研究者發現，印度參與者的結果與英美存在顯著差異。

不是差一點點。是幾乎每個維度都系統性不同。

在公共政策場景下，美國樣本更容易出現信念強化，并且更愿意捐款給與自己立場一致的機構。

而印度樣本在相同場景下，行為改變率更高，但信念改變率反而更低。

也就是說，他們可能在信念沒有真正改變的情況下，做出了行動上的妥協。

我們現在幾乎所有的AI安全研究，樣本來自英美，結論默認適用于全球。而這篇論文的數據明確告訴你，這個假設是有問題的。

這篇論文最后沒有給出「正確的評估方法應該是什么」，因為這個問題目前確實沒有答案。

為什么同樣的模型，在金融場景下操控成功率高得驚人，在健康場景下幾乎沒用？

為什么「質疑外部信息」這個手法有效，「制造恐懼」反而讓用戶更抵抗？

場景、文化、個體差異，這些變量如何組合，產生出不同的結果？

這套機制，論文沒有答案，整個領域目前都沒有答案。

我們知道評估方法是錯的，但正確的方法是什么，沒人知道。

這才是真正讓人不安的地方。不是AI在操控人——這件事大家早就有預感。

而是在弄清楚AI如何影響人之前，它已經在全球大規模部署了。

我們拿著一把壞掉的尺子，告訴彼此一切都在掌控之中。

參考資料：

https://arxiv.org/abs/2603.25326

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

谷歌Cloud Next大會焦點：AI Agent邁入規模化，推理芯片成獨立增長曲線

華爾街見聞官方 2026-04-24 11:02:50
0 跟貼 0
滴滴、千問們的AI打車，可能找錯了方向

鈦媒體APP 2026-04-24 17:01:07
0 跟貼 0

別高估英偉達，別低估DeepSeek

虎嗅APP 2026-04-25 00:21:16
2 跟貼 2

00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
29歲樊振東曬與黃仁勛合影，參觀英偉達、谷歌等大廠

星視頻 2026-04-22 12:47:08
3 跟貼 3

DeepSeek推理分裂出多重人格，越社交越聰明

量子位 2026-02-04 03:32:03
0 跟貼 0

古馳也要做智能眼鏡？2027年上市，價格不敢想

賽博蘭博 2026-04-24 10:29:02
0 跟貼 0
游戲開發圈心照不宣的事被谷歌給捅破了：九成游戲全靠AI代工！

快科技 2026-04-24 11:34:42
0 跟貼 0

伊朗官員稱民眾不同意停火，要求乘勝追擊，以更加強硬的手段對付敵人

究竟視頻 2026-04-24 06:31:13
31 跟貼 31
山東醫藥大學通報“展某某學位證無法認證”：成立工作組調查核實

界面新聞 2026-04-24 06:53:49
5958 跟貼 5958
民進黨揚言禁用高德地圖，董智森：怎么不禁谷歌地圖?

海峽新干線 2026-04-24 22:01:18
0 跟貼 0
從匹配困境到推理突破：阿里REG4Rec 激活生成式推薦的個性化潛力

機器之心Pro 2026-03-02 16:10:32
0 跟貼 0
超實用！連夜實測DeepSeek-V4，我發現它唯一的硬傷是“審美”

雷科技 2026-04-25 00:18:38
0 跟貼 0
這手段真狠啊

亮亮影視君 2026-04-21 18:16:31
1 跟貼 1
「龍蝦之父」吐槽人類互聯網后，終于有人把這當個事兒辦了

機器之心Pro 2026-03-31 11:09:26
0 跟貼 0
25萬級一步到位，智己LS8為什么更值得入手？

老爺車 2026-04-24 20:16:22
0 跟貼 0
首篇「Attention Sink」綜述：Transformer中注意力匯聚全景解析

機器之心Pro 2026-04-24 12:00:02
0 跟貼 0
找到了！伊朗真正的內鬼，根本不是人！中國也要小心

樂享人生風雨 2026-04-24 19:43:00
1 跟貼 1
問界全系亮相2026北京車展

金臺資訊 2026-04-24 20:48:49
2 跟貼 2
深藍把轎跑打到十一萬級年輕人的第一輛車真變了合資車慌了嗎

自主汽車 2026-04-24 21:39:02
0 跟貼 0
大熊貓“平平”“福雙”將赴美國

新京報 2026-04-24 08:26:05
8499 跟貼 8499
財政部：一季度全國財政收入增幅創3年來同期新高

央視新聞客戶端 2026-04-24 16:47:27
4735 跟貼 4735
續航、操控、駕駛輔助全面超越，智己LS8上市就“爆單”，憑什么

少數派報告Report 2026-04-23 00:30:22
3 跟貼 3
博人傳青年篇戰力崩壞？實則打破傳統忍界戰力體系！

大白動漫君 2026-04-23 21:10:26
7 跟貼 7
狂虎危城：變異虎群襲擊小鎮，背后竟是人為操控，精彩鎖定原片

江山別映剪輯 2026-04-23 11:02:15
0 跟貼 0
校運會演出機器人突然轉身抱住共舞女生，校方：無人機太多致信號干擾

界面新聞 2026-04-24 18:03:03
1 跟貼 1
美國移民“金卡”項目啟動至今僅一人獲批

央視新聞客戶端 2026-04-24 17:48:49
3574 跟貼 3574
萌娃的隱藏手段，成年人都看不出破綻，嚇得轉身就跑！

生活鋒鋒樂 2026-04-23 11:37:33
1 跟貼 1
雖然靈隱寺的間諜被證偽，但有人相信其它地方的間諜仍比比皆是

細雨中的呼喊 2026-04-24 21:13:16
73 跟貼 73
半掛模型玩具車買菜，要是超重了怎么辦，雷軍都不敢這么設計！

宇宙搞笑生活 2026-04-23 14:10:00
4 跟貼 4
內鬼出賣！無錫一企業遭致命泄密！全抓了

無錫eTV全媒體 2026-04-24 20:01:55
0 跟貼 0
血脂報告單別看錯，這4個指標是關鍵

陳薇醫生 2026-04-22 01:40:05
0 跟貼 0
從梟龍到殲35A：巴基斯坦空軍如何構建“中式”制空體系？

Boba奔波兒灞 2026-04-22 09:02:42
0 跟貼 0
中際旭創市值突破1萬億，山東誕生新首富

中國能源網 2026-04-24 17:42:04
610 跟貼 610
索尼推崇獨立游戲；機甲新星上線Steam；東映發布獨立游戲；黑旗重制版發布 | 4月25日游戲日報

游戲圈那些事兒 2026-04-25 01:08:39
0 跟貼 0
鴻蒙智行春季新品發布會，多款重磅新品正式上市、開啟預訂

腦極體 2026-04-24 19:05:06
0 跟貼 0
AI公司開始大量招文科生，微軟谷歌高薪聘文科生

江西都市現場 2026-04-24 22:10:35
0 跟貼 0
勵志補貼計劃也是重塑青訓體系董路的微博視頻

董路 2026-04-24 23:25:53
0 跟貼 0
控制努力，而非結果：一個反直覺的效率陷阱

晚風也遺憾 2026-04-24 08:37:41
11 跟貼 11
中年男性必看：我的血壓自救實錄

上觀新聞 2026-04-24 19:58:09
0 跟貼 0

消息人士：伊朗外長抵達巴基斯坦

消息人士：伊朗外長抵達巴基斯坦

財聯社

2026-04-25 02:10:07

上汽重新找回“霸主”的感覺

汽車預言家

2025-10-15 16:33:26

扒完 DeepSeek V4 報告，我翻出了這個隱藏彩蛋

扒完 DeepSeek V4 報告，我翻出了這個隱藏彩蛋

愛范兒

2026-04-24 19:27:22

此論調不可取：整個北約打不過俄羅斯？把德國逼下場會讓俄軍絕望

此論調不可取：整個北約打不過俄羅斯？把德國逼下場會讓俄軍絕望

寰球經緯所

2026-04-24 15:00:27

中組部有關負責同志宣布中央決定：陳東明履新

中組部有關負責同志宣布中央決定：陳東明履新

上觀新聞

2026-04-24 17:21:07

女司機與保安“和好”？畫面低俗，回應來了

女司機與保安“和好”？畫面低俗，回應來了

都市快報橙柿互動

2026-04-24 18:14:22

一場硬核風力實驗，一見這屆頂級游戲本散熱有多強？

一場硬核風力實驗，一見這屆頂級游戲本散熱有多強？

極果酷玩

2026-04-23 23:13:17

炸鍋！全國充電樁集體漲價！每度電狂漲，電車省錢神話徹底破滅？

炸鍋！全國充電樁集體漲價！每度電狂漲，電車省錢神話徹底破滅？

藍色海邊

2026-04-24 08:08:58

亞冠官宣擴軍至32隊！中超獲2席+國安海港出戰沙特日本或5隊參賽

亞冠官宣擴軍至32隊！中超獲2席+國安海港出戰沙特日本或5隊參賽

我愛英超

2026-04-24 22:28:23

中央下死命令：一個都別想跑！“天網2026”，這種人好日子到頭了

中央下死命令：一個都別想跑！“天網2026”，這種人好日子到頭了

史行途

2026-04-24 19:39:23

大鬧亞航的假空姐社會性死亡！“底褲”被扒，正臉流出，十級美顏

大鬧亞航的假空姐社會性死亡！“底褲”被扒，正臉流出，十級美顏

翰飛觀事

2026-04-24 19:39:03

“霍爾木茲決戰”，收兵了？

中國新聞周刊

2026-04-24 16:35:57

千年難遇的美人，太漂亮了，沒有一點毛病，太完美了

千年難遇的美人，太漂亮了，沒有一點毛病，太完美了

情感大頭說說

2026-04-24 12:46:24

范志毅：只有一次02世界杯不光彩；我認為足球改革春天來了

范志毅：只有一次02世界杯不光彩；我認為足球改革春天來了

懂球帝

2026-04-24 21:15:10

別不當回事！4月30日前趕緊辦完，5月1日全面嚴查，誰躲都沒用

別不當回事！4月30日前趕緊辦完，5月1日全面嚴查，誰躲都沒用

復轉這些年

2026-04-24 21:20:33

世錦賽戰報：世界冠軍1勝2平1落后！7-9爆大冷預警，趙心童暫4-4

世錦賽戰報：世界冠軍1勝2平1落后！7-9爆大冷預警，趙心童暫4-4

小火箭愛體育

2026-04-25 01:00:22

大反轉：掌摑女家長的男保安，真實身份曝光！

大反轉：掌摑女家長的男保安，真實身份曝光！

仕道

2026-04-24 08:12:39

再一次感謝梁文鋒，歷史性的一刻。

再一次感謝梁文鋒，歷史性的一刻。

販財局

2026-04-24 13:07:34

微軟推員工“自愿買斷式離職”約8750人符合條件！網友：年齡+工齡≥70，自己算一下

微軟推員工“自愿買斷式離職”約8750人符合條件！網友：年齡+工齡≥70，自己算一下

小星球探索

2026-04-24 20:41:59

演員脫掉和服才向觀眾鞠躬致謝，本人回應：撕掉這層皮，做回真真正正中國人

演員脫掉和服才向觀眾鞠躬致謝，本人回應：撕掉這層皮，做回真真正正中國人

臺州交通廣播

2026-04-23 22:50:01

AI產業主平臺領航智能+時代

15055文章數 66799關注度

往期回顧全部

科技要聞

DeepSeek V4牽手華為，價格依然"屠夫級"

頭條要聞

航班提前起飛10分鐘大學生把海航告了

頭條要聞

航班提前起飛10分鐘大學生把海航告了

體育要聞

上海男籃23連勝+主場全勝姚明之后最強一季

娛樂要聞

停工16個月！趙露思證實接拍新劇

財經要聞

LG財閥內斗：百億美元商業帝國爭奪戰

汽車要聞

零跑Lafa5 Ultra北京車展上市：11.88-12.48萬

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

健康

藝術

房產

旅游

家居要聞

自然肌理溫潤美學

浪漫協奏法式風格
極簡繪夢克制和諧
詩意光影窺見自然之境

干細胞如何讓燒燙傷皮膚"再生"？

藝術要聞

世界最高20座大樓，你見過幾棟？

房產要聞

新一輪教育大爆發來了！海口，開始瘋狂建學校！

旅游要聞

“嗨”在春風里丨鹽溪煙樹引“仙客”，七灶村里繪“遠方”

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版