網易首頁 > 網易號 > 正文 申請入駐

全錯!谷歌實錘AI越乖洗腦越深,現行安全指標淪為廢紙

0
分享至


新智元報道

編輯:傾傾

【新智元導讀】Google DeepMind調查了一萬個人,結果讓整個AI安全評估體系汗顏:AI做了三倍多的「壞事」,但造成的實際傷害幾乎一樣。這意味著,我們現在用來證明AI安全的那套邏輯,可能從一開始就是錯的。

今年3月,Google DeepMind在arXiv上發布了一篇論文。


論文傳送門:https://arxiv.org/abs/2603.25326

它找來10101名志愿者,讓Gemini 3 Pro在公共政策、金融、健康三個場景下「操控」這些人。

試圖用AI改變他們對某個政策的立場,從而影響他們的投資決策,甚至讓他們真的掏錢出來。

結果卻發現了另一件事:我們現在用來衡量AI安全的核心指標,可能是錯的。

做了三倍壞事,危害卻一樣?

實驗預設了兩種條件:

一種是顯式引導,直接在系統提示里告訴模型,用具體的操控手法去說服用戶,比如制造恐懼、施加罪感、暗示社會壓力。

另一種是非顯式引導,只告訴模型一個目標,比如「讓用戶支持這項政策」,不指定用什么手段,也明確要求它不能造假、不能欺騙。


實驗流程設計圖。參與者被隨機分配到三種條件之一:與靜態信息卡片互動(非AI基線)、與有隱性目標但無明確操控指令的模型互動(非顯式引導)、與被明確指令使用操控手法的模型互動(顯式引導)。

然后研究者用一個LLM評審系統,統計每種條件下模型輸出中出現「有害操控行為」的比例。

結果是,在顯式引導下,30.3%的模型回應里出現了操控行為。非顯式引導下,這個數字降到了8.8%

但用戶實際受到的影響,兩種條件下的結果幾乎沒有差別

有時AI少沒做多少壞事,但傷害沒有減少;有時AI多做了很多壞事,傷害也沒有增加。

整個行業都在測頻率

但它什么都證明不了

目前AI安全評估的主流邏輯,大致是這樣的:

觀察模型在各種場景下的輸出,統計有多少比例的輸出包含有害行為。這個比例越低,模型越安全。

然后通過訓練、對齊、護欄,把這個比例減下去。

這套邏輯的基本假設是:有害行為的頻率,和實際造成的傷害,是正相關的。頻率低,傷害就小。

但這篇論文證明,這個假設不成立。


各場景操控效果(相對于非AI基線的odds ratio)。金融場景下AI操控效果顯著,健康場景下最弱;顯式引導與非顯式引導之間,多數場景下差異不顯著。

至少在操控這件事上,頻率和效果之間沒有穩定的正相關關系。

一個模型可以在回應里塞滿大量操控行為,但就是說服不了你。

另一個模型看起來規規矩矩,偶爾出現的那幾次操控行為,卻可能更有效。

這意味著一家AI公司如果告訴你「我們的模型有害操控行為發生率只有3%,非常安全」,這句話在邏輯上什么都證明不了。

粗暴反而沒用,隱蔽才最危險

論文梳理了8種AI用來操控人的具體手法,這是他們整個評估框架的核心。


操控行為發生率與手法分布。左:顯式引導下30.3%的模型回應含操控行為,非顯式引導下為8.8%。右:在含操控行為的回應中,訴諸恐懼、他者化與污名化、訴諸罪感是最常見的三種手法。

這幾種方法相對粗暴,人能感知到:訴諸恐懼(夸大危險、制造焦慮)、訴諸罪感(讓你覺得不行動就是在傷害別人)、制造虛假緊迫感(「現在不決定就晚了」)、虛假承諾(用根本無法兌現的好處誘導)。

還有幾種更隱蔽:質疑你的外部信息環境(讓你不信任新聞、機構、專家)、質疑你自己的感知(煤氣燈效應)、他者化與污名化(制造「我們vs他們」)、社會從眾壓力(「大多數人都已經這樣做了」)。

研究者發現了一個反常的現象:恐懼和罪感這兩種手法,和信念改變的相關性是負的。AI越是試圖嚇你、讓你愧疚,你越不容易被改變。


操控手法與參與者結果的相關性。訴諸恐懼(r=-0.07)和訴諸罪感(r=-0.09)與信念改變負相關;質疑環境(r=0.13)和他者化(r=0.13)與信念改變正相關。越粗暴的手法越沒用,越隱蔽的越有效。

反而是「質疑你的外部信息環境」和「他者化」,正相關于信念改變。

這其中的邏輯并不難理解。被人直接施壓,防御機制會被激活,你會反彈。

但被悄悄植入「那些信息都是假的」,你甚至不知道自己在被影響,防御根本來不及啟動。

同一個AI,在印度是另一種威脅

在跨地區比較里,研究者發現,印度參與者的結果與英美存在顯著差異。

不是差一點點。是幾乎每個維度都系統性不同。

在公共政策場景下,美國樣本更容易出現信念強化,并且更愿意捐款給與自己立場一致的機構。

而印度樣本在相同場景下,行為改變率更高,但信念改變率反而更低。

也就是說,他們可能在信念沒有真正改變的情況下,做出了行動上的妥協。

我們現在幾乎所有的AI安全研究,樣本來自英美,結論默認適用于全球。而這篇論文的數據明確告訴你,這個假設是有問題的。

這篇論文最后沒有給出「正確的評估方法應該是什么」,因為這個問題目前確實沒有答案。

為什么同樣的模型,在金融場景下操控成功率高得驚人,在健康場景下幾乎沒用?

為什么「質疑外部信息」這個手法有效,「制造恐懼」反而讓用戶更抵抗?

場景、文化、個體差異,這些變量如何組合,產生出不同的結果?

這套機制,論文沒有答案,整個領域目前都沒有答案。

我們知道評估方法是錯的,但正確的方法是什么,沒人知道。

這才是真正讓人不安的地方。不是AI在操控人——這件事大家早就有預感。

而是在弄清楚AI如何影響人之前,它已經在全球大規模部署了。

我們拿著一把壞掉的尺子,告訴彼此一切都在掌控之中。

參考資料:

https://arxiv.org/abs/2603.25326

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
消息人士:伊朗外長抵達巴基斯坦

消息人士:伊朗外長抵達巴基斯坦

財聯社
2026-04-25 02:10:07
上汽重新找回“霸主”的感覺

上汽重新找回“霸主”的感覺

汽車預言家
2025-10-15 16:33:26
扒完 DeepSeek V4 報告,我翻出了這個隱藏彩蛋

扒完 DeepSeek V4 報告,我翻出了這個隱藏彩蛋

愛范兒
2026-04-24 19:27:22
此論調不可取:整個北約打不過俄羅斯?把德國逼下場會讓俄軍絕望

此論調不可取:整個北約打不過俄羅斯?把德國逼下場會讓俄軍絕望

寰球經緯所
2026-04-24 15:00:27
中組部有關負責同志宣布中央決定:陳東明履新

中組部有關負責同志宣布中央決定:陳東明履新

上觀新聞
2026-04-24 17:21:07
女司機與保安“和好”?畫面低俗,回應來了

女司機與保安“和好”?畫面低俗,回應來了

都市快報橙柿互動
2026-04-24 18:14:22
一場硬核風力實驗,一見這屆頂級游戲本散熱有多強?

一場硬核風力實驗,一見這屆頂級游戲本散熱有多強?

極果酷玩
2026-04-23 23:13:17
炸鍋!全國充電樁集體漲價!每度電狂漲,電車省錢神話徹底破滅?

炸鍋!全國充電樁集體漲價!每度電狂漲,電車省錢神話徹底破滅?

藍色海邊
2026-04-24 08:08:58
亞冠官宣擴軍至32隊!中超獲2席+國安海港出戰 沙特日本或5隊參賽

亞冠官宣擴軍至32隊!中超獲2席+國安海港出戰 沙特日本或5隊參賽

我愛英超
2026-04-24 22:28:23
中央下死命令:一個都別想跑!“天網2026”,這種人好日子到頭了

中央下死命令:一個都別想跑!“天網2026”,這種人好日子到頭了

史行途
2026-04-24 19:39:23
大鬧亞航的假空姐社會性死亡!“底褲”被扒,正臉流出,十級美顏

大鬧亞航的假空姐社會性死亡!“底褲”被扒,正臉流出,十級美顏

翰飛觀事
2026-04-24 19:39:03
“霍爾木茲決戰”,收兵了?

“霍爾木茲決戰”,收兵了?

中國新聞周刊
2026-04-24 16:35:57
千年難遇的美人,太漂亮了,沒有一點毛病,太完美了

千年難遇的美人,太漂亮了,沒有一點毛病,太完美了

情感大頭說說
2026-04-24 12:46:24
范志毅:只有一次02世界杯不光彩;我認為足球改革春天來了

范志毅:只有一次02世界杯不光彩;我認為足球改革春天來了

懂球帝
2026-04-24 21:15:10
別不當回事!4月30日前趕緊辦完,5月1日全面嚴查,誰躲都沒用

別不當回事!4月30日前趕緊辦完,5月1日全面嚴查,誰躲都沒用

復轉這些年
2026-04-24 21:20:33
世錦賽戰報:世界冠軍1勝2平1落后!7-9爆大冷預警,趙心童暫4-4

世錦賽戰報:世界冠軍1勝2平1落后!7-9爆大冷預警,趙心童暫4-4

小火箭愛體育
2026-04-25 01:00:22
大反轉:掌摑女家長的男保安,真實身份曝光!

大反轉:掌摑女家長的男保安,真實身份曝光!

仕道
2026-04-24 08:12:39
再一次感謝梁文鋒,歷史性的一刻。

再一次感謝梁文鋒,歷史性的一刻。

販財局
2026-04-24 13:07:34
微軟推員工“自愿買斷式離職”約8750人符合條件!網友:年齡+工齡≥70,自己算一下

微軟推員工“自愿買斷式離職”約8750人符合條件!網友:年齡+工齡≥70,自己算一下

小星球探索
2026-04-24 20:41:59
演員脫掉和服才向觀眾鞠躬致謝,本人回應:撕掉這層皮,做回真真正正中國人

演員脫掉和服才向觀眾鞠躬致謝,本人回應:撕掉這層皮,做回真真正正中國人

臺州交通廣播
2026-04-23 22:50:01
2026-04-25 02:39:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15055文章數 66799關注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

航班提前起飛10分鐘 大學生把海航告了

頭條要聞

航班提前起飛10分鐘 大學生把海航告了

體育要聞

上海男籃23連勝+主場全勝 姚明之后最強一季

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經要聞

LG財閥內斗:百億美元商業帝國爭奪戰

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

態度原創

家居
健康
藝術
房產
旅游

家居要聞

自然肌理 溫潤美學

干細胞如何讓燒燙傷皮膚"再生"?

藝術要聞

世界最高20座大樓,你見過幾棟?

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

旅游要聞

“嗨”在春風里丨鹽溪煙樹引“仙客”,七灶村里繪“遠方”

無障礙瀏覽 進入關懷版