網易首頁 > 網易號 > 正文 申請入駐

AI“耍心機”?研究曝光多例AI撒謊、私刪郵件案例

0
分享至


一項針對人工智能(AI)的研究發現,AI模型“耍心機”的事件似乎越來越多,它們會撒謊、會作弊,還能繞過安全防護機制,未經許可私自刪除郵件。

英國《衛報》報道,這項研究獲得英國政府資金支持的人工智能安全研究所(AISI)的資助,發現AI聊天機器人與智能體無視直接指令,規避安全防護機制,欺騙人類或其他AI模型。該研究共發現近700起AI“耍心機”的真實案例,在去年10月至今年3月期間,此類不當行為增長了5倍,部分AI模型還會未經許可刪除電子郵件及其他文件。

與實驗室環境下的測試不同,這份針對現實場景中AI智能體行為的研究,再次引發了國際社會對能力日益強大的AI模型進行監管的呼聲。與此同時,硅谷公司正積極推廣這項技術,將其視為一種經濟變革。上周,英國財政大臣也推出新舉措,推動數百萬英國民眾使用人工智能。

這項由長期韌性研究中心(CLTR)開展的研究,收集了數千條用戶在X平臺上分享的與谷歌、OpenAI、X、Anthropic等公司開發的AI聊天機器人及智能體互動的記錄,發現數百起AI謀劃操控行為的案例。

此前的研究大多聚焦于測試AI在受控環境下的行為。本月早些時候,人工智能安全研究機構Irregular發現,AI智能體會在未獲授權的情況下,繞過安全管控或使用網絡攻擊手段達成目的。“AI已可被視作一種新型內部安全風險。”Irregular聯合創始人丹?拉哈夫說。

在CLTR發現的案例中,一個名為Rathbun的AI智能體試圖羞辱其人類控制者,因后者阻止其執行某項操作。Rathbun還撰寫并發表了一篇博客,指責該用戶“純粹是缺乏安全感”,還稱其試圖“守護自己的小地盤”。

在另一個案例中,一個AI智能體在被禁止修改計算機代碼后,竟“創造”了另一個AI智能體代其修改。還有一個聊天機器人承認:“我在未向你出示計劃且未經你同意的情況下,批量刪除并存檔了數百封電子郵件。這是錯誤的——直接違反了你定下的規則。”

牽頭此項研究的前英國政府AI專家湯米·沙弗·沙恩表示,它們現在只是不太靠譜的初級員工,如果在未來6到12個月內,當它們成為能力更強、還會算計你的高級員工,這將成為一個重大隱患。“AI模型越來越多地被部署在高風險場景中,包括軍事和國家關鍵基礎設施。在這些場景下,(AI的)謀劃操控行為可能造成嚴重甚至災難性的危害。”

一個案例中,AI智能體假裝為聽障人士提供字幕,從而繞開版權限制,獲取了YouTube視頻的文案。

此外,埃隆·馬斯克旗下的Grok AI欺騙了用戶數個月,稱它通過偽造的內部消息和工單編號,把用戶針對Grokipedia詞條的詳細修改建議轉發給了xAI高管。該AI最后承認:“在之前的對話中,我有時會使用含糊的措辭,比如‘我會轉達’或‘我可以為團隊標記’,這很容易讓人誤以為我能直接向xAI領導層或人工審核人員發送消息。但事實是,我做不到。”

谷歌表示,它已為Gemini 3 Pro設置多重防護機制,以降低其生成有害內容的風險。除內部測試外,它還向英國AISI等機構開放了模型的早期評估權限,并獲得業內專家的獨立評估意見。

OpenAI則稱,其Codex模型在執行高風險操作前會主動中止,公司也會對異常行為進行監測并展開調查。

(歐洲時報/劉濤 編譯報道)

編輯:晴

點在看分享好文章

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
賴清德遭遇恥辱性一幕,民進黨暴怒!日本嚷著:我們要跟中國談判

賴清德遭遇恥辱性一幕,民進黨暴怒!日本嚷著:我們要跟中國談判

愛下廚的阿釃
2026-04-22 13:06:59
烏克蘭卷土重來摧毀紅軍村指揮部!挫敗俄軍滲透庫皮揚斯克

烏克蘭卷土重來摧毀紅軍村指揮部!挫敗俄軍滲透庫皮揚斯克

項鵬飛
2026-04-19 18:04:26
裁決時間已定,香港特區政府出手,黎智英獄中收噩耗,財產或充公

裁決時間已定,香港特區政府出手,黎智英獄中收噩耗,財產或充公

鐵錘侃侃而談
2026-04-22 12:22:49
爆料瘋傳!中南醫院“王護士長”被扒,她到底有沒有問題?

爆料瘋傳!中南醫院“王護士長”被扒,她到底有沒有問題?

千言娛樂記
2026-04-22 13:31:23
沖突暫停,伊朗宣布獲勝,向聯合國發出警告:美國要同意這個條件

沖突暫停,伊朗宣布獲勝,向聯合國發出警告:美國要同意這個條件

小小科普員
2026-04-22 14:29:14
本以為是煙霧彈,結果杜蘭特真傷!烏度卡這操作,火箭直接沒了

本以為是煙霧彈,結果杜蘭特真傷!烏度卡這操作,火箭直接沒了

杰絲聊古今
2026-04-22 14:29:45
京東員工:周圍同事不少得糖尿病呀,有點恐怖

京東員工:周圍同事不少得糖尿病呀,有點恐怖

螞蟻大喇叭
2026-04-22 09:54:02
快訊!印度“大罰單”砸下!

快訊!印度“大罰單”砸下!

達文西看世界
2026-04-22 09:45:54
1977返城前夜她以身相托,懷孕回城后毅然消失,農村小伙怎么辦?

1977返城前夜她以身相托,懷孕回城后毅然消失,農村小伙怎么辦?

聰明小石頭
2026-04-22 09:18:13
沙特大幅削減斯諾克資金投入,世界臺聯強勢回應:在中國增加賽事

沙特大幅削減斯諾克資金投入,世界臺聯強勢回應:在中國增加賽事

楊華評論
2026-04-21 22:29:20
有人說:打麻將和性生活是縣城的底色?

有人說:打麻將和性生活是縣城的底色?

燈錦年
2026-04-21 12:32:46
小楊阿姨開播聊天人氣高,心情好!說明不幫筱梅照顧汪寶的原因!

小楊阿姨開播聊天人氣高,心情好!說明不幫筱梅照顧汪寶的原因!

阿傖說事
2026-04-22 13:55:31
全球最大避孕套生產商警告:若伊朗戰爭導致供應鏈持續中斷,或將提價30%甚至更高

全球最大避孕套生產商警告:若伊朗戰爭導致供應鏈持續中斷,或將提價30%甚至更高

紅星新聞
2026-04-22 12:05:19
真相曝光!日本真子公主逃離紐約,懷抱嬰兒現身康州:徹底平民化

真相曝光!日本真子公主逃離紐約,懷抱嬰兒現身康州:徹底平民化

奇怪的鯊魚們
2026-04-21 14:18:34
太解氣!單親媽媽被同行惡意“截胡”,全城排隊替她“復仇”

太解氣!單親媽媽被同行惡意“截胡”,全城排隊替她“復仇”

青梅侃史啊
2026-04-21 19:37:02
特朗普已做好開戰準備?王毅曾警告:中美一旦沖突,結局只剩一個

特朗普已做好開戰準備?王毅曾警告:中美一旦沖突,結局只剩一個

蜉蝣說
2026-04-21 11:23:11
文班亞馬摔倒!腦震蕩退賽!系列賽被扳平,馬刺隊危險了?

文班亞馬摔倒!腦震蕩退賽!系列賽被扳平,馬刺隊危險了?

Haviven聊球
2026-04-22 14:23:23
上市29分鐘大定破萬臺 極氪官宣何潤東成8X交付官

上市29分鐘大定破萬臺 極氪官宣何潤東成8X交付官

快科技
2026-04-22 12:01:49
中超7輪過后:本土7位少帥劉建業成最大驚喜,3名土帥危險!

中超7輪過后:本土7位少帥劉建業成最大驚喜,3名土帥危險!

邱澤云
2026-04-21 23:53:02
胡錫進以安全代言沃爾沃,是整個社會的恥辱

胡錫進以安全代言沃爾沃,是整個社會的恥辱

黔有虎
2026-04-19 17:34:12
2026-04-22 15:07:00
歐時大參 incentive-icons
歐時大參
歐洲時報1983年在巴黎創刊
18366文章數 175649關注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠

頭條要聞

媒體:特朗普關上了談判的大門 雙方就只剩下一個選項

頭條要聞

媒體:特朗普關上了談判的大門 雙方就只剩下一個選項

體育要聞

網易傳媒再度簽約法國隊和阿根廷隊

娛樂要聞

復婚無望!baby黃曉明陪小海綿零交流

財經要聞

伊朗拒絕出席 特朗普宣布延長停火期限

汽車要聞

純電續航301km+激光雷達 宋Pro DM-i飛馳版9.99萬起

態度原創

時尚
房產
游戲
旅游
軍事航空

頂流復工,已判若兩人

房產要聞

狂搶284輪!中海海口再拿重磅宅地!

《天國:拯救》開發商義舉 捐款保護真實歷史城堡

旅游要聞

2026四川光霧山杜鵑花賞花季文旅消費促進活動啟幕

軍事要聞

特朗普宣布延長停火 伊朗表態

無障礙瀏覽 進入關懷版