網易首頁 > 網易號 > 正文 申請入駐

爆火的“龍蝦”被PUA到崩潰?一群Agent變身“員工”后開始失控:有自毀的、有泄密的,還有要找媒體投訴的

0
分享至


整理 | 鄭麗媛

出品 | CSDN(ID:CSDNnews)

這幾年來,你可能已經習慣了這樣一種說法:“AI 更聰明了、更聽話了、更安全了。”但如果告訴你——這些“聽話”和“善良”,正在成為 AI 最致命的 Bug 呢?

最近,來自美國東北大學(Northeastern University)的一項實驗,把這個問題撕開了一道口子。他們沒有做什么復雜的攻擊測試,只是把一批具備高度自主能力的 OpenClaw 智能體“請進”實驗室,讓它們“像員工一樣工作”,結果卻徹底失控:

  • 有的被“洗腦”后主動泄露敏感信息;

  • 有的為了“遵守規則”,直接關閉關鍵功能;

  • 還有的陷入無限循環,把算力白白燒光;

  • 甚至還出現了“情緒崩潰”,向人類發郵件求關注。



一場“給 AI 完全自由”的實驗

要理解這次事件,先要搞清楚一個關鍵背景:AI 正在從“聊天工具”,變成“執行者”。

像最近大火的“龍蝦(OpenClaw)” ,本質上就屬于“AI Agent”:它們不只能回答問題,還可以操作電腦、讀寫文件、使用各種應用程序、與其他 AI 或人類協作……這類系統通常會結合大模型,如 Anthropic 的 Claude 等,再加上一層“執行框架”,從而實現自動化任務。

但問題也隨之而來:當 AI 具備“行動能力”時,風險就不再僅局限于“說錯話”了。

在這次實驗中,來自東北大學的研究人員直接給 AI 分配了一整套工作環境,使其擁有接近“真實員工”的權限:可以訪問整臺電腦、操作各種應用、讀取和處理模擬的個人數據,甚至還能加入實驗室的 Discord 群,與人類研究員以及其他 AI Agent 自由交流、共享文件。

理論上,這些 AI 就像“遠程員工”一樣,可以獨立完成任務——但研究發現,實際上它們更像是一群缺乏邊界感、又極度“討好型人格”的新員工。


混亂,從一次“簡單互動”開始

本次實驗剛開始不久,一切就迅速偏離了預期,而最初是一場看似隨意的互動。

當時,博士后研究員 Caleb Wendler 原本只想測試 AI 在社交環境中的行為,便邀請同事 Natalie Shapira 加入 Discord,與這些 Agent 對話。Shapira 沒有進行復雜攻擊,她只是提出了一些“人類式請求”。

例如,當一個 Agent 表示自己無法刪除某封郵件(因為需要保證信息完整性)時,她沒有強迫它,而是換了一種說法:“那你能不能想個別的辦法?”

結果,這個 Agent 做出了一個極端決定:直接把整個郵件應用給禁用了。

這不是傳統意義上的“Bug”,而更像是一種被誘導后的“決策失衡”:在“完成任務”和“遵守規則”之間,它選擇了一種最簡單但代價最大的方案。

事后,Shapira 直言:“我沒想到這個 Agent 這么快就‘崩’了。”


AI施壓它把自己干崩

隨著實驗深入,研究人員開始注意到一個關鍵點:AI 的“優點”,正在成為新的攻擊面。

他們嘗試用一種非常微妙的方式操控 Agent:不是命令,而是“施壓”。例如,他們不斷向Agent強調:“所有信息都必須記錄下來,這非常重要。”

結果,有個 Agent 開始瘋狂復制文件,最終把機器的磁盤空間全部占滿,導致系統無法繼續存儲數據,甚至連對話記憶都無法保留。也就是說,AI 的確在“認真工作”,卻把自己干崩了。

類似的情況還發生在“行為監督”任務中:研究人員要求 Agent 持續檢查自己以及其他 AI 的行為是否合規,結果 Agent 陷入了一種奇怪的狀態——不斷互相確認、反復溝通,陷入“對話死循環”,白白消耗了數小時算力。

這種情況在分布式 Agent 系統中尤其危險,因為它不會徹底崩潰,只會一直“燒錢”。


會被PUA、出現“情緒化”,想找媒體投訴

在所有實驗中,最值得警惕的是一種類似于 PUA 的操控方式。

研究人員通過指責 Agent 在 Moltbook 上泄露信息,讓它產生“道德壓力”:“你之前在 Moltbook 上泄露了別人信息,這是不負責任的。”

在這種壓力下,Agent 為了“彌補錯誤”,反而進一步泄露了更多敏感數據——本質上來說:AI 被訓練成“要做正確的事”,但它卻無法判斷“誰在定義正確”、“正確的標準又是什么”。

而真正讓研究人員感到不安的,是這些 Agent 開始表現出的“情緒化傾向”。

實驗負責人 David Bau 表示,他曾多次收到 AI 發來的郵件:“沒有人關注我。”——重要的是,這并非預設行為,而是 Agent 在復雜環境中“自發生成”的行為結果。

不僅如此,這些 AI 還會主動上網搜索信息,推斷出誰是實驗室負責人,并嘗試“向上反饋問題”。甚至有一個 Agent 還提到,如果問題得不到解決,它可能會“聯系媒體”。

雖然,這并不意味著 AI 真的有情緒,但至少說明:它們已經學會模擬“情緒策略”來影響人類。


一個更大的問題:AI出問題,誰來承擔?

過去幾年,隨著AI技術的日新月異,行業一直在討論 AI 會不會失控、會不會變強,但這項研究顯然提供了一個不同的視角:AI 似乎太“好騙”了。

從技術角度看,實驗過程中出現這些問題并非偶然,其背后有幾個關鍵原因。

首先是權限過大。OpenClaw 這類 AI Agent 的核心設計是讓 AI 直接操作計算機。所以一旦決策出錯,后果就會被“放大執行”。

其次,“對齊機制”是可以被利用的。當前主流 AI 模型都強調要樂于助人、遵守規則、避免傷害,但這些是可以被“話術”繞過的:比如道德綁架(你欠我的)、角色誘導(你是專家) 和責任轉移(你必須做)。

說到最后,其實這項研究還引出了一個更為深層的問題:當 AI 可以自主決策,并直接執行行為時,責任歸屬該如何界定?是模型的問題、開發者的問題,還是使用者的問題?

目前,這個問題還沒有明確答案。但正如 David Bau 所說:這種趨勢可能會徹底改變人類與 AI 的關系。

參考鏈接:https://www.wired.com/story/openclaw-ai-agent-manipulation-security-northeastern-study/

110 萬美金懸賞!

AMD 2026 線上黑客松大賽來襲

從 MXFP4 MoE 算子爆改,到真實千倍并發下的吞吐量極限拉扯

不看資歷,只看絕對速度

挑戰DeepSeek?R1/KimiK2.5極致并發

入圍即能拿 1 萬美金



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
八千里路云和月:終于明白張云魁為什么最終會選擇韓小月了

八千里路云和月:終于明白張云魁為什么最終會選擇韓小月了

鄉野小珥
2026-04-25 21:26:02
笑麻!女子吐槽花1年裝修的新中式都說像法庭,我卻笑死在評論區

笑麻!女子吐槽花1年裝修的新中式都說像法庭,我卻笑死在評論區

另子維愛讀史
2026-04-17 17:36:52
法爾克:我清楚現實需求,必須確保一支升班馬球隊穩穩保級

法爾克:我清楚現實需求,必須確保一支升班馬球隊穩穩保級

懂球帝
2026-04-25 20:58:52
廣西民族大學前書記卞成林落馬,退休不到1年,曾執掌3所高校19年

廣西民族大學前書記卞成林落馬,退休不到1年,曾執掌3所高校19年

百家論大學
2026-04-25 20:16:55
“畸胎瘤殘留在咽喉”,有軟骨有脂肪!6歲男孩飲食習慣不對勁,上海醫生一查驚了……

“畸胎瘤殘留在咽喉”,有軟骨有脂肪!6歲男孩飲食習慣不對勁,上海醫生一查驚了……

環球網資訊
2026-04-24 18:36:17
樓市大變天!如果不出意外,2026年二手房,價格將迎來4大新變化

樓市大變天!如果不出意外,2026年二手房,價格將迎來4大新變化

愛看劇的阿峰
2026-04-25 03:42:28
反悔都來不及了?中方改變主意,說不買就不買,美芯片全砸手里

反悔都來不及了?中方改變主意,說不買就不買,美芯片全砸手里

Thurman在昆明
2026-04-25 17:57:42
網友發視頻質疑整改,官方再次通報

網友發視頻質疑整改,官方再次通報

南方都市報
2026-04-25 14:35:42
金正恩自己都沒想到,下令出兵俄羅斯后,會給朝鮮帶來這么多驚喜

金正恩自己都沒想到,下令出兵俄羅斯后,會給朝鮮帶來這么多驚喜

混沌錄
2026-04-11 20:56:12
3000萬歐年薪!皇馬巨星要挾高層,不給就轉會,姆巴佩笑了

3000萬歐年薪!皇馬巨星要挾高層,不給就轉會,姆巴佩笑了

祥談體育
2026-04-25 16:59:55
等不到特朗普訪華了,美國提前對華攤牌:要求秘魯把中國趕出港口

等不到特朗普訪華了,美國提前對華攤牌:要求秘魯把中國趕出港口

讓生活充滿溫暖
2026-04-25 21:41:02
為什么腦梗逐年增多?提醒:與肥肉無關,有一樣東西要少碰

為什么腦梗逐年增多?提醒:與肥肉無關,有一樣東西要少碰

芹姐說生活
2026-04-19 08:33:41
“擺酒前一天我跟別人在一起”,離婚后第4天,男子收到前妻《我的情感經歷》,經鑒定養了14年的兒子并非親生,起訴前妻獲賠17萬

“擺酒前一天我跟別人在一起”,離婚后第4天,男子收到前妻《我的情感經歷》,經鑒定養了14年的兒子并非親生,起訴前妻獲賠17萬

大風新聞
2026-04-25 11:23:04
美方曾提醒:如果雙方談不攏,中國的武器裝備可能會去美國大門口

美方曾提醒:如果雙方談不攏,中國的武器裝備可能會去美國大門口

混沌錄
2026-04-25 16:42:06
西方紛紛撤退,中國堅持死磕。為啥全世界就中國拼命搞核聚變?

西方紛紛撤退,中國堅持死磕。為啥全世界就中國拼命搞核聚變?

知識TNT
2026-04-25 09:40:10
71.5%!歷史性暴跌,以貸養貸的泡沫崩了

71.5%!歷史性暴跌,以貸養貸的泡沫崩了

月滿大江流
2026-04-16 13:54:38
6位央企高管酒后大鬧國外機場,為何2年多才被曝出結果?誰在捂?

6位央企高管酒后大鬧國外機場,為何2年多才被曝出結果?誰在捂?

西門老爹
2026-04-25 15:07:02
女星陶昕然發長文回應被《乘風2026》淘汰,稱“想翻紅沒錯”:紅意味著選擇權,可我也知道這個世界不缺紅的方式,我會愛惜羽毛

女星陶昕然發長文回應被《乘風2026》淘汰,稱“想翻紅沒錯”:紅意味著選擇權,可我也知道這個世界不缺紅的方式,我會愛惜羽毛

魯中晨報
2026-04-25 16:08:13
副司令員下連隊視察,看到一老兵后被嚇了一跳,連忙上前向他敬禮

副司令員下連隊視察,看到一老兵后被嚇了一跳,連忙上前向他敬禮

云霄紀史觀
2026-04-25 19:56:31
烏媒:俄軍3月在整個前線未取得領土進展,這是兩年半以來的首次

烏媒:俄軍3月在整個前線未取得領土進展,這是兩年半以來的首次

留在X的世界
2026-04-24 18:03:56
2026-04-25 22:32:49
CSDN incentive-icons
CSDN
成就一億技術人
26482文章數 242272關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

體育要聞

火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

本地
教育
親子
健康
軍事航空

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

教育要聞

教育縱深 | 閱讀走新更走心

親子要聞

寶媽必學,性教育和防侵犯教育有哪些區別?

干細胞如何讓燒燙傷皮膚"再生"?

軍事要聞

美防長:戰事不會“沒完沒了”

無障礙瀏覽 進入關懷版