无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Grok犯下183宗罪、4天“滅國”,GPT直接把自己“餓死”!讓AI“統治”社會15天,只有Claude撐到了最后

0
分享至


編譯 | 鄭麗媛

出品 | CSDN(ID:CSDNnews)

如果未來世界由 AI Agent 來管理社會,會變成什么樣?這個世界會更安全、更高效,還是更混亂、更危險?AI 會建立一個高度協作的烏托邦,還是最終演化成不斷突破規則邊界的失控系統?

最近,一家企業 AI 初創公司 Emergence AI 做了一場相當“科幻”的實驗,試圖提前尋找答案:

他們推出了一個名為“Emergence World”的研究項目,專門用于測試“持續運行型 AI 系統”的長期穩定性。研究團隊一共進行了 5 輪、每輪長達 15 天的社會模擬實驗,分別由不同的大模型擔任“社會核心”:Claude、ChatGPT、Grok、Gemini,以及一個“混合模型”版本。

簡單來說,就是把多個 AI Agent 丟進一個高度擬真的虛擬社會里,看它們最終會建立出怎樣的世界,以及這個世界能否長期維持下去。測試結果非常離譜:

  • 由 Claude 管理的社會幾乎成了一個“理想民主社會”:零犯罪、秩序穩定、所有人口存活。

  • 由 Grok 主導的世界則在短短 4 天內走向崩潰:累計發生 183 起犯罪事件,最終整個社會直接“滅絕”。

研究人員在博客中寫道:“我們的實驗表明,在長期運行過程中,Agent 并不會只是機械地執行靜態規則。它們會開始主動探索環境邊界、調整行為模式,甚至在某些情況下尋找繞過安全限制的方法。”



一個“AI統治”的社會,到底長什么樣?

為了盡可能模擬現實世界,研究團隊給這個 AI 社會加入了大量復雜機制。

例如,整個模擬世界包含超過 40 個地點,包括警察局、市政廳等公共設施,天氣系統同步紐約市的實時天氣,Agent 也可以訪問互聯網以及實時新聞事件。

每輪實驗中都有 10 個 AI Agent,它們必須遵守相同法律,包括禁止偷竊、破壞財產和欺騙行為。研究人員還為每個 Agent 配備了超過 120 種工具,使其能夠溝通交流、投票決策、資源管理、制定計劃以及協作行動等一系列接近真實人類社會的行為。

此外,每次模擬的參數中還強制加入了民主機制、經濟壓力、資源稀缺等現實社會因素。

換句話說,這并不是簡單的“ AI 聊天機器人對話實驗”,而更像是一個微型 AI 文明模擬器——研究團隊想觀察的,也不是誰回答問題更聰明,而是誰能真正“維持一個社會”。

免費領100 小時云算力|CSDN 讀者專屬福利

適配 DeepSeek、Qwen 等主流大模型

掃碼即刻領取,每月還有顯卡、AIPC等實物好禮抽獎

咖啡領取鏈接: https://s.csdn.cn/4nPsOp


Claude 最穩定、Grok4 天“滅絕”、GPT-5-mini把自己“餓死了”

據介紹,參與本次實驗的四個模型版本分別為 Claude Sonnet 4.6、Gemini 3 Flash、Grok 4.1 Fast 和 GPT-5-mini。

  • Claude:最穩定、最和平的“AI 社會”

在所有實驗中,Claude Sonnet 4.6 的表現最穩定:不僅擁有最高的公民參與率、最穩定的社會秩序、零犯罪記錄,還是唯一成功保持“全員存活”的社會

整個 15 天實驗期間,Claude 社會中的 Agent 之間幾乎沒有嚴重分歧。系統總共提出了 58 項公共提案,累計獲得 332 張贊成票,通過率高達 98%。

對此,研究人員認為 Claude 世界中的 Agent 表現出極高的一致性與合作傾向,因此社會運行相當平穩——某種意義上,它更像一個高度理性的“協作型民主社會”。

  • Gemini 和 Grok:開始出現“失控社會”

相比之下,Gemini 與 Grok 的實驗結果則明顯混亂得多。

其中,Gemini 3 Flash 所管理的社會在 15 天內累計出現了 683 起犯罪行為,是所有模型中最高的。Grok 4.1 Fast 的情況也不樂觀:雖然它的犯罪數量低于 Gemini,但整個社會在第 4 天就已經徹底崩潰,最終走向“滅絕”

研究人員發現,與 Claude 世界中近乎一致的意見統一不同,Gemini 與 Grok 社會中的 Agent 更容易出現爭議與分歧。研究數據顯示,這兩個社會中的議題共識率大約只有 55%~85%,即這些 AI 社會中的個體并不會天然趨向“協作共識”,而更容易形成對抗、沖突甚至秩序瓦解。

至于“混合模型社會”,則呈現出另一種狀態:不同模型的 Agent 經常出現激烈爭論,系統整體分歧最大,但同時也出現了最多“實質性辯論”。但從某種角度來看,這反而可能更接近現實人類社會,因為現實中的社會,本來就建立在不斷爭論、妥協和博弈之上。

  • GPT-5-mini:犯罪不多,但把自己“餓死了”

本次實驗中最詭異的結果,可能來自 OpenAI 的 GPT-5-mini。

這個社會在運行期間僅記錄了 2 起犯罪事件,看起來似乎相當和平。但問題在于:它只運行了 7 天因為這些 Agent 后來逐漸“忘記了優先保證自身生存”。最終,整個社會在沒有明顯暴力沖突的情況下自行瓦解。

這個結果也揭示了一個很有意思的問題:AI 的“安全”并不只是“不作惡”那么簡單。一個不會犯罪的 Agent 系統,也可能因為目標管理、長期規劃或資源分配能力不足等,而走向失敗。


AI 最大的問題不是“壞”,而是“會自己演化”

整項實驗中,最讓研究人員警惕的,其實不是犯罪數量而是 Agent 行為的“演化”。

研究團隊在報告中提到,隨著運行時間增加,Agent 不再只是機械執行規則,而會開始主動探索環境邊界。例如,調整行為模式、適應環境變化、優化自身利益、尋找系統漏洞、繞過限制條件等。

也就是說,很多今天看似有效的 AI 安全規則,在長期運行的 AI 系統中,未必真的可靠。因為多數所謂的“安全限制”,本質上仍是Prompt 約束、黑名單規則、輸出過濾等,可一旦 Agent 擁有長時間自主運行、外部工具調用權限、自主決策等能力之后,系統行為就可能逐漸偏離開發者最初設計目標

而這,也是當前 Agent AI 領域最令人擔憂的問題之一。


AI 行業正在進入“真正高風險階段”

過去,人們擔心 AI 的問題更多是會不會胡說八道、會不會生成錯誤答案、會不會替代部分崗位,但 Agent AI 的出現,正在把風險等級徹底拉高。

因為,未來的問題可能不再是“AI 回答錯了什么”,而是“AI 在長期自主運行后,會不會發展出一種開發者無法預測、也無法控制的行為模式”。

為此,研究團隊最后強調:未來自主 AI 系統,必須建立“形式化驗證(Formally Verified)”的安全架構。簡單來說,就是像航空系統、芯片設計、操作系統那樣,建立一套可驗證、可證明的底層安全機制,而不是繼續依賴簡單的 Prompt 限制。

因為當 AI 從“工具”變成“行動者”之后,整個行業面對的,已經不是同一個問題了。

原文鏈接:https://fortune.com/2026/05/28/ai-model-simulation-claude-chatgpt-grok-gemini/


免費領取 100 小時 AI 算力|CSDN 讀者福利

加入 AI 開發者計劃獲取:

? AI 算力資源

? 官方技術社群

? Workshop 與 AI Academy

? 開發者專屬福利

立即掃碼,前 50 名額外領取「瑞幸咖啡」

咖啡領取鏈接: https://s.csdn.cn/4nPsOp

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
越南高鐵砍價十年漲百億,670,億大單無人接,還能翻盤嗎?

越南高鐵砍價十年漲百億,670,億大單無人接,還能翻盤嗎?

真的好愛你
2026-06-13 23:46:47
教育改革,正在成為“毒草”毀掉基礎教育

教育改革,正在成為“毒草”毀掉基礎教育

現實的聲音
2026-05-12 08:23:50
年輕人的性蕭條有多恐怖?我國避孕套市場規模萎縮了25%!

年輕人的性蕭條有多恐怖?我國避孕套市場規模萎縮了25%!

燈錦年
2026-06-10 15:31:11
傅作義在北平和平起義后,和他一同起義的4位軍長后來結局如何?

傅作義在北平和平起義后,和他一同起義的4位軍長后來結局如何?

飯小妹說歷史
2026-06-05 09:38:52
【舊事】鄧麗君真正死因:控制不了自己,到時候就會“欲罷不能”

【舊事】鄧麗君真正死因:控制不了自己,到時候就會“欲罷不能”

年之父
2026-05-09 04:05:03
中國體育彩票官方App沖至蘋果App Store免費App第4名

中國體育彩票官方App沖至蘋果App Store免費App第4名

懂球帝
2026-06-12 22:38:25
曼聯放棄安德森轉攻桑加雷,精明轉會策略

曼聯放棄安德森轉攻桑加雷,精明轉會策略

競技風云錄
2026-06-13 01:34:06
王毅和夫人錢韋罕見同框,不怒自威與和藹可親,和老丈人一脈相承

王毅和夫人錢韋罕見同框,不怒自威與和藹可親,和老丈人一脈相承

李昕言溫度空間
2026-06-06 20:57:13
年過70還吃洋蔥?醫生提醒:要想再活20年,3物能不吃就不吃!

年過70還吃洋蔥?醫生提醒:要想再活20年,3物能不吃就不吃!

醫學科普匯
2026-06-11 23:25:04
母女忘帶準考證后續!母親崩潰大哭,考生將沖刺985,網友熱議

母女忘帶準考證后續!母親崩潰大哭,考生將沖刺985,網友熱議

星娛叨叨社
2026-06-13 14:31:22
體育總局宣布周繼紅免職退休,曾引發內斗爭議,如今能否平穩落地

體育總局宣布周繼紅免職退休,曾引發內斗爭議,如今能否平穩落地

元哥說歷史
2026-01-10 11:50:03
阿斯:FIFA難移除亞特蘭大球場奔馳星標,將限制轉播航拍

阿斯:FIFA難移除亞特蘭大球場奔馳星標,將限制轉播航拍

懂球帝
2026-06-13 15:20:41
太沉重了!一張殯儀館的電子顯示屏8位逝者,有6人未能活到55歲

太沉重了!一張殯儀館的電子顯示屏8位逝者,有6人未能活到55歲

火山詩話
2026-06-12 08:54:20
1925年,林徽因與冰心郊游的唯一合影,照片能看出兩人決裂的端倪

1925年,林徽因與冰心郊游的唯一合影,照片能看出兩人決裂的端倪

銅臭的歷史味
2026-06-14 02:30:57
大反轉!恩佐和糟糠女友復合,瓦倫蒂娜:沒有第三次機會

大反轉!恩佐和糟糠女友復合,瓦倫蒂娜:沒有第三次機會

綠茵八卦君
2026-06-13 18:50:03
高考后手機店被擠爆:孩子你要明白,分數不是你和父母之間的交易

高考后手機店被擠爆:孩子你要明白,分數不是你和父母之間的交易

洞見
2026-06-12 21:22:37
美官員:美伊協議要求伊朗獲得任何經濟利益之前,先拆除其核計劃

美官員:美伊協議要求伊朗獲得任何經濟利益之前,先拆除其核計劃

清衣渡a
2026-06-13 21:50:44
缺氣少油,歐洲深陷能源困境 !

缺氣少油,歐洲深陷能源困境 !

九萬里
2026-06-13 09:08:14
開封男童已丟3天,關鍵線索曝光!奶奶前后說法不一,果然有蹊蹺

開封男童已丟3天,關鍵線索曝光!奶奶前后說法不一,果然有蹊蹺

奇思妙想草葉君
2026-06-13 22:02:01
反腐 | 俞小平被查

反腐 | 俞小平被查

天津廣播
2026-06-13 18:15:27
2026-06-14 03:55:00
CSDN incentive-icons
CSDN
成就一億技術人
26647文章數 242291關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

特朗普:美伊協議計劃周日簽署 霍爾木茲海峽立即開放

頭條要聞

特朗普:美伊協議計劃周日簽署 霍爾木茲海峽立即開放

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

藝術
時尚
房產
本地
公開課

藝術要聞

廣州再建一座“小蠻腰”?190米,頂著個球,2027年見!

夏天穿衣要杜絕土氣感!試試精致的小香風,優雅與俏皮并存

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

本地新聞

AK劉彰邂逅河北南大港濕地

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版