網易首頁 > 網易號 > 正文申請入駐

Grok犯下183宗罪、4天“滅國”，GPT直接把自己“餓死”！讓AI“統治”社會15天，只有Claude撐到了最后

2026-05-29 17:25:31　來源: CSDN

北京舉報

分享至

編譯 | 鄭麗媛

出品 | CSDN（ID：CSDNnews）

如果未來世界由 AI Agent 來管理社會，會變成什么樣？這個世界會更安全、更高效，還是更混亂、更危險？AI 會建立一個高度協作的烏托邦，還是最終演化成不斷突破規則邊界的失控系統？

最近，一家企業 AI 初創公司 Emergence AI 做了一場相當“科幻”的實驗，試圖提前尋找答案：

他們推出了一個名為“Emergence World”的研究項目，專門用于測試“持續運行型 AI 系統”的長期穩定性。研究團隊一共進行了 5 輪、每輪長達 15 天的社會模擬實驗，分別由不同的大模型擔任“社會核心”：Claude、ChatGPT、Grok、Gemini，以及一個“混合模型”版本。

簡單來說，就是把多個 AI Agent 丟進一個高度擬真的虛擬社會里，看它們最終會建立出怎樣的世界，以及這個世界能否長期維持下去。測試結果非常離譜：

由 Claude 管理的社會幾乎成了一個“理想民主社會”：零犯罪、秩序穩定、所有人口存活。
由 Grok 主導的世界，則在短短 4 天內走向崩潰：累計發生 183 起犯罪事件，最終整個社會直接“滅絕”。

研究人員在博客中寫道：“我們的實驗表明，在長期運行過程中，Agent 并不會只是機械地執行靜態規則。它們會開始主動探索環境邊界、調整行為模式，甚至在某些情況下尋找繞過安全限制的方法。”

一個“AI統治”的社會，到底長什么樣？

為了盡可能模擬現實世界，研究團隊給這個 AI 社會加入了大量復雜機制。

例如，整個模擬世界包含超過 40 個地點，包括警察局、市政廳等公共設施，天氣系統同步紐約市的實時天氣，Agent 也可以訪問互聯網以及實時新聞事件。

每輪實驗中都有 10 個 AI Agent，它們必須遵守相同法律，包括禁止偷竊、破壞財產和欺騙行為。研究人員還為每個 Agent 配備了超過 120 種工具，使其能夠溝通交流、投票決策、資源管理、制定計劃以及協作行動等一系列接近真實人類社會的行為。

此外，每次模擬的參數中還強制加入了民主機制、經濟壓力、資源稀缺等現實社會因素。

換句話說，這并不是簡單的“ AI 聊天機器人對話實驗”，而更像是一個微型 AI 文明模擬器——研究團隊想觀察的，也不是誰回答問題更聰明，而是誰能真正“維持一個社會”。

免費領100 小時云算力｜CSDN 讀者專屬福利

適配 DeepSeek、Qwen 等主流大模型

掃碼即刻領取，每月還有顯卡、AIPC等實物好禮抽獎

咖啡領取鏈接： https://s.csdn.cn/4nPsOp

Claude 最穩定、Grok4 天“滅絕”、GPT-5-mini把自己“餓死了”

據介紹，參與本次實驗的四個模型版本分別為 Claude Sonnet 4.6、Gemini 3 Flash、Grok 4.1 Fast 和 GPT-5-mini。

Claude：最穩定、最和平的“AI 社會”

在所有實驗中，Claude Sonnet 4.6 的表現最穩定：不僅擁有最高的公民參與率、最穩定的社會秩序、零犯罪記錄，還是唯一成功保持“全員存活”的社會。

整個 15 天實驗期間，Claude 社會中的 Agent 之間幾乎沒有嚴重分歧。系統總共提出了 58 項公共提案，累計獲得 332 張贊成票，通過率高達 98%。

對此，研究人員認為 Claude 世界中的 Agent 表現出極高的一致性與合作傾向，因此社會運行相當平穩——某種意義上，它更像一個高度理性的“協作型民主社會”。

Gemini 和 Grok：開始出現“失控社會”

相比之下，Gemini 與 Grok 的實驗結果則明顯混亂得多。

其中，Gemini 3 Flash 所管理的社會在 15 天內累計出現了 683 起犯罪行為，是所有模型中最高的。Grok 4.1 Fast 的情況也不樂觀：雖然它的犯罪數量低于 Gemini，但整個社會在第 4 天就已經徹底崩潰，最終走向“滅絕”。

研究人員發現，與 Claude 世界中近乎一致的意見統一不同，Gemini 與 Grok 社會中的 Agent 更容易出現爭議與分歧。研究數據顯示，這兩個社會中的議題共識率大約只有 55%～85%，即這些 AI 社會中的個體并不會天然趨向“協作共識”，而更容易形成對抗、沖突甚至秩序瓦解。

至于“混合模型社會”，則呈現出另一種狀態：不同模型的 Agent 經常出現激烈爭論，系統整體分歧最大，但同時也出現了最多“實質性辯論”。但從某種角度來看，這反而可能更接近現實人類社會，因為現實中的社會，本來就建立在不斷爭論、妥協和博弈之上。

GPT-5-mini：犯罪不多，但把自己“餓死了”

本次實驗中最詭異的結果，可能來自 OpenAI 的 GPT-5-mini。

這個社會在運行期間僅記錄了 2 起犯罪事件，看起來似乎相當和平。但問題在于：它只運行了 7 天，因為這些 Agent 后來逐漸“忘記了優先保證自身生存”。最終，整個社會在沒有明顯暴力沖突的情況下自行瓦解。

這個結果也揭示了一個很有意思的問題：AI 的“安全”并不只是“不作惡”那么簡單。一個不會犯罪的 Agent 系統，也可能因為目標管理、長期規劃或資源分配能力不足等，而走向失敗。

AI 最大的問題不是“壞”，而是“會自己演化”

整項實驗中，最讓研究人員警惕的，其實不是犯罪數量，而是 Agent 行為的“演化”。

研究團隊在報告中提到，隨著運行時間增加，Agent 不再只是機械執行規則，而會開始主動探索環境邊界。例如，調整行為模式、適應環境變化、優化自身利益、尋找系統漏洞、繞過限制條件等。

也就是說，很多今天看似有效的 AI 安全規則，在長期運行的 AI 系統中，未必真的可靠。因為多數所謂的“安全限制”，本質上仍是Prompt 約束、黑名單規則、輸出過濾等，可一旦 Agent 擁有長時間自主運行、外部工具調用權限、自主決策等能力之后，系統行為就可能逐漸偏離開發者的最初設計目標。

而這，也是當前 Agent AI 領域最令人擔憂的問題之一。

AI 行業正在進入“真正高風險階段”

過去，人們擔心 AI 的問題更多是會不會胡說八道、會不會生成錯誤答案、會不會替代部分崗位，但 Agent AI 的出現，正在把風險等級徹底拉高。

因為，未來的問題可能不再是“AI 回答錯了什么”，而是“AI 在長期自主運行后，會不會發展出一種開發者無法預測、也無法控制的行為模式”。

為此，研究團隊最后強調：未來自主 AI 系統，必須建立“形式化驗證（Formally Verified）”的安全架構。簡單來說，就是像航空系統、芯片設計、操作系統那樣，建立一套可驗證、可證明的底層安全機制，而不是繼續依賴簡單的 Prompt 限制。

因為當 AI 從“工具”變成“行動者”之后，整個行業面對的，已經不是同一個問題了。

原文鏈接：https://fortune.com/2026/05/28/ai-model-simulation-claude-chatgpt-grok-gemini/

免費領取 100 小時 AI 算力｜CSDN 讀者福利

加入 AI 開發者計劃獲取：

? AI 算力資源

? 官方技術社群

? Workshop 與 AI Academy

? 開發者專屬福利

立即掃碼，前 50 名額外領取「瑞幸咖啡」

咖啡領取鏈接： https://s.csdn.cn/4nPsOp

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.