![]()
編譯 | 鄭麗媛
出品 | CSDN(ID:CSDNnews)
如果未來世界由 AI Agent 來管理社會,會變成什么樣?這個世界會更安全、更高效,還是更混亂、更危險?AI 會建立一個高度協作的烏托邦,還是最終演化成不斷突破規則邊界的失控系統?
最近,一家企業 AI 初創公司 Emergence AI 做了一場相當“科幻”的實驗,試圖提前尋找答案:
他們推出了一個名為“Emergence World”的研究項目,專門用于測試“持續運行型 AI 系統”的長期穩定性。研究團隊一共進行了 5 輪、每輪長達 15 天的社會模擬實驗,分別由不同的大模型擔任“社會核心”:Claude、ChatGPT、Grok、Gemini,以及一個“混合模型”版本。
簡單來說,就是把多個 AI Agent 丟進一個高度擬真的虛擬社會里,看它們最終會建立出怎樣的世界,以及這個世界能否長期維持下去。測試結果非常離譜:
由 Claude 管理的社會幾乎成了一個“理想民主社會”:零犯罪、秩序穩定、所有人口存活。
由 Grok 主導的世界,則在短短 4 天內走向崩潰:累計發生 183 起犯罪事件,最終整個社會直接“滅絕”。
研究人員在博客中寫道:“我們的實驗表明,在長期運行過程中,Agent 并不會只是機械地執行靜態規則。它們會開始主動探索環境邊界、調整行為模式,甚至在某些情況下尋找繞過安全限制的方法。”
![]()
![]()
一個“AI統治”的社會,到底長什么樣?
為了盡可能模擬現實世界,研究團隊給這個 AI 社會加入了大量復雜機制。
例如,整個模擬世界包含超過 40 個地點,包括警察局、市政廳等公共設施,天氣系統同步紐約市的實時天氣,Agent 也可以訪問互聯網以及實時新聞事件。
每輪實驗中都有 10 個 AI Agent,它們必須遵守相同法律,包括禁止偷竊、破壞財產和欺騙行為。研究人員還為每個 Agent 配備了超過 120 種工具,使其能夠溝通交流、投票決策、資源管理、制定計劃以及協作行動等一系列接近真實人類社會的行為。
此外,每次模擬的參數中還強制加入了民主機制、經濟壓力、資源稀缺等現實社會因素。
換句話說,這并不是簡單的“ AI 聊天機器人對話實驗”,而更像是一個微型 AI 文明模擬器——研究團隊想觀察的,也不是誰回答問題更聰明,而是誰能真正“維持一個社會”。
免費領100 小時云算力|CSDN 讀者專屬福利
適配 DeepSeek、Qwen 等主流大模型
掃碼即刻領取,每月還有顯卡、AIPC等實物好禮抽獎
咖啡領取鏈接: https://s.csdn.cn/4nPsOp
![]()
Claude 最穩定、Grok4 天“滅絕”、GPT-5-mini把自己“餓死了”
據介紹,參與本次實驗的四個模型版本分別為 Claude Sonnet 4.6、Gemini 3 Flash、Grok 4.1 Fast 和 GPT-5-mini。
Claude:最穩定、最和平的“AI 社會”
在所有實驗中,Claude Sonnet 4.6 的表現最穩定:不僅擁有最高的公民參與率、最穩定的社會秩序、零犯罪記錄,還是唯一成功保持“全員存活”的社會。
整個 15 天實驗期間,Claude 社會中的 Agent 之間幾乎沒有嚴重分歧。系統總共提出了 58 項公共提案,累計獲得 332 張贊成票,通過率高達 98%。
對此,研究人員認為 Claude 世界中的 Agent 表現出極高的一致性與合作傾向,因此社會運行相當平穩——某種意義上,它更像一個高度理性的“協作型民主社會”。
Gemini 和 Grok:開始出現“失控社會”
相比之下,Gemini 與 Grok 的實驗結果則明顯混亂得多。
其中,Gemini 3 Flash 所管理的社會在 15 天內累計出現了 683 起犯罪行為,是所有模型中最高的。Grok 4.1 Fast 的情況也不樂觀:雖然它的犯罪數量低于 Gemini,但整個社會在第 4 天就已經徹底崩潰,最終走向“滅絕”。
研究人員發現,與 Claude 世界中近乎一致的意見統一不同,Gemini 與 Grok 社會中的 Agent 更容易出現爭議與分歧。研究數據顯示,這兩個社會中的議題共識率大約只有 55%~85%,即這些 AI 社會中的個體并不會天然趨向“協作共識”,而更容易形成對抗、沖突甚至秩序瓦解。
至于“混合模型社會”,則呈現出另一種狀態:不同模型的 Agent 經常出現激烈爭論,系統整體分歧最大,但同時也出現了最多“實質性辯論”。但從某種角度來看,這反而可能更接近現實人類社會,因為現實中的社會,本來就建立在不斷爭論、妥協和博弈之上。
GPT-5-mini:犯罪不多,但把自己“餓死了”
本次實驗中最詭異的結果,可能來自 OpenAI 的 GPT-5-mini。
這個社會在運行期間僅記錄了 2 起犯罪事件,看起來似乎相當和平。但問題在于:它只運行了 7 天,因為這些 Agent 后來逐漸“忘記了優先保證自身生存”。最終,整個社會在沒有明顯暴力沖突的情況下自行瓦解。
這個結果也揭示了一個很有意思的問題:AI 的“安全”并不只是“不作惡”那么簡單。一個不會犯罪的 Agent 系統,也可能因為目標管理、長期規劃或資源分配能力不足等,而走向失敗。
![]()
AI 最大的問題不是“壞”,而是“會自己演化”
整項實驗中,最讓研究人員警惕的,其實不是犯罪數量,而是 Agent 行為的“演化”。
研究團隊在報告中提到,隨著運行時間增加,Agent 不再只是機械執行規則,而會開始主動探索環境邊界。例如,調整行為模式、適應環境變化、優化自身利益、尋找系統漏洞、繞過限制條件等。
也就是說,很多今天看似有效的 AI 安全規則,在長期運行的 AI 系統中,未必真的可靠。因為多數所謂的“安全限制”,本質上仍是Prompt 約束、黑名單規則、輸出過濾等,可一旦 Agent 擁有長時間自主運行、外部工具調用權限、自主決策等能力之后,系統行為就可能逐漸偏離開發者的最初設計目標。
而這,也是當前 Agent AI 領域最令人擔憂的問題之一。
![]()
AI 行業正在進入“真正高風險階段”
過去,人們擔心 AI 的問題更多是會不會胡說八道、會不會生成錯誤答案、會不會替代部分崗位,但 Agent AI 的出現,正在把風險等級徹底拉高。
因為,未來的問題可能不再是“AI 回答錯了什么”,而是“AI 在長期自主運行后,會不會發展出一種開發者無法預測、也無法控制的行為模式”。
為此,研究團隊最后強調:未來自主 AI 系統,必須建立“形式化驗證(Formally Verified)”的安全架構。簡單來說,就是像航空系統、芯片設計、操作系統那樣,建立一套可驗證、可證明的底層安全機制,而不是繼續依賴簡單的 Prompt 限制。
因為當 AI 從“工具”變成“行動者”之后,整個行業面對的,已經不是同一個問題了。
原文鏈接:https://fortune.com/2026/05/28/ai-model-simulation-claude-chatgpt-grok-gemini/
免費領取 100 小時 AI 算力|CSDN 讀者福利
加入 AI 開發者計劃獲取:
? AI 算力資源
? 官方技術社群
? Workshop 與 AI Academy
? 開發者專屬福利
立即掃碼,前 50 名額外領取「瑞幸咖啡」
咖啡領取鏈接: https://s.csdn.cn/4nPsOp
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.