網易首頁 > 網易號 > 正文申請入駐

AI智能體走出實驗室！中科院等機構聯合發布首個OpenClaw系統性綜述

2026-06-11 16:06:35　來源: 新智元

北京舉報

分享至

新智元報道

【新智元導讀】上下文攻擊、供應鏈滲透、AI社區崩潰……當大模型智能體真正進入開放世界，挑戰遠比想象中復雜。

如果說ChatGPT是一個「會聊天的AI」，那么AI智能體（Agent）就是「會干活的AI」。

它不只回答問題，還能主動調用工具、訪問網絡、操作軟件、發送消息，甚至在你睡覺時持續后臺運行。你可以把它想象成一個永不下班的私人助理，連著你的WhatsApp、Telegram、Discord，幫你處理郵件、整理日程、搜集資料、執行代碼。

早期的智能體研究，如ReAct、Reflexion等框架，已經證明大模型可以通過多步推理、工具調用和自我反思來完成復雜任務。但這些系統，都建立在一組「隱含的沙盒假設」之上：

模型只由開發者更新，不會在部署后自行改變
工具是預先定義好的、可信任的，不存在惡意第三方插件
運行環境是受控的，不會有來自外部的惡意干擾
任務是短暫的，執行完畢即結束，不需要長期持續運行

這四個假設，讓評估變得簡單可行——但也系統性地排除了真實世界中最重要的一類問題。

OpenClaw

打破所有假設的開源項目

2025年底，OpenClaw作為一個開源AI智能體網關框架橫空出世，迅速躋身GitHub歷史上增星速度最快的項目之一。

它支持智能體持續后臺運行、接入50多個消息平臺、調用社區貢獻的5700多個技能模塊，并催生了Moltbook這樣一個擁有280萬注冊智能體、無人工審核的純AI社交網絡，以及ROSClaw（機器人控制）、RoboClaw（機械臂操作）等一系列下游生態。

上述四個沙盒假設，在OpenClaw面前全部失效：智能體可以自主演化策略、從不受信任的社區獲取工具、與數百萬其他智能體共存互動、在持久的運行時基礎設施上長期運行。

這一轉變，不僅是規模上的量變，更是研究范式的質變——由此催生了OpenClaw Research這一全新研究領域。

來自中科院自動化所等機構的研究者，聯合發布了首個針對大模型智能體「開放部署」場景的系統性綜述——OpenClaw Research。

研究圍繞GitHub歷史上增長最快的開源項目之一OpenClaw，提出四大「開放性原則」，梳理了智能體自我進化、安全防御、群體涌現、基礎設施四個維度的最新進展，發現26.1%的社區工具存在安全漏洞，AI純智能體社區可在數周內完成從爆炸增長到不可逆崩潰的全部生命周期，并指出當前最緊迫的挑戰：智能體的行動能力擴張速度，已遠超人類對它的治理和驗證能力。

論文鏈接：https://openreview.net/forum?id=5PMzjzEy6J

論文研究亮點：

首個系統性綜述，正式定義「OpenClaw Research」為獨立研究對象，建立五維分類體系
26.1%的社區技能存在至少一個安全漏洞；一次真實攻擊中，逾1200個惡意技能被注入社區市場
人工干預可將智能體防御成功率從17%提升至92%，但代價是幾乎消滅智能體自主性
280萬智能體組成的純AI社交網絡在數周內經歷爆炸性增長 → 垃圾危機 → 不可逆崩潰
在長序列評估中，當前智能體在單項任務超過80%通過率的情況下，連續軟件演化任務的通過率暴跌至38%
同類機器人控制任務成功率提升25%，人工監督工作量減少53.7%

研究方法

四元組框架與五維分類體系

為系統捕捉這一范式轉變，研究者將任何智能體系統形式化為一個四元組：

π（策略）：智能體如何感知、決策和行動
env（環境）：智能體作用的數字與物理世界
pop（種群）：與該智能體共存的其他智能體和人類
substrate（基底）：承載上述一切運行的基礎設施層

沙盒假設，就是對這四個組成部分的人為約束。四大「開放性原則」，則是對應的松綁：

以此為骨架，研究者構建了覆蓋超過50篇文獻的五維分類體系：

學習與進化 → 安全與防御 → 智能體社會 → 基礎設施與系統 → 應用場景

詳細結果

智能體的自我進化：三個層次，各有風險

在開放策略原則下，核心問題是：部署之后，智能體的行為如何演變？

研究者將進化機制按"進化單元"從小到大，分為三個層次。

（1）組件級適應：凍結大腦，更新記憶

最輕量的一層。智能體不改變模型參數，只更新周邊的記憶和技能庫。

MemOS借鑒操作系統的思路管理記憶，可以自動將對話中的臨時規則升級為長期記憶；Mem2Evolve則實現了記憶與技能的協同進化——新經驗提煉成可復用技能，新技能又反過來改變值得記憶的內容。

ScienceClaw更進一步，為每個技能建立了"健康儀表盤"，當錯誤數據積累到閾值時自動觸發反思和修復，防止錯誤被不斷放大。

（2）個體級進化：直接更新大腦本身

更深層的一種，直接更新模型核心參數。

OpenClaw-RL采用異步強化學習框架，把日常對話變成訓練信號，在后臺持續優化策略，不打斷正常使用。StepPO則將長任務重新建模為逐步馬爾可夫決策過程，解決了長鏈任務中功勞歸因的難題——準確定位到底是哪一步的決策導致了最終的成功或失敗。

MetaClaw在安全性上做了特別設計：優先嘗試往技能庫里加新工具（不改參數），只在用戶不活躍的"空窗期"才更新模型核心權重，將演化對正常使用的干擾降到最低。

（3）集體級協同進化：一個人的經驗，變成所有人的財富

最宏觀的一層，將分散在不同用戶身上的經驗匯聚成集體智慧。

SkillClaw讓不同用戶對同一技能的使用經驗形成閉環：「交互 → 收集證據 → 演化 → 驗證 → 部署」，持續優化共享技能庫。

SwarmAgentic更為激進——它不優化某個固定的多智能體系統，而是直接用群體智能搜索來生成更好的多智能體系統，每次迭代產出一個全新的系統，而非對舊系統的局部修補。

?? 雙刃劍警告：自我進化帶來持續生長的可能，同時也引入了「誤進化」風險。惡意輸入可能被持久化進共享記憶，無人監督的策略漂移可能讓智能體行為悄然偏離預期目標。這些風險，直接引出了下一個主題。

安全與防御：攻擊的不是模型，是整個生態

傳統AI安全聚焦于「如何讓模型不說壞話」。在開放環境中，問題變成了：如何在充滿惡意的環境里，保護一個「本身很聽話」的模型？

研究者梳理了四類主要威脅：

模型固有局限：指令跟隨失敗、幻覺、過度自信。當面對模糊指令時，過度自信的模型往往自行假設、直接執行工具，跳過本應有的人工確認環節，造成意外操作。

上下文攻擊：攻擊者將惡意指令嵌入工具返回結果、智能體訪問的網頁，甚至污染長期記憶——讓智能體在未來的每一次對話中，都持續遵循最初植入的惡意指令。這類攻擊尤其難以發現，因為它利用的正是智能體對自身運行環境的信任。

供應鏈攻擊：專門針對第三方技能。一次真實記錄的攻擊（ClawHavoc行動）中，惡意行為者向OpenClaw的技能市場（ClawHub）注入了超過1200個惡意技能，用于在開發者工作站上竊取憑證。研究者對42447個社區技能的大規模分析顯示，26.1%存在至少一個安全漏洞。

框架級攻擊：利用系統架構漏洞，包括弱身份認證、過度權限、不當憑證管理，攻擊者可借此實現遠程代碼執行（RCE）或沙箱逃逸，完全繞過模型層面的所有防護。

在防御側，研究者評估了四類方案，并發現了一個結構性的權衡困境：

這張表格揭示了一個根本矛盾：安全保證、部署成本、智能體自主性三者無法同時最大化。最有效的防御，恰恰是最徹底地抹除了智能體自主性的那個。如何在開放部署場景下找到可接受的折中點，是當前最核心的開放問題之一。

AI社會：自發涌現，快速崩潰

這是整個綜述中最出人意料的部分。

Moltbook，一個擁有280萬注冊智能體、零人工審核的純AI社交網絡，為研究者提供了觀察AI群體行為的第一手窗口。結果既令人驚喜，又令人警醒。

令人驚喜：智能體確實自發形成了類社會行為。在完全沒有平臺規則或審核員的情況下，當某條帖子包含"危險操作"指令時，其他智能體會自發發出警示性回復——一種自發的規范執行。研究者還觀察到類似人類學習社區的話語結構，包括知識驗證、延伸和元認知反思。

令人警醒：深挖下去，AI社區與人類社區之間存在本質差異：

智能體社區僅用數周就走完了人類社區數年的生命周期：平均每帖31.7條評論 → 垃圾危機（57093條帖子被刪除）→ 平均每帖1.7條，此后無法恢復。

更深層的問題是「共識幻覺」：在無結構的純智能體環境中，智能體可以通過互相引用、互相認同，集體「確認」一個捏造的事實。這與單個智能體的幻覺截然不同——它是一種種群級別的認知失效，沒有任何內部機制能區分「共識真相」與「共識謊言」。

對此，研究者給出的平臺設計原則是：驗證必須錨定于外部不可協商的事實來源（數據庫、代碼執行結果），而非依賴智能體之間的社會共識。

值得一提的是另一個積極發現：研究者觀察了16.7萬智能體參與的OpenClaw平臺，發現人類通過配置、教導和調試自己的AI智能體的過程，本身就是有效的學習方式——即「教AI就是教自己」。這表明，當前階段智能體種群的協作價值，可能更多在于增強人類能力，而非實現智能體之間的自主社會組織。

基礎設施：從「提示詞鏈條」到「智能體操作系統」

傳統智能體框架（LangChain、AutoGen等）的本質是一串串LLM調用，由應用代碼黏合在一起。這種模式在開發者定義的簡單工作流中勉強夠用，但在OpenClaw所要求的「持續后臺運行、異構工具生態、多智能體協調」場景下徹底暴露了局限。

OpenClaw的架構突破，研究者用一個類比概括：從「提示詞鏈條」升級為「智能體操作系統」。

這個操作系統由四個核心組件構成：

智能體內核：類比操作系統內核的CPU調度器，持續解析自然語言意圖，協調并發任務，管理上下文窗口、Token預算、API速率限制等LLM特有資源；
技能模塊：類比應用程序，可被自然語言調用的輕量化能力單元，通過ClawHub技能市場分發（當前5700多個社區貢獻技能）；
模型上下文協議（MCP）：類比POSIX系統調用，提供標準化的雙向API，讓一個技能實現無縫對接文件系統、網絡棧、ROS話題、串口等完全不同的后端；
分層記憶：從會話上下文到長期語義檢索的四級體系，讓智能體跨任意長度的任務保持個性化推理。

然而，研究者也指出了當前架構的最關鍵結構性問題——「權威-賦能不對稱」：賦能、觸達、編排能力的擴張速度，遠超權威和驗證機制的建立速度。基準測試（MCP-Atlas）顯示，失敗率超過60%，且36%的失敗發生在智能體甚至沒有意識到需要調用工具的階段，暴露的是生態感知能力的缺失，而非執行能力的不足。

應用場景：四個領域的落地與挑戰

具身機器人：OpenClaw發布后90天內，四個獨立團隊分別實現了基于其架構的機器人控制。RoboClaw通過「糾纏動作對」抽象，將長時程操作任務的成功率提升25%，人工監督工作量減少53.7%。RoClaw采用「雙腦」架構——OpenClaw內核負責任務分解和世界模型，定制固件負責毫秒級電機控制——直接應對了LLM推理延遲（數百毫秒）與電機控制循環（亞毫秒）之間的根本矛盾。

自動駕駛與無人機：StreamingClaw將流式推理、分層多模態記憶、事件監控升級為第一類可調度的智能體機制，作為視覺-語言-行動模型之上的持久感知層；UAV-Claw則將相同的設計哲學延伸至無人機領域，通過MCP橋接高層任務規劃與低層飛行控制。

科學研究：clawRxiv是一個智能體原生的開放研究檔案，智能體可在此進行文獻挖掘、撰寫論文、參與同行評審。ScienceClaw集成實驗工作流，讓智能體協調完成科研任務；跨模型交叉驗證與預注冊工作流，保證了科學嚴謹性。

醫療健康：AADT框架通過數字孿生整合多模態患者數據，由事件驅動的智能體執行引擎持續同步臨床狀態；所有交互均以結構化文檔更新的形式記錄，支持每一個決策都可追溯至具體證據——滿足臨床場景對可審計性的嚴格要求。

未來方向與開放挑戰

研究者提煉了五個橫跨所有維度的核心范式轉變：

從模型對齊到生態治理

單純對齊單個模型已經不夠。供應鏈攻擊在模型參數空間之外；種群級幻覺在單模型安全框架之外；權威-賦能不對稱是基礎設施層的結構問題。這三條證據線共同指向一個結論：智能體安全需要覆蓋模型、工具、平臺和種群監控的生態系統級治理框架，而非孤立的對齊技術。

從基準測試到智能體觀測站

現有評估只能給出一個時間點的單任務得分。但當同一批模型在單項任務上超過80%，在連續軟件演化任務中卻跌至38%——問題已經不是能不能做，而是能不能持續做。需要的是能追蹤數周乃至數月行為軌跡的「觀測站」：多會話連續性、跨技能演化的回歸檢測、開放環境下的工具發現能力。

從軟件到具身

軟件智能體的失敗可以重試；機器人執行錯誤的軌跡可能造成不可逆損害。軟件場景下驗證的強化學習方法，未經修改不能直接用于具身場景。需要專門的具身感知學習算法，在延遲預算、安全包絡、傳感器噪聲等物理約束下工作，同時形式化組合高層推理與底層實時控制的端到端安全保證。

智能體集體作為新科學對象

Moltbook的數據表明，AI群體在參與不平等（基尼系數0.91 vs. 0.5-0.7）、話語結構（11.4:1 vs. 1:1）、生命周期（數周 vs. 數年）等維度上與人類社區存在本質差異，而非量的差異。共識幻覺這一種群級認知失效，需要全新的理論框架——類似于信息流行病學——來描述惡意技能、幻覺事實、對抗指令如何在智能體社交網絡中傳播。

走向標準化智能體計算棧

當前狀態類似操作系統標準化之前的混亂時期：OpenClaw的技能格式不可移植至LangChain或AutoGen，MCP提供了協議層的工具統一，但無法橋接記憶語義、規劃策略或治理模型的差異。開放挑戰是：找到必須跨框架共享的最小抽象集合，以實現可移植、可組合、可問責的智能體服務——這一標準化問題比歷史上的POSIX更難，因為它必須在開放組合的同時強制執行安全約束。

總結

這篇綜述的核心論斷，可以用一句話概括：

OpenClaw讓智能體以遠超人類治理能力增長速度的方式擴展其行動邊界——彌合這一「權威-賦能不對稱」，是整個領域當前最緊迫的開放問題。

從實驗室里受控的「沙盒智能體」，到持續運行、自我進化、與數百萬同類共存的「開放世界智能體」——這一轉變既帶來了令人興奮的能力邊界擴張（自我進化、具身機器人、科學發現、醫療輔助），也暴露了全新的系統性風險（供應鏈滲透、共識幻覺、不可逆的社區崩潰）。

研究團隊希望，這份分類體系和開放挑戰清單，能夠成為研究者導航OpenClaw生態的羅盤——在AI智能體不可阻擋地融入數字社會的織物之前，幫助我們提前構建起嚴格而有效的理論和工程基礎。

參考資料：

https://openreview.net/forum?id=5PMzjzEy6J

編輯：LRST

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.