arXiv：自我進化AI智能體綜述

2026-05-08 14:33:59　來源: 集智俱樂部

北京舉報

分享至

導(dǎo)語

大語言模型（LLMs）的最新進展激發(fā)了人們對能夠解決復(fù)雜現(xiàn)實任務(wù)的AI智能體日益增長的興趣。然而，大多數(shù)現(xiàn)有的智能體系統(tǒng)依賴于手動設(shè)計的配置，這些配置在部署后保持靜態(tài)，限制了它們適應(yīng)動態(tài)和演進環(huán)境的能力。為了解決這一局限性，最近的研究探索了旨在根據(jù)交互數(shù)據(jù)和環(huán)境反饋自動增強智能體系統(tǒng)的智能體進化技術(shù)，這一新興方向為自我進化AI智能體奠定了基礎(chǔ)。在這篇綜述中，文章首先提出了一個統(tǒng)一的概念框架，抽象了自我進化智能體系統(tǒng)設(shè)計背后的反饋循環(huán)。具體而言，我們首先提出了一個統(tǒng)一的概念框架，抽象了自我進化智能體系統(tǒng)設(shè)計背后的反饋循環(huán)。該框架突出了四個關(guān)鍵組件：系統(tǒng)輸入、智能體系統(tǒng)、環(huán)境和優(yōu)化器，為理解和比較不同策略奠定了基礎(chǔ)。基于這一框架，我們系統(tǒng)地回顧了針對智能體系統(tǒng)不同組件的廣泛自我進化技術(shù)，包括基礎(chǔ)模型、智能體提示詞、記憶、工具、工作流以及智能體間的通信機制。本綜述旨在為研究人員和從業(yè)者提供對自我進化AI智能體的系統(tǒng)理解，為開發(fā)更具適應(yīng)性、自主性和終身性的智能體系統(tǒng)奠定基礎(chǔ)。

關(guān)鍵詞：自我進化AI智能體（Self-Evolving AI Agents）、基礎(chǔ)模型（Foundation Models）、終身學(xué)習(xí)（Lifelong Learning）、多智能體系統(tǒng)（Multi-Agent Systems）、自主優(yōu)化（Autonomous Optimization）

面博士丨作者

論文題目：A Comprehensive Survey of Self-Evolving AI Agents 論文地址：https://arxiv.org/abs/2508.07407 發(fā)表時間：2025年8月發(fā)表期刊：arXiv

如果AI不再僅僅是“被動響應(yīng)”，

而是能夠“自我成長”？

在人工智能的發(fā)展史中，我們是否已經(jīng)觸及了靜態(tài)模型的天花板？想象一個場景：你部署了一個精密的科研助理智能體，它在上線之初表現(xiàn)完美，但當(dāng)全新的科研算法發(fā)布、或是實驗工具庫更新時，它卻因為固化的邏輯而變得束手無策，必須等待人類專家進行繁瑣的手動重構(gòu)。這種“部署即巔峰、隨后即落后”的尷尬局面，正是當(dāng)前大模型應(yīng)用面臨的核心瓶頸：我們的系統(tǒng)是早熟且靜態(tài)的，而現(xiàn)實世界卻是動態(tài)且不斷演化的。那么，我們能否創(chuàng)造出一種像生物一樣，能夠在交互中學(xué)習(xí)、在反饋中進化、甚至能夠自主制造工具的智能系統(tǒng)？這一設(shè)想正隨著“自我進化AI智能體”研究的興起而逐漸變?yōu)楝F(xiàn)實。

范式遷移：

從離線預(yù)訓(xùn)練到多智能體自主演進的四個階段

要理解自我進化AI智能體（Self-Evolving AI Agents）的深遠意義，必須將其置于大語言模型發(fā)展的宏大背景中。研究者指出，智能系統(tǒng)的演進正經(jīng)歷著一場從“凍結(jié)狀態(tài)”到“完全自主”的范式變遷，這一過程可以清晰地劃分為四個階段。

第一階段是模型離線預(yù)訓(xùn)練（Model Offline Pretraining, MOP），這是所有智能系統(tǒng)的基石。在這個階段，模型在大規(guī)模靜態(tài)語料庫上進行預(yù)訓(xùn)練，隨后以一種固定、凍結(jié)的狀態(tài)被部署。這意味著模型一旦離開訓(xùn)練實驗室，其知識和能力便不再更新。

第二階段是模型在線適配（Model Online Adaptation, MOA）。為了彌補離線預(yù)訓(xùn)練的局限，這一階段引入了部署后的適配技術(shù)，如監(jiān)督微調(diào)、低秩適配（LoRA）或人類反饋強化學(xué)習(xí)（RLHF）。通過標(biāo)簽、評分或指令提示，基礎(chǔ)模型可以進行更新，以更好地符合特定任務(wù)或人類偏好，但這依然主要集中在參數(shù)層面的微調(diào)。

第三階段是多智能體編排（Multi-Agent Orchestration, MAO）。隨著任務(wù)復(fù)雜度的提升，單一模型已難以為繼，研究界開始協(xié)調(diào)多個智能體通過消息交換或辯論提示進行協(xié)作。雖然這一階段解決了復(fù)雜任務(wù)的拆解與執(zhí)行，但智能體之間的協(xié)作模式、通信協(xié)議和工具鏈依然是人為預(yù)設(shè)且固定的。

第四階段，也是目前最前沿的階段，即多智能體自我進化（Multi-Agent Self-Evolving, MASE）。這是真正意義上的“終身演進”范式，它引入了一個閉環(huán)系統(tǒng)，使得智能體群體能夠根據(jù)環(huán)境反饋和元獎勵，持續(xù)且自主地精煉其提示詞、記憶結(jié)構(gòu)、工具使用策略，甚至是智能體之間的交互拓撲結(jié)構(gòu)。這標(biāo)志著人工智能正從一個“黑盒工具”轉(zhuǎn)變?yōu)橐粋€具備長效生命力的“數(shù)字化生命體”。

圖 1 ：以大語言模型（LLM）為中心的學(xué)習(xí)正從單純從靜態(tài)數(shù)據(jù)中學(xué)習(xí)，演變?yōu)榕c動態(tài)環(huán)境交互，并最終通過多智能體協(xié)作和自我進化走向終身學(xué)習(xí)

3. 進化法則：生存、卓越與演進的交織

為了確保這種自主進化的過程既高效又可控，研究者從阿西莫夫的機器人定律中汲取靈感，提出了自我進化AI智能體的“三大定律”。首先是生存定律（Endure），它要求智能體在任何自我修改過程中必須首要保持安全性與穩(wěn)定性。其次是卓越定律（Excel），即在滿足安全的前提下，系統(tǒng)必須保持或增強其現(xiàn)有的任務(wù)性能，不能因為進化而產(chǎn)生能力倒退。最后是進化定律（Evolve），它鼓勵智能體在遵循前兩條準(zhǔn)則的基礎(chǔ)上，能夠積極響應(yīng)環(huán)境變化，自主優(yōu)化其內(nèi)部的所有組件。這三大法則構(gòu)成了一個層級化的約束體系，為邁向真正意義上的強人工智能提供了倫理與技術(shù)的雙重保障。

圖 2：AI智能體進化和優(yōu)化技術(shù)的視覺分類法，分為三個主要方向：單智能體優(yōu)化、多智能體優(yōu)化和特定領(lǐng)域優(yōu)化。樹狀結(jié)構(gòu)展示了這些方法從2023年到2025年的發(fā)展情況，包括各分支中的代表性方法。

4. 統(tǒng)一概念框架：構(gòu)建智能成長的閉環(huán)邏輯

為了系統(tǒng)化地推進這一研究方向，研究者提出了一個高度抽象且具普適性的統(tǒng)一概念框架。該框架將復(fù)雜的演化過程解構(gòu)為四個相互作用的核心組件：系統(tǒng)輸入、智能體系統(tǒng)、環(huán)境以及優(yōu)化器。

圖 3 ：智能體系統(tǒng)中自我進化過程的概念框架。該過程形成了一個由四個組件組成的迭代優(yōu)化循環(huán)：系統(tǒng)輸入（System Inputs）、智能體系統(tǒng)（Agent System）、環(huán)境（Environment）和優(yōu)化器（Optimiser）。系統(tǒng)輸入定義任務(wù)設(shè)置（如任務(wù)級或?qū)嵗墸恢悄荏w系統(tǒng)（以單體或多體形式）執(zhí)行任務(wù)；環(huán)境根據(jù)不同場景通過代理指標(biāo)提供反饋；優(yōu)化器則通過定義的搜索空間和優(yōu)化算法更新系統(tǒng)，直到達成性能目標(biāo)。

整個進化的循環(huán)始于系統(tǒng)輸入，它為演化定義了邊界。這些輸入可以是宏觀的任務(wù)描述，也可以是微維的具體實例。隨后，智能體系統(tǒng)——無論是單體還是多體結(jié)構(gòu)——在特定的環(huán)境中執(zhí)行任務(wù)。環(huán)境不僅是智能體運行的舞臺，更是反饋的源頭。它通過預(yù)定義的度量指標(biāo)或基于大模型的評估器，產(chǎn)生衡量系統(tǒng)效能的反饋信號。

在這一閉環(huán)邏輯中，優(yōu)化器扮演著類似“進化引擎”的核心角色。它由搜索空間和優(yōu)化算法共同驅(qū)動。搜索空間決定了智能體系統(tǒng)中哪些部分是可以被“變異”和“篩選”的，其粒度涵蓋了微觀的提示詞、記憶管理策略，直至宏觀的系統(tǒng)架構(gòu)。而優(yōu)化算法則決定了探索這一空間的方法，涵蓋了基于規(guī)則的啟發(fā)式搜索、文本梯度下降、以及復(fù)雜的強化學(xué)習(xí)策略。這種“執(zhí)行-評估-優(yōu)化”的迭代循環(huán)，使得系統(tǒng)能夠像生物進化一樣，通過優(yōu)勝劣汰，最終收斂于解決復(fù)雜問題的最優(yōu)構(gòu)型。

5. 自我進化智能體的優(yōu)化范式：

單體、多體與領(lǐng)域化策略

5.1 單智能體優(yōu)化：深度精煉決策引擎的核心能力

在自我進化的塔基，單體智能體的優(yōu)化直接決定了整個系統(tǒng)的決策深度。優(yōu)化的重心主要集中在基礎(chǔ)模型行為、提示詞、記憶機制以及工具調(diào)用這四個關(guān)鍵維度。

在基礎(chǔ)模型行為優(yōu)化層面，研究者正致力于增強模型的推理與規(guī)劃能力。除了利用監(jiān)督微調(diào)讓模型模仿高質(zhì)量的推理軌跡，強化學(xué)習(xí)被廣泛用于將推理視為序列決策過程。通過自我博弈或偏好學(xué)習(xí)，模型可以在無外部標(biāo)簽的情況下實現(xiàn)零數(shù)據(jù)進化。此外，測試時計算（Test-Time Compute）技術(shù)的興起為智能體提供了“思考更久”的機會。它允許模型在推理階段利用蒙特卡洛樹搜索（MCTS）等算法進行深度思考，從而在不改變模型參數(shù)的情況下顯著提升復(fù)雜邏輯問題的解決質(zhì)量。

提示詞優(yōu)化則針對大模型對輸入指令的高度敏感性展開。除了傳統(tǒng)的基于編輯的局部搜索，前沿研究引入了“文本梯度”技術(shù)。它模仿了神經(jīng)網(wǎng)絡(luò)的自動微分思想，將自然語言反饋視為一種語義梯度，引導(dǎo)提示詞向著更準(zhǔn)確、更穩(wěn)健的方向演進。與此同時，記憶優(yōu)化解決了長程任務(wù)中的遺忘難題。短期記憶側(cè)重于信息的智能壓縮，而長期記憶則利用檢索增強生成（RAG）技術(shù)，構(gòu)建起可跨會話更新的外部知識庫。最后，在工具優(yōu)化領(lǐng)域，智能體不僅學(xué)習(xí)如何更高效地調(diào)用接口，更開始探索自主“制造工具”，即根據(jù)需求編寫代碼并封裝為新武器。

5.2 多智能體系統(tǒng)：從手動編排到拓撲架構(gòu)的自動演化

當(dāng)任務(wù)復(fù)雜度超越單體極限時，多智能體系統(tǒng)的協(xié)同進化展現(xiàn)出了超越個體的力量。這一領(lǐng)域的演進邏輯正經(jīng)歷從“手動設(shè)計協(xié)作流”到“自動發(fā)現(xiàn)協(xié)作拓撲”的深刻變革。傳統(tǒng)的并行流、層級流或辯論機制雖然經(jīng)典，但在多變環(huán)境下往往顯得僵化。

現(xiàn)代自我進化系統(tǒng)將多智能體協(xié)作視為一個關(guān)于拓撲結(jié)構(gòu)、角色定義和基礎(chǔ)模型能力的綜合搜索問題。在拓撲優(yōu)化方面，研究者開辟了兩條路徑：一是代碼級工作流優(yōu)化將交互邏輯視為可執(zhí)行程序，利用進化算法在程序空間內(nèi)搜索最高效的邏輯鏈條；二是通信圖拓撲優(yōu)化則通過動態(tài)調(diào)整智能體間的連接概率，剔除冗余和高風(fēng)險的通信環(huán)節(jié)。更進一步的“統(tǒng)一優(yōu)化”路徑認為提示詞與拓撲結(jié)構(gòu)是深度交織的整體，只有同步演進才能激發(fā)系統(tǒng)的最大潛能。此外，針對模型背后的基礎(chǔ)模型進行協(xié)作導(dǎo)向的強化訓(xùn)練，能夠顯著增強智能體作為團隊成員的溝通質(zhì)量。

圖 4：多智能體系統(tǒng)優(yōu)化方法概覽，左側(cè)展示了核心優(yōu)化要素（空間、方法和目標(biāo)），右側(cè)展示了優(yōu)化維度（提示詞、拓撲結(jié)構(gòu)、統(tǒng)一優(yōu)化及LLM骨干網(wǎng)絡(luò)）。

自我進化的通用邏輯必須在特定領(lǐng)域的深水區(qū)得到驗證。在生物醫(yī)學(xué)領(lǐng)域，智能體進化側(cè)重于模擬真實的臨床診療環(huán)境，通過多輪問診補全信息，或利用化學(xué)分析工具進行分子發(fā)現(xiàn)中的符號推理。在編程領(lǐng)域，優(yōu)化的核心在于代碼的自我精煉與自愈調(diào)試，智能體通過執(zhí)行反饋信號定位故障并自主修復(fù)。金融與法律領(lǐng)域則要求極致的規(guī)則遵循。金融智能體需要適應(yīng)瞬息萬變的動態(tài)市場，通過博弈平衡收益；法律智能體則通過模擬法庭辯論，在結(jié)構(gòu)化的思維鏈指引下，確保輸出符合司法準(zhǔn)則。這些實踐表明，自我進化并非盲目變異，而是在專業(yè)知識指引下的精準(zhǔn)適配。

6. 總體評估、安全性與未來展望

隨著演進能力的增強，傳統(tǒng)的靜態(tài)評估體系已逐漸過時。評估不再是任務(wù)結(jié)束后的簡單打分，而是演化成了指導(dǎo)進化的動態(tài)反饋機制。除了日益真實的基準(zhǔn)測試，利用強模型擔(dān)任裁判（LLM-as-a-Judge）或讓具備推理能力的智能體評價其他智能體（Agent-as-a-Judge）已成為主流。這種方式能夠捕捉推理軌跡中的細微偏差，提供高頻率、低成本的反饋。

然而，進化的力量也帶來了前所未有的安全挑戰(zhàn)。由于演進路徑具有不可預(yù)測性，如何確保智能體在追求性能的同時，始終遵循生存定律和倫理邊界，是目前研究的重中之重。展望未來，自我進化AI智能體將在更開放、更具交互性的模擬平臺中進行全方位的演進。它們將不再是單純的任務(wù)執(zhí)行者，而是能夠持續(xù)學(xué)習(xí)、自主制造工具、并根據(jù)需求重構(gòu)自身拓撲的動態(tài)生態(tài)參與者。一個高度適應(yīng)、自主進化且持久存在的智能時代正加速到來，引領(lǐng)我們通往真正意義上的強人工智能。

參考文獻

Zelikman, Eric, Yuhuai Wu, Jesse Mu, and Noah Goodman. 2022. “STaR: Bootstrapping Reasoning with Reasoning.” Advances in Neural Information Processing Systems, vol. 35, pages 15476–15488.
Wei, Jason, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, and Denny Zhou. 2022. “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.” Advances in Neural Information Processing Systems.
Yao, Shunyu, Dian Yu, Jeffrey Zhao, Izhak Shafran, Tom Griffiths, Yuan Cao, and Karthik Narasimhan. 2023. “Tree of Thoughts: Deliberate Problem Solving with Large Language Models.” Advances in Neural Information Processing Systems, vol. 36, pages 11809–11822.
Guo, Daya, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, et al. 2025. “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.” arXiv preprint arXiv:2501.12948. https://arxiv.org/abs/2501.12948.
Ye, Rui, Shuo Tang, Rui Ge, Yaxin Du, Zhenfei Yin, Siheng Chen, and Jing Shao. 2025. “MAS-GPT: Training LLMs to Build LLM-Based Multi-Agent Systems.” arXiv preprint arXiv:2503.03686. https://arxiv.org/abs/2503.03686.

「大模型時代下的Agent建模與仿真」讀書會

集智俱樂部聯(lián)合山東工商學(xué)院副教授高德華、天津大學(xué)教授薛霄、北京師范大學(xué)教授張江、國防科技大學(xué)博士研究生曾利共同發(fā)起。讀書會自2025年7月8日開始，每周二晚上7:30-9:30進行，現(xiàn)讀書會已結(jié)束，支持查看課程回放。掃碼加入Agent建模與仿真的前沿探索之旅，一起共學(xué)、共創(chuàng)、共建、共享「大模型時代下的Agent建模與仿真」社區(qū)，共同暢想大模型時代人工社會的未來圖景！

核心問題

Agent建模與仿真是什么，核心技術(shù)發(fā)生了怎樣的演變？

大模型時代，Agent建模與仿真會給復(fù)雜系統(tǒng)理論帶來哪些突破？

大模型如何賦能Agent實現(xiàn)自主思考與動態(tài)適應(yīng)？

大模型驅(qū)動的Agent交互會涌現(xiàn)出什么新型的社會現(xiàn)象？

Agent建模與仿真如何改變金融、心理、管理、軍事等領(lǐng)域的研究范式？

你將收獲

梳理Agent建模與仿真的歷史發(fā)展脈絡(luò)與方法論；

掌握一套理解、分析、控制、預(yù)測復(fù)雜系統(tǒng)的計算實驗框架；

掌握基于多主體強化學(xué)習(xí)的復(fù)雜系統(tǒng)優(yōu)化方法；

領(lǐng)略領(lǐng)域前沿學(xué)者的研究體系與科研路徑。

詳情請見：

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.