AI的自我進化時代來臨:多所頂尖機構聯合發布50頁重磅綜述
在人工智能的快速發展浪潮中,大型語言模型(LLMs)的突破性進展已經點燃了人們對能夠解決復雜現實世界任務的AI代理的濃厚興趣。然而,當前大多數代理系統仍依賴于手動設計的配置,一旦部署便保持靜態,這嚴重限制了它們適應動態變化環境的能力。今天,我們要介紹一篇開創性的綜述論文,它為我們展示了一個全新的研究方向——自我進化AI代理。
論文背景與作者團隊
這篇題為《A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems》(自我進化AI代理綜合調查:連接基礎模型與終身代理系統的新范式)的論文,由來自多所頂尖研究機構的學者共同完成。
主要作者包括:
- Jinyuan Fang*(格拉斯哥大學)
- Yanwen Peng*(謝菲爾德大學)
- Xi Zhang*(格拉斯哥大學)
- Yingxu Wang(穆罕默德·本·扎耶德人工智能大學)
- Xinhao Yi(格拉斯哥大學)
- Guibin Zhang(新加坡國立大學)
- Yi Xu(劍橋大學)
- Bin Wu(倫敦大學學院)
- Siwei Liu(阿伯丁大學)
- Zihao Li(格拉斯哥大學)
- Zhaochun Ren(萊頓大學)
- Nikos Aletras(謝菲爾德大學)
- Xi Wang(謝菲爾德大學)
- Han Zhou(劍橋大學)
- Zaiqiao Meng?(格拉斯哥大學,通訊作者)
技術背景:從靜態模型到動態進化
人工智能的發展歷程可以看作是一個不斷追求更高級自主性的過程。論文指出,LLM中心的學習正在從純粹從靜態數據學習,發展到與動態環境交互,并最終通過多代理協作和自我進化實現終身學習。

圖1:LLM中心學習從靜態數據學習到動態環境交互,再到通過多代理協作和自我進化實現終身學習的演進過程
論文將這一演進過程分為四個主要范式:
- 模型離線預訓練(MOP):初始階段專注于在大規模靜態語料庫上預訓練基礎模型,然后以固定的凍結狀態部署,無需進一步適應。
- 模型在線適應(MOA):在MOP基礎上,引入部署后適應,其中基礎模型可以通過監督微調、低秩適配器或基于人類反饋的強化學習(RLHF)等技術進行更新。
- 多代理編排(MAO):超越單一基礎模型,協調多個LLM代理,通過消息交換或辯論提示進行通信和協作,以解決復雜任務,而不修改底層模型參數。
- 多代理自我進化(MASE):最終,MASE引入了一個終身、自我進化的循環,其中代理群體根據環境反饋和元獎勵不斷改進其提示、記憶、工具使用策略甚至交互模式。

表1:四種LLM中心學習范式的比較——模型離線預訓練(MOP)、模型在線適應(MOA)、多代理編排(MAO)和多代理自我進化(MASE),突出每個范式的交互與反饋機制、核心技術和說明性圖表
自我進化AI代理的定義與三大法則
論文對自我進化AI代理進行了明確定義:
自我進化AI代理是通過與環境交互,持續系統地優化其內部組件的自主系統,目的是適應變化的任務、環境和資源,同時保持安全性并提高性能。
受艾薩克·阿西莫夫的機器人三定律啟發,論文提出了自我進化AI代理的三大法則:
I. 持久(安全適應):自我進化AI代理在任何修改過程中必須保持安全和穩定性;
II. 卓越(性能保持):在第一定律約束下,自我進化AI代理必須保持或提高現有任務性能;
III. 進化(自主進化):在第一和第二定律約束下,自我進化AI代理必須能夠自主優化其內部組件,以響應變化的任務、環境或資源。
這三大法則構成了自我進化AI代理的倫理基礎,確保在追求自主進化的同時,優先考慮安全性和性能保持。
自我進化代理系統的概念框架
論文提出了一個統一的概念框架,抽象了自我進化代理系統設計背后的反饋循環。該框架強調了四個關鍵組件:系統輸入、代理系統、環境和優化器。

圖3:代理系統中自我進化過程的概念框架。該過程形成一個包含四個組件的迭代優化循環:系統輸入、代理系統、環境和優化器
系統輸入
系統輸入指的是提供給優化過程的上下文信息和數據。形式上,我們將系統輸入集合表示為I,它可能包含一個或多個指定任務要求、約束條件和可用數據的元素。這些輸入定義了代理系統的問題設置,并確定了優化的范圍。根據場景不同,I可以采取不同形式:
- 任務級優化:現有研究中最常見的設置是提高代理系統在特定任務上的整體性能。在這種情況下,系統輸入I可能包括任務描述T和用于訓練或驗證的訓練數據集Dtrain:I = {T, Dtrain}。還可以包含單獨的測試數據集Dtest來評估優化后的代理性能。
- 實例級優化:最近的研究也探索了更細粒度的設置,目標是提高代理系統在特定示例上的性能。在這種情況下,系統輸入可能由輸入-輸出對(x, y)以及可選的上下文信息C組成,即I = {x, y, C}。
代理系統
代理系統是反饋循環中需要優化的核心組件。它定義了代理(s)對給定輸入做出決策過程和功能。形式上,我們將代理系統表示為A,它可能由單個代理或多個協作代理組成。代理系統A可以進一步分解為幾個組件,如底層LLM、提示策略、內存模塊、工具使用策略等。優化方法可能根據預期范圍專注于A的一個或多個組件。
在大多數現有工作中,優化是針對A的單個組件進行的,例如微調LLM以增強推理和規劃能力,或調整提示并選擇適當的工具以提高特定任務性能而不修改LLM本身。此外,最近的研究還探索了A中多個組件的聯合優化。例如,在單代理系統中,一些方法聯合優化LLM和提示策略,以更好地使模型行為與任務要求保持一致。在多代理系統中,現有研究已經探索了提示和代理間拓撲的聯合優化,以提高整體效果。
環境
環境是代理系統運行并生成輸出的外部上下文。具體來說,代理系統通過感知其輸入、執行操作和接收相應結果與環境交互。根據任務不同,環境可以從基準數據集到完全動態的現實世界設置。

圖5:這些優化設置和代表性方法的分層分類
除了提供操作上下文外,環境還在生成反饋信號方面發揮關鍵作用,這些信號為優化過程提供信息和指導。這些信號通常源自評估指標,用于量化代理系統的有效性或效率。在大多數情況下,這些指標是特定于任務的,例如準確率、F1分數或成功率,它們提供性能的定量度量。然而,在標記數據或真實情況不可用的設置中,通常采用基于LLM的評估器來估計性能。
優化器
優化器(P)是自我進化反饋循環的核心組件,負責基于來自環境的性能反饋改進代理系統A。其目標是通過專門的算法和策略,搜索在給定評估指標下實現最佳性能的代理配置。形式上,這可以表示為:
其中S表示配置的搜索空間,O(A; I) ∈ R是將A在給定系統輸入I上的性能映射到標量分數的評估函數,A*表示最優代理配置。
優化器通常由兩個核心組件定義:(1) 搜索空間(S):定義了可以探索和優化的代理配置集合。S的粒度取決于代理系統的哪些部分需要優化,范圍從代理提示或工具選擇策略到連續的LLM參數或架構結構。(2) 優化算法(H):指定用于探索S并選擇或生成候選配置的策略。它可以包括基于規則的啟發式方法、梯度下降、貝葉斯優化、蒙特卡洛樹搜索(MCTS)、強化學習、進化策略或基于學習的策略。
單代理優化方法
單代理優化專注于提高單代理系統的性能。根據前面介紹的優化反饋循環,關鍵挑戰在于設計用于更新系統的優化器。這涉及確定要優化的代理系統特定組件(即搜索空間),確定要增強的特定能力,并選擇適當的優化策略以有效實現這些改進(即優化算法)。
論文根據代理系統內的目標組件組織了單代理優化方法,因為這決定了搜索空間的結構和優化方法的選擇。具體來說,論文重點關注四個主要類別:(1) LLM行為優化,旨在通過參數調整或提示工程提高LLM的推理和規劃能力;(2) 提示優化,專注于改進與LLM交互的提示;(3) 內存優化,旨在增強代理的記憶機制;(4) 工具優化,專注于改進代理使用外部工具的能力。

圖4:單代理優化方法概述,根據代理系統內的目標組件分類:提示、內存和工具
LLM行為優化
LLM行為優化旨在提高基礎模型的推理和規劃能力,這是代理系統成功執行復雜任務的核心。論文討論了兩種主要方法:
- 推理行為優化:通過改進模型的推理過程來提高性能。這包括使用思維鏈(Chain-of-Thought)提示、樹思維(Tree-of-Thought)或圖思維(Graph-of-Thought)等方法,引導模型進行更結構化和深入的推理。
- 測試時擴展優化:在推理過程中擴展模型的能力,而不改變模型參數。這包括兩種主要策略:
- 基于反饋的策略:利用環境反饋來指導模型的推理過程,例如ReAct框架,它結合推理和行動,允許代理根據實時反饋修改其計劃。
- 基于搜索的策略:在推理過程中探索多個可能的路徑,例如使用蒙特卡洛樹搜索(MCTS)來探索不同的推理路徑。
提示優化
提示優化專注于改進與LLM交互的提示,以獲得更好的性能。論文討論了四種主要方法:
- 基于編輯的優化:通過手動或自動編輯現有提示來改進性能。這包括添加、刪除或修改提示的特定部分,例如添加示例或修改指令。
- 生成式優化:使用LLM或其他生成模型自動生成新的提示。這包括使用提示模板或提示生成算法來創建新的提示。
- 基于文本梯度的優化:使用類似梯度的方法來優化提示。這包括計算提示的"梯度"并使用這些梯度來更新提示,類似于神經網絡中的梯度下降。
- 進化優化:使用進化算法來優化提示。這包括使用變異、交叉和選擇等進化算子來生成和改進提示。
內存優化
內存優化旨在增強代理的記憶機制,使其能夠更好地利用過去的信息來指導當前的任務。論文討論了兩種主要方法:
- 短期內存優化:專注于改進代理的短期記憶,即在當前任務執行過程中保留和檢索信息的能力。這包括改進上下文管理、信息提取和整合策略。
- 長期內存優化:專注于改進代理的長期記憶,即跨任務保留和檢索信息的能力。這包括改進記憶結構、索引和檢索策略,以及決定何時存儲和檢索哪些信息。
工具優化
工具優化專注于改進代理使用外部工具的能力,以擴展其功能范圍。論文討論了四種主要方法:
- 基于訓練的優化:通過訓練代理來改進其工具使用能力。這包括使用監督學習或強化學習來訓練代理選擇和使用適當的工具。
- 推理時優化:在推理過程中改進工具使用,而不改變模型參數。這包括使用啟發式方法或搜索算法來選擇和使用工具。
- 基于提示的工具優化:通過改進提示來增強代理的工具使用能力。這包括在提示中添加工具使用示例或指令。
- 基于推理的工具優化:通過改進代理的推理過程來增強工具使用。這包括使用結構化推理或規劃來指導工具選擇和使用。
多代理優化方法
多代理優化擴展了優化范圍,不僅優化單個代理,還優化它們的結構設計、通信協議和協作能力。論文討論了三個主要方向:
代理拓撲優化
代理拓撲優化專注于改進多代理系統的結構配置,即代理之間的連接和通信方式。論文討論了三種主要架構:
- 分層結構:這些系統采用靜態分層組織,通常是線性或基于樹的,其中任務被明確分解并順序分配給特定代理。例如,MetaGPT引入標準操作程序(SOP)來簡化軟件開發,而HALO結合蒙特卡洛樹搜索來增強推理性能。
- 集中式結構:這種架構遵循管理者-追隨者范式,其中中央代理或更高級別的協調者處理規劃、任務分解和委派,而從屬代理執行分配的子任務。然而,中央節點會造成性能瓶頸并引入單點故障漏洞,從而損害系統魯棒性。
- 分散式結構:在這種架構中,代理作為對等體在分布式網絡中協作,廣泛應用于世界模擬應用。缺乏中央控制可以防止單點故障——任何節點的損壞都不會使整個系統癱瘓,消除了瓶頸并增強了魯棒性。然而,這引入了信息同步、數據安全和增加協作成本的挑戰。
通信機制優化
通信機制優化專注于改進代理之間交換信息和協調行動的方式。論文討論了三種主要方法:
- 結構化輸出:這種方法采用JSON、XML和可執行代碼等格式進行代理間通信。明確的結構和定義良好的參數確保了高機器可讀性和可解釋性,而標準化格式促進了跨平臺協作。這些特性使結構化通信特別適合需要精確和效率的應用,如問題解決和推理任務。
- 自然語言:自然語言通信保留了豐富的上下文和語義細節,使其特別適合創意任務、世界模擬和創意寫作場景。這種表現力能夠捕捉細微的交互,捕捉細微的含義和意圖。然而,與結構化格式相比,它引入了包括模糊性、潛在誤解和降低執行效率等挑戰。
- 標準化協議:最近的進展引入了專門設計的協議,用于標準化多代理系統通信,創建更具包容性和互操作性的代理生態系統:A2A通過結構化的對等任務委托模型標準化水平通信,使代理能夠在保持執行不透明的同時協作復雜、長期運行的任務。ANP通過具有內置去中心化身份(DID)和動態協議協商的分層架構實現安全的、開放的水平通信,用于去中心化的"代理互聯網"。MCP通過統一的客戶端-服務器接口標準化單個代理與外部工具或數據資源之間的垂直通信。Agora作為水平通信的元協議,使代理能夠動態協商和進化其通信方法,在靈活的自然語言和高效的結構化例程之間無縫切換。
工作流優化
工作流優化專注于改進多代理系統中的任務執行流程,包括任務分配、執行順序和協調機制。論文討論了兩種主要方法:
- 靜態工作流優化:專注于預定義的、固定的工作流結構,其中任務分配和執行順序在系統設計時確定。這種方法適用于任務結構和需求相對穩定的環境。
- 動態工作流優化:專注于能夠根據環境反饋和任務需求動態調整的工作流結構。這種方法適用于任務結構和需求可能頻繁變化的環境,提供了更大的靈活性和適應性。
特定領域優化方法
特定領域優化專注于為專門領域開發的代理進化策略,其中代理行為和優化目標與領域約束緊密耦合。論文討論了幾個主要領域的優化策略:
科學研究代理
科學研究代理專注于優化代理在科學研究任務中的性能,如文獻分析、假設生成和實驗設計。這些代理通常需要處理大量專業文獻,理解復雜的科學概念,并生成科學上合理的假設和實驗設計。
生物醫學代理
生物醫學代理專注于優化代理在生物醫學任務中的性能,如藥物發現、醫學診斷和治療方案設計。這些代理通常需要理解復雜的生物醫學知識,處理醫學數據,并生成符合醫學標準的建議和方案。
編程代理
編程代理專注于優化代理在編程任務中的性能,如代碼生成、調試和優化。這些代理通常需要理解編程語言和算法,分析代碼結構,并生成高效、可維護的代碼。
金融代理
金融代理專注于優化代理在金融任務中的性能,如市場分析、投資決策和風險評估。這些代理通常需要理解金融概念和市場動態,分析金融數據,并生成符合金融風險管理的建議和決策。

圖2:AI代理進化和優化技術的視覺分類,分為三個主要方向:單代理優化、多代理優化和特定領域優化。樹形結構說明了這些方法從2023年到2025年的發展,包括每個分支中的代表性方法
評估、安全與倫理考慮
論文提供了關于自我進化代理系統的評估、安全和倫理考慮的專門討論,這些對于確保其有效性和可靠性至關重要。
評估方法
評估自我進化代理系統需要考慮多個方面,包括性能、效率、魯棒性和適應性。論文討論了幾種評估方法:
- 基于指標的評估:使用定量指標(如準確率、F1分數、成功率)來評估代理系統的性能。這種方法適用于有明確目標和可測量結果的任務。
- 基于LLM的評估:使用LLM作為評估器來評估代理系統的性能。這種方法適用于缺乏明確指標或真實情況的任務,LLM可以生成代理指標或提供文本反饋。
- 人類評估:使用人類評估者來評估代理系統的性能。這種方法適用于需要主觀判斷或人類偏好的任務,如創意寫作或對話系統。
安全考慮
自我進化代理系統的安全考慮包括多個方面,如安全性、穩定性和可控性。論文討論了幾個關鍵的安全考慮:
- 安全適應:確保代理系統在進化過程中保持安全,不會產生有害或危險的行為。這包括設置安全約束和監控機制。
- 性能保持:確保代理系統在進化過程中保持或提高性能,不會出現性能下降。這包括設置性能基線和監控機制。
- 可控性:確保代理系統在進化過程中保持可控,不會偏離預期行為。這包括設置控制機制和干預策略。
倫理考慮
自我進化代理系統的倫理考慮包括多個方面,如公平性、透明度和問責制。論文討論了幾個關鍵的倫理考慮:
- 公平性:確保代理系統在進化過程中保持公平,不會產生歧視或偏見。這包括設置公平約束和評估機制。
- 透明度:確保代理系統的進化過程和決策機制是透明的,可以被理解和解釋。這包括設置透明度要求和解釋機制。
- 問責制:確保代理系統的行為和決策可以被追蹤和問責。這包括設置問責機制和審計策略。
挑戰與未來方向
論文指出了自我進化代理系統領域的關鍵挑戰,并概述了一些有前景的未來研究方向。
關鍵挑戰
- 復雜性管理:自我進化代理系統的復雜性隨著組件數量和交互的增加而增加,管理這種復雜性是一個重大挑戰。
- 評估困難:評估自我進化代理系統的性能和效果是一個挑戰,特別是在缺乏明確指標或真實情況的情況下。
- 安全風險:自我進化代理系統可能產生不可預測的行為,帶來安全風險,如何確保安全是一個關鍵挑戰。
- 倫理問題:自我進化代理系統可能引發一系列倫理問題,如公平性、透明度和問責制,如何解決這些問題是一個重要挑戰。
未來方向
- 更高效的優化算法:開發更高效的優化算法,以加速自我進化代理系統的進化過程,提高其性能和適應性。
- 更強大的評估框架:開發更強大的評估框架,以更全面、準確地評估自我進化代理系統的性能和效果。
- 更嚴格的安全機制:開發更嚴格的安全機制,以確保自我進化代理系統在進化過程中保持安全和可控。
- 更完善的倫理框架:開發更完善的倫理框架,以解決自我進化代理系統可能引發的倫理問題,確保其發展符合社會價值觀和道德標準。
結論
這篇綜述論文為我們提供了一個全面、系統的自我進化AI代理技術概覽,彌合了基礎模型的靜態能力與終身代理系統所需的持續適應性之間的差距。通過提出統一的概念框架和三大法則,論文為理解和比較不同的進化策略提供了基礎。
自我進化AI代理代表了AI系統發展的一個根本性轉變,從靜態、手動配置的架構到自適應、數據驅動的系統,能夠響應不斷變化的需求和環境而進化。這一新興方向為開發更自主、更有彈性、更可持續的AI系統鋪平了道路,有望在科學研究、軟件工程、人機協作等多個領域產生深遠影響。
??https://arxiv.org/pdf/2508.07407??
A Comprehensive Survey of Self-Evolving AI Agents A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems
??https://github.com/EvoAgentX/Awesome-Self-Evolving-Agents??
本文轉載自??AIGC深一度??,作者:一度

















