任意Agent皆可強化學習!微軟推出Agent Lightning框架,無需修改任何代碼
當前的AI Agent在訓練與優化環節卻面臨著嚴峻挑戰,傳統強化學習方法也在復雜、動態交互場景下表現不佳。
為此,微軟團隊推出了一個靈活、可擴展的框架Agent Lightning,其可對任何AI Agent進行基于強化學習的LLM訓練,有望重塑AI Agent的未來訓練范式。相關研究論文已發表在預印本網站arXiv上。

論文鏈接:https://arxiv.org/abs/2508.03680

核心貢獻如下:
- Agent Lightning是首個實現 Agent 與強化學習訓練完全解耦的框架,能夠無縫應用于任何 AI Agent,無論其實現方式如何,幾乎無需進行任何代碼修改。將訓練與 Agent 的執行邏輯對齊,提升了 Agent 在實際應用中的性能。這使開發者能夠突破靜態預訓練模型的局限,釋放自適應學習型 Agent 的全部潛力。
- 在算法層面,Agent Lightning基于 Agent 的馬爾可夫決策過程(MDP)建模,并引入統一數據接口。該接口抽象化了不同 Agent 執行邏輯的復雜性,使 Agent 執行過程中收集的數據可直接轉換為訓練軌跡。此外,Agent Lightning 采用分層強化學習框架,并配備信用分配模塊,將軌跡級回報分配給每次調用生成的響應。該設計與現有單輪強化學習算法無縫集成,實現高效且有效的訓練。
- 在系統層面,Agent Lightning引入了Training-Agent解耦架構,實現強化學習訓練與 Agent 執行的清晰分離。該架構通過 Lightning Server 和 Lightning Client 實現,兩者共同提供適用于任何 Agent 的標準化模型訓練服務。Lightning Client 作為 Agent 運行時,透明地管理 Agent 執行并收集軌跡,無需進行代碼修改。該設計使可觀察性基礎設施在訓練場景中得以復用,確保了可擴展性(extensibility)、可伸縮性(scalability)和與各種 Agent 框架的無縫集成。
Agent Lightning:
訓練任意AI Agent
在真實世界中,AI Agent的運行邏輯極為復雜,絕非簡單的一問一答模式。
它們常常需要多輪交互,像人類對話一樣循序漸進推進任務,通過調用外部工具或API,與外部系統交互獲取更多信息,依據環境反饋和當前狀態靈活做出動態決策,甚至在復雜場景中,多個Agent需協同合作完成任務。
但現有強化學習訓練框架,往往將強化學習訓練過程與Agent的具體執行邏輯緊密捆綁,導致一系列問題,嚴重阻礙了強化學習在AI Agent大規模訓練和部署中的應用。
例如:
- 耦合度高:若想利用強化學習訓練一個已有的Agent,開發者往往不得不對 Agent 代碼進行大規模修改,甚至重構,開發成本巨大;
- 擴展性差:針對特定任務設計的強化學習方法,很難直接遷移到其他類型的Agent;
- 數據利用率低:Agent在真實環境中產生的豐富交互數據,因與強化學習訓練框架不兼容而難以被有效利用;
- 多輪交互生成的上下文序列過于冗長:增加了LLM計算和內存開銷。
微軟此次提出的Agent Lightning框架的核心創新點,在于實現了AI Agent執行與強化學習訓練之間的徹底解耦。二者可獨立運作,又能進行信息交換。

Agent Lightning概述
除了上述提到的完全解耦和統一數據接口之外,Lightning RL也是該研究的主要亮點之一。
LightningRL是微軟為利用收集到的轉換數據優化策略LLM,而提出的專為Agent訓練設計的分層強化學習算法。

LightningRL示意圖
該算法包含信用分配模塊,能夠將任何Agent生成的軌跡分解為訓練所需的轉換數據,從而使強化學習能夠處理復雜的交互邏輯,如多Agent場景和動態工作流。
在信用分配過程中,高層信用分配首先將整個任務的最終獎勵合理分配到任務執行過程中的每一步驟,例如在最簡單實現中,可讓每一次調用的獎勵都等于最終獎勵。
經過高層信用分配后,低層策略更新將每一次LLM調用(input、output、reward)轉化為一個獨立的單次調用強化學習問題。
此時可直接套用任何現成的、成熟的單次調用強化學習算法(如PPO、DPO或GRPO),來更新模型參數。
這種設計不僅具備靈活性和復用性,可直接利用社區中SOTA單次調用強化學習算法,還從根本上解決了因上下文累積導致的序列過長問題,避免了復雜易錯的掩碼操作。
Agent Lightning將計算密集型的LLM生成與傳統編程語言編寫、輕量級但多樣化且靈活的應用邏輯和工具分離。
在系統設計方面,Agent Lightning引入了Training-Agent解耦架構,構建了一個適用于任意Agent的標準化訓練服務。
該架構由Agent Lightning Server和Agent Lightning Client組成。

Training-Agent解耦架構
Agent Lightning Server:作為強化學習訓練系統的大腦,承擔著管理訓練流程的重任,并通過類OpenAI API向客戶端暴露更新后的模型。它負責運行強化學習訓練算法、分配GPU資源、管理模型版本等一系列復雜且計算密集型的任務。
Agent Lightning Client:包含兩個功能模塊:一個模塊負責與服務器通信,實現數據傳輸與接收;另一個模塊運行Agent并執行數據收集,充當Agent的運行時環境。
得益于統一數據接口,Agent運行時能夠將OpenTelemetry等全面的可觀測性框架集成到訓練過程中,用于軌跡收集。
這一機制將監控基礎設施與強化學習訓練連接起來,使優化算法能夠利用豐富的系統監控數據,從而構建更具可擴展性與靈活性的訓練基礎。
這種前后端分離式的架構設計,徹底將Agent開發者從復雜的強化學習系統配置中解放出來,讓他們得以專注于Agent本身的邏輯和創意,極大降低了AI Agent進化的門檻。
實驗結果
研究團隊在多個任務上對Agent Lightning框架進行了實驗驗證,涵蓋Text-to-SQL、開放域問答、數學問答等。
在這些實驗中,Agent Lightning均展示出穩定且持續的性能提升。

實驗中任務和設置的總結
通過LangChain實現Text-to-SQL
第一個任務采用LangChain實現,設計為多Agent系統架構。
系統包含三個Agent,工作流程如下:
SQL writing agent首先會生成SQL查詢語句并執行。
若查詢正確,SQL executor會返回數據庫信息;若出錯,則返回錯誤提示。
隨后,checking agent評估SQL查詢的正確性及檢索信息的有效性和完整性,并決定是重寫查詢還是直接生成答案。
若需重寫,re-writing agent將根據checking agent的反饋修改查詢語句;若無需重寫,該agent同時承擔問答任務,利用檢索到的信息和問題生成最終答案。
在此工作流程中,SQL寫入(writing)、校驗(checking)和重寫(re-writing)均由同一LLM完成,但針對不同任務定制了專屬提示,從而實現三個Agent協同運作。
在訓練過程中,研究團隊只對其中兩個進行了優化,即SQL writing agent和re-writing Agent,這兩個agent是同步進行優化的,說明Agent Lightning 可以在多Agent系統中選擇性地對一個或多個Agent進行優化。
如圖,Agent Lightning能夠穩定地提高獎勵,展示了其優化涉及代碼生成和工具使用的復雜多步決策的能力。

Text-to-SQL任務的獎勵曲線
通過OpenAI Agent SDK實現檢索增強生成
第二個任務是典型的檢索增強生成(RAG)任務。
給定一個問題和文檔數據庫,Agent首先會生成自然語言查詢,通過現有檢索工具獲取支持性文檔。
該Agent是使用OpenAI Agent SDK實現的。與之前的Text-to-SQL任務相比,這里的Agent工作流程類似但更簡單。
策略LLM需要先生成查詢請求,然后根據檢索到的文檔決定是優化查詢還是直接生成答案。
該圖展示了Agent Lightning在這一具有挑戰性的任務上實現了穩定的性能提升,證明了其在更復雜和開放式RAG場景中的有效性。

通過AutoGen實現數學問答與工具使用
第三個任務是數學類問答任務,旨在評估Agent調用工具(具體指計算器)解決算術和符號問題的能力。
最終的獎勵取決于Agent是否正確回答了問題,模型的性能也通過測試集上的答案準確度進行評估。
如圖,Agent Lightning在訓練過程中持續提高了性能。這證明了它在工具增強設置中的有效性,即需要精確的外部函數調用和推理。

未來方向:推動Agent能力迭代升級
在論文的最后,研究團隊也探討了未來的工作方向。
首先,除了強化學習外,Agent Lightning建模框架還很好地支持其他優化方法,如自動prompt優化。
關注關鍵組件及其調用是Agent優化的主要方法,而不僅僅局限于基于強化學習的方法。
為此,團隊提出了Component of Interest(CoI)的概念,用于指定執行軌跡中受優化影響的組件子集。
例如,prompt模板渲染可視為工具調用,通過將該工具視為CoI,Agent Lightning可支持prompt優化方法。
這種統一且可擴展的數據結構支持對Agent行為進行全面的下游優化與分析。
其次,研究團隊認為,開發更高效的強化學習算法是解決復雜Agent場景下模型優化的關鍵,包括但不限于長程信用分配、探索算法、off-policy算法等。
Agent Lightning通過過渡來建模和組織數據,使集成額外算法更加方便。
此外,支持LLM的強化學習基礎設施持續演進,為與基于Agent的強化學習框架的協同開發提供了重大機會。
一個有前景的方向是進一步分解系統組件,即將訓練器、推斷引擎和Agent工作流程分離,以解決推斷瓶頸并提升大規模強化學習訓練的可擴展性。
探索此類架構改進可帶來更高效且靈活的強化學習管道。
此外,針對長程任務的優化將受益于強化學習算法與系統設計協同創新,從而實現復雜Agent更高效的訓練。
最后,在LLM高效服務方面,研究團隊建議采用更適合LLM的抽象方法,可以優化資源利用率和響應時間。
此外,通過優化服務環境和工具的資源調度,還能進一步簡化操作流程,提高在多樣化部署場景中的擴展能力。
隨著Agent Lightning框架解決了強化學習與Agent耦合的難題,強化學習有望成為Agent訓練的標配。
同時,Agent在真實世界中產生的海量交互數據,將不再被閑置浪費。
Agent Lightning的統一數據接口,能夠高效地將這些數據用于強化學習訓練,推動Agent能力迭代升級。




































