精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

任意Agent皆可強化學習!微軟推出Agent Lightning框架,無需修改任何代碼

人工智能 新聞
AI Agent已逐漸從科幻走進現實!不僅能夠執行編寫代碼、調用工具、進行多輪對話等復雜任務,甚至還可以進行端到端的軟件開發,已經在金融、游戲、軟件開發等諸多領域落地應用。

當前的AI Agent在訓練與優化環節卻面臨著嚴峻挑戰,傳統強化學習方法也在復雜、動態交互場景下表現不佳。

為此,微軟團隊推出了一個靈活、可擴展的框架Agent Lightning,其可對任何AI Agent進行基于強化學習的LLM訓練,有望重塑AI Agent的未來訓練范式。相關研究論文已發表在預印本網站arXiv上。

論文鏈接:https://arxiv.org/abs/2508.03680

核心貢獻如下:

  • Agent Lightning是首個實現 Agent 與強化學習訓練完全解耦的框架,能夠無縫應用于任何 AI Agent,無論其實現方式如何,幾乎無需進行任何代碼修改。將訓練與 Agent 的執行邏輯對齊,提升了 Agent 在實際應用中的性能。這使開發者能夠突破靜態預訓練模型的局限,釋放自適應學習型 Agent 的全部潛力。

  • 在算法層面,Agent Lightning基于 Agent 的馬爾可夫決策過程(MDP)建模,并引入統一數據接口。該接口抽象化了不同 Agent 執行邏輯的復雜性,使 Agent 執行過程中收集的數據可直接轉換為訓練軌跡。此外,Agent Lightning 采用分層強化學習框架,并配備信用分配模塊,將軌跡級回報分配給每次調用生成的響應。該設計與現有單輪強化學習算法無縫集成,實現高效且有效的訓練。

  • 在系統層面,Agent Lightning引入了Training-Agent解耦架構實現強化學習訓練與 Agent 執行的清晰分離。該架構通過 Lightning Server 和 Lightning Client 實現,兩者共同提供適用于任何 Agent 的標準化模型訓練服務。Lightning Client 作為 Agent 運行時,透明地管理 Agent 執行并收集軌跡,無需進行代碼修改。該設計使可觀察性基礎設施在訓練場景中得以復用,確保了可擴展性(extensibility)、可伸縮性(scalability)和與各種 Agent 框架的無縫集成。

Agent Lightning:

訓練任意AI Agent

在真實世界中,AI Agent的運行邏輯極為復雜,絕非簡單的一問一答模式。

它們常常需要多輪交互,像人類對話一樣循序漸進推進任務,通過調用外部工具或API,與外部系統交互獲取更多信息,依據環境反饋和當前狀態靈活做出動態決策,甚至在復雜場景中,多個Agent需協同合作完成任務。

但現有強化學習訓練框架,往往將強化學習訓練過程與Agent的具體執行邏輯緊密捆綁,導致一系列問題,嚴重阻礙了強化學習在AI Agent大規模訓練和部署中的應用。

例如:

  • 耦合度高:若想利用強化學習訓練一個已有的Agent,開發者往往不得不對 Agent 代碼進行大規模修改,甚至重構,開發成本巨大;
  • 擴展性差:針對特定任務設計的強化學習方法,很難直接遷移到其他類型的Agent;
  • 數據利用率低:Agent在真實環境中產生的豐富交互數據,因與強化學習訓練框架不兼容而難以被有效利用;
  • 多輪交互生成的上下文序列過于冗長:增加了LLM計算和內存開銷。

微軟此次提出的Agent Lightning框架的核心創新點,在于實現了AI Agent執行與強化學習訓練之間的徹底解耦。二者可獨立運作,又能進行信息交換。

Agent Lightning概述

除了上述提到的完全解耦和統一數據接口之外,Lightning RL也是該研究的主要亮點之一。

LightningRL是微軟為利用收集到的轉換數據優化策略LLM,而提出的專為Agent訓練設計的分層強化學習算法。

LightningRL示意圖

該算法包含信用分配模塊,能夠將任何Agent生成的軌跡分解為訓練所需的轉換數據,從而使強化學習能夠處理復雜的交互邏輯,如多Agent場景和動態工作流。

在信用分配過程中,高層信用分配首先將整個任務的最終獎勵合理分配到任務執行過程中的每一步驟,例如在最簡單實現中,可讓每一次調用的獎勵都等于最終獎勵。

經過高層信用分配后,低層策略更新將每一次LLM調用(input、output、reward)轉化為一個獨立的單次調用強化學習問題。

此時可直接套用任何現成的、成熟的單次調用強化學習算法(如PPO、DPO或GRPO),來更新模型參數。

這種設計不僅具備靈活性和復用性,可直接利用社區中SOTA單次調用強化學習算法,還從根本上解決了因上下文累積導致的序列過長問題,避免了復雜易錯的掩碼操作。

Agent Lightning將計算密集型的LLM生成與傳統編程語言編寫、輕量級但多樣化且靈活的應用邏輯和工具分離。

在系統設計方面,Agent Lightning引入了Training-Agent解耦架構,構建了一個適用于任意Agent的標準化訓練服務。

該架構由Agent Lightning Server和Agent Lightning Client組成。

Training-Agent解耦架構

Agent Lightning Server:作為強化學習訓練系統的大腦,承擔著管理訓練流程的重任,并通過類OpenAI API向客戶端暴露更新后的模型。它負責運行強化學習訓練算法、分配GPU資源、管理模型版本等一系列復雜且計算密集型的任務。

Agent Lightning Client:包含兩個功能模塊:一個模塊負責與服務器通信,實現數據傳輸與接收;另一個模塊運行Agent并執行數據收集,充當Agent的運行時環境。

得益于統一數據接口,Agent運行時能夠將OpenTelemetry等全面的可觀測性框架集成到訓練過程中,用于軌跡收集。

這一機制將監控基礎設施與強化學習訓練連接起來,使優化算法能夠利用豐富的系統監控數據,從而構建更具可擴展性與靈活性的訓練基礎。

這種前后端分離式的架構設計,徹底將Agent開發者從復雜的強化學習系統配置中解放出來,讓他們得以專注于Agent本身的邏輯和創意,極大降低了AI Agent進化的門檻。

實驗結果

研究團隊在多個任務上對Agent Lightning框架進行了實驗驗證,涵蓋Text-to-SQL、開放域問答、數學問答等。

在這些實驗中,Agent Lightning均展示出穩定且持續的性能提升。

實驗中任務和設置的總結

通過LangChain實現Text-to-SQL

第一個任務采用LangChain實現,設計為多Agent系統架構。

系統包含三個Agent,工作流程如下:

SQL writing agent首先會生成SQL查詢語句并執行。

若查詢正確,SQL executor會返回數據庫信息;若出錯,則返回錯誤提示。

隨后,checking agent評估SQL查詢的正確性及檢索信息的有效性和完整性,并決定是重寫查詢還是直接生成答案。

若需重寫,re-writing agent將根據checking agent的反饋修改查詢語句;若無需重寫,該agent同時承擔問答任務,利用檢索到的信息和問題生成最終答案。

在此工作流程中,SQL寫入(writing)、校驗(checking)和重寫(re-writing)均由同一LLM完成,但針對不同任務定制了專屬提示,從而實現三個Agent協同運作。

在訓練過程中,研究團隊只對其中兩個進行了優化,即SQL writing agent和re-writing Agent,這兩個agent是同步進行優化的,說明Agent Lightning 可以在多Agent系統中選擇性地對一個或多個Agent進行優化。

如圖,Agent Lightning能夠穩定地提高獎勵,展示了其優化涉及代碼生成和工具使用的復雜多步決策的能力。

Text-to-SQL任務的獎勵曲線

通過OpenAI Agent SDK實現檢索增強生成

第二個任務是典型的檢索增強生成(RAG)任務。

給定一個問題和文檔數據庫,Agent首先會生成自然語言查詢,通過現有檢索工具獲取支持性文檔。

該Agent是使用OpenAI Agent SDK實現的。與之前的Text-to-SQL任務相比,這里的Agent工作流程類似但更簡單。

策略LLM需要先生成查詢請求,然后根據檢索到的文檔決定是優化查詢還是直接生成答案。

該圖展示了Agent Lightning在這一具有挑戰性的任務上實現了穩定的性能提升,證明了其在更復雜和開放式RAG場景中的有效性。

通過AutoGen實現數學問答與工具使用

第三個任務是數學類問答任務,旨在評估Agent調用工具(具體指計算器)解決算術和符號問題的能力。

最終的獎勵取決于Agent是否正確回答了問題,模型的性能也通過測試集上的答案準確度進行評估。

如圖,Agent Lightning在訓練過程中持續提高了性能。這證明了它在工具增強設置中的有效性,即需要精確的外部函數調用和推理。

未來方向:推動Agent能力迭代升級

在論文的最后,研究團隊也探討了未來的工作方向。

首先,除了強化學習外,Agent Lightning建模框架還很好地支持其他優化方法,如自動prompt優化。

關注關鍵組件及其調用是Agent優化的主要方法,而不僅僅局限于基于強化學習的方法。

為此,團隊提出了Component of Interest(CoI)的概念,用于指定執行軌跡中受優化影響的組件子集。

例如,prompt模板渲染可視為工具調用,通過將該工具視為CoI,Agent Lightning可支持prompt優化方法。

這種統一且可擴展的數據結構支持對Agent行為進行全面的下游優化與分析。

其次,研究團隊認為,開發更高效的強化學習算法是解決復雜Agent場景下模型優化的關鍵,包括但不限于長程信用分配、探索算法、off-policy算法等。

Agent Lightning通過過渡來建模和組織數據,使集成額外算法更加方便。

此外,支持LLM的強化學習基礎設施持續演進,為與基于Agent的強化學習框架的協同開發提供了重大機會。

一個有前景的方向是進一步分解系統組件,即將訓練器、推斷引擎和Agent工作流程分離,以解決推斷瓶頸并提升大規模強化學習訓練的可擴展性。

探索此類架構改進可帶來更高效且靈活的強化學習管道。

此外,針對長程任務的優化將受益于強化學習算法與系統設計協同創新,從而實現復雜Agent更高效的訓練。

最后,在LLM高效服務方面,研究團隊建議采用更適合LLM的抽象方法,可以優化資源利用率和響應時間。

此外,通過優化服務環境和工具的資源調度,還能進一步簡化操作流程,提高在多樣化部署場景中的擴展能力。

隨著Agent Lightning框架解決了強化學習與Agent耦合的難題,強化學習有望成為Agent訓練的標配。

同時,Agent在真實世界中產生的海量交互數據,將不再被閑置浪費。

Agent Lightning的統一數據接口,能夠高效地將這些數據用于強化學習訓練,推動Agent能力迭代升級。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-08-22 09:56:18

2024-09-30 14:40:00

AI強化學習框架

2024-01-30 09:00:28

框架BMRL模型

2018-08-29 08:13:22

Google 學習框架技術

2025-09-11 06:57:11

2020-08-10 06:36:21

強化學習代碼深度學習

2025-08-21 09:10:00

2025-04-25 13:34:53

R1DeepSeekAgent

2025-08-18 03:00:00

AI智能體微軟

2025-02-17 10:36:00

微軟開源模型

2025-01-08 15:15:16

2025-11-18 08:00:00

2025-05-30 14:59:36

GoogleAgent2AI

2020-06-05 08:09:01

Python強化學習框架

2025-07-24 09:05:00

2024-12-09 08:45:00

模型AI

2020-11-12 19:31:41

強化學習人工智能機器學習

2023-03-09 08:00:00

強化學習機器學習圍棋

2025-05-15 09:04:00

2020-11-16 08:54:05

Google 開源技術
點贊
收藏

51CTO技術棧公眾號

蜜臀久久99精品久久久久宅男 | 色综合久久九月婷婷色综合| 欧美日韩在线一区二区三区| 中文字幕在线观看视频一区| 国产网站在线免费观看| 国产成人在线色| 日本不卡高字幕在线2019| 婷婷丁香综合网| 久久久久97| 欧美精品第1页| 大j8黑人w巨大888a片| 天天在线视频色| av电影一区二区| 国产精品久久久久久亚洲影视| 精品国产一二区| 亚洲天堂一区二区| 一级中文字幕一区二区| 五月天丁香综合久久国产 | 九九热线视频只有这里最精品| 亚洲三级小视频| 国产精品久久视频| 国产福利久久久| 欧美激情成人| 亚洲精品在线视频| 在线播放av网址| 97精品资源在线观看| 色哟哟精品一区| 九一国产精品视频| 黄色aaa毛片| 精品一区二区三区蜜桃| 久久夜色精品国产欧美乱| 国产熟妇搡bbbb搡bbbb| 精品自拍偷拍| 精品美女在线播放| aaa一级黄色片| 成人在线视频免费| 一区二区在线观看av| 亚洲欧美99| 国产一区二区三区福利| 久久综合九色综合97婷婷| 91麻豆国产精品| 一级黄色免费看| 蜜臀91精品一区二区三区| 国产91在线播放精品91| 一级成人黄色片| 不卡一区综合视频| 欧美精品久久久久久久多人混战 | 精品久久久久久久久久久久久久久久| 久操成人av| 亚洲精品国产精品自产a区红杏吧 亚洲精品国产精品乱码不99按摩 亚洲精品国产精品久久清纯直播 亚洲精品国产精品国自产在线 | 五月天免费网站| 精品免费在线| 亚洲一二在线观看| 国产精品理论在线| 色综合久久网| 精品精品国产国产自在线| 欧美a在线播放| 色中色综合网| 久久视频精品在线| 青娱乐国产在线| 欧美日韩专区| 91极品视频在线| av资源免费观看| 天堂av在线一区| 国产精品永久在线| 99热这里只有精品在线| 在线亚洲激情| 青青a在线精品免费观看| 亚洲av无码精品一区二区| 日韩av中文字幕一区二区| 国产色视频一区| 午夜久久久久久久久久| 玖玖视频精品| 国产精品视频一区二区三区四| 亚洲一区二区人妻| 中文欧美日韩| 国产精品99导航| 亚洲怡红院av| 高清不卡一区二区| 欧美一区二区三区在线播放 | 欧美交换国产一区内射| 亚洲久久一区| 精品中文字幕在线| 日韩精品一区二区不卡| 久久精品天堂| 91丝袜美腿美女视频网站| 午夜精品在线播放| 国产无人区一区二区三区| 麻豆md0077饥渴少妇| segui88久久综合9999| 自拍偷拍欧美激情| 色一情一区二区三区四区| 精品麻豆一区二区三区| 黄色一区二区三区| 日韩av.com| 日韩高清成人在线| 日韩精品一区二区三区视频播放| 国产福利影院在线观看| 日韩精品一区二区三区中文字幕| 亚洲精品美女视频| 青青操在线视频观看| 欧美色网址大全| 欧美大秀在线观看| 欧美日韩 一区二区三区| 懂色av噜噜一区二区三区av| 日韩欧美亚洲区| 免费电影网站在线视频观看福利| 欧美自拍丝袜亚洲| 成人性视频欧美一区二区三区| 中文在线最新版地址| 欧美日韩成人高清| 在线免费观看麻豆| 尹人成人综合网| 91精品免费久久久久久久久| 日本高清中文字幕二区在线| 一级精品视频在线观看宜春院| 中文字幕第21页| 日韩欧美影院| 久久久久中文字幕2018| 国产精品色综合| 国产欧美日韩精品在线| 日韩av综合在线观看| 一区二区精彩视频| 亚洲电影在线观看| 国产精品白丝喷水在线观看| 青青草国产精品亚洲专区无| 免费成人深夜夜行视频| gratisvideos另类灌满| 91精品国产综合久久久久久久| 国产精品av久久久久久无| 国产一区二区精品| 国产在线精品一区| a级片在线免费观看| 欧美zozozo| 免费又黄又爽又色的视频| 精品一区二区三区在线播放| 亚洲精品一区二| 播放一区二区| 深夜成人在线观看| 在线视频你懂得| 亚洲国产精品激情在线观看| 人人爽人人av| 日韩精品一区二区久久| 国产精品国产自产拍高清av水多 | 国产精品福利电影| 成人欧美一区二区三区1314| 在线看免费毛片| 91超碰成人| 91九色对白| 国产高清在线a视频大全| 精品国产免费一区二区三区香蕉| 久久精品亚洲无码| www.激情成人| 欧美精品第三页| 国产亚洲一区二区三区不卡| 久久国产精品免费视频| 国产av精国产传媒| 一二三四社区欧美黄| 成年女人免费视频| 国产精品视频久久一区| 欧美视频1区| 国产精品天堂蜜av在线播放| 美女久久久久久久久久久| www.com欧美| 欧美日韩精品在线| 免费看污片的网站| 精品一区二区免费| 日本人妻伦在线中文字幕| 久久男人av| 国产成人精品久久亚洲高清不卡| jyzzz在线观看视频| 3d动漫精品啪啪1区2区免费| 久久久久亚洲av成人片| 91蜜桃视频在线| 亚洲一级免费在线观看| 欧美日韩国产免费观看| 精品福利影视| 亚洲一区二区av| 久久久久久成人| 国产三级在线免费| 91精品国产综合久久香蕉的特点| 日本午夜精品理论片a级app发布| 久久久久一区二区三区四区| 亚洲制服中文字幕| 亚洲精品黄色| 亚洲日本精品国产第一区| 色妞ww精品视频7777| 欧美中文在线观看国产| 9191在线观看| 欧美怡红院视频| 欧美成人精品欧美一| 极品少妇xxxx偷拍精品少妇| 国产精彩视频一区二区| 不卡中文字幕| 极品尤物一区二区三区| 婷婷成人av| 欧洲美女7788成人免费视频| www.久久久久.com| 欧美羞羞免费网站| 久久免费播放视频| 中文字幕精品在线不卡| 黄色性视频网站| 久久aⅴ国产欧美74aaa| 97xxxxx| 欧美日韩少妇| 欧美日韩五月天| 青娱乐国产精品视频| 美女日韩在线中文字幕| 欧美精品卡一卡二| 91av精品| 亚洲一区二区精品在线| 国产精品日韩精品中文字幕| 国产一区二区三区四区hd| 成人在线精品| 国产精品激情自拍| 欧美片第一页| 欧美性资源免费| www.超碰在线| 欧美激情三级免费| av色综合久久天堂av色综合在| 一本色道久久88精品综合| 天堂在线中文资源| 亚洲成人av资源网| 亚洲欧美另类视频| 日韩手机在线导航| 国产女人18毛片18精品| 欧美人xxxx| 91国产免费视频| 在线免费不卡视频| 亚洲精品久久久久久久蜜桃| 欧美视频13p| www.国产一区二区| 欧美日韩免费一区| 国产精品一区二区三区四| 亚洲成av人综合在线观看| 久久久综合久久久| 夜夜嗨av一区二区三区四季av| 五月婷婷一区二区| 亚洲激情在线激情| 久久久精品国产sm调教| 亚洲国产欧美另类丝袜| 国产精品第108页| 亚洲成人激情自拍| 久久草视频在线| 久久久亚洲欧洲日产国码αv| 久久久久麻豆v国产精华液好用吗| 丝袜亚洲另类丝袜在线| 麻豆av免费在线| 日韩福利视频导航| 国产小视频精品| 久久er99热精品一区二区| 中文字幕一区二区在线观看视频 | 国产清纯白嫩初高中在线观看性色| 国产高清不卡一区| 人妻换人妻a片爽麻豆| 99久久久免费精品国产一区二区| aaaaa一级片| 日本一区二区三区免费乱视频 | 成人性生交xxxxx网站| 麻豆国产一区| 国产精品午夜av在线| 欧亚精品一区| 亚洲成人自拍视频| 自由日本语亚洲人高潮| 成人免费观看cn| 久久只有精品| 国产美女视频免费看| av亚洲产国偷v产偷v自拍| 欧美黄色一级生活片| 成人免费一区二区三区视频| 久久精品国产亚洲av无码娇色| 色综合咪咪久久| av av片在线看| 日韩www在线| 日本最黄一级片免费在线| 久久久久久久影院| 国产另类xxxxhd高清| 91视频免费在线观看| 岳的好大精品一区二区三区| 在线视频一区观看| 亚洲激情在线| 亚洲综合av在线播放| av电影在线观看一区| 日本黄区免费视频观看| 亚洲成人精品一区| 国产一区二区在线视频聊天| 日韩精品www| 成年人网站在线| 日韩美女主播视频| 亚洲成人黄色| 日韩av电影免费观看| 欧美三级免费| jizzzz日本| 91首页免费视频| 九九热国产在线| 欧美丝袜自拍制服另类| 色欲久久久天天天综合网| 日韩视频一区在线| sese一区| 91精品国产九九九久久久亚洲| 免费成人黄色网| 精品视频一区二区| 欧美日韩福利| 午夜剧场在线免费观看| 久久综合久久综合久久综合| 九九视频免费在线观看| 欧美日韩mp4| 国产黄色免费在线观看| 国内精品久久久久久久| 欧美2区3区4区| 永久久久久久| 蜜桃av一区二区三区电影| 一区二区三区少妇| 国产夜色精品一区二区av| 久久综合成人网| 欧美精品乱码久久久久久| 岛国大片在线观看| 欧美在线视频a| 秋霞综合在线视频| 国产一线二线三线女| 国产福利电影一区二区三区| 国产黄色录像片| 欧美裸体一区二区三区| 91青青在线视频| 国产精品亚洲视频在线观看| 欧美综合在线视频观看| 波多野结衣作品集| 久久久久久久久久久久久女国产乱| 国产成人无码精品久在线观看| 日韩精品一区二区三区视频播放 | 91视频综合网| 欧美高清视频www夜色资源网| 在线免费看黄| 国产日韩欧美成人| 97精品国产| 免费av不卡在线| 亚洲六月丁香色婷婷综合久久 | 中文字幕亚洲欧美日韩高清| 免费av网站在线看| 久久久久久18| ady日本映画久久精品一区二区| 美女亚洲精品| 亚洲在线黄色| 中文字幕一区二区人妻在线不卡| 岛国av在线不卡| 欧美日韩影视| 美女av一区二区| 亚洲乱码一区| 成人网站免费观看入口| 99久久婷婷国产综合精品电影 | 欧美美女一区二区在线观看| 秋霞影院午夜丰满少妇在线视频| 成人a视频在线观看| 亚洲精品二区三区| 18禁一区二区三区| 亚洲福中文字幕伊人影院| 天堂中文在线看| 国产91精品在线播放| 成人羞羞视频在线看网址| 久久精品国产99久久99久久久| 亚洲黄色尤物视频| 亚洲av毛片成人精品| 日韩免费观看在线观看| 小小影院久久| 又黄又色的网站| 色老汉一区二区三区| 欧美日韩在线看片| 福利精品视频| 久久青草久久| 在线日韩国产网站| 亚洲大胆美女视频| 在线观看精品| 亚洲精品偷拍视频| 99久久er热在这里只有精品15| 亚洲少妇xxx| 精品电影一区二区三区| 欧美xxx视频| 日韩视频在线免费播放| 成人黄色av电影| 中文字幕777| 久久久久久九九九| 日韩高清欧美| www日本在线观看| 在线亚洲高清视频| 97超碰在线公开在线看免费| 久久久久久久免费| 亚洲高清成人| 调教驯服丰满美艳麻麻在线视频 | 国产精品一区二区久久精品| 欧美一区激情| 国产精品天天干| 日韩欧美一级二级| 台湾佬成人网| 日韩激情视频一区二区| 欧美韩国日本一区| 日韩永久免费视频| 亚洲一区久久久| 全部av―极品视觉盛宴亚洲| 强行糟蹋人妻hd中文| 亚洲最新视频在线|