交互擴展時代來臨：創智復旦字節重磅發布AgentGym-RL，昇騰加持，開創智能體訓練新范式

2025-09-11 13:46:59

復旦、創智、字節的研究者們基于智能體自我進化框架 AgentGym，全新打造了多環境強化學習智能體訓練框架 AgentGym-RL。

強化學習之父、2024 年 ACM 圖靈獎得主 Richard Sutton 曾指出，人工智能正在邁入「經驗時代」—— 在這個時代，真正的智能不再僅僅依賴大量標注數據的監督學習，而是來源于在真實環境中主動探索、不斷積累經驗的能力。正如人類通過實踐理解世界、優化行為一樣，智能體也必須在交互中積累經驗、改進策略，才能掌握長期決策的能力。

無獨有偶，特斯拉前 AI 負責人，OpenAI 聯合創始人 Andrej Karpathy 進一步指出，環境的多樣性與真實性，是智能體獲得泛化能力、應對復雜任務的關鍵前提。缺乏豐富的環境，智能體就無法充分暴露于多樣化情境，也難以從經驗中形成穩健的決策策略。

在這一背景下，復旦、創智、字節的研究者們基于智能體自我進化框架 AgentGym，全新打造了多環境強化學習智能體訓練框架 AgentGym-RL。

本文的第一作者為復旦大學自然語言處理實驗室博士生奚志恒，通訊作者為復旦大學自然語言處理實驗室的桂韜教授和張奇教授。

這一框架是首個無需監督微調、具備統一端到端架構、支持交互式多輪訓練，且在多類真實場景中驗證有效的 LLM 智能體強化學習框架，為 LLM 智能體的強化學習提供了全新的解決方案。

依托 AgentGym-RL 框架，研究人員創新性地提出了智能體范式下擴展測試時計算的新路徑 —— 擴展環境交互（Scaling Interaction）。其核心是通過增加訓練與測試階段模型和外部環境的交互回合數，讓模型借助多輪反饋逐步完善決策、提升表現。

相較于傳統測試時擴展方法，新路徑優勢顯著：傳統方法局限于模型內部，僅靠延長思維鏈消耗更多 Token，缺乏與外部環境的實時互動，難以應對復雜任務的動態場景需求；而擴展交互輪次突破了這種封閉式推理，允許模型依據每輪反饋動態修正策略，最終以更結構化的決策流程、更高效率的問題解決路徑完成任務，成為智能體范式下表現更優的測試時擴展方案。

然而，長交互輪次訓練面臨著容易出現崩潰的問題。針對這一痛點，研究團隊再次突破，提出了 ScalingInter RL 交互輪次擴展策略，通過分階段增加模型最長交互輪次限制，使智能體能夠先在短交互輪次下掌握基礎技能，再逐步過渡到中長交互輪次解決復雜任務，平衡了智能體訓練過程中的探索與利用，有效規避了模型崩潰的風險，成功構建了穩定的交互輪次擴展訓練范式。

借助 AgentGym-RL 這一統一框架，結合 ScalingInter-RL 算法的穩定擴展能力，研究團隊取得了令人矚目的成果：

僅僅是 7B 大小的模型，在多個真實任務導向的環境中經過長輪次交互訓練后，竟逐步掌握了理解任務目標、預測行動后果、規劃多步操作等復雜任務處理技能。從自主瀏覽界面、精準篩選選項，到對比參數、執行操作，整個過程流暢高效，展現出前所未有的自主決策水平。在五種測試環境、26 項測試任務中，它不僅超越了 100B 以上的大型開源模型，還追平了 OpenAI o3、谷歌 Gemini 2.5 Pro、DeepSeek r1 等頂尖商業模型的水平，充分彰顯出 AgentGym-RL 框架與交互輪次擴展范式的強大潛力與競爭力，也為人工智能在「經驗時代」的發展注入了強勁動力。

商業模型、開源模型以及本文強化學習模型在不同智能體任務中的表現。

從網頁導航到科學實驗，從文字游戲到實體交互，這套兼容 PPO、GRPO 等主流算法的模塊化框架，正為開源社區推開自主智能體研發的全新大門。

論文標題：AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning
論文地址：https://arxiv.org/abs/2509.08755
項目主頁：https://agentgym-rl.github.io
代碼地址：https://github.com/WooooDyy/AgentGym-RL
環境框架地址：https://github.com/WooooDyy/AgentGym

研究背景：從「數據密集」到「經驗密集」

構建能夠在復雜現實場景中完成多輪決策的自主 LLM 智能體，是人工智能領域一個新興且快速發展的前沿方向。

Sutton 曾強調，人工智能的發展正從「數據密集型」向「經驗密集型」轉型：早期模型依賴海量標注數據進行監督學習，如同通過教科書間接獲取知識；而真正的智能體應當像人類一樣，在真實環境中通過「做中學」積累經驗，在持續交互中理解環境規則、預測行動后果、優化長期目標。

而在這一過程中，構建真實、多樣、貼合現實需求的交互環境則成為了強化學習的重中之重。真實的環境是智能體獲得有效經驗的基礎，只有還原場景中的動態變化與不確定因素，才能避免智能體陷入「實驗室表現優異、落地即失效」的困境；環境的多樣化是智能體具備泛化能力的前提，只有覆蓋多類型任務場景的交互邏輯，才能讓智能體在新場景中快速遷移已有經驗。

然而，當前大多數現有研究局限于單輪任務，缺乏與復雜環境的多輪交互機制。雖然最近有研究嘗試擴展 RL 以訓練具有多輪能力的 LLM 智能體，但這些工作仍然存在任務場景單一、環境適配性差、優化穩定性低等問題，使得智能體無法接觸到足夠豐富的環境信息，難以生成和利用第一手經驗，自然難以應對現實世界復雜多變的任務。因此，該領域目前仍然缺乏一個統一的、端到端的、交互式多輪 RL 框架，能夠在廣泛的實際場景和環境中有效地從頭開始訓練 LLM 智能體，而無需依賴監督微調（SFT）作為初步步驟。

為填補這一空白，研究團隊提出了 AgentGym-RL，一個通過強化學習訓練 LLM 智能體進行多輪交互式決策的新框架。該框架的研究工作圍繞著推動智能體高效學習和決策展開，主要有以下貢獻：

提出并開源 AgentGym-RL 框架：這是一個全新的、統一的、模塊化且靈活的端到端 RL 框架，專為智能體多輪交互式決策而設計，包含豐富多樣的場景和環境，讓「從經驗學習」有了標準化的實驗場。
引入 ScalingInter-RL 方法：這是一種基于漸進式交互輪數拓展的強化學習訓練方法，使智能體能夠逐步適應環境，優化其交互模式、行為和技能，最終在探索和利用之間實現更好的平衡。
驗證框架和方法的有效性：通過大量實驗驗證了 AgentGym-RL 和 ScaleInter-RL 能夠顯著且穩定地提升智能體性能，使其在復雜任務處理能力上與頂尖商業模型形成對標甚至實現性能反超。

AgentGym-RL：為經驗時代打造的自主智能體訓練基礎設施

AgentGym-RL 集成了多種環境、豐富的軌跡數據和全面的基準測試，通過標準化環境操作接口，將復雜的環境配置流程簡化為便捷的模塊化操作。該框架以 AgentGym 為基礎進行迭代升級，通過優化模型與環境的交互協議、強化分布式并行計算架構、引入強化學習訓練模塊等方式進行改進。

其核心目標，就是為 LLM 智能體構建一個能夠持續產生「有效經驗」的生態，讓「經驗驅動學習」不再依賴零散的實驗設置，而是具備可復現、可擴展的堅實基礎。

模塊架構

AgentGym-RL 框架主要包含環境、代理和訓練三個組件。

環境模塊中，每個環境打包為獨立服務，支持并行請求，環境客戶端通過 HTTP 連接服務器，向代理暴露如獲取觀測、動作等 API，涵蓋多場景、環境、任務和數據實例，為 LLM 代理訓練提供支持。
代理模塊封裝語言模型代理與環境的交互邏輯，支持多種提示和采樣配置，擴展長期規劃、自我反思等高級機制。
訓練模塊實現支持在線算法的統一強化學習管道，管理經驗收集等，支持課程學習和交互擴展，高度模塊化，支持多訓練方法，訓練過程可分布在多節點。

AgentGym-RL 架構圖：采用解耦化設計，兼具靈活性與可擴展性，能夠支持多種場景、環境類型及算法的應用與適配。

多樣化的環境

AgentGym-RL 框架包含多種環境和豐富的任務，涵蓋了網頁導航、文字游戲、具身控制、科學探索和深度搜索等多個類別 —— 精準對應了語言智能體領域的重要推動者、OpenAI 研究科學家姚順雨所說的「AI 下半場落地場景」，每一類環境都指向真實世界中 AI 需要解決的實際問題。該框架支持主流的 RL 算法，并配備了廣泛的實際場景：

網頁導航：對應 WebArena 等環境，包含電商、Reddit 論壇、GitLab 協作開發、OpenStreetMap 地圖、CMS 內容管理系統等 5 個子任務，共 372 個訓練查詢和 50 個測試查詢。智能體需模擬人類與網頁交互，完成在線購物、信息提取、表單填寫等操作，涉及地圖、計算器等工具的使用。
深度搜索：對應基于搜索引擎的環境，涵蓋 NQ、TriviaQA、PopQA 等 7 個數據集的任務。智能體需通過動態生成搜索查詢、調用瀏覽器和 Python 解釋器等工具，從外部源獲取信息并整合，完成多輪檢索與推理任務。
電子游戲：對應 TextCraft 等環境，這是一種類 Minecraft 的文本制作游戲。任務按制作樹深度分為 1-4 級，智能體需通過自然語言交互使用制作、 inventory 管理等 API，完成從簡單到復雜的物品制作任務。
具身控制：對應 BabyAI 等環境，這是一個可控的網格世界，任務按最終目標分為 6 個子集。智能體需通過自然語言指令導航，執行移動、拾取物體、開門等動作，涉及空間推理和環境交互能力。
科學任務：對應 SciWorld 等環境，選取 8 個子任務。智能體需在模擬的科學場景中，使用實驗室儀器相關 API 進行實驗（如測量溫度、連接電路、混合化學物質），完成科學探索和假設驗證任務。

多種強化學習算法

AgentGym-RL 提供全面的算法支持，涵蓋不同的學習方法，包括監督微調（SFT）、直接偏好優化（DPO）、拒絕采樣和在線 RL 算法等。在線 RL 是 AgentGym-RL 的核心，支持多種主流在線 RL 算法，如近端策略優化（PPO）、組近端策略優化（GRPO）、增強型 REINFORCE（REINFORCE++）和基于回合的策略優化（RLOO）等。

ScalingInter-RL：交互擴展新策略

基于 AgentGym-RL 框架，研究團隊創新性地提出了 ScalingInter-RL 方法，通過擴展智能體在訓練過程中的交互輪數，平衡智能體對環境的探索與利用，顯著提升智能體在復雜環境中的學習和決策能力。

ScalingInter-RL 算法示意圖

ScalingInter-RL 方法的核心在于逐步、動態地擴展智能體與環境的交互輪次。

在訓練的初始階段，智能體的主要任務是快速學習基本技能，解決相對簡單的問題。此時，ScalingInter-RL 會限制交互輪次，引導智能體集中精力利用已有的知識和策略，盡可能高效地完成任務。這種策略就像是為智能體制定了一個循序漸進的學習計劃，讓它在穩固的基礎上逐步成長。

隨著訓練的穩步推進，智能體已經掌握了一定的基礎能力，此時 ScalingInter-RL 會適時地增加交互輪次。這一舉措鼓勵智能體勇敢地探索更多未知的領域，嘗試不同的行動和策略。通過這種方式，智能體能夠避免陷入固定的思維模式和行動路徑，不斷優化自己的行為，從而更好地應對復雜多變的環境。

在實際應用中，這種策略展現出了顯著的優勢。在網頁導航任務中，初始階段，智能體通過有限的交互輪次，迅速掌握了基本的網頁操作技能，如點擊鏈接、填寫表單等。隨著訓練的深入，交互輪次的增加使得智能體能夠更加深入地探索網頁的各種功能和結構，學會了根據不同的任務需求，靈活地調整操作策略，從而更加高效地完成任務。在科學任務中，智能體在初期利用有限的交互學習基本實驗操作，隨著交互輪次的增多，能夠更全面地探索實驗條件和變量之間的關系，優化實驗步驟，提高實驗成功率。

實驗

為了全面驗證 AgentGym-RL 框架的穩定性和有效性，研究團隊開展了一系列廣泛且深入的實驗。這些實驗覆蓋了豐富多樣的場景和環境，旨在模擬智能體在實際應用中可能面臨的各種復雜情況，從而全面、準確地評估智能體的性能。

實驗涵蓋了五個主要場景，包括網頁導航、深度搜索、數字游戲、具身任務和科學任務。

主要結果

在 5 個不同場景（Web 導航、深度搜索、數字游戲、具身任務、科學任務）中，使用 AgentGym-RL 框架訓練的開源模型展現出了出色的多輪交互決策能力。

進一步，通過 ScalingInter-RL 方法的優化，這些模型實現了顯著的性能提升，甚至超越了一些大型商業閉源模型。在網頁導航任務中，ScalingInter-7B 模型的總體準確率達到了 26.00%，大幅超越了 GPT-4o 的 16.00%，與 DeepSeek-R1-0528 和 Gemini-2.5-Pro 的表現相當；在科學場景中，ScalingInter-7B 模型以 57.00% 的總體得分創下新的最優成績，遠超所有開源和專有模型，包括排名第二的專有模型 OpenAI o3（41.50%）。

因篇幅所限，此處僅展示部分實驗結果，更多詳細結果請查閱論文。實驗結果表明，經 ScalingInter-RL 算法訓練的模型在多個環境中均達到了領先水平，實現了顯著的性能提升。

在 WebArena 環境下的實驗結果。

在 SciWorld 環境下的實驗結果。

ScalingInter-RL 展現更穩定高效的強化學習優化動態

ScalingInter-RL 方法在訓練穩定性與效率上顯著優于傳統方案。實驗表明，訓練周期內，采用該方法的智能體獎勵值始終保持上升趨勢，而固定輪次模型 150 步后獎勵值衰減 32%。這種穩定性源于其漸進式交互設計 —— 通過動態調整交互深度，使智能體在技能積累階段避免因探索過度導致的策略震蕩，在優化階段又能保持足夠的行為多樣性。

效率方面，ScalingInter-RL 方法同樣提升顯著。TextCraft 任務中，ScalingInter-RL 以傳統方法 60% 步數達成 89% 成功率；WebArena 導航任務里，單位計算量性能增益是 PPO 算法 1.8 倍，適合大規模多場景訓練。

ScalingInter-RL和傳統RL算法的訓練動態對比

后訓練與測試時計算量比模型規模具有更高的縮放潛力

實驗得出一個關鍵見解：有策略地投入后訓練計算和測試時計算，比僅僅增加模型的參數數量更具影響力。7B 參數的 ScalingInter-RL 模型在經過本文研究者的強化學習框架訓練后，不僅超過了其他同等規模的開源模型，還顯著優于參數規模近其十倍的更大模型。

這表明，針對性的訓練與推理計算投資，比單純擴大模型參數更具性價比。

本文框架和方法通過后訓練，顯著提升了7B參數規模開源模型的能力，不僅超過了其他同等規模的開源模型，且顯著優于參數規模近其十倍的更大模型。

環境結構是決定強化學習效率的關鍵因素

不同場景的結構特性對 RL 訓練效果產生顯著分化影響。在規則明確、反饋清晰的環境（如 TextCraft、BabyAI、SciWorld）中，RL 能帶來大幅性能提升；而在開放式環境（如 WebArena、SearchQA）中，性能提升則有限。

這表明，環境的規則明確性、狀態可觀測性和獎勵稀疏度，共同構成了 RL 算法效率的邊界條件 —— 當環境復雜度超出智能體的狀態表征能力時，即使最優訓練策略也難以發揮作用。

討論

研究團隊從三個角度調查了智能體表現如何隨推理時計算增加：

擴展交互輪次：隨著推理時交互輪次的增加，所有模型的性能均呈現上升趨勢，其中經 AgentGym-RL 訓練的智能體始終保持領先優勢，驗證了交互擴展對環境探索的重要性。

隨著測試時交互輪次的增加，所有模型的性能均呈現上升趨勢。

擴展采樣數量：在并行采樣方面，增加采樣數量（K 值）能顯著提升 Pass@K 指標，且經 RL 訓練的模型在相同采樣預算下表現更優。

隨著采樣數量的增加，所有模型的性能均呈上升趨勢。

不同 RL 算法比較：對比 GRPO 與 REINFORCE++ 兩種主流 RL 算法發現，GRPO 在 TextCraft、BabyAI 和 SearchQA 任務上均顯著優于 REINFORCE++。即使 3B 參數的 GRPO 模型，其性能也超過 7B 參數的 REINFORCE++ 模型，表明算法選擇對性能的影響可能大于模型規模。

模型在不同強化學習算法下的測試結果

真實交互示例

不妨聚焦這些真實交互場景 —— 在以 BabyAI 為代表的具身任務中，該研究中的智能體展現出了卓越性能。以「找到黃色小球并帶回起點」這一任務為例，其不僅要求智能體具備基礎的路徑規劃與避障能力，還涉及更為復雜的長程依賴與順序規劃邏輯。跨步驟的信息利用能力、動態化的探索策略，以及對多階段任務的全局把控能力，使得該任務的難度遠超單一反應類操作。

而基于 AgentGym-RL 框架、經 ScalingInter 算法訓練的智能體，正是在這類高難度場景中展現出了令人矚目的表現。它不僅能精準理解任務核心目標，還能在多扇彩色門與未知房間構成的復雜環境中，開展有條理的探索活動，合理規劃行動順序；當確認某一區域無探索價值后，更能主動離開并轉向新的探索路徑。尤為難得的是，它能高效利用已獲取的環境信息，將分散在不同時間節點的觀察結果串聯起來，構建連貫的決策鏈路。正是這種跨步驟的信息整合能力與動態調整機制，讓它在復雜環境中始終保持清晰且高效的任務執行能力。

而在以 WebArena 環境為代表的真實網頁交互場景中，智能體需要面對充斥著大量噪音的網頁界面，真正的功能入口往往被隱藏在層層標簽頁和復雜的交互邏輯之下。若缺乏對頁面結構的理解，智能體很容易陷入低效的窮舉式搜索。然而，基于 AgentGym-RL 框架、經 ScalingInter 算法訓練后，智能體能夠主動點擊「Sales」標簽頁，精準鎖定與任務相關的入口，并進一步利用內置的「Filter」功能進行篩選，而不是依賴低效的遍歷查看。這一系列操作表明它已經掌握了網頁的結構與規則，并能基于探索經驗選擇更高效的策略，從而顯著提升任務的準確性與執行效率。

結論與展望：以經驗學習開啟 AI 下半場的自主智能體時代

AgentGym-RL 框架的推出，不僅是自主 LLM 智能體訓練領域的一次技術突破，更標志著 AI 行業向「經驗時代」的深度邁進。

從技術層面看，AgentGym-RL 通過統一的端到端 RL 框架，解決了自主智能體訓練中「場景單一、算法割裂、效率低下」的痛點，讓「從經驗中學習」成為標準化、可復現的技術路徑；而 ScalingInter-RL 方法則通過漸進式交互輪次擴展，平衡了經驗探索與利用的關系，讓智能體能夠像人類一樣「循序漸進積累能力」。實驗數據充分證明了這一方案的價值：7B 參數的開源模型在 26 項任務中對標甚至超越頂級閉源模型，為 AI 下半場的技術發展提供了新范式。

然而，探索的道路永無止境。未來，本文研究者們將重點關注以下三個方向：

1. 通用能力升級：使智能體打破「領域壁壘」，在全新環境和面對未知工具時仍能進行高效決策；

2. 復雜場景拓展：向更長周期、更貼近物理世界的任務拓展，例如機器人操作、現實場景規劃等，以應對更豐富的感官輸入和龐大的行動空間；

3. 多智能體協同：從「單打獨斗」轉向「團隊協作」，探索多智能體系統的訓練模式，以解鎖更復雜的群體決策能力。

AgentGym-RL 框架已全面開源，期待與全球研究者攜手，共同推動下一代智能體的發展，讓人工智能在現實世界中展現出更卓越的「行動力」！

本研究得到了華為昇騰 AI 處理器的算力支持。在昇騰和開源社區的努力下，諸多大模型訓練框架均已支持昇騰 AI 處理器。此外，昇騰聯合 vllm 社區推出了 vllm-ascend 框架，極大提升了百億乃至千億級參數量的大模型在國產算力上的推理效率。在本研究中，昇騰 910B NPU 在多個實驗階段中發揮作用，提高了研究效率。

責任編輯：張燕妮來源：機器之心

AI 智能體訓練