開啟RL Scaling新紀元，siiRL開源：完全分布式強化學習框架，支持超千卡規模高效訓練

2025-07-30 09:12:00

來自上海創智學院的研究團隊正式推出 siiRL，一個支持大規模高效強化學習訓練的 RL 框架！

還在為強化學習（RL）框架的擴展性瓶頸和效率低下而煩惱嗎？當模型和集群規模達到上千塊 GPU 時，傳統的中心化控制器架構難免會遇到性能瓶頸、內存溢出甚至系統崩潰。

事實上，當前最頂尖的基礎模型，從 DeepSeek-R1，到 o3-pro， Gemini 2.5-pro 和 Claude-4，其卓越的推理能力都離不開大規模強化學習的加持。這充分表明，RL Scaling 已經成為大模型領域邁向更高智能的 “軍備競賽” 核心，是大勢所趨。而 xAI 最近發布的 Grok 4，更是將這一趨勢推向了新的高度，他們直接在其擁有的 200,000 塊 GPU 大集群上，以前所未有的 “后訓練規模” 來運行強化學習，旨在精進模型的推理能力。

Grok 4 和其他頂尖推理模型的成功共同揭示了一個明確的事實：解決強化學習的擴展性瓶頸，已不再僅僅是一個工程挑戰，而是解鎖下一代 AI 高級推理能力、實現更強通用智能的關鍵所在。因此，對 RL Scaling 的投入和研究，是未來 AI 發展的重要方向和核心戰略。

現在，來自上海創智學院的研究團隊正式推出 siiRL，一個支持大規模高效強化學習訓練的 RL 框架！

siiRL 的核心在于其創新的多控制器范式和全分布式架構，它將數據加載、計算和數據流轉等任務均勻地分散到所有工作節點，從根本上解決了傳統 RL 框架中由單一控制器引發的性能瓶頸。

線性擴展：全分布式架構帶來近乎線性的擴展能力，已在 1024 GPU 規模下成功驗證。
性能再飛躍：徹底消除單點瓶頸，實現最高達到 7 倍的端到端訓練吞吐提升。
極致靈活：基于 DAG 的工作流定義，將算法邏輯與物理資源解耦，讓算法創新和實驗迭代快如閃電，并且能夠更靈活的支持多智能體協同訓練。
跨硬件平臺兼容：siiRL 現已正式支持華為昇騰（Ascend）NPU，為用戶提供在不同的硬件平臺上進行 RL 訓練的高性能選擇。
開箱即用：全面開源，輕松部署。

論文鏈接: https://arxiv.org/abs/2507.13833
代碼鏈接： https://github.com/sii-research/siiRL

傳統 RL 框架為何遭遇瓶頸？

解構單控制器之痛

圖 1：傳統單控制器架構瓶頸。所有數據操作（初始加載、中間數據流轉）都需經過中心控制器，導致嚴重的通信開銷和擴展限制。

在主流的強化學習框架中，系統通常采用一種混合或單一控制器架構，即由一個中心化的控制器節點來調度整個執行邏輯和管理數據流。無論是初始的數據集加載，還是各計算階段間海量中間數據的收集與分發，所有數據都必須流經這個中心節點。

這種設計在小規模下尚可運行，但一旦擴展到數百乃至上千 GPU，該中心節點就會因巨大的 I/O 和通信開銷而成為系統的性能瓶頸。更糟糕的是，海量數據很容易壓垮中心節點的內存，導致系統崩潰（OOM），從根本上限制了系統的可擴展性和穩定性。此外，固化的算法流程也大大增加了研究者進行算法創新的難度。

siiRL 的高效秘訣：全分布式架構

為了徹底解決上述痛點， siiRL 創新性地采用了全分布式架構和多控制器范式，移除了中心節點，將數據與計算的調度權下放到每一個工作單元。

圖 2：siiRL 架構概覽

siiRL 的整體設計包含三大核心組件：

a. DAG Planner (DAG 規劃器)：用戶可以通過配置文件靈活定義一個代表完整 RL 工作流的有向無環圖（DAG）。DAG Planner 負責接收這個邏輯圖，并將其自動解析、分解為一系列線性的執行任務，分發給每個 Worker 。這種設計將算法邏輯與物理執行完全解耦，賦予了研究者極大的靈活性。

b. DAG Worker (DAG 工作單元)：作為框架的基本執行單位，每個 DAG Worker 綁定到一個 GPU，并獨立執行由 DAG Planner 分配的任務鏈。它通過動態函數分發機制，將 DAG 節點定義（如角色、類型）與具體的計算函數實現解耦，使得框架極易擴展。

c. Data Coordinator (數據協調器)：它負責管理整個數據生命周期，確保數據在全分布式系統中的高效、正確流動。

i. Distributed Dataloader：在初始加載階段，每個 Worker 只加載自己所需的數據分片，通過并行加載的方式從源頭避免了單點瓶頸。

ii. Distributed Databuffer：在階段轉換時，當并行策略（如數據并行度）發生變化，Databuffer 會自動完成跨節點的數據重組與分發，確保數據流無縫銜接。

圖 3：Distributed Databuffer 示意圖。當數據并行從 2（生成階段）變為 4（訓練階段）時，Databuffer 自動將數據重新切分并分發給正確的 Worker 。

效果驗證：速度與擴展性雙豐收，

性能依舊強勁！

我們在涵蓋 7B 到 72B 的多種模型尺寸和算法上，將 siiRL 與當前最主流的開源框架 verl 進行了全面對比。實驗結果證明了 siiRL 架構的巨大優勢。

在 PPO 和 GRPO 算法的端到端訓練中，siiRL 的性能全面超越基線。尤其是在數據交互量更大的 GRPO 算法下，siiRL 實現了高達 2.62 倍的吞吐提升。值得注意的是，在訓練 72B 模型時，基線框架在 32 卡配置下便遭遇了 OOM 錯誤，而 siiRL 則能輕松完成任務。

圖 4：使用 PPO (上) 和 GRPO (下) 算法的端到端吞吐對比。siiRL（藍色）在所有模型尺寸和 GPU 規模上均大幅領先基線框架 verl（紅色）。

擴展性評估：千卡規模下的近線性擴展

得益于全分布式設計，siiRL 在擴展至 1024 個 GPU 時仍表現出近乎完美的線性擴展能力。如下圖所示，在訓練 32B 模型時，從 64 卡擴展至 512 卡，系統依然保持了 80.5% 的線性擴展效率。由于基線框架在同等規模下無法運行，我們轉而測試其所能支持的最大訓練批次大小，在此條件下，siiRL 在 VLM 設定下實現了驚人的 7 倍速度提升。

圖 5：siiRL 在 VLM 任務上的擴展性評估，展示了從 32 到 1024 GPU 規模下的近線性擴展能力。

圖 6： siiRL 和基線框架在基線框架支持最大訓練批次下對比實驗，7B 模型訓練吞吐提升最高達到 7 倍。

數據密集型場景：優勢愈發明顯

在長上下文這類數據密集型任務中，siiRL 的優勢愈發凸顯。隨著上下文長度從 8k 增加到 64k，siiRL 相對于基線的領先優勢從 1.48 倍擴大到 2.03 倍。這充分證明，數據通信量越大，siiRL 的全分布式數據流設計的效率提升就越高。

圖 7：長上下文性能評估。隨著上下文長度增加，siiRL（藍色）的性能優勢愈發顯著。

收斂性驗證：性能提升，精度無損

為了確保性能提升不以犧牲模型精度為代價，我們進行了收斂性對比實驗。結果表明，在完全相同的超參數下，siiRL 和基線框架的獎勵值與熵值曲線幾乎完全重合。這意味著，siiRL 在將訓練總耗時大幅減少的同時，保證了與基線完全一致的訓練效果。

圖 8：收斂性對比。siiRL 與基線框架的訓練曲線趨勢一致，證明其優化不影響模型最終精度。

未來計劃：

我們基于 DAG 的靈活設計，為構建復雜的 “多智能體系統” 奠定了天然且堅實的基礎。展望未來，我們計劃將多智能體支持作為系統的核心特性進行重點拓展，這包括支持更復雜的智能體交互工作流，擴展對多智能體強化學習（MARL）算法的兼容性，并實現更豐富的智能體與環境的交互機制，從而將我們的框架打造為一個功能全面的多智能體研發平臺。

總結：

開啟大規模強化學習新紀元

本文介紹了 siiRL，一個為解決大規模 RL 訓練中的擴展性和靈活性挑戰而設計的全新框架。通過創新的全分布式架構和用戶自定義的 DAG 驅動流程，siiRL 不僅徹底解決了傳統單控制器設計的瓶頸問題，實現了千卡規模的近線性擴展和高達 7 倍的吞吐提升，還極大地增強了框架的靈活性，加速了算法的創新迭代周期。

我們相信這項工作為大規模強化學習研究鋪平了道路，提供了一個更高效、更靈活、真正可擴展的解決方案。歡迎大家試用 siiRL，共同邁向大規模 AI 的未來！

上海創智學院 AI Infra 團隊介紹

siiRL 誕生于上海創智學院產學研一體化人才培養模式。

團隊成員包括來自國內 31 所頂尖高校的博士生和一線大廠豐富產業經驗的導師，含萬卡集群建設者、中國第一批 CUDA 開發者、國產芯片優化專家、互聯網大廠機器學習平臺負責人等。
全鏈路開源：從硬件到框架，代碼 100% 開放。
團隊核心目標：讓大模型跑在中國芯，讓 AGI 基石全球共享。

責任編輯：張燕妮來源：機器之心

強化學習 AI 模型