開啟RL Scaling新紀元,siiRL開源:完全分布式強化學習框架,支持超千卡規模高效訓練
還在為強化學習(RL)框架的擴展性瓶頸和效率低下而煩惱嗎?當模型和集群規模達到上千塊 GPU 時,傳統的中心化控制器架構難免會遇到性能瓶頸、內存溢出甚至系統崩潰。
事實上,當前最頂尖的基礎模型,從 DeepSeek-R1,到 o3-pro, Gemini 2.5-pro 和 Claude-4,其卓越的推理能力都離不開大規模強化學習的加持。這充分表明,RL Scaling 已經成為大模型領域邁向更高智能的 “軍備競賽” 核心,是大勢所趨。而 xAI 最近發布的 Grok 4,更是將這一趨勢推向了新的高度,他們直接在其擁有的 200,000 塊 GPU 大集群上,以前所未有的 “后訓練規模” 來運行強化學習,旨在精進模型的推理能力。
Grok 4 和其他頂尖推理模型的成功共同揭示了一個明確的事實:解決強化學習的擴展性瓶頸,已不再僅僅是一個工程挑戰,而是解鎖下一代 AI 高級推理能力、實現更強通用智能的關鍵所在。因此,對 RL Scaling 的投入和研究,是未來 AI 發展的重要方向和核心戰略。
現在,來自上海創智學院的研究團隊正式推出 siiRL,一個支持大規模高效強化學習訓練的 RL 框架!
siiRL 的核心在于其創新的 多控制器 范式和 全分布式 架構,它將數據加載、計算和數據流轉等任務均勻地分散到所有工作節點,從根本上解決了傳統 RL 框架中由單一控制器引發的性能瓶頸。
- 線性擴展:全分布式架構帶來近乎線性的擴展能力,已在 1024 GPU 規模下成功驗證 。
- 性能再飛躍:徹底消除單點瓶頸,實現最高達到 7 倍 的端到端訓練吞吐提升 。
- 極致靈活:基于 DAG 的工作流定義,將算法邏輯與物理資源解耦,讓算法創新和實驗迭代快如閃電,并且能夠更靈活的支持多智能體協同訓練。
- 跨硬件平臺兼容:siiRL 現已正式支持華為昇騰(Ascend)NPU,為用戶提供在不同的硬件平臺上進行 RL 訓練的高性能選擇。
- 開箱即用:全面開源,輕松部署。

- 論文鏈接: https://arxiv.org/abs/2507.13833
- 代碼鏈接: https://github.com/sii-research/siiRL
傳統 RL 框架為何遭遇瓶頸?
解構單控制器之痛

圖 1:傳統單控制器架構瓶頸。所有數據操作(初始加載、中間數據流轉)都需經過中心控制器,導致嚴重的通信開銷和擴展限制 。
在主流的強化學習框架中,系統通常采用一種混合或單一控制器架構,即由一個中心化的控制器節點來調度整個執行邏輯和管理數據流 。無論是初始的數據集加載,還是各計算階段間海量中間數據的收集與分發,所有數據都必須流經這個中心節點 。
這種設計在小規模下尚可運行,但一旦擴展到數百乃至上千 GPU,該中心節點就會因巨大的 I/O 和通信開銷而成為系統的性能瓶頸 。更糟糕的是,海量數據很容易壓垮中心節點的內存,導致系統崩潰(OOM),從根本上限制了系統的可擴展性和穩定性 。此外,固化的算法流程也大大增加了研究者進行算法創新的難度 。
siiRL 的高效秘訣:全分布式架構
為了徹底解決上述痛點, siiRL 創新性地采用了 全分布式架構 和 多控制器范式,移除了中心節點,將數據與計算的調度權下放到每一個工作單元 。

圖 2:siiRL 架構概覽
siiRL 的整體設計包含三大核心組件:
a. DAG Planner (DAG 規劃器):用戶可以通過配置文件靈活定義一個代表完整 RL 工作流的 有向無環圖(DAG) 。DAG Planner 負責接收這個邏輯圖,并將其自動解析、分解為一系列線性的執行任務,分發給每個 Worker 。這種設計將算法邏輯與物理執行完全解耦,賦予了研究者極大的靈活性 。
b. DAG Worker (DAG 工作單元):作為框架的基本執行單位,每個 DAG Worker 綁定到一個 GPU,并獨立執行由 DAG Planner 分配的任務鏈 。它通過動態函數分發機制,將 DAG 節點定義(如角色、類型)與具體的計算函數實現解耦,使得框架極易擴展 。
c. Data Coordinator (數據協調器):它負責管理整個數據生命周期,確保數據在全分布式系統中的高效、正確流動 。
i. Distributed Dataloader:在初始加載階段,每個 Worker 只加載自己所需的數據分片,通過并行加載的方式從源頭避免了單點瓶頸 。
ii. Distributed Databuffer:在階段轉換時,當并行策略(如數據并行度)發生變化,Databuffer 會自動完成跨節點的數據重組與分發,確保數據流無縫銜接 。

圖 3:Distributed Databuffer 示意圖。當數據并行從 2(生成階段)變為 4(訓練階段)時,Databuffer 自動將數據重新切分并分發給正確的 Worker 。
效果驗證:速度與擴展性雙豐收,
性能依舊強勁!
我們在涵蓋 7B 到 72B 的多種模型尺寸和算法上,將 siiRL 與當前最主流的開源框架 verl 進行了全面對比。實驗結果證明了 siiRL 架構的巨大優勢。
在 PPO 和 GRPO 算法的端到端訓練中,siiRL 的性能全面超越基線。尤其是在數據交互量更大的 GRPO 算法下,siiRL 實現了高達 2.62 倍 的吞吐提升 。值得注意的是,在訓練 72B 模型時,基線框架在 32 卡配置下便遭遇了 OOM 錯誤,而 siiRL 則能輕松完成任務。


圖 4:使用 PPO (上) 和 GRPO (下) 算法的端到端吞吐對比。siiRL(藍色)在所有模型尺寸和 GPU 規模上均大幅領先基線框架 verl(紅色) 。
擴展性評估:千卡規模下的近線性擴展
得益于全分布式設計,siiRL 在擴展至 1024 個 GPU 時仍表現出近乎完美的線性擴展能力 。如下圖所示,在訓練 32B 模型時,從 64 卡擴展至 512 卡,系統依然保持了 80.5% 的線性擴展效率 。由于基線框架在同等規模下無法運行,我們轉而測試其所能支持的最大訓練批次大小,在此條件下,siiRL 在 VLM 設定下實現了驚人的 7 倍 速度提升。

圖 5:siiRL 在 VLM 任務上的擴展性評估,展示了從 32 到 1024 GPU 規模下的近線性擴展能力 。

圖 6: siiRL 和基線框架在基線框架支持最大訓練批次下對比實驗,7B 模型訓練吞吐提升最高達到 7 倍。
數據密集型場景:優勢愈發明顯
在長上下文這類數據密集型任務中,siiRL 的優勢愈發凸顯 。隨著上下文長度從 8k 增加到 64k,siiRL 相對于基線的領先優勢從 1.48 倍擴大到 2.03 倍 。這充分證明,數據通信量越大,siiRL 的全分布式數據流設計的效率提升就越高 。

圖 7:長上下文性能評估。隨著上下文長度增加,siiRL(藍色)的性能優勢愈發顯著 。
收斂性驗證:性能提升,精度無損
為了確保性能提升不以犧牲模型精度為代價,我們進行了收斂性對比實驗 。結果表明,在完全相同的超參數下,siiRL 和基線框架的獎勵值與熵值曲線幾乎完全重合 。這意味著,siiRL 在將訓練總耗時大幅減少的同時,保證了與基線完全一致的訓練效果 。

圖 8:收斂性對比。siiRL 與基線框架的訓練曲線趨勢一致,證明其優化不影響模型最終精度 。
未來計劃:
我們基于 DAG 的靈活設計,為構建復雜的 “多智能體系統” 奠定了天然且堅實的基礎。展望未來,我們計劃將多智能體支持作為系統的核心特性進行重點拓展,這包括支持更復雜的智能體交互工作流,擴展對多智能體強化學習(MARL)算法的兼容性,并實現更豐富的智能體與環境的交互機制,從而將我們的框架打造為一個功能全面的多智能體研發平臺。
總結:
開啟大規模強化學習新紀元
本文介紹了 siiRL,一個為解決大規模 RL 訓練中的擴展性和靈活性挑戰而設計的全新框架 。通過創新的全分布式架構 和用戶自定義的 DAG 驅動流程,siiRL 不僅徹底解決了傳統單控制器設計的瓶頸問題,實現了千卡規模的近線性擴展和高達 7 倍的吞吐提升,還極大地增強了框架的靈活性,加速了算法的創新迭代周期 。
我們相信這項工作為大規模強化學習研究鋪平了道路,提供了一個更高效、更靈活、真正可擴展的解決方案 。歡迎大家試用 siiRL,共同邁向大規模 AI 的未來!
上海創智學院 AI Infra 團隊介紹
siiRL 誕生于上海創智學院產學研一體化人才培養模式。
- 團隊成員包括來自國內 31 所頂尖高校的博士生和一線大廠豐富產業經驗的導師,含萬卡集群建設者、中國第一批 CUDA 開發者、國產芯片優化專家、互聯網大廠機器學習平臺負責人等。
- 全鏈路開源:從硬件到框架,代碼 100% 開放。
- 團隊核心目標:讓大模型跑在中國芯,讓 AGI 基石全球共享。































