解決 LLM 后訓練瓶頸:SAPO 去中心化集群,共享 RL 經(jīng)驗提效
集群采樣策略優(yōu)化(Swarm Sampling Policy Optimization,簡稱SAPO)是一種去中心化的異步強化學習(RL)算法,適用于語言模型(LM)后訓練任務。該算法可在異構計算節(jié)點上運行,通過網(wǎng)絡共享軌跡(rollouts)以傳遞學習洞見,避免大規(guī)模并行化帶來的瓶頸問題,降低成本,并在實驗中實現(xiàn)了高達94%的獎勵提升(包括在數(shù)千個多樣化社區(qū)節(jié)點上的測試)。
方法原理
由N個節(jié)點組成的集群會隨時間生成并交換軌跡(rollouts)。每個節(jié)點都擁有一個含可驗證任務的數(shù)據(jù)集,這些任務帶有已知解決方案及說明正確性校驗方式的元數(shù)據(jù)。節(jié)點持有一個策略(即語言模型),該策略會為每個任務生成多個答案,這些答案即為“軌跡”。不同節(jié)點間的軌跡必須采用兼容的模態(tài)格式。數(shù)據(jù)集、答案數(shù)量及軌跡均會隨時間動態(tài)變化,且可通過提示詞生成(prompt generation)控制任務難度。節(jié)點并非強制要求參與訓練,且可采用任何兼容的策略(包括人類或其他非傳統(tǒng)生成器)。

在每個訓練輪次中,節(jié)點會執(zhí)行以下步驟:
- 采樣一批任務;
- 生成軌跡;
- 將軌跡子集(含元數(shù)據(jù)、真值標簽及軌跡本身)共享至整個集群。 隨后,各節(jié)點會結合自身生成的軌跡與其他節(jié)點共享的軌跡構建訓練數(shù)據(jù)集,且節(jié)點對數(shù)據(jù)集的篩選或選擇擁有完全控制權。訓練集構建完成后,節(jié)點會使用本地獎勵模型計算獎勵,并通過策略梯度方法(如近端策略優(yōu)化PPO、GRPO等)更新自身策略。上述過程會在各訓練輪次中重復進行。
受控實驗設置
實驗采用了ReasoningGYM數(shù)據(jù)集,該數(shù)據(jù)集可生成海量可驗證問題,涵蓋代數(shù)、邏輯、圖推理等領域。實驗選取了9個不同的專業(yè)任務類別,每個智能體(agent)在每個訓練輪次中,每個任務類別會接收1個問題,并為每個問題生成8個補全答案(completions)。策略更新采用GRPO算法,且未使用KL散度懲罰項(KL penalty)。獎勵由ReasoningGYM的基于規(guī)則的驗證器生成(正確答案記1分,錯誤答案記0分);由于正確格式可通過集群共享傳播,因此無需額外設置格式獎勵。實驗在GenRL框架上運行,該框架為去中心化架構,可與ReasoningGYM集成,并支持可擴展的多智能體強化學習。
受控實驗結果

研究人員將標準強化學習微調(無經(jīng)驗共享)與SAPO算法的不同配置(混合本地軌跡與外部軌跡,且保持訓練樣本數(shù)量固定)進行了對比。結果表明,經(jīng)驗共享可顯著提升性能:
- “4個本地軌跡/4個外部軌跡”的配置實現(xiàn)了最高累積獎勵;
- 其次是“2個本地軌跡/6個外部軌跡”和“6個本地軌跡/2個外部軌跡”的配置;
- “4/4”配置相較于基準模型(無共享)實現(xiàn)了94%的獎勵提升,且在所有訓練輪次中始終保持更高的平均獎勵。

然而,過度依賴外部軌跡(如“2/6”配置)會導致性能波動并降低整體表現(xiàn),其原因在于:
- 過度依賴性能較弱智能體的輸出;
- 共享數(shù)據(jù)池中有效信息被稀釋。 綜上,均衡的經(jīng)驗共享可實現(xiàn)最佳效果——既能在集群中傳遞“頓悟時刻”(Aha moments,即關鍵學習洞見),又能避免因過度依賴外部數(shù)據(jù)導致的訓練不穩(wěn)定性。
大規(guī)模集群訓練:來自開源演示的洞見

研究團隊通過包含數(shù)千個社區(qū)節(jié)點的大規(guī)模演示實驗,在異構環(huán)境下測試了SAPO算法。實驗中,所有節(jié)點通過中央評判器(central judge)使用ReasoningGYM任務進行性能評估。結果顯示:
- 集群訓練可顯著提升中等規(guī)模模型的性能,例如Qwen2.5(0.5B參數(shù)模型)在約175個訓練輪次后,性能超過了孤立訓練(無共享)的模型;
- 更大規(guī)模的模型(如Qwen3,0.6B參數(shù)模型)則未表現(xiàn)出明顯差異,這表明SAPO算法的優(yōu)勢在中等容量模型上最為顯著。
由于實驗中軌跡采用均勻采樣方式(未進行篩選),大量低價值樣本稀釋了集群數(shù)據(jù)的整體質量。研究人員指出,若采用更優(yōu)的采樣策略,SAPO的優(yōu)勢有望擴展至性能更強的模型。
參考文獻
??https://arxiv.org/abs/2509.08721??Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing
本文轉載自????????AIGC深一度??

















