精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

讓GPU不再摸魚!清華螞蟻聯合開源首個全異步RL,一夜擊穿14B SOTA

人工智能 新聞
清華與螞蟻聯合開源AReaL-boba2,實現全異步強化學習訓練系統,有效解耦模型生成與訓練流程,GPU利用率大幅提升。14B模型在多個代碼基準測試中達到SOTA,性能接近235B模型。異步RL訓練上大分!

還記得今年初DeepSeek?R1系列把純強化學習(RL)訓練開源,點燃社區對于RL的熱情嗎?

不久后,來自清華螞蟻聯合開源項目AReaL(v0.1)也通過在DeepSeek-R1-Distill-Qwen-1.5B上進行RL訓練,觀察到模型性能的持續提升。

AReaL(v0.1)在40小時內,使用RL訓練的一個1.5B參數模型,在數學推理方面就超越了o1-Preview版本。

研究人員發現,RL在構建大型推理模型(LRM)方面確實有「奇效」,但是傳統的同步RL卻有著「昂貴」的代價——效率很低,無法充分利用推理設備性能。

6月3日,清華螞蟻聯合研發的全異步強化學習訓練系統AReaL-boba2(即AReaL v0.3)正式開源,這是AReaL的第三個版本,也是其里程碑版本AReaL-boba的重磅升級,直指RL訓效提升靶心!

AReaL-boba2在經過兩個版本的迭代后,進化出多項重要能力:

  • 全面實現了異步強化學習訓練,完全解耦模型生成與訓練,GPU資源利用率大幅優化。
  • 性能效果不變的前提下,訓練速度對比AReaL-boba最高提升2.77倍,且沒有任何性能損失。
  • 研究人員使用這一系統在Qwen3系列模型上做強化學習訓練,實現8B、14B模型在LiveCodeBench、Codeforce、Codecontest等benchmark上達到SOTA水準。
  • AReaL-boba2還原生支持多輪智能體強化學習訓練,開發者可以根據自己的需求自由定制智能體和智能體環境,進行多輪交互智能體Agentic RL訓練。
  • 完全開源:不僅開源代碼、腳本,還包括可復現結果的數據集、模型權重。

圖片

開源地址:https://github.com/inclusionAI/AReaL

技術論文:https://arxiv.org/pdf/2505.24298

模型下載:https://huggingface.co/collections/inclusionAI/AReaL-boba-2-683f0e819ccb7bb2e1b2f2d5

尋找兼顧高效能、高效率的強化學習訓練方式,一直是從業人員持續面臨的課題。

異步強化學習是一種重要的算法范式,將成為未來強化學習的重要方向之一。這次清華和螞蟻聯合開源的AReaL-boba2以及一系列實驗效果,驗證了這方面的共識。

一舉達到SOTA性能

首先來看AReaL-boba2在多個測試基準上的性能對比。研究人員使用這一系統在Qwen3系列模型上做強化學習訓練。

圖片

其中,AReaL-boba2-8B/14B-Open表示在開源數據上的訓練結果;AReaL-boba2-8B/14B模型則額外使用了少量內部數據進行訓練。

AReaL-boba2-8B/14B在LiveCodeBench、Codeforce和CodeContests上實現了SOTA。

最厲害的是在LiveCodeBench-v5上得分為69.1的14B模型,已經接近Qwen3-235B的性能!要知道這可是14B VS 235B的較量。

同時AReaL-boba2-8B模型的得分也有63分,已經接近DeepSeek-R1的水準!

異步強化學習系統的必要性

在傳統的強化學習訓練流程中,同步強化學習訓練每一個batch的數據都是由最新版本模型產生,因此模型參數更新需要等待batch中數據全部生成完成才能啟動。

由于推理模型的輸出長短差異極大,在同樣的批大小(batch size)下,強化學習訓練必須等待batch中最長的輸出生成完才能繼續進行訓練,以及進行下一個batch的數據收集,這樣,就會造成極大的GPU資源浪費。

圖片

左側為同步RL訓練的執行時間線:同batch輸出(藍色)需要等待其中最長的輸出生成完成,存在大量GPU空閑

DeepCoder,Intellect-2等使用從前一模型版本生成的輸出來更新當前模型,從而在單步上重疊生成與訓練。然而,所有這些系統仍然遵循批量生成設置,在生成階段期間系統效率低下的問題仍未得到有效解決。

圖1右側為一步重疊RL系統的執行時間線,單模型訓練與單batch數據收集同時進行。同batch內依然存在大量GPU空閑。

完全異步RL訓練系統

實現高GPU利用率

為了從根本上解決以上這些系統設計中的問題,清華和螞蟻的聯合研究團隊開發了AReaL-boba2,一個面向大型推理模型(LRM)的完全異步強化學習訓練系統,它完全解耦了生成與訓練,在不影響最終性能的同時,實現大幅度加速。

而AReaL-boba2之所以能實現高GPU利用率,就是因為它以流式方式執行LRM生成,讓每個rollout worker能不斷生成新的輸出,無需等待。

同時,AReaL-boba2中的trainer worker會并行地在從rollout worker獲得生成完成的數據構成訓練batch,用來更新模型。一旦模型更新完成,新的模型權重會更新到每個rollout worker中。

值得注意的是,在這種異步設計中,AReaL-boba2中的每個訓練batch可能包含由不同過去模型版本生成的樣本。在實踐中,訓練數據的陳舊性可能會導致RL算法訓練效果不佳,為此研究者們提出了算法改進以保證訓練效果。

結果顯示,完成數學推理和代碼任務時,在高達320億參數的模型上,AReaL-boba2的訓練吞吐量最高可提高2.77倍,訓練效率在512塊GPU上實現了線性擴展。

關鍵點在于,這種加速甚至還帶來了解題準確性的提升,這就表明,AReaL-boba2并不需要犧牲模型性能,就能顯著提升效率!

系統架構

圖片

AReaL的架構與數據流

AReaL-boba2系統由四個核心組件組成:

1. 可中斷的采樣工作器(Interruptible Rollout Worker)

它負責處理兩類請求:

(1)generate請求:根據提示詞生成響應;

(2)update_weights請求:中斷當前所有生成任務,并加載新版本模型參數。

在權重更新時,采樣工作器會丟棄舊權重生成的KV緩存,并使用新權重重新計算。隨后,采樣工作器將繼續解碼未完成的序列,直到下一次中斷或任務終止。

這種在生成中途打斷并切換模型權重的機制,將導致一條軌跡由多個不同模型版本生成的片段組成。當然,這也帶來了新的算法挑戰。

2. 獎勵服務(Reward Service)

用于評估模型生成響應的準確性。

例如,在代碼任務中,該服務會提取生成的代碼并執行單元測試,以驗證其正確性。

3. 訓練工作器(Trainer Workers)

這個組件會持續地從重放緩存(replay buffer)中采樣數據,直到累積到訓練所需的batch大小為止。

隨后,它們將執行PPO更新,并將更新后的模型參數存儲到分布式存儲系統中。

4. 采樣控制器(Rollout Controller)

它是采樣工作器、獎勵服務與訓練工作器之間的重要橋梁。在訓練過程中,它從數據集中讀取數據,向采樣工作器發送generate 請求,獲取模型生成的結果。生成結果隨后會被發送至獎勵服務進行評估,以獲取對應的獎勵值。

包含獎勵的軌跡會被存入重放緩存,等待訓練工作器進行訓練。當訓練工作器更新完模型參數后,控制器會向采樣工作器發送update_weights請求,將最新權重加載至采樣工作器中。

圖片

AReaL的生成與訓練的管理流程

異步強化學習的算法挑戰與解決方案

雖然異步系統設計通過提高設備利用率提供了顯著的加速效果,但它也引入了一些需要從算法層面考量的技術挑戰。

· 數據陳舊性

由于AReaL-boba2的異步特性,每個訓練batch都包含來自多個先前策略版本的數據。數據陳舊性會導致訓練數據與最新模型的輸出之間出現分布差距。在針對LRM的異步RL訓練中,由于解碼時間延長,此問題對于長軌跡可能會更加嚴重。

· 策略版本不一致

如上圖3所示,單個生成的軌跡可能包含由不同模型版本生成的片段。這種不一致性從根本上違背了標準PPO的公式化假設,即所有數據都由單一模型生成。

為了解決這兩個挑戰,AReaL-boba2提出了兩種關鍵解決方案:

1. 陳舊性控制

為了避免數據陳舊性問題帶來的負面影響,AReaL-boba2限制生成軌跡的策略版本與訓練策略之間的版本差異。AReaL引入了一個超參數η,用于表示允許的最大陳舊程度。當η=0,系統退化為同步強化學習設置,此時生成與訓練batch完全匹配。

2. 解耦的PPO目標

團隊應用了一個解耦的PPO目標,將行為策略和代理策略分離,其中行為策略表示用于采樣軌跡的策略,而代理策略是一個近端策略,作為最近的目標,用于規范在線策略的更新。

圖片

效果顯著

首先在一個數學任務上評估異步AReaL-boba2,在之前發布的AReaL-boba(v0.2)基礎上,采用R1-Distill-Qwen作為基礎模型,并使用AReaL-boba-106k作為訓練數據集。

端到端性能對比

團隊比較了在1.5B和7B參數模型上的同步與異步訓練。

結果顯示,在資源限制和訓練步驟相同的情況下,異步系統速度是同步系統的兩倍多!

在AIME24上的評估,證實了這一加速并未影響性能。

圖片

可以看到,AReaL-boba2在性能上始終與基線持平甚至超過,并且訓練速度有顯著提升。

特別是在訓練吞吐量方面,AReaL-boba2相較于同步方法最高可實現2.77倍的提升,且幾乎無性能損失。

圖片

研究者在數學任務上基于一個1.5B的大型推理模型(LRM),開展了消融實驗,以驗證他們所提出算法創新。

他們調整了允許的最大staleness η,并比較使用和不使用解耦式PPO目標函數的不同配置。結果表明,陳舊性控制有效地避免了過舊的數據帶來的負面影響,同時使用解耦PPO目標可以在陳舊程度大的情況下保持訓練效果。

圖片

(a)和(b)分別為使用傳統PPO以及解耦PPO目標進行訓練的曲線

圖片

解耦PPO目標的消融實驗

推進先進AI推理平權

此前,聯合研究小組在3月開源的AReaL-boba項目,得到了來自海外開發者的高度認可,評價「AReaL-boba通過開放SOTA推理模型的資源和透明的訓練方式,讓先進的AI推理技術平權化,降低了研究的門檻。 」

而AReaL-boba2 延續了一貫的完全開源原則,代碼、數據集、腳本及 SOTA 級模型權重全部開源,團隊希望 AReaL 能讓AI智能體搭建像制作一杯奶茶一樣便捷、靈活、可定制化。

AReaL團隊在技術報告中表示,該項目融合了螞蟻強化學習實驗室與清華交叉信息院吳翼團隊多年的技術積累,也獲得了大量來自螞蟻集團超算技術團隊和數據智能實驗室的幫助。

AReaL的誕生離不開DeepScaleR、Open-Reasoner-Zero、OpenRLHF、VeRL、SGLang、QwQ、Light-R1、DAPO等優秀開源框架和模型的啟發。

最后,AReaL還給出了完善的訓練教程和開發指南,包括復現SOTA代碼模型訓練指南以及基于Async RL的智能體搭建教程,想體驗極速RL訓練的小伙伴可以跑起來了!

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-06-05 08:40:00

2023-08-02 12:52:02

谷歌模型

2014-08-22 17:19:12

經營信息化

2025-04-01 09:00:00

模型訓練開源

2024-02-22 10:09:00

開源模型

2015-07-14 11:39:08

Docker容器DevOps虛擬機

2018-05-23 11:43:59

數據庫

2025-09-25 09:33:54

2024-10-14 13:40:00

2016-01-26 17:47:58

SaaSSaaS平臺SaaS服務

2025-02-20 10:07:09

2022-01-11 23:03:02

Java元數據語言

2011-09-23 09:41:02

2022-07-05 07:59:00

VSCode開源項目

2019-03-05 10:03:17

阿里云云廠商硬盤

2025-04-10 10:02:43

2025-09-16 10:09:00

2023-09-21 09:49:09

人臉識別? ChatGPT圖像

2024-03-18 13:21:13

2022-11-11 15:16:36

機器學習開源
點贊
收藏

51CTO技術棧公眾號

亚洲激情精品| 在线播放一区二区精品视频| 国产精品网站在线| 92国产精品久久久久首页| 国产在线观看免费视频今夜| 人人香蕉久久| 欧美二区乱c少妇| 少妇人妻大乳在线视频| 成人免费黄色网页| 成人精品视频.| 国产精品视频成人| 日韩三级小视频| 91综合网人人| 日韩精品一区二区视频| 污污的视频免费观看| 无遮挡在线观看| 亚洲免费观看高清完整版在线| 久久久久久高清| 国产精品视频在线观看免费| 亚洲一区亚洲| 色与欲影视天天看综合网| 一区二区三区四区免费| 97精品久久| 精品1区2区3区| 青青草原成人网| av毛片在线看| 国产精品免费视频一区| 蜜桃视频在线观看91| 国产高中女学生第一次| 奇米888四色在线精品| 97精品一区二区三区| 免费在线观看黄色小视频| 香蕉久久夜色精品国产更新时间 | 欧美成人第一页| 久久亚洲AV无码专区成人国产| 动漫av一区| 7777女厕盗摄久久久| 亚洲人成无码www久久久| av在线私库| 一区二区三区四区不卡在线| 亚洲一区二区精品在线| 国产乱视频在线观看| 成人免费电影视频| 国产成人精品福利一区二区三区| 91亚洲视频在线观看| 日韩国产一区二| 日本一区二区三区在线播放| 免费观看一区二区三区毛片| 亚洲茄子视频| 久久免费视频在线观看| 久草中文在线视频| 欧美日韩91| 超薄丝袜一区二区| 91高清免费观看| 亚洲精品一区二区在线看| 一区二区三区精品99久久 | 2025韩国理伦片在线观看| 国模一区二区| 91成人免费在线视频| 日日摸天天爽天天爽视频| videos性欧美另类高清| 色综合久久综合| 无码内射中文字幕岛国片| 欧美极品影院| 色视频欧美一区二区三区| 爱福利视频一区二区| 亚洲风情在线资源| 欧洲视频一区二区| 日韩欧美亚洲另类| 精品一级视频| 精品国产1区二区| 五级黄高潮片90分钟视频| 九九热精品视频在线观看| 一区三区二区视频| 三级在线观看免费大全| 黄色欧美日韩| 欧美伊久线香蕉线新在线| 一二三区免费视频| 麻豆成人91精品二区三区| 91亚洲一区精品| 国产成人手机在线| 91在线视频播放地址| 欧美在线激情| 成人免费视屏| 欧美性猛交xxxxx免费看| wwwwww.色| 精品伊人久久| 精品无码久久久久久国产| 夜夜春很很躁夜夜躁| 日韩一区三区| 97视频在线观看免费| 在线免费观看国产精品| 国产一区免费电影| 久久人人九九| 黄色免费在线观看网站| 性感美女久久精品| 鲁一鲁一鲁一鲁一av| 538任你躁精品视频网免费| 精品一区二区三区三区| 大地资源高清在线视频观看| 亚洲一级特黄| 国产噜噜噜噜久久久久久久久| 精品人妻一区二区三区蜜桃 | 久久精品成人一区二区三区蜜臀 | 色一情一乱一伦一区二区三区日本| 成人免费黄色| 日韩av综合网| 欧美丰满熟妇bbbbbb| 亚洲综合精品| 懂色av一区二区三区在线播放| 二区三区在线播放| 亚洲成人一区在线| 国产成人在线综合| 欧美**字幕| 国内精品小视频在线观看| 人妻中文字幕一区二区三区| 丁香天五香天堂综合| 亚洲精品美女久久7777777| 不卡专区在线| 日韩精品一区二区三区在线播放 | 国产毛片一区二区三区 | 日韩乱码人妻无码中文字幕| 老汉av免费一区二区三区| 精品在线一区| 日本在线视频www鲁啊鲁| 欧美区在线观看| 无码人妻精品一区二区中文| 亚洲精品黄色| 99免费在线视频观看| 欧美性天天影视| 欧洲精品一区二区三区在线观看| 国产伦精品一区二区免费| 欧美一区在线看| 91九色综合久久| 69久久夜色| 91久久精品一区二区| 人妻丰满熟妇av无码久久洗澡| 狠色狠色综合久久| 亚洲综合自拍一区| 国产黄色在线观看| 在线不卡a资源高清| 中文字幕精品亚洲| 奇米在线7777在线精品| 午夜精品电影在线观看| 精品欧美一区二区三区在线观看| 亚洲免费伊人电影在线观看av| 日本学生初尝黑人巨免费视频| 国产99久久久国产精品潘金| 国产专区在线视频| 亚洲图色一区二区三区| 欧美精品做受xxx性少妇| 国产美女三级无套内谢| 成人免费在线观看入口| 亚洲精品手机在线观看| 久久人体视频| 亚洲综合在线小说| 一区二区三区伦理| 精品国产乱码久久久久久蜜臀| 一区二区三区免费高清视频| 国产91精品一区二区麻豆亚洲| 第九区2中文字幕| 天堂久久av| 69精品小视频| 国产在线一二三| 欧美日韩视频在线一区二区| 国产精品夜夜夜爽阿娇| 国产精品 欧美精品| av网站大全免费| 日韩mv欧美mv国产网站| 国产精品久久久久久久久男| 天堂中文а√在线| 日韩免费看网站| 日韩精品国产一区二区| 国产日韩欧美综合在线| 日本中文字幕二区| 激情综合网址| 日产精品高清视频免费| 91麻豆精品一二三区在线| 欧美精品成人在线| 欧美zozo| 欧美一级一级性生活免费录像| 国产精品suv一区二区| www国产亚洲精品久久麻豆| 亚洲一区在线不卡| 欧美 日韩 国产一区二区在线视频| 国产精品果冻传媒潘| 高潮一区二区| 久久久成人精品视频| 手机在线观看毛片| 欧美军同video69gay| 久久久久无码精品国产| 国产日韩v精品一区二区| 中文字幕在线视频一区二区三区| 在线欧美不卡| 亚洲精品一区二区三区四区五区| 日本在线成人| 国产成人高潮免费观看精品| 中文字幕有码在线观看| 亚洲欧美日韩精品久久亚洲区| 97人妻精品一区二区三区视频| 亚洲国产裸拍裸体视频在线观看乱了| 国产亚洲精品熟女国产成人| 国产精品系列在线播放| 九九热在线免费| 日韩天堂av| 丰满女人性猛交| 欧美日韩一区二区综合| 精品不卡一区二区三区| www.成人在线.com| 国产成人啪精品视频免费网| 国内小视频在线看| 久久综合网hezyo| 第一福利在线| 日韩久久免费视频| 亚洲欧美国产高清va在线播放| 欧美色成人综合| 国产精品视频一区在线观看| 亚洲伊人伊色伊影伊综合网| 女人裸体性做爰全过| 久久伊人蜜桃av一区二区| 国产精品91av| 国产在线观看一区二区| 美女网站免费观看视频| 国产精品入口| 成人免费观看在线| 午夜国产精品视频| 中文字幕中文字幕在线中心一区| 精品久久久亚洲| 免费观看成人在线| 欧美日韩一本| 国产精品一区二区a| 日本高清久久| 亚洲影院污污.| 国产一区二区三区精品在线观看 | 亚洲天堂视频在线播放| 狠狠色香婷婷久久亚洲精品| 日韩伦理在线视频| 亚洲国产三级在线| 国产精彩视频在线| 亚洲国产精品欧美一二99| 免看一级a毛片一片成人不卡| 自拍偷拍欧美激情| 欧美做爰啪啪xxxⅹ性| 综合欧美一区二区三区| 久久精品日韩无码| 日韩理论片网站| 一级片一级片一级片| 中文字幕一区二区三区av| 日韩精品久久久久久久的张开腿让| 欧美激情一区在线观看| 午夜影院黄色片| 欧美激情在线看| 色偷偷www8888| 亚洲欧美韩国综合色| 国产一二三区精品| 洋洋成人永久网站入口| 日本视频免费在线| 日韩欧美在线免费观看| 日本视频免费观看| 欧美婷婷六月丁香综合色| 一级欧美一级日韩| 欧美一区二区三区四区久久| 精品人妻伦一二三区久久| 精品国内二区三区| 神马电影在线观看| 一区二区三欧美| av中文字幕在线播放| 欧美国产日韩一区二区在线观看| 精品精品导航| 欧美中在线观看| 久久久久黄色| 91日韩久久| 午夜a一级毛片亚洲欧洲| 日韩精品国内| 亚洲色图国产| 男人添女人下面高潮视频| 久久久久免费| 涩多多在线观看| aaa亚洲精品| 天天舔天天操天天干| 亚洲免费观看高清完整版在线| 国产香蕉在线视频| 欧美视频在线一区二区三区 | 男人午夜免费视频| 欧美日韩中文字幕一区二区| www.国产麻豆| 亚洲免费一级电影| 影音先锋在线视频| 日韩av免费看| 欧美影院视频| 日韩视频专区| 激情久久五月| 香蕉视频禁止18| 成人av综合一区| 岛国片在线免费观看| 无吗不卡中文字幕| 一本色道久久综合熟妇| 亚洲成人网久久久| 三区四区在线视频| 8090成年在线看片午夜| 在线欧美激情| 日韩精品不卡| 亚洲视频www| 在线成人精品视频| 欧美激情一区三区| 91精品国产乱码久久久张津瑜| 欧美日韩不卡一区| 欧美午夜黄色| 欧美激情综合亚洲一二区| 成人午夜sm精品久久久久久久| 国产自产在线视频一区| 天天综合亚洲| 国产真人无码作爱视频免费| 99精品视频一区二区三区| 午夜免费激情视频| 欧美三级午夜理伦三级中视频| 少妇精品视频一区二区| 久久国产精品久久久久久久久久| 国产综合色区在线观看| 国内成+人亚洲| 亚洲午夜黄色| 激情成人在线观看| 亚洲欧洲美洲综合色网| 成人黄色片在线观看| 亚洲欧美制服综合另类| 涩涩视频在线播放| 国产亚洲欧美一区二区 | 欧美精品久久一区二区| 宅男噜噜噜66国产精品免费| 日韩精彩视频| 日本成人在线视频网站| www.狠狠爱| 色婷婷久久综合| 欧美精品a∨在线观看不卡| 国内伊人久久久久久网站视频| 亚洲精品黑牛一区二区三区| 国产人妻互换一区二区| 国产综合久久久久影院| 国产黄a三级三级| 欧美日韩视频一区二区| 国产大学生校花援交在线播放| 青青久久av北条麻妃黑人| 秋霞蜜臀av久久电影网免费| 国产特级淫片高清视频| 99久久婷婷国产综合精品| 国产大片中文字幕在线观看| 亚洲精品在线观| 999福利在线视频| 激情视频一区二区| 国产精品亚洲综合久久| 伊人网伊人影院| 欧美性大战久久久久久久蜜臀| sese在线视频| 成人免费视频97| 狠狠干综合网| 中文字幕乱码在线| 色综合久久综合网97色综合| 成人精品一区| 91精品视频在线| 国产一区清纯| 在线播放第一页| 婷婷国产v国产偷v亚洲高清| 三级在线播放| 国产美女搞久久| 综合亚洲视频| 2一3sex性hd| 91精品1区2区| 成人欧美在线| 久久久久久久久久久一区| 肉肉av福利一精品导航| 欧美视频一区二区在线| 精品日韩av一区二区| 中文不卡1区2区3区| 亚洲制服欧美久久| 懂色av中文一区二区三区| 久久久精品免费看| 深夜精品寂寞黄网站在线观看| 亚洲一区 二区| 日韩欧美视频网站| 国产精品三级电影| 国产77777| 国产精品久久久久久久久久久久久| 久久久国产精品| 欧美成人精品在线播放| 麻豆app在线观看| 国产精品久久久久久久app| 亚洲国产成人精品女人| 老司机免费视频| 欧美在线播放高清精品| a篇片在线观看网站| 久久偷窥视频| 国产综合色在线视频区| 国产做受高潮漫动| 中文字幕国产日韩| 国产精品chinese在线观看| 激情综合网俺也去| 亚洲综合男人的天堂| 黄色av网站在线看| 成人在线视频电影| 久久成人免费电影|