精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

讓強化學習快如閃電:FlashRL一條命令實現極速Rollout,已全部開源

人工智能 新聞
中國科學技術大學校友,伊利諾伊大學香檳分校博士,微軟研究院的首席研究員劉力源、清華大學校友,加州大學圣地亞哥分校計算機科學與工程學院博士生姚峰團隊在強化學習的研究中更進一步。

在今年三月份,清華 AIR 和字節聯合 SIA Lab 發布了 DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪輯和動態采樣策略優化)。這是一個可實現大規模 LLM 強化學習的開源 SOTA 系統,使用該算法,該團隊成功讓 Qwen2.5-32B 模型在 AIME 2024 基準上獲得了 50 分,我們也做了相關報道。

image.png

  • 論文地址:https://dapo-sia.github.io/static/pdf/dapo_paper.pdf
  • 代碼地址:https://github.com/volcengine/verl/tree/gm-tyx/puffin/main/recipe/dapo

中國科學技術大學校友,伊利諾伊大學香檳分校博士,微軟研究院的首席研究員劉源、清華大學校友,加州大學圣地亞哥分校計算機科學與工程學院博士生姚峰團隊在強化學習的研究中更進一步。

該團隊發現,在 DAPO-32B 中,rollout 生成是強化學習訓練的主要瓶頸,占據了約 70% 的總訓練時間。因此,該團隊從 rollout 階段著手,將 8 bit 量化技術應用于 rollout 生成,并通過 TIS 技術在保持下游性能的同時實現了顯著加速。

眾所周知,FP8 能讓強化學習運行得更快,但往往以性能下降為代價。

劉力源、姚峰團隊推出 FlashRL,是首個開源且可用的強化學習實現方案,在推理執行(rollout)階段應用 INT8/FP8,并且在性能上與 BF16 持平,沒有性能損失。該團隊在博客中完整發布了該方法的技術細節。

image.png


  • 博客標題:FlashRL: 8Bit Rollouts, Full Power RL
  • 博客地址:https://fengyao.notion.site/flash-rl
  • 代碼地址:https://github.com/yaof20/Flash-RL

Rollout 量化可能會降低性能

如圖 1 和圖 2 中 「?????」 曲線所示,在未使用 TIS 技術的情況下,采用 FP8 或 INT8 進行 rollout 量化,相比 BF16 rollout 會帶來顯著的性能下降。

這一現象是預期中的,因為 rollout–訓練之間的差異被放大了:rollout 是從量化策略 π_int8 采樣的,但梯度卻是基于高精度策略 π_bf16 計算的。

image.png

這種不匹配會使強化學習過程更加偏離策略,從而削弱強化學習訓練的有效性。

image.png

圖 1  左圖:吞吐量加速比。FP8 結果在 H100 上測試;INT8 結果分別在 H100 和 A100 上測試。結果基于不同的響應長度和設備測得。右圖:Qwen2.5-32B 模型在使用 BF16 rollout 與 INT8 rollout 時的 AIME 準確率對比。所有實驗均采用 BF16 FSDP 訓練后端。

FlashRL 的獨門秘訣

FlashRL 是首個開源且可用的強化學習方案,能夠在不犧牲下游性能的前提下使用量化 rollout。

那么,它的「獨門秘訣」是什么呢?

解決 Rollout–訓練不匹配問題

該團隊引入了截斷重要性采樣(Truncated Importance Sampling,TIS)來減輕 rollout 與訓練之間的差距。正如圖 1 和圖 2 中的實線所示,TIS 使量化 - rollout 訓練的性能達到了與采用 TIS 的 BF16 rollout 訓練相同的水平 —— 甚至超過了未使用 TIS 的樸素 BF16 rollout 訓練。

作者團隊之前發表過有關 TIS 的技術博客,感興趣的讀者可以參考:

image.png

  • 博客標題:Your Efficient RL Framework Secretly Brings You Off-Policy RL Training
  • 博客鏈接:https://fengyao.notion.site/off-policy-rl

在這里簡單展示一下 TIS 的工作原理。

image.png

支持在線量化

現有的推理引擎(如 vLLM)針對大語言模型推理服務進行了優化,但在支持帶參數更新的模型量化方面能力有限。該團隊提供了 Flash-LLM-RL 包,對 vLLM 進行了補丁,使其能夠支持這一功能。

如圖所示,FlashRL 的 INT8 可帶來高達 1.7 倍的吞吐量提升,同時保持 RL 的優勢。此外,如果不使用 TIS 而使用 naive FP8/INT8 ,性能將顯著下降。

image.png

圖 2  左圖與中圖:在使用量化 rollout 生成的強化學習大語言模型訓練中,GSM8K 的準確率表現。請注意,TIS 對緩解分布差異至關重要。右圖:π_fsdp 與 π_vllm 之間的 KL 散度。需要注意的是,INT8 rollout 的 KL 散度大于 FP8 rollout 的 KL 散度。

FlashRL 能有多快?

比較在強化學習訓練中采用不同 rollout 精度的吞吐量并不簡單,因為模型會不斷更新,對于同一個查詢,不同的量化策略在經過一定的 RL 訓練迭代后可能會生成長度不同的回復。

這里將探討 FlashRL 所實現的加速效果及其對訓練效果的影響。

Rollout 加速表現

常規環境下的加速:

研究團隊記錄了在 7B、14B 和 32B Deepseek-R1-Distill-Qwen 模型上使用 INT8、FP8 和 BF16 精度的 rollout 吞吐量。

圖 1 顯示了 8 位量化模型相對于 BF16 的加速比。對于較小的 7B 模型,加速比不足 1.2×;而在 32B 模型上,加速比可達 1.75×。這表明量化對大模型的收益遠高于小模型。基于分析結果,團隊建議僅在模型規模超過 140 億參數時使用量化。

內存受限環境下的加速:

研究團隊還評估了在標準推理場景(不涉及 RL)下,采用 8 位量化所能帶來的吞吐量提升。具體而言,團隊測量了 INT8 的加速比,作為壓力測試,用于驗證其在 A100/A6000 和 H100 GPU 上的適用性。

使用 vLLM 在相同數據集上分別服務 BF16 與 INT8 量化版本的 Deepseek-R1-Distill-Qwen-32B 模型,并在 A100/A6000 和 H100 GPU 上記錄其吞吐量。

image.png

圖 3  在 4 種僅推理配置下,INT8 量化的 Deepseek-R1-Distill-Qwen-32B 相對于 BF16 的吞吐量加速比,測量結果涵蓋不同回復長度。

如圖 3 所示,當 GPU 內存成為瓶頸時,量化能夠帶來極高的加速比 —— 在 TP2-A6000 配置下生成速度提升超過 3 倍,在 TP1-A100 配置下提升甚至超過 5 倍。這突顯了量化在 GPU 內存受限場景(如服務更大規模模型)中的巨大潛力。

端到端加速與效果驗證

研究團隊將 FlashRL 部署于 DAPO-32B 的訓練中,以驗證所提方法的有效性。由于在圖 2 中 FP8 相比 INT8 擁有更小的分布差距,特意選擇 INT8 作為更具挑戰性的測試場景。

圖 4 展示了在 BF16 與 INT8 rollout 下的下游性能與訓練加速效果。兩種配置在 AIME 基準上的準確率相當,但 INT8 顯著提高了訓練速度。

這些結果證明,FlashRL 能在不犧牲訓練效果的前提下,實現顯著的訓練加速。

image.png

圖 4. 左圖:使用 BF16 與 INT8 rollout 精度進行強化學習訓練的下游性能對比。右圖:BF16 與 INT8 rollout 在單位小時內可完成的更新步數。所有實驗均基于 DAPO 配方,在 Qwen2.5-32B 模型上進行,訓練 250 步,硬件配置為 4 個節點、每節點配備 8 張 H100 GPU。

快速使用

使用 FlashRL 只需一條命令! 使用 pip install flash-llm-rl 進行安裝,并將其應用于你自己的 RL 訓練,無需修改你的代碼。

FlashRL 方法支持 INT8 和 FP8 量化,兼容最新的 H100 GPU 以及較老的 A100 GPU。

image.png

更多方法細節,請參閱原博客。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-04-02 09:30:00

2024-08-19 08:54:02

2024-01-26 06:15:44

PythonCPython技巧

2025-05-12 08:20:13

2019-09-09 16:30:42

Redis架構數據庫

2025-11-07 02:00:00

2023-08-11 07:20:04

開源工具項目

2025-09-28 08:58:55

2025-07-22 07:43:26

2017-08-14 10:52:17

小米MIUIMIUI9

2020-08-10 06:36:21

強化學習代碼深度學習

2025-04-08 08:10:00

C#代碼編程

2020-05-21 21:36:54

Windows 10Windows 7Windows

2016-12-07 08:36:58

2023-09-12 13:28:36

AI模型

2019-09-29 10:42:02

人工智能機器學習技術

2024-02-01 18:07:37

2021-10-26 22:25:24

Windows 11Windows微軟

2023-06-25 11:30:47

可視化

2025-05-08 09:16:00

模型強化學習訓練
點贊
收藏

51CTO技術棧公眾號

亚洲国产成人av| www.成人网.com| 久久综合电影一区| 午夜剧场免费看| 3d欧美精品动漫xxxx无尽| 国产精品久久久久久久久动漫 | 久久久黄色大片| 欧美高清在线| 日韩av中文字幕在线| 中文字幕一区二区三区四区在线视频| 黄色网页在线看| 99在线精品视频| 成人黄色av网| 国产精品久久久久久婷婷天堂| 久热精品在线播放| 女人十八岁毛片| 波多野结衣在线播放一区| 欧美一卡二卡三卡| 久久久久久久久久久久久久国产| 黄色免费在线观看| 久久久久9999亚洲精品| 99中文字幕| 中文字幕欧美在线观看| 亚洲婷婷在线| 久久国产精品久久久| 丰满少妇高潮一区二区| xxxx日韩| 欧美一级二级三级乱码| 男人女人黄一级| 天堂电影一区| 亚洲高清视频中文字幕| 尤物国产精品| 国产精品无码2021在线观看| 播五月开心婷婷综合| 91久久大香伊蕉在人线| 中文字幕视频一区二区| 久久不射网站| 97精品国产97久久久久久| 精品国产乱码久久久久久鸭王1| 精品欧美激情在线观看| 日韩精品免费在线视频| jjzz黄色片| 欧美欧美在线| 日韩一区二区三| 红桃视频一区二区三区免费| 久久福利在线| 欧美日韩综合在线| 性生交免费视频| 精品成人免费一区二区在线播放| 无码av免费一区二区三区试看| 国产91视频一区| 亚洲精品白浆| 亚洲一区二区中文在线| 337p亚洲精品色噜噜狠狠p| 麻豆影院在线| 亚洲欧美日韩国产另类专区| 一级一片免费播放| caopeng在线| 夜夜嗨av一区二区三区网页| 400部精品国偷自产在线观看| 国产黄网站在线观看| 亚洲日本乱码在线观看| 玖玖精品在线视频| 久久99亚洲网美利坚合众国| 亚洲一二三专区| 国产一级爱c视频| 中文字幕色婷婷在线视频| 欧美体内谢she精2性欧美| 久久久999视频| 色婷婷综合久久久中字幕精品久久| 色综合久久99| 最新天堂在线视频| 综合欧美精品| 欧美精品一区二区三区四区| 色呦呦一区二区| 欧美精选视频在线观看| 久久久国产91| 国产一级片网址| 蜜桃久久av| 成人h片在线播放免费网站| jizz中国少妇| 97aⅴ精品视频一二三区| 日本精品一区二区三区高清 久久 日本精品一区二区三区不卡无字幕 | 污视频在线免费观看| 久久人人97超碰com| 亚洲图片小说在线| 国产嫩草在线视频| 色天使色偷偷av一区二区| 精品亚洲一区二区三区四区| 深夜福利一区| 亚洲女在线观看| 天天操天天操天天操天天操天天操| 国内自拍一区| 国产精品高潮呻吟久久av无限| 国产尤物在线观看| 成人av网址在线观看| 特级西西444www大精品视频| 亚洲区欧洲区| 欧洲日韩一区二区三区| 日本黄色大片在线观看| 国内精品久久久久久久影视简单 | 色猫猫成人app| 日韩精品资源二区在线| 国产精品免费无码| 国内揄拍国内精品久久| 国产精品久久视频| 成人免费一级视频| 国产精品久久久久久久久免费丝袜| 日本福利视频一区| 国产精品成人**免费视频| 亚洲日本中文字幕免费在线不卡| 婷婷在线精品视频| 日本欧美在线看| 精品久久久久久亚洲| 成人黄色在线电影| 欧美日韩一级视频| 特级西西人体wwwww| 欧美国产免费| 国产欧美一区二区三区四区| 日本福利午夜视频在线| 亚洲国产一区视频| 伊人精品视频在线观看| 日韩av自拍| 国产成人精品av在线| 精品久久久久成人码免费动漫| 中文字幕免费不卡| 精品一卡二卡三卡| 精品资源在线| 国内免费久久久久久久久久久| 国产精品久久久久久久一区二区| 国产亚洲精品aa午夜观看| 欧美 日韩 激情| 北条麻妃一区二区三区在线| 美女久久久久久久久久久| 中文字幕人妻色偷偷久久| 久久综合九色欧美综合狠狠| 国产综合中文字幕| 精品资源在线| 98精品在线视频| 亚洲av无码片一区二区三区| 亚洲人成伊人成综合网小说| 在线看免费毛片| 久久视频在线| 国产欧美日韩高清| 麻豆最新免费在线视频| 在线播放一区二区三区| 欧美88888| 另类专区欧美蜜桃臀第一页| 亚洲激情啪啪| 成人污版视频| 欧美猛交ⅹxxx乱大交视频| 国产女无套免费视频| 亚洲精选视频免费看| 超碰中文字幕在线观看| 国产精品magnet| 国产在线播放一区二区| 91福利在线免费| 亚洲精品小视频| 国产在线观看第一页| 国产精品传媒视频| 性鲍视频在线观看| 精品av久久久久电影| 激情欧美一区二区三区中文字幕| 久草在线中文最新视频| 亚洲精选一区二区| 中国女人一级一次看片| 国产精品国产a级| 国模大尺度视频| 亚洲精品一二| 日本精品一区二区三区高清 久久| 日本欧美韩国| 久久国产精品视频| 色噜噜一区二区三区| 一本到不卡精品视频在线观看| 精品无码人妻一区二区免费蜜桃 | 欧美另类女人| 蜜桃传媒一区二区| 欧美日韩视频免费看| 欧美高清自拍一区| 欧洲免费在线视频| 欧美久久久久久久久久| 久久丫精品久久丫| 久久亚洲一区二区三区明星换脸 | 久久色在线播放| 好吊色在线观看| 91成人在线精品| 搜索黄色一级片| 99国产精品国产精品毛片| 国产精品igao| 国产综合婷婷| 亚洲ai欧洲av| 黄色欧美网站| 国产欧美日韩中文字幕| 999av小视频在线| 日韩中文av在线| 五月婷婷在线观看视频| 欧美麻豆精品久久久久久| 永久免费看片在线播放| 国产精品美女久久久久aⅴ| 亚洲麻豆一区二区三区| 精品综合久久久久久8888| 怡红院av亚洲一区二区三区h| 日韩精品免费一区二区三区| 国产日韩精品久久| 国产精品99久久免费| 国产成人精品在线| 超黄网站在线观看| 精品国产一区av| 免费在线黄色影片| 亚洲成人久久久| 精品久久无码中文字幕| 欧美三级欧美一级| 久久久久久久久久影院| 亚洲激情在线播放| 伊人影院综合网| 久久久午夜精品| 好吊色视频一区二区三区| 黄色资源网久久资源365| 日日碰狠狠躁久久躁婷婷| 亚洲激情综合| 欧美极品少妇无套实战| 久久精品一区二区不卡| 天堂资源在线亚洲视频| 一区二区三区视频免费观看| 国产精品久久亚洲7777| 久久综合偷偷噜噜噜色| 国产日韩av在线播放| 四虎4545www精品视频| 欧美性在线视频| 高清毛片在线观看| 久久久久久久久久久久久久久久久久av| 色三级在线观看| 在线日韩第一页| av电影在线观看一区二区三区| 国产午夜精品麻豆| 水中色av综合| 国产视频久久网| 日本一区高清| 亚洲欧洲一区二区三区久久| 四虎在线视频| 精品调教chinesegay| 亚洲三区在线播放| 精品亚洲一区二区三区| 日本一区高清| 国产一区二区三区在线看| 国产在线免费观看| 在线观看日韩av| 午夜在线免费观看视频| 中文字幕久热精品视频在线| av网在线观看| 成人97在线观看视频| 伊人福利在线| 午夜欧美不卡精品aaaaa| 蜜桃av在线播放| 青青久久aⅴ北条麻妃| av激情成人网| 成人激情综合网| 一级毛片精品毛片| 国产欧美在线一区二区| 亚州综合一区| 午夜精品一区二区三区在线观看 | 欧美视频在线观看视频| 亚洲黄色免费| 亚洲 中文字幕 日韩 无码| 免费成人美女在线观看| 6080国产精品| hitomi一区二区三区精品| 男生裸体视频网站| 欧美国产日本韩| 农村黄色一级片| 午夜精品久久久久久久久久| 午夜精品免费观看| 欧美日韩精品一区二区天天拍小说| 国产毛片毛片毛片毛片毛片| 精品成人私密视频| 男人天堂资源在线| 久久精品91久久香蕉加勒比| 久久av色综合| 国产精品人成电影| caoporn成人免费视频在线| 免费在线一区二区| 99re6这里只有精品| 欧美久久久久久久久久久久久久| 亚洲男人影院| 亚洲制服中文字幕| 久久理论电影网| 日韩精品一区二区亚洲av性色| 亚洲成人动漫一区| 伊人22222| 日韩电影大片中文字幕| aaa在线观看| 国语自产精品视频在线看一大j8| 日韩欧美一区二区三区免费观看| 114国产精品久久免费观看| 青草久久视频| 99热都是精品| 天堂蜜桃91精品| 国产精品99精品无码视亚| 久久精品视频一区二区三区| 久久机热这里只有精品| 欧洲色大大久久| 五月婷婷丁香网| 欧美日本黄视频| 91av一区| 欧美二区在线| 国精品一区二区| 亚洲18在线看污www麻豆| 91视频精品在这里| 欧美人妻精品一区二区免费看| 在线免费观看日本一区| 欧美 中文字幕| 久久综合九色九九| 国产精品蜜月aⅴ在线| 精品无人乱码一区二区三区的优势| 国产精品伦理久久久久久| 美女福利视频在线| 成人毛片老司机大片| 国产黄在线免费观看| 欧美亚洲日本一区| 麻豆av电影在线观看| 性色av一区二区三区免费| 深夜福利一区| 日本一道在线观看| 国产一区二区三区精品欧美日韩一区二区三区 | 中文在线资源观看视频网站免费不卡| av男人的天堂在线观看| 91入口在线观看| 91久久电影| 亚洲综合婷婷久久| 欧美国产日韩精品免费观看| 天堂а√在线中文在线新版| 亚洲激情视频在线观看| 俺来也官网欧美久久精品| 国产91亚洲精品一区二区三区| 亚洲欧美综合久久久| 色婷婷一区二区三区在线观看| 国产精品久久免费看| 亚洲自拍偷拍另类| zzjj国产精品一区二区| 亚洲精品伊人| 国产日韩视频在线播放| 麻豆精品一区二区| 国产成人精品视频免费| 欧美精品 国产精品| 免费a级人成a大片在线观看| 国产自摸综合网| 亚洲mv大片欧洲mv大片| 在线一区二区不卡| 亚洲美女精品一区| 国产av无码专区亚洲av| 欧美高清第一页| 国产精品毛片久久久| 日本www在线视频| 91看片淫黄大片一级在线观看| 国语对白永久免费| 一区二区三区精品99久久| 中文字幕系列一区| 一区二区在线不卡| 国产一区二区三区不卡在线观看| 亚洲国产精品久| 亚洲第一av在线| 大胆人体一区二区| 亚洲成人网上| 国产一区二区电影| 国产午夜免费视频| 亚洲精品资源美女情侣酒店| 成人激情综合| 自拍视频一区二区三区| 丁香激情综合五月| 在线观看 亚洲| 播播国产欧美激情| 国产精品45p| 中文字幕无码不卡免费视频| 国产精品你懂的在线欣赏| 国产女无套免费视频| 68精品国产免费久久久久久婷婷 | **国产精品| www.九色.com| 国产无人区一区二区三区| 国产一区二区三区在线观看| 欧美激情女人20p| 免费视频一区三区| 日本成人xxx| 黑人精品xxx一区| 免费在线观看黄色网| 国产丝袜不卡| 久久se这里有精品| 日产精品久久久久久久| 中文字幕国产亚洲| 第四色中文综合网| 国产精品久久久毛片| 亚洲高清不卡在线观看| h视频在线免费| 国产综合精品一区二区三区| 蜜臀av一区二区在线免费观看| 久久精品国产亚洲AV无码男同 | 日韩精品1区2区3区| 国语对白在线播放| 亚洲桃花岛网站| 国产丝袜一区|