精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

強化學習Scaling Law錯了?無需蒸餾,數據量只要1/6,效果還更好

人工智能 新聞
強化學習訓練數據越多,模型推理能力就越強?新研究提出LIM方法,揭示提升推理能力的關鍵在于優化數據質量,而不是數據規模。該方法在小模型上優勢盡顯。從此,強化學習Scaling Law可能要被改寫了!

DeepSeek-R1帶火了使用強化學習訓練LLM。在訓練中,AI靈機一動,讓作者耳目一新,甚至因此驚嘆到:這就是強化學習的力與美!

DeepSeek-R1-Zero驚艷了研究人員

然而,對RL訓練的理解存在空白:這些工作的訓練數據的透明度有限,誰知道是方法好還是數據集質量好?

剛剛出爐的新論文揭示了RL訓練的另一面,探討了一個核心問題:

在提升語言模型推理能力方面,什么真正決定了強化學習(RL)訓練數據的有效性?

研究團隊對「擴大RL訓練數據規模,就能提升模型性能」這一觀念提出了挑戰。

核心發現是,訓練樣本的質量和相關性遠比數量重要。

通過廣泛的實證分析,新研究得出了一些令人驚訝的觀察結果,這些結果從根本上改變了對RL訓練動態的理解:

  1. 經過精心挑選的1389個RL訓練樣本子集,可以實現和8523個樣本的完整數據集相當甚至更優的性能。
  2. 新方法「學習影響測量」(LIM),可以有效地預測哪些樣本對模型改進的貢獻最大,消除了手動樣本管理的需要,而且易于擴展。
  3. 通往更好推理能力的道路,可能不在于簡單地擴大RL訓練數據規模,而在于更具選擇性地使用哪些樣本。

項目地址:https://github.com/GAIR-NLP/LIMR

Scaling Law適用于強化學習訓練嗎

在這項工作中,在一個基本場景,探索RL訓練數據的Scaling Law:直接從沒有經過知識蒸餾的基礎模型開始(類似于Deepseek R1-zero的設置)。

對RL訓練數據需求的理解不足,面臨下列難題:

  1. 由于缺乏明確的數據規模基準,必須依賴反復試驗,導致資源利用效率低下,而結果也可能不是最優的。
  2. 樣本數量如何影響模型性能,該領域缺乏對該問題的系統分析,很難做出資源分配的明智決策。

更重要的是,這種不確定性提出了關鍵問題:

擴大RL訓練數據規模真的是提高模型性能的關鍵嗎?


或者是否忽略了更基本的因素,例如樣本質量和選擇標準?

學習影響測量

學習影響測量(Learning Impact Measurement,LIM),是一種系統的方法,用于量化和優化強化學習中訓練數據的價值。

新方法通過分析學習動態,識別最有效的訓練樣本,從而應對強化學習訓練中數據效率的關鍵挑戰。

RL訓練中的學習動態

為了理解訓練數據和模型改進之間的關系,使用MATH-FULL數據集進行了廣泛的分析,數據集包含8,523個難度級別不同的數學問題。

初步研究表明,不同的訓練樣本對模型學習的貢獻是不平等的,這與將所有樣本統一對待的傳統方法相反。

如圖2a所示,觀察到不同的學習軌跡:一些樣本表現出穩定的性能模式,而另一些樣本則顯示出復雜的學習動態,這些動態似乎驅動了顯著的模型改進。

圖a解題獎勵軌跡揭示了不同的模式:保持接近零獎勵的樣本、快速獲得高獎勵的樣本,以及顯示出具有不同改進率的動態學習進展的樣本。

圖b表明較高的LIM分數反映了與模型學習軌跡更好的對齊,其中顯示出相似增長模式的軌跡獲得更高的分數。

圖2:(a)MATH-FULL數據集中訓練樣本在不同epoch的學習動態分析。(b)樣本學習軌跡與平均獎勵曲線(紅色)的比較。

這些觀察結果引出了核心見解:檢查單個樣本與模型的整體學習進程的對齊程度,可以系統地衡量強化學習訓練中數據的價值

這種理解構成了新方法LIM的基礎。

學習影響測量(LIM)

LIM的核心是模型對齊的軌跡分析。

它根據訓練樣本對模型學習的貢獻,來評估它們的價值。

新研究的主要發現是,學習模式與模型整體性能軌跡互補的樣本往往對優化更有價值。

學習影響測量(LIM)主要分為兩步:(1)分析模型對齊的軌跡;(2)計算一個歸一化對齊分數。

考慮到神經網絡學習通常遵循對數增長模式,使用模型的平均獎勵曲線,作為衡量樣本有效性的參考(圖2b):

其中:r_k^i表示樣本i在epoch k的獎勵;N是樣本總數;K是總的epoch數。

對于每個樣本,LIM計算一個歸一化對齊分數:

本質上,這個公式是在平均獎勵變化趨勢上,比較單個樣本與整體的相似程度。

如果一個樣本的獎勵變化趨勢與整體趨勢高度一致(即,當整體獎勵上升時,該樣本的獎勵也上升,反之亦然),那么它的對齊分數就會較高。

反之,如果一個樣本的獎勵變化趨勢與整體趨勢差異較大,那么它的對齊分數就會較低。

該分數量化了樣本的學習模式與模型整體學習軌跡的對齊程度,分數越高表示對齊程度越好。

尋找「黃金」樣本

基于對齊分數,LIM采用了選擇性抽樣策略:s_i>θ,其中θ作為質量閾值,可以根據具體要求進行調整。在實驗中,研究人員設置θ=0.6產生了優化的數據集 (LIMR),其中包含來自原始數據集的1,389個高價值樣本。

基線數據選擇方法

在開發核心方法時,研究人員探索了幾種替代方法,有助于最終方法的形成和驗證。

這些方法為強化學習中的數據選擇提供了寶貴的見解。

  • 隨機抽樣基線(RAND):從MATH-FULL中隨機選擇1389個樣本,以匹配主要方法的大小,為評估選擇性抽樣的有效性提供了一個基本的參考點。
  • 線性進展分析方法(LINEAR):根據在訓練周期中持續顯示穩步改進的一致性,來評估樣本。雖然這種方法捕獲了逐漸進展的樣本,但它經常錯過有快速早期收益然后趨于穩定的有價值的樣本。使用閾值θ=0.7,此方法產生1189個樣本。

獎勵設計

與Deepseek R1類似,使用基于規則的獎勵函數。

具體來說,對于正確答案,獎勵為1;對于不正確但格式正確的答案,獎勵為-0.5;對于格式錯誤的答案,獎勵為-1。形式上,這可以表示為:

實驗結果

為了驗證LIMR方法的有效性,研究團隊開展了一系列實驗。

在實驗設置上,訓練環節采用OpenRLHF框架中實現的近端策略優化(PPO)算法,以Qwen2.5-Math-7B為初始策略模型。

評估環節選擇了多個具有挑戰性的基準測試,包括MATH500、AIME2024和AMC2023。為提高評估效率,借助vLLM框架進行評估。

從不同數據選擇策略的對比來看,直接在Qwen-Math-7B上使用MATH-FULL數據集進行強化學習訓練,模型性能有顯著提升。

使用MATH-RAND數據集訓練,與完整數據集相比,平均準確率下降8.1%;MATH-LINEAR的準確率損失為2%。

而LIMR盡管數據集規模減少了80%,但性能與MATH-FULL幾乎相當。這充分證明在強化學習中,真正起關鍵作用的往往只是一小部分問題。

進一步分析訓練過程中的各項指標演變,發現LIMR和MATH-FULL的準確率曲線近乎一致,且均明顯優于MATH-RAND。

在序列長度方面,MATH-FULL的訓練曲線不穩定,而LIMR的曲線先下降后逐漸上升。訓練獎勵方面,LIMR的獎勵曲線上升更快,最終接近1.0,這表明模型在訓練過程中能夠更有效地利用LIMR數據集進行學習。

圖4展示了在三個具有挑戰性的基準測試上模型性能的對比分析。結果表明,LIMR在所有三個基準測試上的性能都與MATH-FULL相當,同時顯著優于MATH-RAND。

值得注意的是,LIMR在AIME24和AMC23數據集上表現出色,有力證明了其性能提升并非歸因于對單個數據集的過擬合,而是反映了模型數學推理能力的真正提高。

RL的數據效率優于SFT

研究者發現,對于數據稀疏且模型較小的情況,強化學習>監督微調

研究者用來自s1的1000條數據和來自LIMO的817條數據,通過監督微調對Qwen-2.5-Math-7B進行訓練,并與LIMR進行比較。

實驗結果表明,在相同的約1000個問題下,與LIMO和s1相比,LIMR在AIME上的相對提升超過100%,在AMC23和MATH500上的準確率提高了10%以上。

這進一步強調了選擇適合模型的數據,而不是盲目選擇更具挑戰性的數據的重要性。在數據稀疏的場景以及小模型應用中,強化學習結合有效的數據選擇策略,能有效地提升模型的推理能力。

本文的方法不僅為研究人員提供了一種高效、可擴展的RL訓練解決方案,還揭示了提升推理能力的關鍵可能在于優化數據質量,而非單純增加數據量。

與監督微調(SFT)的對比實驗表明,當RL結合高效的數據選擇策略時,在數據有限的小模型上表現尤為突出。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-09-14 14:00:00

AI模型

2025-10-20 09:05:00

2022-11-02 14:02:02

強化學習訓練

2024-04-12 08:59:02

強化學習系統人工智能擴散模型

2025-09-30 08:53:51

2025-04-25 09:20:00

數據模型AI

2023-03-09 08:00:00

強化學習機器學習圍棋

2020-08-10 06:36:21

強化學習代碼深度學習

2025-01-21 09:00:00

2025-02-20 09:21:51

2025-11-12 08:56:15

2023-11-13 07:51:58

ChatGPT研究

2023-11-07 07:13:31

推薦系統多任務學習

2025-10-11 09:02:40

2025-04-27 09:23:00

模型訓練AI

2025-06-25 09:28:38

2020-11-12 19:31:41

強化學習人工智能機器學習

2024-04-03 07:56:50

推薦系統多任務推薦

2025-05-08 09:16:00

模型強化學習訓練

2021-09-17 15:54:41

深度學習機器學習人工智能
點贊
收藏

51CTO技術棧公眾號

国产美女诱惑一区二区| 精品久久免费| 欧美国产日本韩| 成人免费视频网址| 日本网站在线免费观看| 国产精品三级| 欧美成人一区二区| 男人天堂999| 天天影视久久综合| fc2成人免费人成在线观看播放| 日本道色综合久久影院| 欧美视频www| 九九综合九九| 日韩一区二区三区免费观看| 37pao成人国产永久免费视频| 免费黄网站在线| 99久久精品国产一区| 国产精品香蕉国产| 亚洲视频免费播放| 久久久久国产| 亚洲人成电影在线观看天堂色| 亚洲一区二区在线视频观看| 亚洲一级少妇| 亚洲精品高清在线| 色一情一区二区三区四区| 国精产品一品二品国精品69xx| 免费高清在线一区| 欧美一级免费视频| 久久久久久久福利| 久久中文亚洲字幕| 亚洲社区在线观看| 一起草在线视频| baoyu135国产精品免费| 欧美日韩国产综合一区二区三区 | 欧美日韩一二| 亚洲国产女人aaa毛片在线| 三区视频在线观看| 欧美精品资源| 欧美性xxxx| www..com日韩| 天天干在线视频论坛| 成人欧美一区二区三区黑人麻豆| 日本免费高清一区二区| 性xxxxbbbb| 成人av网站在线观看| 粉嫩高清一区二区三区精品视频| 91中文字幕在线视频| 蜜桃一区二区三区四区| 国产精品18久久久久久首页狼| 免费在线不卡视频| 亚洲片区在线| 91精品国产亚洲| 日韩欧美性视频| 伊人久久亚洲热| 久久久久久久香蕉网| 国产精品16p| 在线欧美一区| 91av视频在线观看| 九九热精品视频在线| 亚洲综合另类| 日本精品久久中文字幕佐佐木| 国产黄色免费观看| 久久久999| 国产91九色视频| 超碰在线免费97| 久久精品国产一区二区三| 国产在线播放91| 国产精品午夜福利| 韩国女主播成人在线观看| 国产色视频一区| 国产av精国产传媒| 丁香激情综合五月| 久久99欧美| 北条麻妃在线| 亚洲美女免费在线| 97超碰在线人人| 中文字幕乱码中文乱码51精品| 日韩欧美一区二区在线| 亚洲精品视频导航| 国产精品一区二区三区www| 日韩视频在线你懂得| 天堂www中文在线资源| 日韩a级大片| 一区二区三区视频在线| 精品国产大片大片大片| 狠狠88综合久久久久综合网| 欧美一级片在线播放| 国产精品自拍第一页| 国产乱人伦偷精品视频不卡| 精品久久久久久综合日本| 国产69精品久久app免费版| 亚洲乱码中文字幕综合| 精品国产免费av| 久久日本片精品aaaaa国产| 日韩免费看网站| 女~淫辱の触手3d动漫| 在线精品国产| 热久久视久久精品18亚洲精品| 97在线公开视频| 91麻豆免费在线观看| 在线视频不卡国产| 欲香欲色天天天综合和网| 欧美精品一级二级三级| 四季av综合网站| 国产精品精品国产一区二区| 91精品国产高清久久久久久| 国产精品欧美久久久久天天影视| 不卡av在线网| 最近免费观看高清韩国日本大全| 伊人成综合网站| 欧美一级久久久久久久大片| 熟女俱乐部一区二区| 国内精品福利| 91精品国产综合久久香蕉| 色吊丝在线永久观看最新版本| 1000精品久久久久久久久| 亚洲国产精品久久久久爰色欲| 国产精品igao视频网网址不卡日韩 | 久热精品视频在线观看| 无码人妻精品一区二区三区9厂| 国产成人在线色| 一区二区精品视频| 国产精品专区免费| 亚洲二区在线播放视频| 欧美成人精品欧美一级私黄| 免费在线视频一区| 欧美xxxx黑人又粗又长密月| 色a资源在线| 欧美人动与zoxxxx乱| 熟女俱乐部一区二区| 亚洲区欧美区| 国产精品亚洲一区| 宅男网站在线免费观看| 欧美日韩一区中文字幕| 日韩精品电影一区二区| 亚洲一级在线| 精品欧美日韩在线| av不卡高清| 91精品一区二区三区在线观看| 国产探花视频在线播放| 视频一区视频二区中文| 乱色588欧美| 女人让男人操自己视频在线观看| 欧美精品一区二区三区一线天视频| 爱爱视频免费在线观看| 精品一区二区三区视频| 伊人婷婷久久| 在线高清欧美| 久久精品99无色码中文字幕| 一本一道人人妻人人妻αv| 欧美韩日一区二区三区| 99视频在线视频| 成人在线免费观看网站| 国产精品天天狠天天看| 午夜毛片在线| 欧美亚洲动漫制服丝袜| 精品一区二区三孕妇视频| 日本不卡视频在线观看| 亚洲欧美日产图| 国产精品久久久久久久久久辛辛| www.久久久久久.com| 国产精品久久久久久免费| 亚洲欧美自拍偷拍| 天天干天天色天天干| 亚洲国产一成人久久精品| 91久久精品美女高潮| 亚洲卡一卡二| 亚洲国产日韩欧美在线动漫| 美日韩一二三区| 国产人久久人人人人爽| 日韩不卡一二三| 亚洲最新色图| 精品久久久久久乱码天堂| 亚洲播播91| 久久精品国产电影| 亚洲精品国产一区二| 午夜精品福利久久久| 欧美做受xxxxxⅹ性视频| 久久国产精品99久久久久久老狼| 久久久久久久久久久久久国产| 成人性生交大片免费看96| 日本精品久久电影| 91青青在线视频| 日韩欧美色综合网站| 日韩综合在线观看| 亚洲同性同志一二三专区| 久久久高清视频| 免费成人性网站| 久久久久久久久久伊人| 美女久久久久| 91九色对白| 欧美电影免费观看| 欧美成人在线免费| 韩日视频在线| 日韩精品在线一区二区| 黄色片中文字幕| 一区二区三区日本| 公侵犯人妻一区二区三区| 韩国一区二区在线观看| 99福利在线观看| 在线看片不卡| 视频在线精品一区| 99国产精品久久一区二区三区| 国产成人激情视频| 538在线视频| 精品国产视频在线| 五月婷婷在线观看视频| 在线91免费看| 极品国产91在线网站| 亚洲精品免费播放| 日本一区二区视频在线播放| 懂色av一区二区在线播放| 中文字幕第36页| 99国产精品久久久久久久 | 人妻丰满熟妇av无码久久洗澡| 精品在线你懂的| 免费在线观看的毛片| 亚洲国产mv| 国产香蕉一区二区三区| 欧美色网址大全| 日本在线视频一区| 天海翼精品一区二区三区| 99国产超薄肉色丝袜交足的后果 | 6080yy午夜一二三区久久| 一级片在线观看免费| 亚洲丶国产丶欧美一区二区三区| 一级性生活免费视频| 中文字幕第一区综合| 永久免费看mv网站入口78| 99这里只有久久精品视频| 国产精品无码自拍| 精品一区二区三区不卡| 国产wwwxx| 强制捆绑调教一区二区| 蜜臀久久99精品久久久酒店新书| 亚洲在线黄色| 日韩免费视频播放| 伊人久久成人| 青青草精品视频在线| 黄色欧美日韩| 东北少妇不带套对白| 欧美午夜a级限制福利片| 欧美黄色免费网址| 你懂的视频一区二区| 欧美少妇在线观看| 欧美国产免费| 国产亚洲精品久久久久久久| 午夜精品免费| 日本一本中文字幕| 亚洲婷婷在线| www.99热这里只有精品| 亚洲免费高清| 97xxxxx| 日韩精品电影在线| 黄色片在线免费| 久久精品999| www.五月天色| 国产成都精品91一区二区三| 又大又长粗又爽又黄少妇视频| 成人在线一区二区三区| 第四色在线视频| www国产精品av| 欧美人妻一区二区三区| 国产精品久久久久久久蜜臀| 萌白酱视频在线| 亚洲乱码国产乱码精品精的特点| 久草免费在线视频观看| 午夜精品久久一牛影视| 手机在线看片1024| 欧美影院一区二区| 国产精品一区二区av白丝下载 | 7777精品伊久久久大香线蕉语言| 视频免费一区二区| 国产一区二区三区色淫影院 | 成人福利视频在线| av黄色免费网站| **网站欧美大片在线观看| 免看一级a毛片一片成人不卡| 大荫蒂欧美视频另类xxxx| 天天天天天天天干| 日韩欧美在线观看一区二区三区| 欧美 日韩 综合| 国产亚洲欧美日韩一区二区| 黄色免费在线观看网站| 午夜精品一区二区三区在线视频| 最新日韩一区| 91手机在线视频| 九九久久成人| 亚洲精品天堂成人片av在线播放| 国产精品一级| 日韩视频在线观看一区二区三区| 成人福利视频在线看| 性色国产成人久久久精品| 一级女性全黄久久生活片免费| 日韩不卡视频在线| 欧美乱熟臀69xxxxxx| 天天色综合久久| 少妇久久久久久| 国产不卡人人| 91影视免费在线观看| 久久99性xxx老妇胖精品| 日本丰满少妇黄大片在线观看| 校园激情久久| wwwww在线观看| 中文一区二区完整视频在线观看| 国产极品在线播放| 在线播放亚洲一区| 九色视频成人自拍| 久久久久久国产免费| 啪啪av大全导航福利综合导航| 精品一区久久| 午夜国产精品视频免费体验区| 国产精品视频黄色| 91视频在线看| 久久久一二三区| 欧美日韩成人综合在线一区二区| 视频二区在线| 欧美精品videos性欧美| 成人自拍视频| 亚洲三级一区| 青青草原综合久久大伊人精品优势| 理论片大全免费理伦片| 亚洲精品第一国产综合野| 亚洲中文无码av在线| 日韩av综合网站| av剧情在线观看| 91福利入口| 亚洲欧美色图| 欧美一级免费在线| 中文字幕亚洲一区二区av在线| 亚洲av中文无码乱人伦在线视色| 亚洲国产高清高潮精品美女| 性欧美高清come| 91传媒免费看| 国产一区激情| 国产精品无码自拍| 一二三区精品视频| a天堂视频在线| 九九热精品在线| 视频在线观看免费影院欧美meiju| 综合网五月天| 韩国三级在线一区| 成年人av电影| 日韩久久久精品| 欧美人与禽猛交乱配| 国产精品久久久久av福利动漫| 国产一区二区中文| 精品人妻一区二区三区日产| 亚洲国产cao| 亚洲AV第二区国产精品| 欧美在线视频免费观看| 要久久爱电视剧全集完整观看 | 亚洲香蕉在线观看| 国精产品一区一区三区四川| 色噜噜狠狠色综合网| 麻豆91精品视频| 欧美手机在线观看| 日韩一区二区三区在线| 182在线播放| 久久影视中文粉嫩av| 丝袜美腿亚洲一区二区图片| 538精品视频| 欧美一级欧美三级| 成人女同在线观看| 麻豆精品蜜桃一区二区三区| 日韩黄色免费电影| 国产免费美女视频| 欧美mv日韩mv| 欧美大胆a人体大胆做受| 欧美日韩一区二区三区在线视频| 日韩精品亚洲一区| 日本高清一二三区| 精品成a人在线观看| 小早川怜子影音先锋在线观看| 日本视频一区二区不卡| 精品一区二区三区影院在线午夜| 国产亚洲欧美精品久久久久久| 精品亚洲一区二区三区在线观看| 国产一区一一区高清不卡| 三年中文高清在线观看第6集 | 四季av中文字幕| 欧美一区二区黄| 国产不卡123| 伊人久久av导航| 99精品视频在线免费观看| 综合久久中文字幕| 久久99亚洲热视| 国产不卡av一区二区| 国产精品19p| 色婷婷av一区二区三区软件| av在线导航| 欧美一级爱爱| 国产xxx精品视频大全| 一级特黄免费视频| 欧美俄罗斯乱妇| 欧美日中文字幕| 色婷婷精品久久二区二区密| 欧美日韩国产区一| 涩涩av在线| 欧洲精品视频在线|