精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型強化學習新發現:刪減84%數據反提升效果

人工智能 新聞
提升強化學習效果的關鍵,在于找到與模型學習歷程高度匹配的訓練數據。

在人工智能領域,"更大即更強" 的理念一直主導著大模型強化學習的發展方向。特別是在提升大語言模型的推理能力方面,業界普遍認為需要海量的強化學習訓練數據才能獲得突破。然而,最新研究卻給出了一個令人驚喜的發現:在強化學習訓練中,數據的學習影響力遠比數量重要。通過分析模型的學習軌跡,研究發現精心選擇的 1,389 個高影響力樣本,就能超越完整的 8,523 個樣本數據集的效果。這一發現不僅挑戰了傳統認知,更揭示了一個關鍵事實:提升強化學習效果的關鍵,在于找到與模型學習歷程高度匹配的訓練數據。

  • 論文標題:LIMR: Less is More for RL Scaling
  • 論文地址:https://arxiv.org/pdf/2502.11886
  • 代碼地址:https://github.com/GAIR-NLP/LIMR
  • 數據集地址:https://huggingface.co/datasets/GAIR/LIMR
  • 模型地址:https://huggingface.co/GAIR/LIMR

一、挑戰傳統:重新思考強化學習的數據策略

近期,強化學習在提升大語言模型的推理能力方面取得了顯著成效。從 OpenAI 的 o1 到 Deepseek R1,再到 Kimi1.5,這些模型都展示了強化學習在培養模型的自我驗證、反思和擴展思維鏈等復雜推理行為方面的巨大潛力。這些成功案例似乎在暗示:要獲得更強的推理能力,就需要更多的強化學習訓練數據。

然而,這些開創性工作留下了一個關鍵問題:到底需要多少訓練數據才能有效提升模型的推理能力?目前的研究從 8000 到 150000 數據量不等,卻沒有一個明確的答案。更重要的是,這種數據規模的不透明性帶來了兩個根本性挑戰:

  • 研究團隊只能依靠反復試錯來確定數據量,這導致了大量計算資源的浪費
  • 領域內缺乏對樣本數量如何影響模型性能的系統性分析,使得難以做出合理的資源分配決策

這種情況促使研究團隊提出一個更本質的問題:是否存在一種方法,能夠識別出真正對模型學習有幫助的訓練數據?研究從一個基礎場景開始探索:直接從基座模型出發,不借助任何數據蒸餾(類似 Deepseek R1-zero 的設置)。通過深入研究模型在強化學習過程中的學習軌跡,研究發現:并非所有訓練數據都對模型的進步貢獻相同。有些數據能夠顯著推動模型的學習,而有些則幾乎沒有影響。

這一發現促使研究團隊開發了學習影響力度量(Learning Impact Measurement, LIM)方法。通過分析模型的學習曲線,LIM 可以自動識別那些與模型學習進程高度匹配的 "黃金樣本"。實驗結果證明了這一方法的有效性:

  • 精選的 1,389 個樣本就能達到甚至超越使用 8,523 個樣本的效果。

精選 1,389 個樣本就能達到全量數據的效果,在小模型上強化學習優于監督微調

這些發現更新了學術界對強化學習擴展的認知:提升模型性能的關鍵不在于簡單地增加數據量,而在于如何找到那些真正能促進模型學習的高質量樣本。更重要的是,這項研究提供了一種自動化的方法來識別這些樣本,使得高效的強化學習訓練成為可能。

二、尋找 "黃金" 樣本:數據的學習影響力測量(LIM)

要找到真正有價值的訓練樣本,研究團隊深入分析了模型在強化學習過程中的學習動態。通過對 MATH-FULL 數據集(包含 8,523 個不同難度級別的數學問題)的分析,研究者發現了一個有趣的現象:不同的訓練樣本對模型學習的貢獻存在顯著差異。

學習軌跡的差異性

在仔細觀察模型訓練過程中的表現時,研究者發現了三種典型的學習模式:

  • 部分樣本的獎勵值始終接近零,表明模型對這些問題始終難以掌握
  • 某些樣本能迅速達到高獎勵值,顯示模型很快就掌握了解決方法
  • 最有趣的是那些展現出動態學習進展的樣本,它們的獎勵值呈現不同的提升速率

這一發現引發了一個關鍵思考:如果能夠找到那些最匹配模型整體學習軌跡的樣本,是否就能實現更高效的訓練?

(a) 不同訓練樣本在訓練過程中展現出的多樣化學習模式。(b) 樣本學習軌跡與平均獎勵曲線(紅色)的比較。

LIM:一種自動化的樣本評估方法

基于上述觀察,研究團隊開發了學習影響力測量(Learning Impact Measurement, LIM)方法。LIM 的核心思想是:好的訓練樣本應該與模型的整體學習進程保持同步。具體來說:

1. 計算參考曲線

首先,計算模型在所有樣本上的平均獎勵曲線作為參考:

這條曲線反映了模型的整體學習軌跡。

2. 評估樣本對齊度

接著,為每個樣本計算一個歸一化的對齊分數:

這個分數衡量了樣本的學習模式與整體學習軌跡的匹配程度。分數越高,表示該樣本越 "有價值"。

3. 篩選高價值樣本

最后,設定一個質量閾值 θ,選取那些對齊分數超過閾值的樣本。在實驗中,設置 θ = 0.6 篩選出了 1,389 個高價值樣本,構成了優化后的 LIMR 數據集。

對比與驗證

為了驗證 LIM 方法的有效性,研究團隊設計了兩個基線方法:

1. 隨機采樣(RAND):從原始數據集中隨機選擇 1,389 個樣本

2. 線性進度分析(LINEAR):專注于那些顯示穩定改進的樣本

這些對照實驗幫助我們理解了 LIM 的優勢:它不僅能捕獲穩定進步的樣本,還能識別那些在早期快速提升后趨于穩定的有價值樣本。

獎勵設計

對于獎勵機制的設計,研究團隊借鑒了 Deepseek R1 的經驗,采用了簡單而有效的規則型獎勵函數:

  • 當答案完全正確時,給予 + 1 的正向獎勵
  • 當答案錯誤但格式正確時,給予 - 0.5 的負向獎勵
  • 當答案存在格式錯誤時,給予 - 1 的負向獎勵

這種三級分明的獎勵機制不僅能準確反映模型的解題能力,還能引導模型注意答案的規范性。

三、實驗驗證:少即是多的力量

實驗設置與基準

研究團隊采用 PPO 算法在 Qwen2.5-Math-7B 基座模型上進行了強化學習訓練,并在多個具有挑戰性的數學基準上進行了評估,包括 MATH500、AIME2024 和 AMC2023 等競賽級數據集。

主要發現

實驗結果令人振奮。使用 LIMR 精選的 1,389 個樣本,模型不僅達到了使用全量 8,523 個樣本訓練的性能,在某些指標上甚至取得了更好的表現:

  • 在 AIME2024 上達到了 32.5% 的準確率
  • 在 MATH500 上達到了 78.0% 的準確率
  • 在 AMC2023 上達到了 63.8% 的準確率

相比之下,隨機選擇相同數量樣本的基線模型(RAND)表現顯著較差,這證實了 LIM 選擇策略的有效性。

三種數據選擇策略的性能對比:LIMR 以更少的數據達到更好的效果

LIMR 在三個數學基準測試上的訓練動態表現與全量數據相當,顯著優于隨機采樣

訓練動態分析

更有趣的是模型在訓練過程中表現出的動態特征。LIMR 不僅在準確率上表現出色,其訓練過程也展現出了更穩定的特征:

  • 準確率曲線與使用全量數據訓練的模型幾乎重合
  • 模型生成的序列長度變化更加合理,展現出了更好的學習模式
  • 訓練獎勵增長更快,最終也達到了更高的水平

這些結果不僅驗證了 LIM 方法的有效性,也表明通過精心選擇的訓練樣本,確實可以實現 "少即是多" 的效果。

LIMR 的訓練動態分析:從精選樣本中獲得更穩定的學習效果

四、數據稀缺場景下的新發現:RL 優于 SFT

在探索高效訓練策略的過程中,研究者們發現了一個令人深思的現象:在數據稀缺且模型規模較小的場景下,強化學習的效果顯著優于監督微調。

為了驗證這一發現,研究者們設計了一個精心的對比實驗:使用相同規模的數據(來自 s1 的 1000 條數據和來自 LIMO 的 817 條數據),分別通過監督微調和強化學習來訓練 Qwen-2.5-Math-7B 模型。結果令人印象深刻:

  • 在 AIME 測試中,LIMR 的表現較傳統監督微調提升超過 100%
  • 在 AMC23 和 MATH500 上,準確率提升均超過 10%
  • 這些提升是在使用相近數量訓練樣本的情況下實現的

小模型上的策略對比:強化學習的 LIMR 優于監督微調方法

這一發現具有重要意義。雖然 LIMO 和 s1 等方法已經證明了在 32B 規模模型上通過監督微調可以實現高效的推理能力,但研究表明,對于 7B 這樣的小型模型,強化學習可能是更優的選擇。

這個結果揭示了一個關鍵洞見:在資源受限的場景下,選擇合適的訓練策略比盲目追求更具挑戰性的數據更為重要。通過將強化學習與智能的數據選擇策略相結合,研究者們找到了一條提升小型模型性能的有效途徑。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-25 09:28:38

2025-06-09 09:32:35

2022-08-16 08:35:45

Black Hat網絡安全

2025-07-01 09:05:28

2016-10-09 13:19:43

2023-08-28 06:52:29

2019-03-25 22:04:19

編程PythonJava

2025-10-31 08:55:00

2019-04-04 13:00:19

Linuxshell命令

2016-07-06 11:38:10

移動 出海

2025-10-10 09:02:16

2025-10-11 09:23:28

RLPT強化學習預訓練數據

2023-04-23 10:12:14

算法強化學習

2013-02-28 10:24:18

2012-06-20 09:39:02

惡意網站

2025-10-21 09:06:00

2021-10-15 10:11:00

遠程管理監控數據中心

2023-05-05 13:11:16

2025-06-04 13:56:51

模型AI數據

2025-05-30 04:00:00

IBMRLVRGRPO
點贊
收藏

51CTO技術棧公眾號

中文一区一区三区高中清不卡免费| 精品国产无码一区二区| 精品视频网站| 91麻豆精品国产91久久久 | 888av在线| 国产成人亚洲综合a∨婷婷| 久久久久久久电影一区| 成人在线观看免费高清| 成人av影音| 欧美乱妇20p| 国产在线青青草| 黄色一级大片在线免费看产| 99国内精品久久| 成人久久一区二区| 欧美性猛交bbbbb精品| 天天做天天爱天天综合网2021| 日韩av一区在线观看| 亚洲第一色av| 综合在线影院| 天天操天天干天天综合网| 一区二区三区四区五区视频| 色哟哟在线观看| 国产一区二区三区久久悠悠色av| 日本精品性网站在线观看| 久久久久性色av无码一区二区| av亚洲在线观看| 亚洲精品av在线播放| 992kp免费看片| 成人在线免费电影网站| 欧美性xxxxx| 日韩精品视频在线观看网址| 99久久久免费精品国产一区二区| 久久精品这里热有精品| 魔女鞋交玉足榨精调教| 视频在线一区| 欧美日韩国产在线观看| 蜜臀久久99精品久久久酒店新书 | 涩爱av色老久久精品偷偷鲁| 欧美日韩一区二区欧美激情| 虎白女粉嫩尤物福利视频| av日韩中文| 亚洲午夜视频在线观看| 日韩精品一区二区三区四| 免费a级毛片在线播放| 国产日韩欧美高清在线| 欧美在线播放一区二区| 免费观看成年在线视频网站| 91麻豆国产福利精品| 国产精品久久久久久久久久直播| 99热这里只有精品99| 国产一区在线观看麻豆| 成人黄色免费看| 亚洲天堂avav| 久久精品国产99国产| 国产精品网红直播| 国产一区二区网站| 国产一区二区三区免费观看| 92裸体在线视频网站| 99精品在线看| 风流少妇一区二区| 精品国产一区二区三区麻豆小说 | 高清视频欧美一级| 精品无码一区二区三区电影桃花| 欧美日韩视频一区二区三区| 久久免费精品日本久久中文字幕| 精品视频久久久久| 国产日韩欧美一区在线 | 日本免费精品| 亚洲成人精品视频在线观看| 亚洲一区二区三区无码久久| 思热99re视热频这里只精品| 亚洲欧洲日产国码av系列天堂| 波多野吉衣中文字幕| 国产日产精品一区二区三区四区的观看方式 | 日韩美女主播视频| 在线播放亚洲精品| 国产九九视频一区二区三区| 99久久国产免费免费| 人妻少妇精品无码专区| 久久色在线观看| 视频一区二区在线观看| 羞羞视频在线观看免费| 香蕉乱码成人久久天堂爱免费| 女人天堂av手机在线| 视频精品导航| 精品国产一区二区三区久久影院| 精品人妻一区二区三区日产乱码卜| 欧美亚洲国产精品久久| 欧美情侣性视频| 人人爽人人爽人人片av| 国产一区在线精品| 欧美午夜精品理论片a级大开眼界 欧美午夜精品久久久久免费视 | 亚洲精品美女网站| 微拍福利一区二区| 欧美在线黄色| 国产福利视频一区二区| va婷婷在线免费观看| 久久亚洲私人国产精品va媚药| 视频一区免费观看| 国产蜜臀在线| 欧美日韩一区二区在线观看视频| 黄色av电影网站| 成人同人动漫免费观看| 久久男人的天堂| 一起草av在线| 久久无码av三级| 大片在线观看网站免费收看| 欧美va在线观看| 精品国产一区二区三区四区四| 亚洲天堂岛国片| 亚洲欧洲一区二区天堂久久| 国产情人节一区| 四虎影视精品成人| 亚洲一二三四在线观看| 中文字幕在线综合| 亚洲综合图色| 久久久久久久久久久免费| 在线观看免费中文字幕| 26uuu精品一区二区| 国产在线xxxx| 久久99精品久久久野外观看| 最近2019中文字幕大全第二页| 青青国产在线观看| 成人综合婷婷国产精品久久| 中文字幕黄色大片| 蜜桃成人精品| 亚洲乱码一区二区| 日韩少妇高潮抽搐| 国产成人午夜电影网| 做爰高潮hd色即是空| 91精品国产66| 中日韩美女免费视频网站在线观看| 五月婷婷激情网| 成人黄色在线看| 韩国无码av片在线观看网站| 综合欧美精品| 久久精品视频免费播放| 进去里视频在线观看| 久久精品欧美一区二区三区不卡| 日韩精品视频久久| 日韩激情网站| 欧洲亚洲女同hd| 免费毛片在线| 欧美在线free| 日本免费网站视频| 精品一区二区三区久久| 中文字幕超清在线免费观看| 日韩欧美激情| 欧美大尺度在线观看| www.热久久| 亚洲1区2区3区视频| av电影在线播放| 日韩视频在线一区二区三区| 国精产品一区二区| 无遮挡爽大片在线观看视频| 亚洲精品国产精品自产a区红杏吧| 国产第一页在线播放| 97久久超碰精品国产| 大陆极品少妇内射aaaaa| 亚洲aa在线| 国产精品美女久久久免费| av国产在线观看| 在线电影院国产精品| avove在线播放| 99久久婷婷国产精品综合| 男人日女人bb视频| 日韩在线观看| 91精品国自产在线观看| 老牛影视精品| 国产亚洲精品久久久久久| 亚洲综合网av| 亚洲精品国产一区二区精华液| 国产a√精品区二区三区四区| 99精品国产在热久久婷婷| 日本一区二区三区四区高清视频| 成人国产一区二区三区精品麻豆| 不卡毛片在线看| 国产综合在线播放| 色婷婷综合久久久久中文| 2014亚洲天堂| eeuss国产一区二区三区| 免费黄色特级片| 自由日本语亚洲人高潮| 久久国产精品免费一区| 日韩在线电影| 91精品国产高清久久久久久久久 | 国产精品久久毛片av大全日韩| ass极品水嫩小美女ass| av不卡在线| 正在播放国产精品| 高清精品视频| 国产日韩欧美在线| 岛国在线视频网站| 久久久精品网站| 婷婷国产在线| 欧美一区二区精品在线| 男人天堂av在线播放| 亚洲日本护士毛茸茸| 无套内谢大学处破女www小说| 九九热在线视频观看这里只有精品| 人人妻人人做人人爽| 99久久九九| 欧美日韩亚洲在线 | 日韩欧美色综合| 亚洲精品91天天久久人人| 亚洲国产综合在线| 日韩在线视频网址| 国产三级久久久| av在线播放网址| 精品午夜久久福利影院| 欧美aⅴ在线观看| 伊人天天综合| 无码人妻aⅴ一区二区三区日本| 亚洲图区在线| 国产在线精品一区二区中文 | 国产精品毛片va一区二区三区| 国产亚洲精品精品国产亚洲综合| 国模精品系列视频| 18视频在线观看网站| 中文综合在线观看| 国产中文在线观看| 日韩av一区在线观看| 亚洲第一天堂网| 欧美一区二区三区视频在线观看| 香蕉污视频在线观看| 亚洲6080在线| 久久高清免费视频| 亚洲一区二区三区美女| 国产成人久久久久| 亚洲欧洲美洲综合色网| 黄色三级生活片| 日本一二三不卡| 69精品无码成人久久久久久| 久久综合五月天婷婷伊人| 日本一卡二卡在线| 成人av网站免费观看| 久久精品aⅴ无码中文字字幕重口| 国产美女娇喘av呻吟久久| 在线播放免费视频| 国产在线精品国自产拍免费| 成人综合久久网| 久久99精品国产麻豆不卡| 中文字幕22页| 国产一区二区影院| 香蕉网在线视频| 国产精品羞羞答答xxdd| 午夜影院免费版| 懂色av一区二区三区蜜臀| 亚洲精品成人无码毛片| 懂色av噜噜一区二区三区av| 老司机午夜免费福利| av动漫一区二区| 欧美熟妇一区二区| 欧美极品aⅴ影院| 99精品中文字幕| 亚洲精品高清在线| 日本中文字幕在线免费观看| 懂色aⅴ精品一区二区三区蜜月| 国产精品美女久久久久av爽| 日韩欧美在线视频日韩欧美在线视频 | 91日本视频在线| 在线精品自拍| 精品婷婷色一区二区三区蜜桃| 免费一区二区三区视频导航| 日韩欧美视频一区二区| 欧美电影三区| 国产黄色激情视频| 免费在线亚洲欧美| 天天干在线影院| 国产剧情av麻豆香蕉精品| av在线播放网址| 国产蜜臀97一区二区三区| 亚洲女人久久久| 亚洲在线观看免费| 日韩在线 中文字幕| 欧美日韩亚洲高清一区二区| 精品国产无码AV| 亚洲精品中文字幕女同| 色大18成网站www在线观看| 色综合久久88| 人人视频精品| 亚洲a∨日韩av高清在线观看| 欧美人妖视频| 一区二区三区四区在线视频| 一区三区视频| 色www免费视频| 99久久免费精品高清特色大片| 性少妇xx生活| 精品久久久久久久久久久久久久 | 亚洲国产精品女人久久久| 狠狠色伊人亚洲综合网站l| 欧美xxxx18性欧美| 东京一区二区| 爱情岛论坛亚洲入口| 欧美久久综合网| 无码粉嫩虎白一线天在线观看| 日本成人在线视频网站| 免费看91视频| 中文字幕不卡一区| 日韩欧美亚洲一区二区三区| 欧美久久免费观看| 久久这里精品| 国外色69视频在线观看| jizzjizz少妇亚洲水多| 久久精品日产第一区二区三区乱码| 久久一区二区三区喷水| 日韩网址在线观看| 大陆成人av片| 日韩欧美国产成人精品免费| 日本高清免费不卡视频| 欧美视频一二区| 久久国产精品电影| 国产精品原创视频| 欧美日韩国产一二| 亚洲国产一区二区三区a毛片| 国产永久免费网站| 国产日韩精品一区二区浪潮av | 久久精品国产一区二区三区日韩| 66视频精品| 欧美一级特黄a| 久久蜜桃av一区二区天堂| 国产午夜福利片| 欧美电影免费观看完整版| 成人福利片网站| 国产女人18毛片水18精品| 九九久久婷婷| 亚洲 高清 成人 动漫| 99久久精品免费观看| 精品午夜福利在线观看| 91精品国产一区二区| 黄色网址在线免费| 91久久精品美女高潮| 日韩精品2区| 一道本在线免费视频| 日本一区二区免费在线观看视频| 无码人妻精品一区二区| 精品网站999www| 在线观看特色大片免费视频| 久久久综合香蕉尹人综合网| 中文亚洲字幕| 爱爱的免费视频| 色综合久久久久网| 日韩有码电影| 青青久久av北条麻妃海外网| 一本色道久久综合亚洲精品酒店 | 久久一二三国产| 无码人妻精品一区二区三区蜜桃91 | 欧美日韩久久| 国产吃瓜黑料一区二区| 亚洲自拍偷拍网站| 神马午夜精品95| 国产91精品久久久久久| 奇米色欧美一区二区三区| 国产精品69页| 国产精品久久99| 99热这里只有精品在线观看| 欧美成人中文字幕在线| 中文字幕一区二区三区四区久久 | 宅男av一区二区三区| 久久成人综合网| 欧美日韩在线观看成人| 亚洲国产精久久久久久 | 一本色道久久综合亚洲精品图片| 一本大道久久a久久精二百| 波多野结衣在线影院| 91久久精品美女| 99精品视频免费全部在线| 91网站免费入口| 91精品国产91久久综合桃花 | 国产精品免费久久久久久| 九九热爱视频精品视频| 9l视频白拍9色9l视频| 亚洲激情图片qvod| 瑟瑟在线观看| 91久久久亚洲精品| 亚洲黄网站黄| 国产aaaaaaaaa| 精品国产乱码久久久久久老虎| 免费电影日韩网站| 丰满女人性猛交| 91碰在线视频| 亚洲自拍偷拍另类| 久久久在线观看| 日韩美女一区二区三区在线观看| 亚洲精品一区二区18漫画| 精品久久久久久久久久久久久久| 91xxx在线观看| 国产视频在线观看一区| 久久99热这里只有精品| 中文字幕一区二区三区精品| 日韩在线激情视频| 亚洲va久久久噜噜噜久久| 涩多多在线观看| 欧美日韩激情美女| 在线不卡日本v二区707| 免费观看国产成人| 国产成人激情av| 在线观看国产小视频| 久久久在线免费观看| 999久久久亚洲|