精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

英偉達揭示RL Scaling魔力!訓練步數翻倍=推理能力質變,小模型突破推理極限

人工智能 新聞
這項來自 NVIDIA 的研究,讓我們重新認識了 RL 的真正潛力——不僅能優化策略,還能擴展模型的能力邊界。

強化學習(RL)到底是語言模型能力進化的「發動機」,還是只是更努力地背題、換個方式答題?這個問題,學界爭論已久:RL 真能讓模型學會新的推理技能嗎,還是只是提高了已有知識的調用效率?

過去的研究多數持悲觀態度:認為 RL 帶來的收益非常有限,有時甚至會讓模型「同質化」加重,失去多樣性。然而,來自英偉達的這項研究指出,造成這一現象的根本原因在于:數學、編程等任務在 base model 的訓練數據中被過度呈現,以及 RL 訓練步數不足。

圖片

  • 論文題目:ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
  • 鏈接:https://arxiv.org/pdf/2505.24864

ProRL 來了!長期訓練 = 推理能力質變!

由 NVIDIA 團隊提出的 ProRL(Prolonged Reinforcement Learning)框架,將 RL 訓練步數從傳統的幾百步大幅提升至 2000 步以上,釋放了小模型潛藏的巨大潛力。結果令人震驚:

  • 原本完全不會做的邏輯謎題,ProRL 模型的 pass@k 能達到 100%
  • 創造力指標(Creativity Index)飆升,模型能主動生成全新解題路徑
  • 不再是「蒙對答案」,而是真正「開竅」了!

圖片

這一突破主要來自于穩定長期的強化學習,然而,長期 RL 訓練并不容易,容易出現熵崩塌、性能震蕩、甚至「擺爛」。為此,團隊構建了完整的技術組合拳:

  • 多樣化可驗證獎勵任

引入了數學、編程、科學問答(STEM)、邏輯謎題、指令遵循等多領域數據,這些任務具有程序化可驗證的正確答案,為 RL 訓練提供了可靠、客觀的監督信號,不再依賴「易被騙」的獎勵模型。

  • 改進算法組合:GRPO + DAPO

在 GRPO(Group Relative Policy Optimization)框架基礎上,融合 DAPO(Decoupled Clip and Dynamic Sampling)關鍵的解耦裁剪(Decoupled Clipping)來避免策略更新失衡,以及動態采樣(Dynamic Sampling)來過濾掉「太容易」或「完全不會」的無效樣本,提升訓練效率。

  • KL 正則化 + 周期性策略重置

與一些去 KL 正則的做法相反,本論文發現適度 KL 懲罰是穩定訓練的關鍵。同時引入參考策略重置機制:當 KL 驟增或性能下滑時,重置參考策略為當前模型副本,并重置優化器,讓訓練「重啟」。這個簡單機制有效打破訓練停滯,使模型持續進化。

基于 ProRL 技術,團隊訓練出 Nemotron-Research-Reasoning-Qwen-1.5B,展現出驚人的性能優勢:

  • 在數學任務中提升 14.7%,趕超 7B 模型
  • 在代碼生成上領先 DeepCoder-1.5B 達 6.5%
  • 在邏輯推理方面,準確率提升高達 54.8%

圖片

ProRL 真的能夠拓寬模型能力邊界

近來,對于 RL 是否能夠拓寬模型的能力邊界一直有爭議。作者在文章中著重分析了 RL 是否能夠拓寬能力邊界的問題,并且發現,長期穩定的 RL 能夠帶來模型能力的真正提升。圍繞著這個主題,文章主要揭示了三個方面的發現:

  • RL 模型能解出 base model 無論如何采樣都完全答不出的題,甚至做到 pass@k 100%。這不是隨機波動,而是新能力的誕生。
  • 強化學習帶來的提升與基礎模型的初始表現之間呈顯著負相關關系。在那些 base model 表現較弱的任務(初始 pass@k 較低),RL 展現出極強的「推理邊界擴展」能力。
    而在本身已經很強的領域,如數學和代碼(這些任務的「創造力指數」較低),ProRL 的邊界擴展則較為有限。對于圖中「Diminished Area」中提升較小的任務,作者觀察到一個共同特征:這些任務在預訓練數據中已被充分覆蓋,缺乏進一步擴展的空間,因此 RL 提供的增益有限。

圖片

  • 模型不僅「答對」,還「想得新」。作者使用 Creativity Index 對模型生成的解題路徑進行量化評估,發現:訓練步數越長,模型「跳出預訓練語料」的能力越強。解題方式不再拘泥于模板套路,而是展現出更豐富、更具創造性的推理策略。

總結

這項來自 NVIDIA 的研究,讓我們重新認識了 RL 的真正潛力——不僅能優化策略,還能擴展模型的能力邊界。

通過 ProRL,我們第一次看到「小模型」也可以在復雜推理任務中「迎難而上」,甚至跑贏大模型。而這種進步,不靠更多數據、不靠更大模型,只靠更長、更穩、更聰明的訓練流程。

未來,如果你想做出推理能力強、部署成本低、泛化能力強的小語言模型,ProRL 可能正是那把鑰匙。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-10-18 14:46:51

2025-10-27 09:08:20

2025-07-14 14:38:45

視覺模型AI

2025-05-12 14:23:42

AI算法訓練

2022-06-01 16:47:53

AI模型開源

2025-03-12 09:48:19

2025-07-28 09:12:00

2025-02-17 09:33:00

AI算法模型

2025-09-15 09:43:33

分層推理模型循環網絡推理

2025-06-12 01:00:00

2023-01-05 09:33:37

視覺模型訓練

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-08-11 08:00:00

2025-05-07 10:12:52

英偉達模型AI

2023-09-11 12:58:00

AI訓練

2025-02-27 09:09:45

2024-09-13 06:32:25

2024-06-17 13:34:54

2025-04-22 09:12:00

AI模型數據

2025-02-18 15:02:13

點贊
收藏

51CTO技術棧公眾號

18岁视频在线观看| 91九色视频在线| 久久久久久香蕉| av在线免费播放网站| 日韩av一级片| 日韩在线视频免费观看高清中文| 天天干天天玩天天操| 精品麻豆一区二区三区| 国产精品一区二区三区四区| 久久99视频精品| 在线免费观看a级片| 91在线亚洲| 午夜精品福利一区二区蜜股av| 秋霞毛片久久久久久久久| 国产精品日韩无码| 亚洲一区亚洲| 精品中文字幕乱| 亚洲第一香蕉网| 国产精品一区二区精品| 色综合视频一区二区三区高清| 中文字幕久精品免| 涩涩视频在线观看免费| 国产一区二区三区四区在线观看| 日韩免费av在线| 欧美另类视频在线观看| 国产不卡一二三区| 亚洲精品一线二线三线| 在线观看av日韩| а√天堂中文在线资源8| 国产精品久久看| 免费中文日韩| 欧美熟妇另类久久久久久不卡| 麻豆中文一区二区| 欧美中文字幕在线视频| 国产极品美女高潮无套嗷嗷叫酒店| 成人看的视频| 亚洲男人av在线| 在线观看一区二区三区四区| 日本国产亚洲| 日本高清不卡视频| 亚洲色欲综合一区二区三区| 4438x成人网全国最大| 国产精品理伦片| 清纯唯美一区二区三区| 三级在线观看| 99国产精品久久| 国产99在线免费| 国产熟女一区二区三区五月婷| 蘑菇福利视频一区播放| 午夜精品一区二区三区视频免费看| 91av手机在线| 欧美视频网址| 一区二区三区高清国产| 久久久久久久毛片| 深夜福利久久| 亚洲网站在线播放| 男女做爰猛烈刺激| 精品无人区麻豆乱码久久久| 亚洲欧美国产日韩中文字幕| 国产网站无遮挡| 日本韩国欧美超级黄在线观看| 亚洲精品白浆高清久久久久久| 97精品人妻一区二区三区蜜桃| 菁菁伊人国产精品| 日韩成人av网址| 精品无码在线视频| 精品久久成人| 国产亚洲激情视频在线| www亚洲色图| 91亚洲国产| 久久的精品视频| 国产小视频在线观看免费| 在线视频观看日韩| 2018日韩中文字幕| 国产第一页在线观看| 热久久一区二区| 91在线观看免费高清| 亚洲av无码一区二区乱子伦| 成人动漫在线一区| 欧美日韩在线精品一区二区三区| 国产精品秘入口| 中文字幕一区二区三区不卡| 懂色av一区二区三区四区五区| 超碰最新在线| 婷婷开心久久网| 日韩视频免费播放| 日韩精品影院| 91精品国产乱码| 亚洲欧美视频在线播放| 日韩精品第一区| 欧美精品videosex牲欧美| 在线观看日本网站| 国产一区二区免费看| 国产自产精品| 日本美女高清在线观看免费| 亚洲一区日韩精品中文字幕| 男女视频一区二区三区| 国产精品中文| 亚洲欧美精品一区| 国产少妇在线观看| 首页综合国产亚洲丝袜| 91中文精品字幕在线视频| 亚洲欧美色视频| 国产精品成人免费在线| av黄色在线网站| 亚洲青青一区| 亚洲视频在线视频| 国产一级片免费| 美腿丝袜亚洲三区| 看欧美日韩国产| 天堂av中文在线| 欧美揉bbbbb揉bbbbb| 国产精品福利导航| 91久久国产| 日韩av电影院| 熟妇高潮一区二区三区| |精品福利一区二区三区| 黄www在线观看| 亚洲无线观看| 久久精品人人爽| 无码人妻精品一区二区三区9厂| 国产精品影视天天线| 天堂资源在线亚洲资源| 精品丝袜在线| 欧美这里有精品| 国产熟女高潮一区二区三区| 亚洲人metart人体| 国产精品久久久久77777| 欧美特级特黄aaaaaa在线看| 亚洲图片激情小说| 午夜国产一区二区三区| 日韩福利视频一区| 国产69精品久久久久9| 国产偷拍一区二区| 成人欧美一区二区三区黑人麻豆| 不卡av免费在线| 国产精品一在线观看| 欧美中文在线观看| 欧美在线观看在线观看| 亚洲国产一区二区视频| 中文字幕一区二区三区人妻在线视频| 成人三级视频| 国产精品久久久久久久app| 国产小视频福利在线| 欧美视频中文字幕在线| 中文字幕在线观看的网站| 亚洲深夜激情| 久久99导航| 夜鲁夜鲁夜鲁视频在线播放| 日韩精品在线第一页| 欧美精品亚洲精品日韩精品| 成人av网站大全| 国产免费黄视频| 噜噜噜狠狠夜夜躁精品仙踪林| 午夜精品一区二区三区视频免费看| 日本精品999| 激情亚洲一区二区三区四区| 日韩无码精品一区二区| 一本综合久久| 就去色蜜桃综合| 国产日韩另类视频一区| 国产亚洲精品日韩| 一区二区视频在线免费观看| 亚洲欧洲精品成人久久奇米网| 色噜噜狠狠一区二区| 婷婷亚洲综合| 草莓视频一区| 国产一二三在线| 亚洲人成电影网站色www| 成人a v视频| 国产精品国产三级国产aⅴ原创| 亚洲妇熟xx妇色黄蜜桃| 国模 一区 二区 三区| 精品中文字幕人| 亚洲伦乱视频| 久久香蕉国产线看观看av| 成人免费一级视频| 狠狠综合久久av一区二区小说| 亚洲а∨天堂久久精品2021| 久久成人久久鬼色| 九色自拍视频在线观看| 久久99国产精一区二区三区| 成人av在线天堂| 超免费在线视频| 亚洲免费精彩视频| 国产精品久久久久久久久毛片 | 国产日本欧美一区二区三区| 看女生喷水的网站在线观看| 亚洲精品一区二区三区精华液| 国产区一区二区三| 亚洲婷婷在线视频| 国产中文字幕一区二区| 久久99精品国产麻豆婷婷| 欧美日韩一道本| 99久久夜色精品国产亚洲96| 国产日韩欧美二区| 亚洲二区av| 81精品国产乱码久久久久久| 老司机99精品99| 亚洲精品视频在线播放| 国产精选久久久| 色综合久久综合网| 精品午夜福利视频| 一区免费观看视频| 大又大又粗又硬又爽少妇毛片 | 在线观看视频91| 免费一级肉体全黄毛片| 国产亚洲欧洲997久久综合| 男人操女人下面视频| 日韩中文字幕亚洲一区二区va在线 | 自拍偷拍国产精品| 亚洲av无码一区二区三区网址 | 成人福利视频在线观看| 是的av在线| 欧美精品在线第一页| jizz亚洲| 亚洲老头老太hd| 成人毛片视频免费看| 欧美日韩mp4| 波多野结衣 久久| 亚洲国产成人91porn| 小泽玛利亚一区二区免费| 久久久高清一区二区三区| 88av在线播放| 国产一区二区不卡在线| 人人干人人干人人| 久久综合亚州| 女性隐私黄www网站视频| 亚洲美女网站| 国产精品视频网站在线观看| 香港欧美日韩三级黄色一级电影网站| 日韩精品大片| 久久99青青| 久久资源av| 欧美电影在线观看完整版| 国产精品 日韩| 欧美精品影院| 97超碰资源| 91精品啪在线观看国产爱臀| 91精品视频免费| 香蕉久久一区| 国产这里只有精品| 亚洲毛片在线免费| 成人福利免费观看| 国产aa精品| 3d蒂法精品啪啪一区二区免费| 亚洲精品三区| 成人做爰www免费看视频网站| 伊人久久大香| 91免费观看网站| 精品国产亚洲一区二区三区在线| 成人乱色短篇合集| 国产午夜亚洲精品一级在线| 91在线|亚洲| aaa国产精品| 精品一卡二卡三卡四卡日本乱码| 欧美a一欧美| 久久人人九九| 精品国产一区二区三区四区| 日日噜噜噜噜夜夜爽亚洲精品| 欧美日韩色图| 在线播放 亚洲| 欧美成人首页| 欧美二区在线视频| 日韩精品一二区| 日韩成人av免费| 成人一区二区视频| 在线 丝袜 欧美 日韩 制服| 国产日韩欧美综合在线| 天天色影综合网| 一区二区三区四区不卡在线 | 色综合 综合色| 国产精品露脸视频| 欧美一区二区在线视频| 精品久久国产视频| 亚洲精品一区中文字幕乱码| 日韩欧美小视频| 久久久久久久久91| 秋霞国产精品| 亚洲字幕在线观看| 五月国产精品| 欧美一级免费在线观看| 亚洲性视频h| 久久久久久久片| 国产乱子伦视频一区二区三区| 91丝袜在线观看| 中文字幕中文在线不卡住| 国产一级一片免费播放| 日本韩国欧美三级| www.蜜臀av| 在线观看精品自拍私拍| 欧美v亚洲v| 国产精品69av| 91夜夜蜜桃臀一区二区三区| 欧美精品亚洲精品| 欧美午夜不卡| 欧美婷婷精品激情| 9i在线看片成人免费| 久久国产高清视频| 色婷婷激情久久| 亚洲国产精品久久人人爱潘金莲| 国产亚洲视频在线| 免费毛片b在线观看| 亚洲aaa激情| 久操成人av| 蜜臀精品一区二区| 激情偷乱视频一区二区三区| 国产精品无码永久免费不卡| 亚洲欧美偷拍卡通变态| 欧美a视频在线观看| 欧美成人精精品一区二区频| 日本最新在线视频| 热久久这里只有| 国产图片一区| 中国 免费 av| 日韩av成人高清| 一出一进一爽一粗一大视频| 亚洲综合成人网| 国产人妻精品一区二区三区| 一本一道久久a久久精品逆3p| 电影在线观看一区| 超碰在线97av| 综合亚洲视频| 午夜激情影院在线观看| 国产精品三级在线观看| 中文字幕国产在线观看| 亚洲国内高清视频| aa级大片免费在线观看| caoporen国产精品| 综合激情在线| 在线a免费观看| 综合久久久久综合| 一级全黄裸体免费视频| 国产一区二区三区丝袜| sis001欧美| 欧美xxxx黑人又粗又长密月| 99在线|亚洲一区二区| 黄色性视频网站| 亚洲国产日韩一区二区| 亚洲乱色熟女一区二区三区| 欧美成人h版在线观看| 国产精品视频一区二区三区综合 | 日本高清视频在线观看| 国产精品男人爽免费视频1| 欧美**字幕| 国产精品第12页| 2欧美一区二区三区在线观看视频| 男人的天堂一区二区| 日韩成人在线电影网| 黄频免费在线观看| 久久久久天天天天| 免费日韩一区二区| 在线观看日本中文字幕| 欧美自拍丝袜亚洲| 日韩大片在线永久免费观看网站| 91精品国产综合久久香蕉922| 久久久久免费av| 亚洲成人av免费观看| 亚洲一区二区三区四区不卡| 国内爆初菊对白视频| 欧美极品少妇xxxxⅹ裸体艺术| av成人综合| 国产亚洲欧美在线视频| 国产午夜精品一区二区三区视频| 成人黄色激情视频| 久热精品视频在线观看一区| 综合中文字幕| 无码人妻丰满熟妇区五十路百度| 国产欧美久久久精品影院| 亚洲中文字幕在线一区| 欧美老女人性生活| 图片婷婷一区| 手机免费看av网站| 亚洲一区二区在线免费看| 日本1级在线| 91精品国产综合久久久久久久久 | 国产清纯美女被跳蛋高潮一区二区久久w| 成人一级免费视频| 久久人人爽人人爽爽久久| 国产精品调教| 五月婷婷之综合激情| 一区二区三区中文字幕电影| 污污网站免费在线观看| 国产精品美女www| 欧美特黄一区| 一道本在线观看| 日韩精品在线一区| 日韩av大片站长工具| 日韩成人午夜影院| 久久久无码精品亚洲日韩按摩| 国产精品热久久| 91黑丝高跟在线| 久久av网址| 99riav国产精品视频| 在线亚洲高清视频| 国产经典三级在线| 亚洲欧洲日夜超级视频| 不卡高清视频专区| 国产美女www爽爽爽视频| 青青a在线精品免费观看|