精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

震驚!強化學習訓練后,大模型推理“天花板”反而降低了?清華研究揭示RLVR局限性

發布于 2025-5-6 07:12
瀏覽
0收藏

大家好,我是HxShine

今天分享一篇來自清華的文章,標題為:“Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?” (強化學習真的能激勵大型語言模型(LLM)產生超越基礎模型本身的推理能力嗎?)。

這篇文章研究的問題:可驗證獎勵的強化學習(RLVR)真能夠使LLM持續自我改進,獲得超越其對應基礎模型的新推理能力嗎?(即強化學習能提高base基座模型的天花板嗎?)。研究者通過使用pass@k指標(在k次嘗試中通過的比例)并采用非常大的k值,來探索模型在多種模型家族、RL算法和數學/編程基準上的推理能力邊界。

結論令人驚訝:

1. RLVR訓練并未引發根本上新的推理模式。雖然RL訓練的模型在較小的k值(如k=1)下表現優于基礎模型,但在足夠大的k值下,基礎模型能夠達到甚至超過其RL對應模型的pass@k分數。這表明RL訓練出的模型所使用的推理路徑實際上已經存在于基礎模型的采樣分布中。

2. RL訓練通過將模型輸出分布偏向于更有可能獲得獎勵的路徑來提高性能(提升采樣效率),但這同時也限制了模型的探索能力,導致其推理能力邊界相較于基礎模型反而更窄。

3. 與RLVR不同,蒸餾(distillation)能夠真正地為模型引入新知識。

這些發現揭示了RLVR在提升LLM推理能力方面的關鍵局限性,提示我們需要重新思考RL訓練在推理LLM中的作用,并可能需要尋找更好的訓練范式。

一、概述

?Title:Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

?URL: https://arxiv.org/abs/2504.13837

?Authors:Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang (清華大學 LeapLab, 上海交通大學)

?Project Page: https://limit-of-RLVR.github.io

1 Motivation

?挑戰普遍認知:當前普遍認為RLVR能讓LLM獲得超越基礎模型的新推理能力。本文旨在嚴格驗證這一假設是否成立。

?評估方法局限:傳統的評估指標(如pass@1或小k值的平均成功率)可能只反映了模型的平均表現,而低估了基礎模型在更多嘗試下的潛在推理能力上限。

?探究能力邊界:需要一種更嚴格的方法來評估和比較基礎模型與RL訓練后模型的推理能力邊界,即模型理論上能解決的問題范圍。

2 Methods

省流版總結:

本文通過在數學、代碼生成、視覺推理等多個任務上,使用大k值的pass@k指標,系統比較了多種基礎LLM(如Qwen-2.5, LLaMA-3.1)與其經過RLVR(使用PPO、GRPO等算法)訓練后的版本。核心發現是:基礎模型只要采樣次數足夠多(k足夠大),就能解決那些之前被認為只有RL模型能解決的問題。RLVR的主要作用是提高采樣效率(更容易采樣到正確答案,pass@1更高),但代價是犧牲了探索性,導致其能解決的問題集合(推理邊界)反而小于基礎模型(pass@大k值更低)。研究還利用困惑度分析證明RL模型的推理路徑很可能已包含在基礎模型的分布中,并對比了RLVR與蒸餾,發現蒸餾更能引入新知識。

詳細方法和步驟:

為了深入探究強化學習(RLVR)對大型語言模型(LLM)推理能力的確切影響,其設計了一套嚴謹的實驗方法。

1) 核心在于使用大k值的pass@k指標來評估模型的推理能力邊界,即模型在多次嘗試下解決問題的理論上限,而非僅看單次嘗試的平均表現。實驗覆蓋了多種主流LLM基礎模型及其對應的RLVR訓練版本,涉及數學、代碼生成和視覺推理等多個任務領域。為確保結果的可靠性,研究不僅采用了統一的評估流程,

2)進行了思維鏈(CoT)的有效性驗證以排除偶然猜對答案的情況,并運用困惑度分析來探究RL訓練后模型與基礎模型輸出分布的關系。

3)研究還系統比較了不同RL算法的效果、RL訓練步數的影響,并將RLVR與模型蒸餾的效果進行了直接對比。

詳細內容整理如下:

方法論要素

詳細說明

核心評估指標

Pass@k (at large k):

 使用極大的嘗試次數k(如256, 1024+)來衡量模型解決問題的能力上限或覆蓋范圍,而非平均性能。采用無偏估計法計算。

實驗對象與范圍

模型:

 Qwen-2.5系列 (7B/14B/32B Base), LLaMA-3.1-8B Base及其對應的RL訓練版本。
RL算法: GRPO, PPO, Reinforce++, RLOO, ReMax, DAPO等。
任務: 數學推理 (GSM8K, MATH, AIME24等), 代碼生成 (LiveCodeBench, HumanEval+), 視覺推理 (MathVista)。

評估流程

統一使用Zero-shot prompt進行評估,采樣溫度0.6,top-p 0.95,避免few-shot提示干擾。

結果有效性驗證

CoT檢查:

 對高難度問題(如AIME24),手動檢查多次采樣得到的正確答案其思維鏈(CoT)是否合理有效。
問題過濾: 移除容易通過直接猜測解決的問題。

機理分析工具

困惑度分析 (Perplexity Analysis):

 比較RL模型生成內容在基礎模型下的困惑度,與基礎模型自身生成內容的困惑度分布,以判斷推理路徑是否源于基礎模型。

對比實驗

RL算法比較:

 在統一框架下比較不同RL算法的性能,并引入采樣效率差距(ΔSE)指標。
訓練步數影響: 分析不同訓練時長對pass@1和pass@k(大k)的影響。
RL vs 蒸餾: 對比RLVR和模型蒸餾(Distillation)在擴展模型推理邊界上的效果差異。

3 Conclusion

1.RLVR未引入新推理能力:RLVR訓練的模型所能解決的問題的推理路徑,基本上都已存在于原始基礎模型的潛在輸出中。RLVR沒有激發根本性的新推理模式。

2.RLVR提升效率但犧牲邊界:RLVR通過偏置采樣分布,提高了采樣到正確答案的效率(表現為pass@k在小k值時更高),但這種優化是以犧牲探索性為代價的,導致模型的推理能力邊界(能解決的問題集合上限,表現為pass@k在大k值時更低)相較于基礎模型反而縮小了。

3.基礎模型潛力被低估:只要給予足夠多的嘗試次數(大k值),基礎模型在解決復雜推理問題上的上限可能與甚至超過經過RLVR訓練的模型。

4.RL算法局限與蒸餾的優勢:當前主流RLVR算法在該問題上表現類似,距離理論最優采樣效率(由基礎模型邊界定義)仍有較大差距。相比之下,蒸餾可以將更強教師模型的知識注入基礎模型,從而真正擴展其推理能力邊界。

4 Limitation

1.任務范圍:研究主要集中在具有可驗證獎勵的任務(數學、代碼)。其結論是否能推廣到基于偏好模型進行對齊的RLHF任務(如提升無害性、遵循指令等)尚需進一步研究。

2.CoT檢查:手動檢查CoT的有效性雖然進行了,但僅限于問題子集和樣本子集,并非完全覆蓋。

3.解決方案探索不足:論文指出了當前RLVR的局限性,并暗示需要新的范式(如更好的探索機制),但并未提出具體的解決方案來克服這種邊界限制。

4.評估成本:使用極大k值的pass@k進行評估計算成本非常高,這限制了能夠在實驗中測試的模型和數據集的規模。

5.基礎模型依賴:既然RL效果受限于基礎模型,那么如何提升基礎模型本身的潛能(pretraining階段)變得更加重要。

二、詳細內容 (圖表總結)

1 RL與Base模型推理效果對比

?問題A:RL提升了找到正確路徑的效率;

?問題B:RL可能丟失基礎模型中存在的正確路徑,導致探索范圍縮小。

? 右圖:隨著RL訓練進行,pass@1(平均性能)提升,但pass@256(能力邊界)下降。

2 多個數學基準上不同模型Base與RL效果對比

震驚!強化學習訓練后,大模型推理“天花板”反而降低了?清華研究揭示RLVR局限性-AI.x社區

結論:一致顯示:RL在低k時占優,Base在高k時追上甚至反超RL。

3 Base模型與RL推理模式對比 & 蒸餾模型與RL以及Base模型對比

震驚!強化學習訓練后,大模型推理“天花板”反而降低了?清華研究揭示RLVR局限性-AI.x社區

?(左)困惑度分析: RL模型生成的響應(Y_RL)在Base模型下的困惑度分布,與Base模型自身生成響應(Y_Base)的分布中低困惑度的部分重合,說明Y_RL是Base模型本就“傾向于”生成的路徑,RL并沒有給Base模型帶來新的推理Pattern。

?(右)Base, Instruct, RL, Distilled模型在AIME24和Minerva上的pass@k對比: Distilled模型曲線顯著高于Base模型,而RL模型在高k時低于或接近Base模型。證明蒸餾能擴展邊界,RLVR不能。

4 不同RL算法以及不同step的影響

震驚!強化學習訓練后,大模型推理“天花板”反而降低了?清華研究揭示RLVR局限性-AI.x社區

?(上)不同RL算法 (GRPO, PPO等) 的pass@k對比及采樣效率差距(ΔSE)。顯示各算法效果差異不大,且ΔSE普遍較大,表明離基礎模型的理論上限還很遠。

?(下)不同RL訓練步數 (150 vs 300 vs 450) 的影響。pass@1隨步數增加而提升(尤其在訓練集上),但pass@256下降,表明推理邊界在縮小,可能存在過擬合。

三、總結

本文核心觀點: 當前廣泛應用的RLVR(帶可驗證獎勵的強化學習)方法,并不能真正賦予LLM超越其基礎模型固有的、新的推理能力。它的主要作用是提高模型采樣到其本身就能生成的正確推理路徑的效率,但這往往以犧牲探索性、縮小推理能力邊界為代價。

結論1: RLVR 訓練主要提高了 LLM 的采樣效率,使其更容易在少量嘗試內找到正確答案,但并未帶來超越基礎模型的新的推理能力或擴展可解決問題的范圍。 論文通過 pass@k 指標在大 k 值下的評估,以及對生成的思維鏈和困惑度的分析,有力地支持了這一發現,挑戰了 RLVR 能夠持續提升 LLM 推理上限的普遍觀點。

結論2: 現有的 RL 算法在提高 LLM 采樣效率方面仍有很大提升空間,且不同的主流 RL 算法(如 PPO, GRPO 等)在效果上差異不大。 研究通過在統一框架下對比多種算法,并量化了采樣效率差距,指出了當前 RL 方法的局限性。同時,增加訓練步數可能導致模型過擬合訓練集并進一步限制其探索能力和推理邊界。

結論3: 與 RLVR 不同,蒸餾是一種能夠引入新知識并有效擴展 LLM 推理能力邊界的訓練范式。 論文通過對比蒸餾模型與基礎模型和 RLVR 模型的 pass@k 曲線,展示了蒸餾模型能夠解決基礎模型無法解決的問題,這提示未來的研究可能需要探索 RL 與其他方法的結合,或者尋找全新的訓練范式來真正推動 LLM 推理能力的發展。

本文轉載自?????NLP PaperWeekly?????,作者:NLP PaperWeekly


收藏
回復
舉報
回復
相關推薦
日本福利在线| 免费麻豆国产一区二区三区四区| 中文字幕 在线观看| 成av人片一区二区| 麻豆国产精品va在线观看不卡 | 欧美色爱综合| 91成人看片片| 9999在线观看| 亚洲黄色精品视频| 韩国亚洲精品| 日韩精品在线视频| 亚洲欧美自拍另类日韩| 成人video亚洲精品| a级精品国产片在线观看| 欧美一级免费视频| 国产高清视频免费在线观看| 国产福利一区二区精品秒拍| 色伊人久久综合中文字幕| 亚洲看片网站| 欧美一级性视频| 久久久亚洲人| 欧美成人免费全部| 国产亚洲无码精品| 国产精品麻豆| 欧美性xxxx极品hd满灌| 亚洲天堂电影网| 成人爽a毛片一区二区| 可以免费看不卡的av网站| 久久精品影视伊人网| 国产精品成人无码专区| 青草综合视频| 欧美日韩一区二区三区| 亚洲精品一区二区三| 一区二区视频网站| 亚洲国产高清一区| 久久久999精品视频| 久久精品女同亚洲女同13| 日韩黄色在线| 一本色道a无线码一区v| 欧美破处大片在线视频| 欧美成人性福生活免费看| 成人在线观看a| 好了av在线| 久久久久久久久岛国免费| 超碰97人人在线| 在线观看中文字幕码| 99亚洲视频| 欧美国产日韩视频| 人妻熟人中文字幕一区二区| 免费成人三级| 精品剧情在线观看| 高潮一区二区三区| 精品国模一区二区三区| 精品福利一区二区| h无码动漫在线观看| 久久五月精品| 中文字幕一区二区三区不卡在线| 欧洲av一区| 三级视频在线播放| 丁香亚洲综合激情啪啪综合| 国产精品久久一区| 东京热一区二区三区四区| 99精品视频免费| 久久久久久国产| 国内偷拍精品视频| 亚洲乱码精品| 久久成人免费视频| 国产美女福利视频| 999视频精品| www.亚洲天堂| 天堂网中文在线观看| 欧美在线观看视频一区| 国产香蕉一区二区三区在线视频| 欧美图片一区二区| 欧美福利在线播放网址导航| 亚洲国产女人aaa毛片在线| 中文字幕在线视频播放| 一区二区在线免费播放| 日韩美女一区二区三区| 日本女人黄色片| 日韩成人在线观看视频| 日韩一卡二卡三卡国产欧美| 亚洲av无一区二区三区久久| 欧美激情三级| 亚洲成人激情在线| jizzzz日本| 亚洲欧洲一二区| 制服.丝袜.亚洲.另类.中文 | 久久精品99久久久| 国产精品www网站| 在线免费观看视频网站| 精品一二三四在线| 97免费资源站| 亚洲 精品 综合 精品 自拍| 高清免费成人av| 国产精品毛片va一区二区三区| 亚洲国产综合网| 97精品国产露脸对白| 欧美激情视频一区二区三区| aⅴ在线视频男人的天堂 | 国产亚洲精品码| 亚洲一区二区三区高清| 国产成人a亚洲精品| 亚洲网站免费观看| 国产精品18久久久久久vr| 国产精品初高中精品久久| 日本福利在线观看| 国产精品午夜在线观看| 欧美黄网在线观看| www在线观看黄色| 91福利视频网站| 国产九九九视频| 亚欧日韩另类中文欧美| 亚洲色图五月天| 午夜爽爽爽男女免费观看| 亚洲精品看片| 国产日韩欧美在线看| 欧美一级淫片免费视频魅影视频| 久久精品欧美一区二区三区不卡| 福利网在线观看| 成人av影院在线观看| 色综合久久久久久久久| 亚洲天堂av一区二区三区| 欧亚精品一区| 日韩三级成人av网| 中文字幕在线播| 久久99精品久久久久久动态图 | 色偷偷91综合久久噜噜| 国产亚洲精品久久久久久无几年桃 | 免费国产羞羞网站美图| 久久激情网站| 国产精品二区三区四区| avtt天堂在线| 影音先锋中文字幕一区| 国产精品黄页免费高清在线观看| 国产又爽又黄又嫩又猛又粗| 99视频有精品| 综合视频免费看| 桃花岛tv亚洲品质| 精品久久久久久久一区二区蜜臀| 在线视频第一页| 中文乱码免费一区二区三区下载| 国产精品1区2区在线观看| 黄色aaa大片| 久久精品亚洲精品国产欧美| 性高湖久久久久久久久aaaaa| 久久av影院| 亚洲第一精品久久忘忧草社区| 美国黄色特级片| 久久久久看片| 97人人模人人爽人人喊38tv| 欧美尤物美女在线| 91黄色小视频| 中文精品在线观看| 雨宫琴音一区二区在线| 亚洲综合小说区| 蜜桃av在线免费观看| 欧美在线视频你懂得| 免费看污黄网站在线观看| 黄色av一区| 青青青在线视频播放| 污视频在线免费| 亚洲精品国产精品乱码不99| 中文字幕一区二区三区四区在线视频 | 亚洲视频你懂的| 天天干在线影院| 精品国产视频| 91精品国产高清久久久久久91| 亚洲精华一区二区三区| 欧美国产亚洲视频| 国产女18毛片多18精品| 国产精品激情偷乱一区二区∴| 欧美日韩国产成人在线| 伊人免费在线观看高清版| 久久九九久久九九| 久久精品一区二| 国产成人一区| 国产精品香蕉国产| 69精品久久久| 91超碰成人| 国产精品无av码在线观看| 激情小视频在线观看| 亚洲午夜一二三区视频| 亚洲麻豆一区二区三区| 一区二区三区导航| 日本午夜精品电影| 国产亚洲精彩久久| 日韩网站免费观看高清| 99产精品成人啪免费网站| 一区二区三区四区精品在线视频| www.17c.com喷水少妇| 国产精品亚洲综合色区韩国| 欧美主播一区二区三区美女 久久精品人 | 免费视频网站www| 成人精品国产一区二区4080| 精品久久一二三| 激情综合网五月| 国产这里只有精品| 牛牛精品视频在线| 亚洲欧洲国产一区| 97成人免费视频| 亚洲国产日韩一区二区| 中文字幕成人动漫| 国产乱色国产精品免费视频| 日韩欧美国产综合在线| 欧洲杯半决赛直播| 7777精品伊久久久大香线蕉语言 | 97精品久久久午夜一区二区三区 | 精品中文字幕人| 日本综合视频| 久久97精品久久久久久久不卡| 亚洲 美腿 欧美 偷拍| 精品视频全国免费看| 国产第一页第二页| 亚洲精品欧美二区三区中文字幕| 人妻在线日韩免费视频| 国产精品123区| 国产视频1区2区3区| 新狼窝色av性久久久久久| 国产一区二区三区在线免费| 成人在线免费观看91| 久久国产精品久久精品国产| 中文字幕一区日韩精品| 国产精品网站入口| 欧美va视频| 欧美一级片免费在线| 丰满诱人av在线播放| 久久综合免费视频影院| 在线视频1区2区| 亚洲深夜福利在线| 可以免费看污视频的网站在线| 精品国产一区二区三区忘忧草| 国产乱色精品成人免费视频| 欧美亚洲动漫另类| av资源免费观看| 香蕉影视欧美成人| 国产在线欧美在线| 亚洲高清视频在线| 日本一区二区三区免费视频| 亚洲综合图片区| 麻豆亚洲av成人无码久久精品| 亚洲色欲色欲www在线观看| 男女男精品视频网站| 亚洲国产高清在线观看视频| 国产免费一区二区三区网站免费| 久久先锋影音av鲁色资源| 日韩片在线观看| 久久亚洲精品小早川怜子| 少妇特黄一区二区三区| 久久伊人蜜桃av一区二区| 91av在线免费| 久久久无码精品亚洲日韩按摩| 亚洲永久精品ww.7491进入| 91亚洲男人天堂| 黄瓜视频污在线观看| 久久众筹精品私拍模特| 人妻大战黑人白浆狂泄| 国产亚洲欧美一级| 国产精品综合激情| 亚洲欧美aⅴ...| 国产在线综合网| 欧美色视频日本版| 波多野结衣激情视频| 欧美午夜一区二区三区| 97超碰人人草| 精品伦理精品一区| 无码精品视频一区二区三区| 亚洲乱码国产乱码精品精| 久热av在线| 日韩中文字幕第一页| 91中文在线| 欧美在线观看日本一区| 日韩天堂在线| 成人综合国产精品| 精品淫伦v久久水蜜桃| 免费电影一区| 99精品全国免费观看视频软件| 免费看污污视频| 99热在线精品观看| 日本中文字幕高清| 粉嫩高潮美女一区二区三区| 美女又爽又黄视频毛茸茸| 国产精品丝袜一区| 国产亚洲色婷婷久久99精品| 色婷婷av一区二区三区gif| 艳妇乳肉豪妇荡乳av| 精品国产一二三区| 国产三级在线观看| 九九九久久国产免费| 中文在线免费视频| 亚洲一区二区三区毛片| 日本欧美高清| 欧美少妇一级片| 亚洲欧美激情诱惑| 日韩不卡的av| 久久精品一二三| 五月婷婷一区二区| 在线观看日韩精品| 理论片中文字幕| 自拍偷拍亚洲一区| 国产拍在线视频| 91亚洲va在线va天堂va国| 色爱综合av| 97中文字幕在线| 麻豆一区二区在线| 最近日本中文字幕| 亚洲精品一二三| 欧美一级黄视频| 欧美成人vps| 麻豆网站在线| 国产成人一区二区三区| 国产成人高清精品免费5388| 天天做天天爱天天高潮| 午夜在线视频一区二区区别 | av电影在线观看一区| 老熟妇高潮一区二区三区| 欧美性高潮在线| 国产91免费在线观看| xxxxxxxxx欧美| 国产精品字幕| 鲁丝一区二区三区免费| 欧美精品麻豆| 亚洲精品国产一区二区三区| 国产欧美中文在线| 人人爽人人爽人人片av| 精品盗摄一区二区三区| aaa大片在线观看| 91免费国产网站| 久久综合av| 国产小视频精品| 久久久精品国产免大香伊| 日韩三级视频在线播放| 精品日韩欧美在线| 视频在线观看入口黄最新永久免费国产| 国产精品亚洲美女av网站| 国产一区二区三区四区| 男人天堂成人在线| 久久久综合激的五月天| 国偷自拍第113页| 亚洲黄色av女优在线观看 | 国产精品7m凸凹视频分类| 亚洲一二三区av| 中文字幕欧美区| 日本一区二区三区久久| 中文字幕视频一区二区在线有码| 影音成人av| 亚洲乱码一区二区三区| 免费成人在线观看视频| 欧美福利在线视频| 欧美日韩电影在线播放| 久久精品视频免费看| 91久久久久久国产精品| 欧美一区国产在线| 在线观看视频你懂得| 一区二区三区视频在线观看 | 亚洲人a成www在线影院| 国产精品久久久久av电视剧| 亚洲草草视频| 国产毛片精品一区| 男女免费视频网站| 亚洲国产日韩欧美综合久久| 亚洲第一av| 亚洲国产精品久久久久久女王| 久久草av在线| 欧美日韩在线观看成人| 亚洲激情自拍图| 桃子视频成人app| 中文字幕人成一区| 国产精品 欧美精品| 久久午夜无码鲁丝片| 亚洲国产欧美一区二区三区久久| 偷拍视频一区二区三区| 亚洲国内在线| 国产不卡视频一区| 国产一级18片视频| 日韩中文在线观看| 看亚洲a级一级毛片| 成 年 人 黄 色 大 片大 全| 久久久不卡网国产精品二区| 91丨porny丨在线中文 | 免费精品国产的网站免费观看| 天堂社区在线视频| 亚洲黄色在线视频| 日本在线丨区| 91在线免费观看网站| 日韩五码在线| 午夜激情福利电影| 亚洲激情视频在线播放| 欧美成人黄色| 给我免费播放片在线观看| 日本一区二区三区免费乱视频| www.天堂在线| 国产精品久久久久久av福利软件| 欧美一区影院| 色欲AV无码精品一区二区久久| 日韩欧美三级在线| 亚洲成av在线| 人妻夜夜添夜夜无码av| 综合亚洲深深色噜噜狠狠网站| 欧美精品a∨在线观看不卡|