精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

清華團隊深度實證:RL 真能讓大模型進化嗎?能力邊界仍被基座“鎖死”!

開發 測試
近日,清華大學LeapLab團隊聯合上海交大,發布了一篇題為《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》的新論文,給最近火熱的RLVR(帶可驗證獎勵的強化學習)又“潑了一盆冷水”。

強化學習(RL)真的能讓大模型獲得超越基礎模型的新推理能力嗎?

近日,清華大學LeapLab團隊聯合上海交大,發布了一篇題為《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》的新論文,給最近火熱的RLVR(帶可驗證獎勵的強化學習)又“潑了一盆冷水”。

論文地址:https://arxiv.org/pdf/2504.13837論文地址:https://arxiv.org/pdf/2504.13837

論文標題翻譯過來是:強化學習(RL)真的能讓大模型獲得推理能力上的躍遷嗎?

論文結論是:RLVR提升的,其實只是采樣效率,而不是讓模型學會了真正全新的推理能力。

換句話說:RLVR只是把基礎模型本來就會的東西,采樣采得更有效率了。

這份研究直接打破了AI圈子里的“先驗知識”,大家都覺得RLVR是讓大模型變聰明的“加速器”,特別是在數學、代碼等需要推理的任務上。

比如OpenAI的o1、DeepSeek-R1、Kimi-1.5,都是靠RLVR后處理,成績一騎絕塵。原理很簡單:先有個基礎大模型→用RLVR強化一下→通過自動判分(比如答案對不對、代碼測不測得過)給獎勵。

理論上,它能自我提升,學到以前沒見過的新解題套路。于是,這幾年,大家都在說,RLVR能讓大模型“自我進化”,推理能力突破天花板。

清華團隊的“靈魂拷問”:RLVR,真能越過基座嗎?

清華團隊這篇論文,直接拋出了“靈魂三問”:

  • RLVR強化訓練,究竟有沒有讓大模型獲得“超越基座模型”的全新推理能力?
  • 模型的推理邊界到底被RLVR拓寬了嗎?還是只是換了一種方式采樣?
  • 我們是否過于高估了RLVR的“自我進化”魔力?

對于上述三個問題,作者用pass@k作為研究方法的核心。因為傳統的模型評測,大多用“平均準確率”或“單次采樣成功率”來衡量模型能否解題。但作者敏銳地意識到,這種評估方式其實低估”了模型的潛力。原因是:有些難題,模型可能前幾次都答錯,但多采樣幾次,或許就能“撞”出正確答案。

于是,論文采用了pass@k這個指標:對于每道題,采樣k次,只要有一次答對,就算成功。k越大,越能“榨干”模型內在的推理極限。

核心邏輯是:如果RLVR真能帶來新能力,那在k再大時,它也應該比基座模型更能解出難題。

實驗結果有點顛覆大家認知——

RLVR訓練的模型,在k小的時候表現更好,但k大了以后,基礎模型能超過它!

也就是:RLVR訓練讓模型更高效采樣出正確答案,但沒有帶來全新的推理能力,能力邊界始終被基座模型“鎖死”。

案例1:數學推理

以AIME24數學競賽題為例,RLVR模型一開始比基座模型高出30%的準確率,但多采樣后,基座模型最終能解出更多題目,RLVR的“能力天花板”反而更低。

圖片圖片

案例2:代碼生成

在LiveCodeBench等編程基準上,RLVR模型單采樣表現亮眼,但當k采樣數提升到128時,基座模型解題覆蓋率反超RLVR。

圖片圖片

案例3:視覺推理

多模態視覺推理同樣復現上述現象——RLVR提升了采樣效率,卻沒讓模型產生全新的多模態推理路徑。

圖片圖片

RLVR的“聰明”,其實是把基礎模型會的東西,輸出概率調高了,真正的新推理路徑?并沒有,基礎模型多采樣就能覆蓋所有RLVR模型能做的題

甚至,RLVR還收窄了模型的探索能力——它會更集中在“能得分的套路”上,但反而失去一些“歪打正著”的能力,導致極限覆蓋沒基礎模型廣。

無論是代碼生成(LiveCodeBench、HumanEval+),還是視覺推理(MathVista、MathVision),趨勢都是一樣:RLVR提升了單次成功率,但大采樣下基礎模型能覆蓋更多難題。

為什么會這樣?

清華的這篇論文認為有兩點原因:

一是大模型的“先驗”太強了。RLVR本質上是在基礎模型原有輸出分布里找高分的“套路”,不走新路;RL算法本身不適合探索超大動作空間(語言的組合爆炸),靠獎勵信號很難跳出原有思路。

二是探索能力反而被抑制。RLVR讓模型更“穩”,但也更“保守”,輸出熵降低,探索新解法的能力變弱。

RLVR在大模型推理這件事上,和AlphaGo那種“純RL自我進化”完全不是一回事。大模型的RLVR只是“采樣分布微調”,不是“能力進化”。

怎么解決?

論文做了一個實驗,把更強的模型的推理鏈條喂給小模型,小模型能真的學到新花樣,推理上限突破原有格局。

所以,如果真想讓模型能力更進一步,靠RLVR遠遠不夠,得靠知識蒸餾“老師帶學生”那一套。

即“讓模型變聰明”的關鍵,或許在于“注入新知識”(如蒸餾),而不是單純靠獎勵強化。

或者探索“更強的探索范式”,比如結合RL和生成式探索、提升模型對“低概率創新路徑”的容忍度等。

圖源:清華大學LeapLab實驗室官網

責任編輯:武曉燕 來源: 大數據文摘
相關推薦

2025-04-25 09:22:44

2023-02-08 08:00:00

算法人工智能大數據

2023-09-05 14:43:15

2025-02-10 09:35:00

2025-11-21 12:02:41

2023-05-31 15:15:53

2023-10-07 08:28:06

語言模型代碼技術

2023-09-06 13:17:00

AI數據

2024-02-27 09:14:01

AI模型

2025-10-13 09:08:00

2025-10-08 10:44:16

2024-07-22 08:10:00

數據模型

2025-04-27 09:23:00

模型訓練AI

2021-02-07 10:01:31

AI 數據人工智能

2025-11-13 09:05:00

2024-12-10 07:00:00

大模型密度定律人工智能

2023-11-15 15:37:21

大模型人工智能

2023-03-15 09:36:14

模型

2011-02-22 14:49:23

vsftpdsubsys

2024-12-09 17:20:29

點贊
收藏

51CTO技術棧公眾號

欧美a v在线播放| 久久久久久久久久久亚洲| www.99av.com| 91精品专区| 久久99国产乱子伦精品免费| 色偷偷av一区二区三区乱| 亚洲天堂网2018| 第一av在线| 91蜜桃传媒精品久久久一区二区| 日本国产高清不卡| 日本在线观看网址| 中文字幕一区日韩精品| 欧美日韩一区二区在线播放| 欧美日本韩国国产| 伊人免费在线观看| 日韩欧美精品| 精品日韩欧美在线| 欧在线一二三四区| 色综合久久影院| 国产91富婆露脸刺激对白| 欧美亚洲另类制服自拍| 熟女少妇a性色生活片毛片| 999久久久精品一区二区| 日韩欧美成人网| 女女同性女同一区二区三区按摩| 欧美 日韩 国产 精品| 天堂午夜影视日韩欧美一区二区| 久久久精品一区二区| 国产激情视频网站| 99精品国产九九国产精品| 亚洲青青青在线视频| 久久精品国产综合精品| 国产男男gay网站| 99国产精品久久久久久久成人热| 色婷婷综合久久久久中文字幕1| 91精品人妻一区二区三区蜜桃2| 欧美aaa视频| 亚洲综合精品自拍| 亚洲一区精彩视频| 国产不卡精品视频| 蜜臀久久久久久久| 欧美高清激情视频| 中文字幕在线观看二区| 亚洲区小说区图片区qvod| 欧美一区二区美女| 中文字幕av不卡在线| 日韩欧美精品一区二区三区| 一区二区三区在线看| 亚洲v国产v在线观看| 无码精品人妻一区二区三区影院| 国产一区二区三区香蕉| 国产精品丝袜高跟| 无码aⅴ精品一区二区三区| 亚洲特级毛片| 欧美高清视频在线观看| 99精品中文字幕| 国产精品手机在线播放| 亚洲国产精品免费| 岛国av免费观看| 国产精品一区二区三区四区在线观看| 在线国产亚洲欧美| 久久精品.com| 色偷偷偷在线视频播放| 亚洲一区二区三区四区在线免费观看| 最近看过的日韩成人| 免费国产黄色片| 成人在线综合网站| 国产成人精品自拍| 亚洲国产欧美另类| 国产福利一区二区三区视频| 91久久精品久久国产性色也91| 日韩乱码一区二区三区| 日韩高清欧美激情| 国产精品入口尤物| 中文字幕人妻精品一区| 老司机午夜精品视频| 国产99视频精品免视看7| 你懂的国产在线| 在线看片日韩| 91精品国产91久久久久久最新| 国产性一乱一性一伧一色| 欧美三区在线| 久久久久久免费精品| 久草免费新视频| 激情欧美一区| 性亚洲最疯狂xxxx高清| 日本一区二区三区精品| 免费亚洲视频| 国产精品狠色婷| 在线观看日韩一区二区| 国产一区在线不卡| 成人看片在线| 亚洲 精品 综合 精品 自拍| 久久网站热最新地址| 蜜桃网站成人| a√资源在线| 亚洲精品国产a久久久久久| 国产1区2区3区中文字幕| 国产白浆在线免费观看| 在线这里只有精品| 日韩av影视大全| 老司机成人在线| 国产一区二区三区在线观看视频 | 9191精品国产综合久久久久久| 99国产精品久久久久久| 国产精东传媒成人av电影| 精品亚洲男同gayvideo网站| 在线观看日本黄色| 欧美成人日韩| 国产97在线|亚洲| 国产白浆在线观看| 久久久久久久综合日本| 一级全黄肉体裸体全过程| av影院在线| 欧美自拍偷拍一区| 成人一区二区三区仙踪林| 激情视频极品美女日韩| 一区二区三区日本| 亚洲一区二区av| 日本黄色片视频| 欧美一级特黄aaaaaa大片在线观看| 日韩国产精品91| 91久久久一线二线三线品牌| 欧美日韩国产中文字幕在线| 亚洲欧美日韩国产综合在线 | 国产理论视频在线观看| av一区二区三区| 国产精品一区二区免费看| eeuss影院www在线播放| 婷婷六月综合网| 日本少妇一区二区三区| 日韩成人三级| 琪琪亚洲精品午夜在线| www.国产.com| 国产精品丝袜久久久久久app| 久草视频国产在线| 国产精品视频一区二区三区综合| 亚洲欧美日本另类| 国产精品白浆一区二小说| 美女免费视频一区二区| 欧美成熟毛茸茸复古| 成人国产免费电影| 欧美日韩综合在线免费观看| 大地资源二中文在线影视观看| 欧美丝袜激情| 91精品国产777在线观看| 国产夫妻自拍av| 国产精品情趣视频| 别急慢慢来1978如如2| 亚洲超碰在线观看| 久久久精品视频成人| 一区二区国产欧美| 国产女人18毛片水真多成人如厕| 免费在线a视频| 久久大胆人体视频| 欧美精品久久久久久久久| 精品人妻一区二区三区三区四区| 亚洲国产成人在线| 免费裸体美女网站| 精品国产一区二区三区久久久樱花| 国产91精品久久久久| 日本高清视频www| 亚洲成av人在线观看| 337p日本欧洲亚洲大胆张筱雨| 国产精品99一区二区三区| 国产精品视频公开费视频| 国产在线日本| 欧洲国产伦久久久久久久| 午夜精产品一区二区在线观看的| 先锋亚洲精品| 蜜桃传媒视频麻豆第一区免费观看| mm视频在线视频| 精品剧情v国产在线观看在线| 欧美精品久久久久性色| 成人免费视频免费观看| 婷婷五月综合缴情在线视频| 天堂俺去俺来也www久久婷婷| 91精品国产九九九久久久亚洲| 亚洲乱码国产乱码精品精软件| 亚洲一区二区三区影院| 超碰男人的天堂| 中文一区在线| 日本在线视频不卡| 亚洲精品大全| 九色成人免费视频| 欧美自拍第一页| 色噜噜久久综合| 我和岳m愉情xxxⅹ视频| 久久在线精品| 天天综合中文字幕| 91大神精品| 538国产精品视频一区二区| 成人午夜视频一区二区播放| 精品露脸国产偷人在视频| 欧美 日本 国产| 99亚洲精品| 日韩影视精品| 欧美欧美在线| 欧美中文字幕视频| 日韩理伦片在线| 欧美不卡一区二区三区四区| 亚洲 欧美 日韩 综合| 久久噜噜亚洲综合| 天天操天天干天天做| 国产在线不卡| 日韩一区二区电影在线观看| 日本一区二区三区播放| 4438全国成人免费| 在线观看a视频| 亚洲第一精品夜夜躁人人爽| 91久久国产综合久久91| 伊人一区二区三区| 69视频在线观看免费| 精品一区二区三区视频在线观看| 国产成人艳妇aa视频在线| 日韩丝袜视频| 91在线高清免费观看| 午夜影院在线观看国产主播| 亚洲午夜av电影| 亚洲爱爱综合网| 欧美亚洲日本国产| 国产在线观看你懂的| 国产精品私人自拍| 91视频福利网| 热久久一区二区| 欧美日韩成人免费视频| 99精品在线观看| 欧美国产一区二区在线| 日韩免费一级| 91人人爽人人爽人人精88v| 成人在线中文| 国产精品成人aaaaa网站| 亚洲欧洲美洲av| 欧美亚洲另类制服自拍| 擼擼色在线看观看免费| 久久久亚洲国产| 男女免费观看在线爽爽爽视频| 久久综合电影一区| 欧美激情免费| 久久久精品999| 黄色网在线免费看| 久久久国产精品视频| 欧美成年黄网站色视频| 日韩中文字幕网| 美女av在线播放| 久久伊人色综合| 中文av资源在线| 欧美国产日韩一区| 国产亚av手机在线观看| 国内精品久久久久久久久| gogo久久| 国产999在线观看| 成人黄色在线| 91在线免费看网站| 日韩视频一区二区三区四区| av成人在线电影| 高潮按摩久久久久久av免费| 国产精品免费观看高清| 国产精品zjzjzj在线观看| 国产精品日韩一区二区| 天海翼精品一区二区三区| 日本免费一区二区三区| 青草国产精品| 国产免费内射又粗又爽密桃视频| 欧美日韩网站| 大肉大捧一进一出好爽视频| 水野朝阳av一区二区三区| 污色网站在线观看| 激情久久五月天| 久久久男人的天堂| 99re视频精品| 网站永久看片免费| 一区二区三区精品在线观看| 亚洲精品www久久久久久| 色综合天天综合网天天看片| 中文字幕一区二区三区人妻四季 | 五月婷婷之综合激情| 老司机午夜精品| 无码人妻一区二区三区免费n鬼沢 久久久无码人妻精品无码 | 欧美富婆性猛交| 亚洲欧美韩国| 国产中文字幕日韩| 麻豆国产欧美一区二区三区r| 欧日韩一区二区三区| 91久久电影| 9久久9毛片又大又硬又粗| 免费成人美女在线观看| 99免费观看视频| 国产精品久久久久久久第一福利| 国产高清在线免费观看| 色妹子一区二区| av中文字幕免费| 亚洲区在线播放| 亚洲图区一区| 国产精品igao视频| jizz性欧美2| 亚洲一区二区三区午夜| 99伊人成综合| 五月天婷婷影视| 久久久久久久久久久99999| 91嫩草|国产丨精品入口| 欧美性xxxxxx| 精品国自产在线观看| 亚洲色图av在线| 国产在线拍揄自揄拍视频| 国产精品视频专区| 婷婷精品在线| 国产成a人亚洲精v品在线观看| 秋霞国产午夜精品免费视频| 日韩精品视频一区二区| 亚洲欧美国产77777| 在线视频精品免费| 亚洲国产97在线精品一区| 老司机午夜在线| 国产精品视频内| 中文字幕精品影院| 久久99久久99精品| 国产一区 二区 三区一级| 调教驯服丰满美艳麻麻在线视频| 亚洲.国产.中文慕字在线| 国产三级第一页| 精品国产一区二区三区久久久| 四虎影视4hu4虎成人| 免费看成人片| 亚洲乱码久久| 免费观看污网站| 亚洲一区自拍偷拍| av一区二区三| 久久的精品视频| 日本欧美在线| 亚洲激情图片| 蜜臀av性久久久久蜜臀aⅴ四虎| 玖玖爱在线观看| 日韩欧美国产视频| 日本黄色三级视频| 欧美激情视频在线| 97青娱国产盛宴精品视频| 大胆欧美熟妇xx| 国产91在线观看| xxxx 国产| 亚洲成人xxx| 第一福利在线视频| 精品日本一区二区| 香蕉亚洲视频| 黄色aaa视频| 在线观看国产日韩| 在线免费观看的av网站| 国产精品美女www爽爽爽视频| 欧美少妇xxxx| 手机免费av片| 亚洲精品成人天堂一二三| 国产激情无套内精对白视频| 久久成人综合视频| 大奶在线精品| 欧美二区在线视频| 久久久蜜桃精品| 国产精品sm调教免费专区| 中文字幕亚洲综合久久筱田步美| 国产亚洲精彩久久| 中文字幕日韩精品久久| 国产福利不卡视频| 在线免费观看毛片| 日韩av网站电影| 日本另类视频| 国产高清免费在线| 懂色av一区二区夜夜嗨| 亚州国产精品视频| 亚洲午夜国产成人av电影男同| 日韩在线激情| 真实国产乱子伦对白视频| 91麻豆国产香蕉久久精品| 波多野结衣一区二区三区四区| 中文字幕亚洲欧美日韩高清| 日本免费成人| www.日本在线播放| 国产欧美日韩激情| av一区二区三| 欧美在线性爱视频| 91青青国产在线观看精品| 不许穿内裤随时挨c调教h苏绵| 日韩欧美中文第一页| 成人在线播放视频| 91精品久久久久久蜜桃| 国产亚洲激情| 中文字幕有码在线播放| 欧美一级日韩不卡播放免费| 蜜桃av.网站在线观看| 性刺激综合网| 成人app下载| 亚洲一级黄色大片| 国模私拍视频一区| 国产精品99久久| 人妻丰满熟妇av无码久久洗澡 | 亚洲av无码片一区二区三区| 欧美综合激情网| 亚洲最新色图| 怡红院一区二区三区| 欧美成人精品二区三区99精品| 日本美女久久| 免费无码毛片一区二三区|