精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

6666!NeurIPS滿分論文來了

人工智能 新聞
真正決定推理上限的是基座模型本身而非強化學習,且蒸餾比強化學習更有望實現大模型自我進化。

四個審稿人全給6分,NeurIPS唯一滿分論文炸了!

之所以說它炸,主要是論文給出的結論實在太出人意料了——

真正決定推理上限的是基座模型本身而非強化學習,且蒸餾比強化學習更有望實現大模型自我進化。

好家伙,這無異于給正炙手可熱的RLVR(可驗證獎勵的強化學習)迎面潑下一盆冷水~

RLVR,自大模型推理范式開啟后就成為一眾主流模型(如OpenAI-o1、DeepSeek-R1)的核心驅動力。

由于無需人工標注,通過自動驗證獎勵優化模型,它一度被視為實現模型自我進化、逼近更高推理能力的終極路徑。

但來自清華上交的這篇論文,卻讓風向陡然生變——

如果進化的鑰匙不在強化學習,那當前圍繞RLVR的巨額投入與探索,意義何在?

真正能突破推理上限:蒸餾而非強化學習

這篇論文題目為《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? 》,“獲NeurIPS唯一滿分”的結論由PaperCopilot(非官方論文分析平臺)統計得出。

同時它還榮獲ICML 2025 AI4Math Workshop最佳論文獎,并入選NeurIPS 2025大會口頭報告。

之所以提出這項研究,主要是近年來RLVR在大語言模型中被廣泛應用于提升數學、編程、視覺推理等任務的表現。

隨之而來的是,AI圈普遍假設——

RLVR不但能提升推理效率,還可能擴展模型的推理能力,即讓模型學會底層基礎模型本來不會的新推理路徑。

但問題是,這一結論真的成立嗎?

于是帶著疑問,來自清華上交的研究團隊核心想要弄清一個問題:

RLVR是否真的讓大語言模型超越其“底模”推理能力邊界,還是只是優化已有能力?

而通過一系列實驗,團隊得出以下最新結論:

  • RLVR主要是在“強化”底模已有的路徑,而不是“發現”底模沒有的路徑。
  • RL訓練后的模型在低采樣次數(如pass@1)表現更好,但隨著采樣次數增加(pass@64、pass@256…),底模反而能超過RL模型,這說明底模隱藏的推理能力被低估了。
  • 多種RL算法(如PPO、GRPO、Reinforce++等)在提升采樣效率方面差異不大,且與“理論上底模最大能力”相比,仍有明顯差距,這說明想靠RL突破底模上限還不夠。
  • 蒸餾方法更有可能“擴展”模型的推理能力范圍,因為其接收來自教師模型的新推理模式,而RLVR更受限于底模。

換句話說,與普遍認知相反,RLVR的實際作用很可能被嚴重高估了。

關鍵評估指標:pass@k

而為了得出上述結論,他們采用了pass@k這一關鍵評估指標。

所謂pass@k,是指衡量一個模型在多次嘗試中,至少成功一次的幾率。

相比一些傳統指標(如greedy decoding準確率)僅反映平均表現,它通過多輪采樣揭示模型的推理邊界,能更精準判斷模型是否“有能力”解決問題,而非“大概率”解決問題。

具體來說,他們主要把底模、RL模型放在同一批題目上反復測試,來看模型是“真的變聰明”還是只是“更會挑答案”。

為避免實驗結果的局限性,團隊選取了大語言模型推理能力的三大典型應用領域,并搭配權威基準數據集,確保測試的全面性和代表性。

  • 數學推理(GSM8K、MATH500等6個基準)
  • 代碼生成(LiveCodeBench等3個基準)
  • 視覺推理(MathVista等2個基準)

模型則以主流大語言模型家族為基礎,包括Qwen2.5系列(70億、140億、320億參數)和LLaMA-3.1-80億參數模型等,并構建“基礎模型 vs RLVR訓練模型”的對照組合。

其中RLVR訓練模型是指,分別用PPO、GRPO、Reinforce++等6種主流RLVR算法訓練后的版本,形成多組平行對照。這樣既能對比RLVR與基礎模型的差異,也能橫向比較不同RLVR算法的效果。

然后就是對不同模型在各基準任務上的pass@k指標進行多維度采集與分析。

針對每個測試樣本,分別讓基礎模型和RLVR模型進行不同次數的采樣(k值從1逐步提升至1024),記錄每次采樣中“至少出現一個正確結果”的概率。

隨后團隊重點分析兩個關鍵規律:

一是同一k值下,RLVR模型與基礎模型的pass@k差異;二是隨著k值增大,兩類模型pass@k曲線的變化趨勢。

同時,結合模型輸出的推理路徑困惑度分析(perplexity)、可解問題子集比對等輔助手段,最終形成對RLVR能力的全面判斷。

論文作者介紹

值得一提的是,這項研究還是出自咱們國內研究人員之手。

一共8位,7位來自清華大學LeapLab,1位來自上海交通大學。

項目負責人Yang Yue (樂洋),清華大學自動化系四年級博士生。

研究方向為強化學習、世界模型、多模態大模型和具身智能,之前曾在顏水成創辦的新加坡Sea AI Lab和字節跳動 Seed團隊實習過。

雖然還是學生,但發表或參與發表的多篇論文均入選頂會。這當中,他以核心作者身份發表的論文《How Far is Video Generation from World Model: A Physical Law Perspective》,因探索視頻模型能否學會物理規律,還被國內外眾多大佬Yan Lecun,xie saining,Kevin Murphy等轉發。

另一位和他貢獻相同的作者Zhiqi Chen,目前為清華大學自動化工程系大三學生。

研究方向為推理密集型大語言模型的強化學習,在校期間多次獲得國家獎學金。

通訊作者Gao Huang(黃高),清華大學自動化系副教授、博士生導師, LeapLab負責人。

他最知名的工作之一就是發表了論文《Densely Connected Convolutional Networks》,其中提出了經典卷積架構模型DenseNet。

該論文不僅榮獲CVPR2017最佳論文,而且被編入多本深度學習著作,單篇引用量接近6萬次。

其他作者中,來自清華的還有:

  • Rui Lu(盧睿),清華大學自動化系四年級博士生,本科畢業于姚班。
  • Andrew Zhao(趙啟晨),清華大學自動化系博士生,本碩畢業于加拿大哥倫比亞大學和南加州大學。
  • Shiji Song,清華大學自動化系教授,與黃高一起負責指導本項研究。
  • Yang Yue (樂陽) ,和項目負責人名字同音,但由于相對低調網上暫無太多公開資料。

以及唯一來自交大的Zhaokai Wang(王肇凱),目前是上海交通大學四年級博士生。

本科畢業于北京航空航天大學,同一時期還拿到了北大經濟學學士學位,當前也在上海人工智能實驗室通用視覺團隊(OpenGVLab)實習。

對于這項研究,團隊作者特意在論文主頁強調:這并不是說強化學習無用了。實際上,它在一些低采樣場景仍舊非常實用。

以及有網友發現,有意思的是,DeepSeek在一年前的一篇論文中也提到了相關現象。

……這些發現表明,強化學習通過使輸出分布更加魯棒來提升模型的整體表現,換言之,性能的提升似乎源于促進了正確答案出現在TopK結果中,而非源于基礎能力的增強。

而這一次,結論被用論文完整論證了。

論文:https://limit-of-rlvr.github.io/

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-11-17 16:30:48

AI大模型論文

2025-10-14 13:55:57

AI模型訓練

2024-12-04 12:10:40

2025-04-07 09:45:00

2024-03-01 10:04:11

研究訓練編碼器

2024-12-02 13:30:00

2023-11-28 12:49:01

AI訓練

2025-10-24 13:00:19

2020-04-13 13:56:07

AI 論文開源

2020-12-25 16:30:17

機器學習/隱私保護

2025-11-07 08:42:00

AI模型數據

2019-12-11 11:53:51

架構運維技術

2024-12-11 15:00:00

2010-10-28 11:07:43

面試

2022-11-24 15:17:31

人工智能論文

2020-12-01 10:54:52

天衍實驗室系統推薦

2024-12-04 13:30:00

2024-11-01 10:30:00

機器人模型

2022-11-01 13:48:08

參數方法
點贊
收藏

51CTO技術棧公眾號

国产精品日韩一区二区三区| 在线观看欧美黄色| 亚洲一区二区在线| 国产一级二级三级| 欧美亚洲国产日韩| 欧美天堂一区二区三区| 国产精品88久久久久久妇女 | 欧美成人视屏| 国产成人在线免费观看| 欧美中文在线观看| 伊人久久久久久久久久久久久久| 天堂精品久久久久| 欧美日韩另类字幕中文| 一区二区三区三区在线| 人妻丰满熟妇av无码区hd| 老**午夜毛片一区二区三区 | 国产99在线观看| 国产女人18毛片水真多成人如厕 | 亚洲卡通欧美制服中文| 精品日本一区二区三区在线观看| 在线免费观看一区二区| 在线视频精品| 欧美激情视频在线观看| 美国黑人一级大黄| 欧美国产不卡| 欧美xxxx在线观看| 亚洲小视频网站| 欧美成人精品一区二区男人小说| 一区二区在线观看免费| 婷婷精品国产一区二区三区日韩| 亚洲av片一区二区三区| 国产成人99久久亚洲综合精品| 国产精品一二三在线| 欧美黑人一区二区| 亚洲精品专区| 国内精品视频一区| 成年人午夜剧场| 天天色综合色| 日韩小视频网址| 在线观看亚洲大片短视频| 欧美一级三级| 亚洲精品www久久久| 美女流白浆视频| 久久久久毛片免费观看| 欧美日韩国产经典色站一区二区三区| 久久综合九色综合88i| 电影k8一区二区三区久久| 亚洲精品欧美专区| 日韩精品久久理论片| 欧美激情手机在线视频| 97不卡在线视频| 五月婷婷之婷婷| 成人精品动漫| 欧美视频在线观看一区二区| 成人中文字幕av| 亚洲成人看片| 欧美系列在线观看| 狠狠躁狠狠躁视频专区| 久久久精品一区二区毛片免费看| 欧美性感一类影片在线播放| 无码人妻精品一区二区三区66| 亚洲国产福利| 欧美午夜影院一区| 三级av免费观看| 成人在线视频区| 精品动漫一区二区三区在线观看| 亚洲美女高潮久久久| 国产精品115| 日韩黄色高清视频| 色哟哟精品观看| 日韩精品久久久久久久电影99爱| 日韩在线视频线视频免费网站| 尤物在线免费视频| 欧美黄污视频| 91av国产在线| 久久久999久久久| 国产原创一区二区三区| 国产成人av一区二区三区| 婷婷色在线观看| 国产欧美日韩综合| 中日韩在线视频| av中文在线资源| 色综合天天性综合| 天堂在线中文在线| 国产精品色呦| 在线视频中文亚洲| 国产一级片免费观看| 模特精品在线| 91在线网站视频| 偷拍自拍在线| 亚洲美女在线国产| 北条麻妃在线视频观看| 欧美激情三区| 日韩av在线免费看| 女教师淫辱の教室蜜臀av软件| 欧美区亚洲区| 国产精品流白浆视频| 性做久久久久久久久久| 国产三级精品视频| 亚洲中文字幕无码一区二区三区| 神马久久资源| 日韩精品一区二区三区视频播放| 亚洲做受高潮无遮挡| **女人18毛片一区二区| 亲子乱一区二区三区电影| 国产手机视频在线| 久久精品一二三| 丰满少妇大力进入| 成人在线视频www| 国产一区av在线| 国产区在线观看视频| 精品午夜久久福利影院| 欧美高清视频一区二区三区在线观看| 99福利在线| 欧美色手机在线观看| 成人免费看片载| 97国产精品| 国产精品av免费在线观看| www.日日夜夜| 亚洲视频一区在线| 亚洲男人天堂色| 五月激激激综合网色播| 九九精品在线播放| 亚洲天堂网视频| 久久九九久久九九| 日本中文字幕网址| xxxx日韩| 欧美福利在线观看| 国产精品欧美激情在线| 中文字幕高清不卡| av无码精品一区二区三区| 精品五月天堂| 久久久久久久久91| 精品人妻一区二区三区三区四区| 国产精品福利av| 特级丰满少妇一级| 精品国产91| 国产成人精品免高潮费视频| 香蕉国产在线视频| 五月婷婷综合在线| 精品1卡二卡三卡四卡老狼| 中文字幕人成人乱码| 成人精品视频99在线观看免费 | 国产亚洲视频中文字幕视频| 中文字幕视频网站| 久久久91精品国产一区二区三区| 久久久久人妻精品一区三寸| 成人性生交大片免费看中文视频| 欧美高跟鞋交xxxxxhd| 亚洲av无码专区在线| 亚洲网友自拍偷拍| 99久久人妻精品免费二区| 亚洲欧洲一区二区天堂久久| 精品国产乱码久久久久软件| 操人在线观看| 亚洲欧美国产制服动漫| 在线免费观看国产精品| 国产精品网曝门| 在线观看免费污视频| 欧美aaaa视频| 92国产精品视频| 男男gaygays亚洲| 亚洲国产精品福利| 亚洲国产成人无码av在线| 久久久一区二区三区捆绑**| 一本久道中文无码字幕av| 日韩久久精品网| 91网站在线看| 精精国产xxxx视频在线中文版| 亚洲精品一区二区三区香蕉| 日本三级一区二区| 国产欧美一区二区精品久导航 | 成人一区在线看| 2018国产在线| 欧美码中文字幕在线| 91九色国产视频| 97人人在线视频| 亚洲新声在线观看| 精品国自产在线观看| 偷拍一区二区三区四区| 色一情一交一乱一区二区三区| 久久精品国产99| 蜜臀av无码一区二区三区| 精品一区在线| 91网在线免费观看| 亚洲精品成人图区| 大胆欧美人体视频| 污视频在线免费观看| 欧美日韩成人高清| 日韩精品乱码久久久久久| 国产日本欧美一区二区| 又黄又爽又色的视频| 毛片一区二区| 欧洲精品视频在线| 国产一区2区| 国产成人精品自拍| 福利精品在线| 2019中文字幕免费视频| 国产原厂视频在线观看| 国产视频在线观看一区二区| 国产免费叼嘿网站免费| 色先锋aa成人| 精品一级少妇久久久久久久| 国产精品网曝门| 午夜av免费看| 国产很黄免费观看久久| 无码人妻丰满熟妇区五十路百度| 欧美久久成人| 做爰高潮hd色即是空| 免费久久精品| 国产乱码精品一区二区三区日韩精品 | 最近中文字幕一区二区| 激情亚洲成人| 久久国产精品免费观看| 久久高清精品| 神马一区二区影院| 伊人久久大香线蕉| 国产精品一区二区三区免费观看| www久久久| 国产精品爽黄69天堂a| 日韩免费小视频| 欧美又大又硬又粗bbbbb| 国产蜜臀一区二区打屁股调教| 日韩中文字幕在线观看| yw视频在线观看| 亚洲欧美精品中文字幕在线| 欧美 日韩 国产 成人 在线| 91精品国产欧美一区二区成人| 中文字幕在线播出| 色综合激情五月| 日韩不卡视频在线| 黄色国产网站在线播放| 亚洲一区日韩精品中文字幕| 肉色超薄丝袜脚交69xx图片| 国产欧美一区二区三区网站| 国产人妻人伦精品1国产丝袜| 成人激情视频网站| 亚洲一区和二区| 国产成人免费视频精品含羞草妖精| 潘金莲激情呻吟欲求不满视频| 免费成人在线视频观看| 亚洲少妇第一页| 日韩在线观看一区二区| 日韩毛片在线免费看| 国产精品嫩草99av在线| 欧美成人一区二区在线观看| 国产精品视频| 久久久噜噜噜www成人网| 国产精品人人爽人人做我的可爱| 人妻熟妇乱又伦精品视频| 国产欧美日韩综合一区在线播放 | 日本免费一区二区六区| 欧美性视频精品| 蜜桃成人精品| 国产伦精品一区二区三区精品视频| 成人在线中文| 91精品视频一区| 91成人福利| 精品国产一区二区三| 美女网站一区| 亚洲精品成人自拍| 亚洲自拍偷拍网| ㊣最新国产の精品bt伙计久久| 久久久久久久久久久妇女| 久久久国产成人精品| 超鹏97在线| 久久久久久美女| 夜鲁夜鲁夜鲁视频在线播放| 国产97在线播放| 日韩国产91| 99在线视频免费观看| 日韩福利视频一区| 日韩欧美精品一区二区三区经典 | 黄网站免费久久| 在线中文字日产幕| 97久久精品人人做人人爽50路| 亚洲精品乱码久久久久久久久久久久| 亚洲国产精品成人综合色在线婷婷| 日日碰狠狠添天天爽| 一区二区日韩av| 欧产日产国产69| 5858s免费视频成人| 亚洲国产精品欧美久久| 亚洲精品资源在线| 青青青青在线| 91高清免费在线观看| 成人黄色图片网站| 国产高清在线精品一区二区三区| 九一亚洲精品| www国产无套内射com| 久久精品盗摄| 日韩精品――色哟哟| 久久久久九九视频| 精品99在线观看| 精品视频1区2区| 视频一区二区在线播放| 中文字幕亚洲一区在线观看| 国产美女精品写真福利视频| 成人国产精品一区二区| 在线看成人短视频| 久久精品无码中文字幕| 秋霞午夜鲁丝一区二区老狼| 人妻激情偷乱频一区二区三区| 亚洲国产高清aⅴ视频| 日韩 欧美 亚洲| 欧美一区二区三区的| 黄色视屏网站在线免费观看| 欧美极品少妇与黑人| 欧美天堂一区| 欧美日韩系列| 亚洲精品九九| 中文字幕在线观看视频www| 日本一二三不卡| 久久人妻免费视频| 亚洲精品在线观看网站| av在线播放国产| 国产精自产拍久久久久久| 天堂成人娱乐在线视频免费播放网站 | 亚洲三区在线播放| 欧美巨乳在线观看| 日韩一级特黄| 五月天久久综合网| 久久久久久婷| a级在线观看视频| 亚洲v精品v日韩v欧美v专区 | 日韩精品在线观看视频| 国产蜜臀一区二区打屁股调教| 国产欧亚日韩视频| 欧美日韩国产在线观看网站| 人妻精品无码一区二区三区 | 毛片a片免费观看| 91麻豆精品国产91久久久资源速度| 国产三级视频在线看| 国产91久久婷婷一区二区| 亚洲电影男人天堂| 成年人观看网站| 久久嫩草精品久久久精品一| 日韩在线视频免费播放| 亚洲精品久久久久久久久| 91在线三级| 国产伦精品一区二区三区在线 | 亚洲欧美日韩在线| 亚洲国产美女视频| 欧美一区二视频| 18av在线视频| 99国产超薄肉色丝袜交足的后果| 亚洲色图插插| 久久久久亚洲av无码麻豆| 亚洲毛片av在线| 亚洲av综合色区无码一区爱av| 欧美黑人性视频| 精品嫩草影院| 男女高潮又爽又黄又无遮挡| 91亚洲男人天堂| www.com亚洲| 中文字幕免费国产精品| 亚洲男人在线| 女人床在线观看| 不卡一区在线观看| 在线观看日本视频| 中文亚洲视频在线| 日本成人一区二区| 国产欧美综合一区| 国产1区2区3区精品美女| 国产亚洲成人av| 日韩成人av网址| av亚洲一区| 久久观看最新视频| av电影一区二区| 欧美视频xxxx| 欧美成人精品xxx| 美女网站色精品尤物极品姐弟| 久久婷婷国产精品| 国产精品久久久一本精品| 精品国自产拍在线观看| 777精品视频| 久久裸体网站| 中文字幕天堂av| 欧美性色欧美a在线播放| 亚洲妇熟xxxx妇色黄| 久久久久久九九| 捆绑调教一区二区三区| 成人免费看片98| 一区二区亚洲欧洲国产日韩| 粉嫩av国产一区二区三区| 国产一区二区视频播放| 国产精品久久免费看| 高清毛片aaaaaaaaa片| 国产成人一区二区三区电影| 雨宫琴音一区二区三区| 午夜理伦三级做爰电影| 日韩一区二区视频| a日韩av网址| 国产精品久久久影院| 久久久国产午夜精品| 亚洲av无码国产精品永久一区| 日韩av色综合| 国模吧视频一区| 免费看一级黄色| 国产视频久久久|