精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

不蒸餾R1也能超越DeepSeek,上海 AI Lab 用RL突破數學推理極限

人工智能 新聞
研究團隊重新審視了當前基于結果獎勵的強化學習算法,經過嚴格的理論推導與證明,重新設計了一個新的結果獎勵強化學習算法,并在這個過程中得出了三點重要結論。

僅通過強化學習,就能超越DeepSeek!

上海AI Lab提出了基于結果獎勵的強化學習新范式——

從Qwen2.5-32B-Base模型出發,僅通過微調和基于結果反饋的強化學習,在不蒸餾超大模型如DeepSeek-R1的情況下,就能超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超強數學推理性能。

團隊發現,當前大模型數學推理任務面臨”三重門”困局:

  • 稀疏獎勵困境:最終答案對錯的二元反饋,使復雜推理的優化變得困難
  • 局部正確陷阱:長思維鏈中部分正確步驟反而可能誤導模型學習
  • 規模依賴魔咒:傳統蒸餾方法迫使研究者陷入”參數規模軍備競賽”

因此,研究團隊重新審視了當前基于結果獎勵的強化學習算法,經過嚴格的理論推導與證明,重新設計了一個新的結果獎勵強化學習算法,并在這個過程中得出了三點重要結論:

  • 對于正樣本:在二元反饋環境下,通過最佳軌跡采樣(BoN)的行為克隆即可學習最優策略
  • 對于負樣本:需要使用獎勵重塑來維護策略優化目標的一致性
  • 對于長序列:不同的序列部分對結果的貢獻不同,因此需要更細粒度的獎勵分配函數,這個函數可以通過結果獎勵習得

通俗來說,就是通過對正確樣本模仿學習,錯誤樣本偏好學習,關鍵步驟重點學習,無需依賴超大規模的模型(例如DeepSeek-R1)進行蒸餾,僅通過強化學習即可達到驚人的效果。

除此之外,團隊也對不同起點模型進行了強化學習訓練對比和分析,發現強化學習的起點模型訓練數據分布對最終的模型效果也很重要。因此,研究團隊將RL訓練的數據、起點和最終模型一起完整開源,來推動社區的公平比較和進一步研究。項目鏈接已放文末。

從頭設計結果獎勵強化學習

針對數學推理任務中強化學習面臨的稀疏獎勵局部正確難題,團隊提出新的策略優化框架OREAL

通過理論創新實現針對性的算法改進,在用實驗說明“怎么做更好”之前,首先論證“為什么這么做更好”

正負樣本獎勵重塑,解決稀疏獎勵困境

在數學推理任務的采樣流程中,團隊經過理論分析推導,提出核心見解:在二元反饋機制下,采樣任意數量包含正確答案的BoN(Best-of-N)設置,其正確軌跡的分布具有一致性特征。這一發現表明,通過直接行為克隆(behaviorcloning)采樣得到的正確軌跡,已經構成了正樣本訓練中的最優設置。

在對正樣本做模仿學習的基礎上,團隊提出直接懲罰負樣本會導致梯度偏差問題,對負樣本的訓練原則應當是維護優化梯度形式與學習BoN分布一致。通過深入分析正負樣本的訓練梯度,研究者們提出了基于平均準確率p的獎勵重塑因子來維護上述一致性,為GRPO等算法的改進提供了理論依據。這種設置使模型既能有效吸收成功經驗,又能精確識別關鍵錯誤邊界,對訓練性能有明顯幫助。

結果獎勵「因果溯源」,跳出局部正確陷阱

針對復雜的長推理鏈問題,OREAL創新性地設計了token重要性估計器。通過構建序列累計形式的獎勵函數,我們將結果獎勵逆向分解到每個推理步驟(見下面的token-level RM熱力圖)。這種方法能夠精確定位核心錯誤步驟,在訓練時實現更精細的梯度更新,顯著提升了模型在長序列任務中的表現。

OREAL框架

將幾項認知組合起來,團隊提出的最優強化學習策略可以概括為:在正確樣本上模仿學習,在錯誤樣本上偏好學習,對關鍵步驟做重點學習。

通過合理的分析和實踐,一步步將強化學習性能推到最佳水平。

強化學習超越蒸餾,擺脫規模依賴魔咒

團隊在7B和32B兩個規模的模型上僅使用4千條高質量訓練樣本進行了訓練和測試,

在7B量級上,Oreal-7B在MATH-500上取得了91.0的pass@1準確率。這是首次通過強化學習而非蒸餾方法達到了如此高的精度。這一成績不僅為基于RL的方法樹立了新的里程碑,還超越了更大參數量的模型,包括QWQ-32B-Preview和OpenAI-O1-Mini。

此外,將Oreal應用于此前最佳的7B模型(DeepSeek-r1-Distill-Qwen-7B)后,得到的新模型OREAL-DSR1-Distill-Qwen-7B在MATH-500上取得了94.0的pass@1精度,創下了7B模型的記錄。千問的基座,經過DeepSeek的蒸餾訓練,再經過上海AI Lab的強化學習訓練,達到了中國原創新高度。

對于32B模型,Oreal-32B在MATH-500上也達到了95.0的分數,超越了同級別的DeepSeek-r1-Distill-Qwen-32B,實現32B模型的新SOTA。

One More Thing

最后,研究團隊還對比了不同基座模型下的性能表現,發現不同性能起點的策略模型RL后性能上限是不同的,起點模型越強,RL后的性能越好。

并且,盡管在多個基座模型上,大部分benchmark性能都會在RL后有所提升,偶爾也會出現持平(OREAL-32B在AIME2025-I)或者性能下降(相比于DSR1-Distill-Qwen-7B在AIME2024)。

研究認為,這些情況的出現可能與訓練語料的質量、難度和數量等方面準備的不夠充分有關,這也給未來的研究留下了空間。

因此,除了強大的RL算法,團隊還提出兩個關鍵因素對于RL在數學推理任務中的成功至關重要:

強大的起點模型是RL可以有效激發模型潛在能力的前提。

在RL階段使用的數據也必須在質量、難度、數量和多樣性方面都得到充分保證。高質量的數據集能夠讓模型通過面對廣泛的挑戰和學習機會,充分發揮其潛力。

模型數據全面開源,助力強化學習研究

研究團隊同時也注意到,盡管DeepSeek-R1的出現引發了社區對于大語言模型強化學習的學習和研究熱情,大家使用的訓練起點模型、訓練數據、訓練算法和超參細節都不盡相同,影響了算法和模型性能的清晰比較。

因此,研究團隊將整個RL訓練過程中用到的訓練數據、起點模型和RL后模型都進行了全面開源,訓練代碼也將開源到XTuner。

歡迎下載體驗:

項目鏈接:
https://github.com/InternLM/OREAL
論文地址:
https://arxiv.org/abs/2502.06781
RL 訓練數據鏈接:
https://huggingface.co/datasets/internlm/OREAL-RL-Prompts
系列模型地址:
https://huggingface.co/collections/internlm/oreal-67aaccf5a8192c1ba3cff018

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-01-27 12:30:07

2025-02-12 12:12:59

2025-05-27 15:40:34

模型AI訓練

2025-02-20 15:32:28

2025-04-22 09:12:00

AI模型數據

2025-07-08 08:53:00

2025-09-26 10:59:55

AI模型數據

2025-07-14 13:47:29

2025-09-18 08:05:39

2025-01-21 11:53:53

2025-02-11 16:11:12

2025-03-06 10:14:39

2025-09-08 09:06:16

2025-01-21 09:36:51

2025-02-10 06:50:00

AIDeepSeek推理模型

2025-07-04 09:08:00

AI模型架構

2025-01-26 08:40:00

AI模型預測

2025-04-21 08:42:00

模型開源AI

2025-03-06 09:55:49

點贊
收藏

51CTO技術棧公眾號

久久草av在线| 中国av一区| 亚洲国产婷婷综合在线精品| 欧洲一区二区视频| 免费一级黄色录像| 欧美影院在线| 一本久久精品一区二区| 最新不卡av| 婷婷伊人综合中文字幕| 欧美aaa在线| 国产一区二区日韩精品欧美精品| 一女被多男玩喷潮视频| 欧美一级在线免费观看| 狠狠色丁香久久综合频道| 亚洲精品乱码久久久久久金桔影视| 9色porny| 99riav在线| 韩国三级在线一区| 久久精品国产亚洲精品2020| 午夜男人的天堂| 99在线视频影院| 日本一区二区动态图| 国产成人亚洲欧美| 国产一区二区三区在线观看| 性8sex亚洲区入口| 欧美高清视频免费观看| 先锋影音av在线| 久久久久观看| 欧美成人性战久久| 亚洲制服中文字幕| av中文在线资源| 亚洲欧美在线另类| 视频在线99re| 男人久久精品| 99久久国产综合精品色伊| 日本欧美爱爱爱| 潮喷失禁大喷水aⅴ无码| 日本午夜精品| 欧美日韩一区不卡| 日本a在线天堂| 含羞草www国产在线视频| 久久久.com| 蜜桃久久影院| 水中色av综合| 精品亚洲国产成人av制服丝袜| 美女久久久久久久久久久| 欧美亚洲色综久久精品国产| 亚洲区小说区图片区qvod| 亚洲国产成人久久综合| 青青青国产在线视频| 福利影院在线看| 亚洲成人动漫精品| 精品国偷自产一区二区三区| 国产美女性感在线观看懂色av| 理论电影国产精品| 国产精品mp4| 在线观看日本网站| 肉色丝袜一区二区| 国产精品久久久久久久久久久新郎 | 91精彩在线视频| 国产福利精品一区二区| 亚洲自拍小视频免费观看| 国产精品高潮呻吟久久久| 久久精品久久99精品久久| 国产精选久久久久久| 91免费视频播放| 韩国欧美国产1区| 国产不卡在线观看| 精品视频在线观看免费| 狠狠爱综合网| 日本人成精品视频在线| 中文字幕久久久久| 国产在线国偷精品产拍免费yy | 久久露脸国语精品国产91| 91久久电影| 久久99视频精品| 国产精品黄色网| 免费一级欧美片在线观看| 国产欧美一区二区三区在线 | 欧美日韩国产区一| 手机在线观看日韩av| 一区二区日韩| 欧美一区二区黄色| 偷偷色噜狠狠狠狠的777米奇| 少妇精品在线| 日韩av一区二区在线| 无码人妻丰满熟妇啪啪欧美| 97精品国产| 国产69精品久久久久9| 天堂网av手机版| 亚洲国产日韩在线| 国产精品成人一区| 精品人妻av一区二区三区| 91免费在线看| 色乱码一区二区三区熟女| 2001个疯子在线观看| 欧美午夜精品电影| 网站一区二区三区| 亚洲a∨精品一区二区三区导航| 欧美日韩亚洲一区二| 伊人网在线综合| 白白在线精品| 色婷婷av一区二区三区在线观看 | 亚洲一级二级在线| 久久久国产欧美| 国产精品x8x8一区二区| 精品国产91乱码一区二区三区 | 欧美精品99久久| 色在线免费观看| 69成人精品免费视频| 99re这里只有| 正在播放日韩欧美一页| 国产成人精品午夜| 午夜性色福利视频| 樱花草国产18久久久久| 国产成人一区二区三区别| 国产超碰精品| 亚洲激情 国产| 538精品在线观看| 奇米色一区二区| 91久久国产精品91久久性色| a级片免费观看| 国产精品三级电影| bt天堂新版中文在线地址| 97欧美成人| 亚洲欧美精品一区| 国产黄色片免费看| 成人午夜大片免费观看| 中文字幕av导航| 国产精品99久久久久久董美香 | 国产成人精品一区二区无码呦 | 妖精视频成人观看www| 亚洲a∨日韩av高清在线观看| www.国产视频| 中文字幕在线免费不卡| 99草草国产熟女视频在线| 色成人综合网| 在线激情影院一区| 亚洲 欧美 中文字幕| 精品一区二区免费在线观看| 日本一区二区三区视频在线观看| 欧美激情免费| 欧美色视频在线观看| 亚洲AV无码国产成人久久| 一区二区三区福利| 精品婷婷色一区二区三区蜜桃| 欧美日韩激情视频一区二区三区| 国产精品久久久一本精品| 欧美中文字幕在线观看视频 | 欧美日韩水蜜桃| 51精品国产黑色丝袜高跟鞋| 特级丰满少妇一级aaaa爱毛片| 国产拍揄自揄精品视频麻豆| 日日碰狠狠丁香久燥| 国产欧美高清视频在线| 日韩免费视频在线观看| jizz在线观看视频| 欧美色偷偷大香| 希岛爱理中文字幕| 久久午夜精品一区二区| 日韩av电影免费在线| 四虎av在线| 精品国产91洋老外米糕| 欧美日韩黄色网| 国产成人一区在线| 亚洲精品久久区二区三区蜜桃臀| 忘忧草在线日韩www影院| 欧美一区二区人人喊爽| 激情视频在线播放| 99国产精品一区| www.国产区| 色喇叭免费久久综合网| 2019中文字幕在线观看| 风间由美一区| 欧美一区二区视频在线观看| 黄色小说在线观看视频| 99久久免费视频.com| 人人爽人人av| 一区二区日韩欧美| 国产乱码一区| 国产精品69xx| 欧美一区二区三区视频在线| 国产小视频在线看| 久久久不卡网国产精品一区| 国产日本在线播放| 国产一区二区三区91| 成人h视频在线观看播放| 国产高清视频在线| 欧美一级片在线观看| 欧美一级片免费在线观看| 久久精品人人做| 国产激情在线观看视频| 66视频精品| 免费在线成人av电影| 伊人久久大香线蕉综合影院首页| 在线精品91av| 亚洲h视频在线观看| 亚洲免费观看在线视频| 特级西西人体4444xxxx| 99精品国产在热久久婷婷| 亚洲国产精品一区二区第四页av| 桃子视频成人app| 欧美日本高清视频| 最新97超碰在线| 日韩精品免费一线在线观看| 国产精品久久久久久久免费看| 国产精品国产三级国产普通话蜜臀 | 麻豆精品视频| 麻豆精品久久| 国产精品激情av电影在线观看 | 精品国产亚洲一区二区三区| 久久精品视频网站| 欧美777四色影视在线| 精品免费视频一区二区| 一区二区视频免费观看| 精品久久久久久久久久久| www.色天使| 国产成人综合视频| 亚洲国产高清av| 亚洲国产成人精品女人| 日韩电影在线播放| 欧美性生活一级片| 草莓视频一区| 中文成人激情娱乐网| 奇门遁甲1982国语版免费观看高清| 青青草免费在线| 亚洲白虎美女被爆操| 国产欧美熟妇另类久久久| 91成人在线观看喷潮| 日韩精品一区二区av| 国产日韩欧美a| 强伦人妻一区二区三区| 99精品桃花视频在线观看| 国产精品一区二区无码对白| 国产乱理伦片在线观看夜一区| 日本福利视频一区| 中文字幕日韩一区二区不卡| 精品无码久久久久久久动漫| 高清av一区| 日本视频久久久| 91av亚洲| 国产成人自拍视频在线观看| 激情开心成人网| 欧美精品在线第一页| 成年人黄视频在线观看| 久久成人综合视频| 高清全集视频免费在线| 久久伊人精品视频| 中日韩高清电影网| 色综合天天综合网国产成人网| 国产专区在线播放| 亚洲色图欧美制服丝袜另类第一页| 国产又粗又长又黄| 在线电影国产精品| 国产精品久久久久久久久久久久久久久久 | 亚洲精品成人三区| 日韩欧美一区免费| 亚洲免费av网| 自由日本语亚洲人高潮| 国产精品久久久影院| 亚洲福利久久| 中文字幕无码精品亚洲35| 国产亚洲毛片| 久久午夜夜伦鲁鲁一区二区| 老司机精品视频在线| 日本在线播放一区二区| 国产不卡视频在线播放| 久久久久久久无码| 国产欧美日韩综合| 欧美视频一区二区在线| 亚洲精品你懂的| 青青草原免费观看| 中文字幕高清一区| 国产成人av免费在线观看| 亚洲一区二区三区视频在线| 可以免费看av的网址| 国产亚洲制服色| 国产白丝一区二区三区| 一区二区三区在线观看动漫 | 亚洲伊人伊色伊影伊综合网| 日操夜操天天操| 欧美视频精品在线| 亚洲国产福利视频| 亚洲天堂av网| 中中文字幕av在线| 日本高清不卡的在线| 日韩av黄色| 久久av一区二区三区漫画| 久久一区91| 久久国产午夜精品理论片最新版本| 在线精品视频在线观看高清| 欧美在线一区视频| 久久精品国产99国产| 国产十八熟妇av成人一区| 成人涩涩免费视频| 亚洲高潮女人毛茸茸| 午夜久久久久久电影| 一级特黄色大片| 欧美久久婷婷综合色| 天天摸天天干天天操| 精品久久久999| 手机在线观看av网站| 成人高清视频观看www| 婷婷精品在线观看| 久久国产精品免费观看| 视频一区中文字幕| 秘密基地免费观看完整版中文| 成人综合在线观看| 福利视频第一页| 欧美性猛交xxxx乱大交3| 国产日韩精品suv| 亚洲欧洲免费视频| h片在线观看| 成人性生交xxxxx网站| 九九视频精品全部免费播放| 欧美在线观看黄| 美女视频黄久久| 黄色一级片免费播放| 国产夜色精品一区二区av| 日本少妇aaa| 日本精品视频一区二区三区| 欧美自拍偷拍第一页| 欧美xxxx综合视频| 欧美xxxx网站| 色一情一乱一伦一区二区三区丨 | 精品国偷自产一区二区三区| 精品一区二区三区在线播放视频| 韩国黄色一级片| 亚洲精品日产精品乱码不卡| 亚洲综合一二三| 欧美日韩dvd在线观看| 黄色片在线播放| 日本乱人伦a精品| 小说区图片区色综合区| 黄色一级在线视频| 一区二区三区 日韩| 国产盗摄视频一区二区三区| 美国黄色a级片| 黄网站色欧美视频| 在线视频 中文字幕| 亚洲午夜av久久乱码| 国产精品扒开腿做爽爽爽视频软件| 亚洲xxxx3d| 欧美日韩三级| 少妇黄色一级片| 久久精品视频一区二区三区| 69国产精品视频免费观看| 91精品国产手机| av免费网站在线观看| 国产色视频一区| 综合综合综合综合综合网| 国产精品视频一区二区三区四区五区| 久久精品国产网站| 国产一二三四视频| 精品福利一区二区| 青青青草网站免费视频在线观看| 日韩在线不卡视频| 91精品一区| 好吊色视频988gao在线观看| 国产成人精品影院| 日韩精品一区二区三| 亚洲女人天堂视频| 欧美日一区二区三区| 99热这里只有精品7| 国产91精品精华液一区二区三区| 麻豆视频免费在线播放| 欧美精品在线一区二区| 亚洲国产精品精华素| 精品国产日本| 日韩成人伦理电影在线观看| 一级性生活免费视频| 欧美艳星brazzers| 国产激情视频在线| 国产一区不卡在线观看| 久久免费黄色| 久久成人小视频| 亚洲第一精品电影| 日韩精品影片| 艳母动漫在线观看| av在线不卡网| 中文字幕在线日亚洲9| 日韩精品电影网| 欧美在线se| 每日在线观看av| 中文字幕va一区二区三区| 国产高潮在线观看| 欧美精品做受xxx性少妇| 色先锋久久影院av| 国产不卡的av| 色妹子一区二区| 人妖欧美1区| 91九色在线免费视频| 麻豆精品网站| 国产毛片久久久久久久| 日韩欧美成人精品| 青青操在线视频| 51国偷自产一区二区三区的来源| 一区二区三区四区电影| 丰满少妇中文字幕| 日韩欧美亚洲成人|