精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

混合數學編程邏輯數據,一次性提升AI多領域強化學習能力 | 上海AI Lab

人工智能 新聞
上海AI Lab的OpenDataLab團隊通過大規模實驗,深入剖析了RLVR在多領域推理中的復雜機制,為構建更強大、更具魯棒性的AI推理模型提供了多個維度的關鍵發現。

近年來,AI大模型在數學計算、邏輯推理和代碼生成領域的推理能力取得了顯著突破。特別是DeepSeek-R1等先進模型的出現,可驗證強化學習(RLVR)技術展現出強大的性能提升潛力。

然而,現有關于強化學習和模型的研究多聚焦于單一領域優化,缺乏對跨領域知識遷移和協同推理能力的系統性探索,讓模型能夠在多領域協同工作,發揮更好的推理能力。

上海AI Lab的OpenDataLab團隊通過大規模實驗,深入剖析了RLVR在多領域推理中的復雜機制,為構建更強大、更具魯棒性的AI推理模型提供了多個維度的關鍵發現。

圖片

團隊構建了一個涵蓋數學(Math)、編程(Code)和邏輯謎題(Puzzle)三大類數據的多領域評估框架,并為不同訓練數據設計了定制化的獎勵策略。

實驗基于Qwen2.5-7B系列模型,在將數學、代碼和謎題三大領域數據進行聯合訓練后,模型的整體平均性能達到了56.57,顯著優于任何雙領域組合。

圖片

研究團隊通過大規模實驗,有以下關鍵發現:

Puzzle與Math數據的相互支持:邏輯推理與數學能力相輔相成,顯著提升模型的整體性能。

Code推理的跨領域混合效應:指令遵循能力較強的Instruct模型可以較好的將代碼能力泛化到其他領域,而Base模型則不然。

跨領域數據提升魯棒性:多樣化數據通常能提升模型能力或實現更均衡的表現,但需要更復雜的設計來解決Math、Code和Puzzle領域間的潛在沖突。

SFT可以提升強化學習效果:在強化學習前加入SFT階段可顯著改善模型性能。

Template一致性至關重要:訓練與評估Template的不匹配會導致性能大幅下降,表明RLVR在特定領域訓練時的泛化能力魯棒性面臨挑戰。

Policy Refresh的益處:在課程學習中定期更新參考模型和優化器狀態可提升模型穩定性和性能。

獎勵設計需適應任務難度:根據模型在訓練數據上的表現調整獎勵設置,可提高學習效率。

RLVR對語言敏感:中文訓練的模型性能低于英文訓練的模型,存在一定的性能差距。

研究過程與性能表現

領域劃分與數據構建:多域推理的“基石”

上海AI Lab的OpenDataLab團隊構建了一個涵蓋數學(Math)、編程(Code)和邏輯謎題(Puzzle)三大類數據的多領域評估框架,并為不同訓練數據設計了定制化的獎勵策略。

實驗基于Qwen2.5-7B系列模型,探索了以下幾方面:

模型在數據上的表現與泛化能力:重點關注單領域數據優化與跨領域泛化,以及跨領域數據間的相互影響。

訓練方法與策略的有效性:評估Template在RLVR中的作用,以及課程學習策略的有效性。

模型優化要素:研究不同獎勵機制的設計原則,以及訓練語言對模型性能的影響。

圖片

通過系統性實驗,研究揭示了強化學習(RLVR)在多領域推理中的內在機制,為優化大模型推理能力提供了新視角。

單領域訓練:各領域“內卷”大比拼

在單領域訓練中,模型在特定任務上展現出顯著的性能提升,但跨領域效應復雜,既有協同增效也有相互削弱。

數學領域:RLVR提升數學性能,但跨域效應復雜

經過針對性訓練,Base模型在CountDown任務上準確率提升了約75個百分點。同時,數學訓練還能有效提升模型解決邏輯謎題的能力,平均得分得到提高。然而,深度優化數學能力的同時,也可能對代碼任務產生負面影響,提示了不同領域技能間存在一定的權衡關系。

圖片

代碼領域:指令微調助力編程,展現更強的跨域泛化

代碼訓練提升了模型在編程任務上的表現,尤其是經過SFT的Instruct模型表現出更高的性能上限。同時,Base模型在代碼訓練后往往在多數域外任務上出現性能下降,而Instruct模型則展現出更強的跨域泛化能力,能夠在多數域外任務上保持甚至提升表現。

圖片

謎題領域:邏輯推理實力強勁,部分訓練利于數學遷移

在KK數據集上,Instruct模型準確率高達99.14,在Zebra任務中,得分提升至36.20。此外,KK謎題的訓練效果還能遷移到數學任務上,甚至在部分數學基準中,使得Base模型的表現接近或超過Instruct模型,進一步體現了跨領域遷移的潛力。

跨域互動:協同與沖突的探究

雙領域組合:探索協同與權衡

  • 存在顯著協同效應的組合:Math+Puzzle組合使Math任務表現提升至49.72(優于單Math訓練的47.48),證明跨領域知識遷移的有效性;Code任務在添加Puzzle或Math數據后均獲得提升,顯示組合訓練的潛在優勢。
  • 需要謹慎處理的組合情況:Puzzle任務在所有多領域訓練中表現均不及單領域訓練,凸顯其高度專業化特性;值得注意的是Math+Puzzle組合會顯著降低Code任務表現;而Puzzle+Code的組合實現了平均最大19.39的提升。

圖片

三領域全家桶:平衡與魯棒性

緊接著,將三個領域的數據全部組合在一起,結果如下所示,多領域聯合訓練展現出更優的整體表現與魯棒性:

圖片

  • 三領域聯合訓練實現整體性能突破:將數學、代碼和謎題三大領域數據進行聯合訓練,模型的整體平均性能達到了56.57,顯著優于任何雙領域組合。
  • 數據多樣性與邊際收益:增加訓練數據的多樣性(領域組合數量)確實能提升整體性能,但這種提升存在邊際效應遞減的趨勢。
  • 防止性能塌陷,實現均衡發展:與某些雙領域組合(如Math+Puzzle可能導致Code任務性能驟降)不同,三領域聯合訓練有效地避免了特定任務的性能“崩潰”,確保了模型在所有任務上均能保持競爭力。

Template一致性:最佳表現

在RL訓練中,一個常被忽略的問題是訓練和測試的Template不匹配。這可能導致模型性能大幅下降。研究團隊在不同Template(R1、Qwen、Base)下進行測試,揭示了Template一致性的重要性。

  • 不匹配Template會嚴重拖累性能:例如,Base模型在使用不匹配模板時,CountDown準確率從19.36暴跌至0,MBPP從51.80降至3.00。Instruct模型在MATH500上從73.20跌至1.80。
  • 一致性Template通常帶來最佳表現:R1模板下,Base模型平均性能達47.84,Instruct模型達54.56,遠超不匹配情況。這強調了Template一致性的必要性——RLVR在特定領域訓練時的泛化魯棒性仍面臨挑戰。

圖片

課程學習:從易到難,逐步征服

課程學習在SFT中已證明有效,但在RLVR中的應用仍未全面探索。研究團隊在Puzzle中的KK數據集上進行測試,基于子問題數量(3PPL到8PPL)設置難度梯度,并設計了”Policy Refresh”策略——在每個難度階段后更新參考模型并重置優化器狀態。

圖片

通過實驗發現,

  • 課程學習提升性能上限:標準課程學習最終準確率達97.29,遠超混合訓練的94.29。這種方法幫助模型逐步掌握復雜依賴關系,提升泛化能力。
  • Policy Refresh加速收斂:采用刷新策略后,模型在6PPL階段就達到97.43的準確率,最終結果近乎完美(99.71),甚至超過了指令模型的混合訓練結果(99.14)。

獎勵設計:個性化定制

獎勵設計是強化學習的核心。研究團隊在KK和LPB數據集上測試了四種策略:(1)二元獎勵要求答案全對才得分;(2)部分獎勵按正確比例計分;(3)格式獎勵用標簽引導推理;(4)重縮放獎勵則將分數范圍調整為[-1,1]并對錯誤施加懲罰。不同設計為模型塑造了截然不同的學習信號。

圖片

研究團隊發現,在簡單任務KK上,二元獎勵R1憑借直接明了的獎勵設置實現了最優表現;但在復雜任務LPB中,R1因信號稀疏反而訓練崩潰。部分獎勵R2能在LPB初期迅速起效,卻難以長期維持優勢;格式獎勵R3和重縮放獎勵R4則憑借穩定推理和放大行為差異,后來居上奪得LPB冠軍。不過,復雜設計在KK上反成累贅。結果表明,數據集稀疏性和任務難度,是決定RLVR獎勵機制成敗的關鍵因素。

圖片

展望未來,團隊呼吁拓展Science、General Reasoning等新領域數據分類,并探索Llama、DeepSeek等模型的適配性。RLVR已經在多個領域被證明其有效性,但無論訓練方式如何,數據永遠是模型能力來源的基石,也希望未來的研究能夠更深入地探究數據對RLVR的影響。

論文地址:https://arxiv.org/abs/2507.17512
訓練代碼:https://github.com/Leey21/A-Data-Centric-Study

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-04-25 09:20:00

數據模型AI

2024-04-26 10:12:38

混合訓練AI集群

2019-09-20 09:38:18

開源技術 趨勢

2021-08-12 09:48:21

Webpack Loa工具Webpack

2021-02-02 10:08:17

AI深度強化學習智能城市

2021-04-27 09:30:47

AI 數據人工智能

2025-07-09 01:22:00

AI強化學習監督學習

2023-11-03 08:27:46

2025-07-29 09:10:00

2011-04-18 13:36:42

2024-08-29 13:50:00

AI數學

2025-11-10 08:46:00

AI模型訓練

2024-11-05 14:20:00

AI模型

2010-11-24 16:32:50

2018-11-07 10:58:55

2014-08-04 14:38:25

LinuxToken

2024-02-28 08:18:13

Java日志項目

2013-04-17 09:16:37

2025-06-03 08:51:00

2025-03-13 09:47:29

點贊
收藏

51CTO技術棧公眾號

日韩国产一区二| 国产精品xxx在线观看| 日本一区二区动态图| 欧美怡红院视频一区二区三区| 五月天激情小说| 国产在线88av| 久久久www成人免费无遮挡大片| 啪一啪鲁一鲁2019在线视频| 美国美女黄色片| 91视频亚洲| 亚洲一区视频在线| 99在线首页视频| 免费日韩一级片| 成人网18免费网站| 欧美一区二区三区喷汁尤物| 日韩精品在线中文字幕| 欧美老女人性开放| 卡一卡二国产精品| 午夜精品视频网站| 貂蝉被到爽流白浆在线观看 | av在线播放成人| 欧洲亚洲女同hd| 国产主播av在线| 综合伊人久久| 在线观看亚洲a| 男人天堂网站在线| 日本啊v在线| 精品一区二区三区欧美| 91爱视频在线| av最新在线观看| 蜜桃成人av| 精品国产成人在线影院| 高清一区在线观看| 懂色av一区| 欧美韩国一区二区| 国产精品sss| 国产又粗又黄又爽| 国产一区二区你懂的| 久久香蕉国产线看观看网| 中文字幕一区二区三区人妻电影| 国产精品视频一区二区三区| 在线观看网站黄不卡| www.九色.com| 黄色动漫在线| 日本一区二区高清| 精品视频免费观看| 午夜精品久久久久久久99老熟妇| 青青草精品视频| 91精品国产电影| 青青草原国产视频| 99久久视频| 中文字幕综合在线| 老司机免费视频| 亚洲大奶少妇| 欧美一区二区性放荡片| 亚洲色图 在线视频| 不卡专区在线| 亚洲国产精品欧美一二99| 亚洲三区在线| aiai在线| 日本一区二区免费在线观看视频| 久久精品日韩精品| 午夜福利视频一区二区| av亚洲精华国产精华精| www日韩av| 亚洲精品综合网| 不卡的看片网站| 官网99热精品| 深夜福利视频网站| 99综合电影在线视频| 成人91视频| www.成人免费视频| 粉嫩绯色av一区二区在线观看| 4444kk亚洲人成电影在线| 一本色道久久综合熟妇| 久久99久久99小草精品免视看| 国产激情视频一区| jizz国产在线| 免费成人在线视频观看| 国产精品久久久久国产a级| 老熟妇一区二区三区| 天堂一区二区在线免费观看| 国产精品美女呻吟| 亚洲天堂一二三| 精品在线免费视频| 亚洲va国产va天堂va久久| 99热这里只有精品9| 国产成人免费在线观看| 97视频中文字幕| 婷婷综合激情网| 久久久不卡网国产精品二区| 日本高清不卡一区二区三| 337p日本欧洲亚洲大胆鲁鲁| 国产精品久久影院| 日韩免费电影一区二区| 日本精品一区二区三区在线播放| 亚洲天堂a在线| 国产乱子伦精品无码专区| 美女网站在线看| 欧美日韩国产中文精品字幕自在自线 | www.av片| 暖暖成人免费视频| 欧美在线不卡一区| 天堂中文av在线| 爱爱精品视频| 亚洲人成网在线播放| 欧美巨胸大乳hitomi| 欧美日一区二区在线观看| 91精品成人久久| 日韩精品久久久久久免费| 奇米一区二区三区av| 91中文精品字幕在线视频| 免费观看黄色一级视频| 欧美激情在线看| www成人免费| 日本高清不卡一区二区三区视频| 欧美一区午夜精品| 一色道久久88加勒比一| 伊人狠狠色j香婷婷综合| 国产精品久久久久久久久久小说| 性猛交xxxx乱大交孕妇印度| 欧美国产日本韩| 蜜桃传媒一区二区三区| av日韩在线免费观看| 一区二区三区回区在观看免费视频| 久久无码精品丰满人妻| 精久久久久久久久久久| 少妇免费毛片久久久久久久久| aaa在线播放视频| 欧美一区二区三区男人的天堂| 一级在线观看视频| 日韩中文字幕一区二区三区| 女同一区二区| 国产美女高潮在线观看| 欧美tk—视频vk| 麻豆91精品91久久久| 国产一区二区不卡在线| 综合久久国产| 欧美一级做一级爱a做片性| 亚洲色图欧美制服丝袜另类第一页| 日韩av一区二区在线播放| 成人永久免费视频| 日韩人妻一区二区三区蜜桃视频| 亚洲精品66| 日韩一区二区三区在线播放| 中文字幕免费播放| 日本一区二区视频在线| 国产精品天天av精麻传媒| 亚洲成人一品| 欧美一区二区三区免费视| 少妇精品高潮欲妇又嫩中文字幕| 午夜精品福利一区二区三区蜜桃| 第一页在线视频| 国产一区清纯| 99精品国产高清在线观看| a视频在线播放| 日韩人体视频一二区| 国产精品成人无码免费| 久久国产毛片| 久久99欧美| 日韩理论视频| 欧美精品一区二区三区四区| 三级黄色在线视频| 成人免费毛片a| 精品一区二区三区无码视频| 999久久久精品一区二区| 久久久av电影| 国产77777| 亚欧色一区w666天堂| 挪威xxxx性hd极品| 黄色在线成人| 国产日韩欧美二区| 亚洲国产成人二区| 亚洲图片欧美午夜| 综合久久中文字幕| 国产精品视频你懂的| 欧美日韩激情视频在线观看| 国产日产一区| 国产美女扒开尿口久久久| 在线激情小视频| 在线免费一区三区| 99自拍偷拍视频| 国产成a人亚洲| 国产毛片视频网站| 国产精品一区二区av交换| 国产精品久久久久久亚洲影视| 国产高清av在线| 欧美zozo另类异族| 日韩在线视频免费播放| 国产色一区二区| 国产精品久久久久久久99| 亚洲午夜精品久久久久久app| 国内不卡一区二区三区| 视频在线日韩| 亚洲专区欧美专区| 成人午夜碰碰视频| 日韩一级性生活片| 人妖一区二区三区| 欧美在线中文字幕| 免费高清在线观看| 亚洲成人精品久久| 一级片在线免费观看视频| 亚洲最新在线观看| 亚洲做受高潮无遮挡| 理论电影国产精品| 在线视频精品一区| 亚洲综合福利| 91久久国产综合久久91精品网站| 波多野结衣在线观看| 在线观看中文字幕亚洲| 日韩专区第一页| 欧美日韩精品免费| 日韩精品一区二区av| 国产女主播一区| 亚洲AV成人精品| 国产专区欧美精品| 六月丁香婷婷激情| 亚洲第一偷拍| 欧美日韩在线高清| 精品视频高潮| 91精品视频在线看| 在线手机中文字幕| 米奇精品一区二区三区在线观看| 日韩在线视频免费| 欧美人伦禁忌dvd放荡欲情| 国产成人无码精品久久久久| 中文字幕日本乱码精品影院| 一边摸一边做爽的视频17国产 | 中文字幕亚洲欧美在线不卡| 色婷婷一区二区三区在线观看| 日韩不卡一区二区| 可以在线看的av网站| 亚洲成人三区| 先锋影音日韩| 蜜桃a∨噜噜一区二区三区| 3d动漫啪啪精品一区二区免费 | 欧美日韩一区二区三区四区五区| 日韩av综合在线| 亚洲免费av高清| 国产在线综合视频| 久久精品人人做人人爽人人| 美女伦理水蜜桃4| 久久精品国产77777蜜臀| 久久国产亚洲精品无码| 尤物在线精品| av免费观看国产| 国内精品久久久久久久97牛牛| 亚洲一区免费看| 成人激情开心网| 亚洲国产另类久久久精品极度| 网红女主播少妇精品视频| 99精品欧美一区二区三区| 亚洲图片小说区| 国产大片精品免费永久看nba| 亚洲伦乱视频| 国产精品com| 向日葵视频成人app网址| 日本电影亚洲天堂| 国产69精品久久| 国产精品久久久久久久av大片 | 国产不卡在线观看| 视频精品导航| 国产精品对白刺激| 日韩三区免费| 国产精品久久久久久久久久99 | 欧美视频亚洲视频| 女人被男人躁得好爽免费视频| 欧美福利影院| wwwwww欧美| 激情成人综合| 国产日韩第一页| 一区福利视频| 97国产精东麻豆人妻电影| 一本久久综合| 免费国产a级片| 免费在线观看不卡| 亚洲免费999| 国产在线看一区| 中文字幕在线国产| 国产亚洲精品7777| 91香蕉视频网| 亚洲一区二区视频在线观看| 久久久久久久久久久久久女过产乱| 亚洲成国产人片在线观看| 成年人免费高清视频| 在线视频中文字幕一区二区| 夜夜狠狠擅视频| 亚洲激情视频网站| 国产精品一级伦理| 日韩在线视频免费观看高清中文| 男人影院在线观看| 国产91精品久久久久久| 国产成人精品一区二区三区视频| 91精品久久久久久综合乱菊| 国产乱码精品一区二区三区亚洲人| 国外成人免费视频| 欧美日韩中文字幕一区二区三区| 中文字幕在线中文字幕日亚韩一区| 一区二区国产在线| 少妇人妻互换不带套| 精久久久久久久久久久| www国产视频| 欧美激情一区不卡| 一级aaa毛片| 欧美亚洲国产一区二区三区va| 国产精品自偷自拍| 亚洲乱码国产乱码精品精| 欧美96在线| 欧美一区在线直播| 欧美9999| 亚洲高清在线观看一区| 狠狠干成人综合网| 国产又猛又黄的视频| 成人激情校园春色| 欧美视频www| 欧洲亚洲精品在线| 黄色www视频| 久久精品99国产精品酒店日本| 日本理论片午伦夜理片在线观看| 日韩美女免费观看| 国产精品黄网站| 久久免费视频2| 久久精品导航| 精品无码在线视频| 亚洲精品视频免费看| 亚洲精品91天天久久人人| 精品久久久久久久久久久久久久久久久| 天堂在线中文| 欧美黑人视频一区| 日韩一区精品| 午夜免费电影一区在线观看| 日韩网站在线| 四川一级毛毛片| 亚洲欧美日本韩国| 羞羞色院91蜜桃| 亚洲精品大尺度| 欧美日韩在线看片| 热久久美女精品天天吊色| 911亚洲精品| 影音先锋男人的网站| 奇米在线7777在线精品| 30一40一50老女人毛片| 五月天中文字幕一区二区| 性一交一乱一透一a级| 不卡毛片在线看| 国产一区二区三区免费观看在线| 一区二区三区四区不卡| 日韩精品乱码av一区二区| 娇妻高潮浓精白浆xxⅹ| 亚洲二区在线观看| www.五月婷| 欧美成人全部免费| 国产91精品入| 日本香蕉视频在线观看| 国产精品99久久久久久有的能看| 国产盗摄一区二区三区在线| 欧美一区二区三区视频免费| xvideos国产在线视频| 成人精品网站在线观看| 99久久亚洲精品| 先锋资源在线视频| 亚洲三级在线观看| 国产乱子伦精品无码码专区| 欧美日韩国产二区| 亚洲日本va| 欧美精品一区二区三区三州| 久久精品水蜜桃av综合天堂| 波多野结衣小视频| 中文字幕亚洲字幕| 日韩精品成人| 青青草精品视频在线| av在线不卡网| 在线播放国产一区| 欧美成人午夜免费视在线看片| 日韩在线精品强乱中文字幕| 日韩在线综合网| 国产欧美日韩卡一| 在线观看国产黄| 久久精品中文字幕| 99亚洲乱人伦aⅴ精品| 777av视频| 国产欧美1区2区3区| 国产精品无码在线播放| 久久久久久亚洲精品中文字幕| 成人av资源网址| 国产91在线视频观看| 国产亚洲成av人在线观看导航| 亚洲影院在线播放| 超碰91人人草人人干| 久久久免费毛片| 乱妇乱女熟妇熟女网站| 欧美国产精品v| 亚洲精品一区二区三区不卡| 91国产精品电影| 婷婷综合在线| 亚洲の无码国产の无码步美| 色系网站成人免费| 欧洲成人综合网| 欧美日韩在线不卡一区| 美女任你摸久久|