精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理

發布于 2025-1-9 11:50
瀏覽
0收藏

OpenAI o1 和 o3 模型的發布證明了強化學習能夠讓大模型擁有像人一樣的快速迭代試錯、深度思考的高階推理能力,在基于模仿學習的Scaling Law 逐漸受到質疑的今天,基于探索的強化學習有望帶來新的 Scaling Law。


近日,清華大學 NLP 實驗室聯合上海 AI Lab,清華大學電子系及 OpenBMB 社區提出一種新的結合過程獎勵的強化學習方法—— PRIME(Process Reinforcement through IMplicit REwards),采用 PRIME 方法,研究人員不依賴任何蒸餾數據和模仿學習,僅用 8 張 A100,花費一萬塊錢左右,不到 10天 時間,就能高效訓練出一個數學能力超過 GPT-4o、Llama-3.1-70B的 7B 模型 Eurus-2-7B-PRIME。


具體而言,研究人員利用 Qwen2.5-Math-7B-Base 作為基座模型,訓練出了新模型 Eurus-2-7B-PRIME ,并在美國 IMO 選拔考試 AIME 2024 上的準確率達到 26.7%,大幅超越 GPT-4o,Llama3.1-70B 和 Qwen2.5-Math-7B-Instruct,且僅使用了 Qwen Math 數據的 1/10。其中,強化學習方法 PRIME 為模型帶來了 16.7% 的絕對提升,遠超已知的任何開源方案。

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區

該項目一經開源就在海外 AI 社區爆火,短短幾天 Github 取得 300+ star。

未來,基于 PRIME 方法和更強的基座模型有潛力訓練出接近 OpenAI o1 的模型。

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區


清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區


 ?  技術 Blog 鏈接:

?? ???https://curvy-check-498.notion.site/Process-Reinforcement-through-Implicit-Rewards-15f4fcb9c42180f1b498cc9b2eaf896f??

 ?  GitHub 鏈接:

?? ??https://github.com/PRIME-RL/PRIME??

 PRIME 方法介紹  

長久以來,開源社區嚴重依賴數據驅動的模仿學習來增強模型推理能力,但這種方法的局限也顯而易見——更強的推理能力需要更高質量的數據,但高質量數據總是稀缺,使得模仿和蒸餾難以持續。雖然 OpenAI o1 和 o3 的成功證明了強化學習有著更高的上限,但強化學習有著兩個關鍵挑戰:(1)如何獲得精準且可擴展的密集獎勵;(2)如何設計可以充分利用這些獎勵的強化學習算法。


PRIME 算法從隱式過程獎勵(implicit process reward)的思想出發解決這兩個問題。隱式過程獎勵模型可以僅在輸出獎勵模型(outcome reward model, ORM)的數據,即答案的最終對錯上進行訓練,而隱式地建模過程獎勵,最終自動訓練出一個過程獎勵模型,這整個過程都有嚴格的理論保證。


詳細推導見:https://huggingface.co/papers/2412.01981

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區

基于隱式過程獎勵模型的這種性質,研究人員指出將其應用于強化學習有三大優勢:

1. 過程獎勵:隱式過程獎勵模型能夠為每個 token 提供價值估計,在提供過程獎勵的同時無需訓練額外的價值模型(value model)

2. 可擴展性:隱式過程獎勵模型只需結果標簽即可在線更新。所以,我們可以結合策略模型采樣與結果驗證器來直接更新PRM,有效緩解分布偏移與可擴展性問題。

3. 簡潔性:隱式過程獎勵模型本質上就是一種語言模型。在實踐中,研究人員發現可以直接用初始的策略模型初始化 PRM。


隱式過程獎勵解決了PRM在大模型強化學習中怎么用,怎么訓,怎么擴展的三大問題,甚至不需要訓練額外的獎勵模型就可以開始強化學習,易用性和可擴展性極佳。

具體的PRIME算法流程如下圖所示,它是一種在線強化學習算法,能夠將每個token的過程獎勵無縫應用于強化學習流程中。

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區圖片

  實驗結果  

研究人員詳細比較了PRIME算法和基線方法。

相比于僅用結果監督,PRIME有著 2.5 倍的采樣效率提升,在下游任務上也有著顯著提升。

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區

研究人員還驗證了PRM在線更新的重要性,可以看到,在線的PRM更新要顯著優于固定不更新的PRM,這也證明了PRIME算法設計和合理性。

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區

此外,研究人員還額外收集數據,基于 Qwen2.5-Math-Instruct 訓練了 SOTA 水平的 EurusPRM,能夠在 Best-of-N 采樣中達到開源領先水平。

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區

  Showcase 介紹  

Question1:

AIME 2024試題,Claude-3.5-Sonnet做錯

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區

Answer1:

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區

Question2:

Which number is larger? 9.11 or 9.9?

Answer2:

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區

強化學習是連接已有智能體(大模型)和現實世界(世界模型,具身智能)的橋梁,以及將世界反饋內化為模型智能的路徑,將在下一代人工智能的發展中起到重要作用。PRIME 算法創新性地將隱式過程獎勵與強化學習結合,解決了大模型強化學習的獎勵稀疏問題,有望推動大模型復雜推理能力的進一步提升。

本文轉自 AIGC開放社區  ,作者:AIGC開放社區


原文鏈接:??https://mp.weixin.qq.com/s/XueRtZ2q7Yse1jddbbi35Q??

已于2025-1-9 12:00:20修改
收藏
回復
舉報
回復
相關推薦
国产婷婷色一区二区三区| 婷婷综合激情| 欧美午夜电影网| 大地资源第二页在线观看高清版| 亚洲成人77777| 久久午夜av| 久久亚洲精品成人| 国产黄色网址在线观看| 日韩精品三级| 日本久久一区二区三区| 亚洲色婷婷久久精品av蜜桃| 精品无吗乱吗av国产爱色| 精品一区二区三区在线播放视频 | 91高清在线视频| 国产成人在线免费观看| 国产精品久久久av| 国产第一页第二页| 欧美高清视频在线观看mv| 亚洲国产精品成人va在线观看| 成人性做爰aaa片免费看不忠| 中文字幕在线播放网址| 国产亚洲精久久久久久| 国产精品加勒比| 国产精品欧美激情在线| 久久一二三区| 2019av中文字幕| 免费无遮挡无码永久在线观看视频 | 在线午夜影院| 中文字幕一区二区三区在线不卡 | 国产日韩在线亚洲字幕中文| 国产又大又黄又粗| 亚洲欧洲一级| 欧美激情2020午夜免费观看| 国产精品久久久免费看| 精品久久不卡| 亚洲偷欧美偷国内偷| 国产精品300页| 国产精品丝袜在线播放| 日韩精品中文字幕在线一区| 91看片破解版| 欧美爱爱视频| 欧美日韩和欧美的一区二区| 99热手机在线| 粉嫩一区二区| 色综合天天综合网国产成人综合天| 欧美国产日韩激情| 3344国产永久在线观看视频| 亚洲一区二区3| 欧美a级免费视频| 中国av在线播放| 亚洲欧美另类久久久精品| 在线精品日韩| 成人黄色网址| 一区二区免费在线| 老司机激情视频| 久久电影网站| 偷窥少妇高潮呻吟av久久免费| www.xxx麻豆| 国产三线在线| 欧美日韩国产精品一区| 色欲av无码一区二区人妻| 色一区二区三区| 色欧美88888久久久久久影院| 日韩欧美精品在线观看视频| 成人啊v在线| 欧美日韩性生活| 亚洲色图欧美自拍| 白嫩白嫩国产精品| 日韩精品在线观看网站| 一级黄色片网址| 亚洲a一区二区三区| 欧美国产日韩精品| 日韩成人在线免费视频| 香蕉av福利精品导航| 欧美在线一区二区视频| www.中文字幕在线观看| 久久狠狠婷婷| 国产精品视频久| 国产裸体无遮挡| 国产成人综合精品三级| 国产综合av一区二区三区| 日韩精品123| 国产精品人成在线观看免费| 色一情一乱一乱一区91| 夜鲁夜鲁夜鲁视频在线播放| 在线视频国内一区二区| 三级性生活视频| julia中文字幕一区二区99在线| 亚洲护士老师的毛茸茸最新章节| 亚洲日本精品视频| 亚洲乱码精品| 日本精品va在线观看| 中文字幕第一页在线播放| 国产精品一区二区黑丝| 国产传媒一区二区| 国产福利电影在线| 亚洲国产精品久久人人爱| 凹凸日日摸日日碰夜夜爽1| 九九九九九九精品任你躁| 日韩av最新在线观看| 天堂网中文在线观看| 精品99视频| 国产女同一区二区| 免费观看黄色av| 国产精品女上位| 国产精品999视频| 亚洲色图图片| 亚洲精品日韩丝袜精品| 中文字幕另类日韩欧美亚洲嫩草| 欧美一级二区| 动漫一区二区在线| 日韩毛片久久久| 欧美午夜激情在线| 久久精品无码一区二区三区毛片| 在线日本制服中文欧美| 色综合视频一区中文字幕| 综合久久中文字幕| 久久久久久99久久久精品网站| 成人在线视频一区二区三区| 久久天天久久| 国产一区二区三区视频在线观看| 国产在线视频二区| 国产精品一区在线观看你懂的| 欧美重口乱码一区二区| free性欧美| 日韩写真欧美这视频| 青青青视频在线免费观看| 久久久xxx| 精品国产_亚洲人成在线| av超碰免费在线| 9191成人精品久久| 亚洲AV成人无码网站天堂久久| 视频一区免费在线观看| 久久精品99久久| 波多野一区二区| 精品伦理精品一区| 九九热国产精品视频| 韩国一区二区三区| 午夜一区二区三视频在线观看| xx欧美xxx| 亚洲全黄一级网站| 亚洲黄网在线观看| 国产情人综合久久777777| 国产女女做受ⅹxx高潮| 自拍偷拍精品| 好吊色一区二区| 亚洲欧洲av一区二区三区久久| 妓院一钑片免看黄大片| 精品日韩免费| 国产精品自产拍高潮在线观看| 大胆av不用播放器在线播放| 在线日韩av片| 国产无遮挡在线观看| 奇米精品一区二区三区在线观看一| 日本亚洲自拍| 男人亚洲天堂| 欧美精品在线极品| 狠狠人妻久久久久久综合麻豆| 亚洲一卡二卡三卡四卡| www.男人天堂| 久久久一二三| 亚洲资源视频| 日韩精品视频在线看| 91极品视频在线| 精品三级久久久久久久电影聊斋| 日本韩国欧美一区| 二区三区四区视频| 成人免费观看视频| 日韩毛片在线免费看| 日韩av专区| aa成人免费视频| sm性调教片在线观看| 亚洲欧美国产一区二区三区| 久草热在线观看| 亚洲精品写真福利| 少妇一级淫片免费放播放| 国产精品一页| 亚洲欧美国产精品桃花| 色播一区二区| 91成人国产在线观看| 中文字幕在线视频区| 欧美电影免费提供在线观看| 在线观看黄网站| 国产精品免费久久| 99精品一区二区三区无码吞精| 香蕉久久夜色精品| 中文字幕一区二区三区四区五区| jizz性欧美23| 国产在线不卡精品| 韩国精品一区| 久久精品亚洲热| 日韩大胆人体| 日韩精品专区在线影院重磅| 日韩综合在线观看| 夜夜爽夜夜爽精品视频| 欧美多人猛交狂配| 成人一二三区视频| 毛片毛片毛片毛| 免费亚洲网站| 国产一级片91| 欧美残忍xxxx极端| 久久亚洲免费| 91精品啪在线观看国产手机| 国产精品女人久久久久久| 黑人极品ⅴideos精品欧美棵| 在线看国产精品| 亚洲 国产 欧美 日韩| 7777精品伊人久久久大香线蕉的| 国产香蕉视频在线| 一区二区三区在线视频播放| www亚洲色图| 91免费观看视频在线| 9.1在线观看免费| 精品影视av免费| www.涩涩涩| 噜噜噜躁狠狠躁狠狠精品视频| 成人一级生活片| 91高清一区| 中文字幕精品一区日韩| 国产一区毛片| 欧美一区二区三区电影在线观看| 草草视频在线一区二区| 91成人免费视频| 一区二区三区日本视频| 国产精品日日摸夜夜添夜夜av| 一区二区三区短视频| 97不卡在线视频| 国产蜜臀在线| 欧美激情在线观看视频| a视频在线观看免费| 精品国产区一区二区三区在线观看| 黄网站在线观看| 亚洲男人的天堂在线| 欧洲一区av| 亚洲男人的天堂在线播放| 亚洲av成人精品日韩在线播放| 精品1区2区在线观看| 欧美视频在线观看一区二区三区| 欧美一级二级三级乱码| 国产黄色av网站| 日韩欧美久久一区| www.久久精品.com| 精品国产123| 天天干,夜夜爽| 日韩国产高清视频在线| 欧美女子与性| 亚洲亚裔videos黑人hd| www.视频在线.com| 日韩在线观看免费全集电视剧网站| av在线播放网| 精品国产欧美一区二区五十路| 黄色动漫在线观看| 欧美剧在线观看| 亚洲七七久久综合桃花剧情介绍| 九九热这里只有在线精品视| 欧美xxxxhdvideosex| 国语自产精品视频在线看| 少妇视频在线观看| 日韩av免费在线播放| 日本综合视频| 成人激情视频在线| 成人性生交大片免费看96| 精品国产日本| 欧美午夜精品一区二区三区电影| 亚洲午夜高清视频| 欧美日韩精品一本二本三本 | 最新av网站在线观看| 精品中文字幕在线| 免费在线小视频| 国产精品视频男人的天堂| 久久久久久亚洲精品美女| 国产一区二区三区四区五区在线 | 糖心vlog在线免费观看| 亚洲精华国产欧美| 天天爽人人爽夜夜爽| 国产精品综合一区二区三区| www.免费av| 国产精品乱码一区二区三区软件 | 二区在线播放| 91av在线精品| 婷婷精品久久久久久久久久不卡| 国产v亚洲v天堂无码| 精品欧美久久| av日韩一区二区三区| 日本v片在线高清不卡在线观看| 亚洲制服中文字幕| 91看片淫黄大片一级| 丝袜美腿小色网| 色婷婷精品大视频在线蜜桃视频| 国产美女免费看| 亚洲男人天堂古典| 中文字幕伦理免费在线视频| 国产精品久久久| 加勒比中文字幕精品| 成年人免费观看的视频| 国产精品五区| 中文字幕久久久久久久| 国产蜜臀av在线一区二区三区| 欧美精品成人久久| 欧美日韩久久久一区| 亚洲欧洲成人在线| 九九热这里只有精品6| 欧美激情啪啪| 日韩jizzz| 午夜一区二区三区不卡视频| 性感美女一区二区三区| 国产精品第四页| 波多野结衣视频网址| 亚洲国产精品va在看黑人| 国产区在线观看| 国产精品普通话| 日本一区福利在线| 国产精品久久国产| 国产真实乱对白精彩久久| 久久午夜福利电影| 欧美丝袜第一区| 天天综合网天天综合| 九九热精品在线| 日韩国产在线不卡视频| 亚洲综合第一| 蜜臀av一区二区| 精品亚洲aⅴ无码一区二区三区| 激情成人中文字幕| 视频二区在线观看| 午夜精品在线视频| 激情亚洲另类图片区小说区| 全黄性性激高免费视频| 粉嫩在线一区二区三区视频| 国产极品国产极品| 欧美一级电影网站| 亚洲91av| av免费精品一区二区三区| 欧美激情 亚洲a∨综合| 国产黑丝在线视频| 亚洲欧美激情在线| 国产高清在线观看视频| 久久99精品国产99久久6尤物 | 日韩免费高清av| 超鹏97在线| 97人人干人人| 最新日韩av| 国产精品1000部啪视频| 色婷婷精品久久二区二区蜜臂av| 蜜桃视频在线观看网站| 日韩免费中文字幕| av在线不卡免费观看| 老司机午夜性大片| 亚洲精品伦理在线| 成人乱码一区二区三区| 97精品国产91久久久久久| 欧美激情久久久久久久久久久| 青青视频在线播放| 亚洲国产电影在线观看| 国产又黄又粗又猛又爽| 美女久久久久久久| 黑色丝袜福利片av久久| 欧美视频第一区| 国产精品乱码人人做人人爱| 国产情侣自拍小视频| 国模极品一区二区三区| 啪啪亚洲精品| 国产精品久久久久久久av福利| 夜夜嗨av一区二区三区中文字幕| 午夜性色福利视频| 国产精品美女午夜av| 欧美一区国产在线| av黄色一级片| 欧美视频一区二区三区| 天使と恶魔の榨精在线播放| 久久涩涩网站| 久久精品久久综合| 久久精品视频国产| 亚洲情综合五月天| 亚洲精品v亚洲精品v日韩精品| 自拍日韩亚洲一区在线| 日本一区二区三区久久久久久久久不| 国产精品乱码一区二区| 国模精品视频一区二区| 精品国产网站| 人妻 丝袜美腿 中文字幕| 在线观看日韩电影| 色老头在线观看| 日韩中文字幕一区| 粉嫩在线一区二区三区视频| 波多野结衣爱爱| 欧美激情伊人电影 | 中文一区二区视频| 成人香蕉社区| av中文字幕网址| 精品久久久久久国产91| 精品自拍一区| 欧美极品一区二区| 国产成人av一区二区三区在线 | 巨茎人妖videos另类| 成人av在线播放观看| 亚洲国产高清在线| 能在线看的av| 国产精品一区二区三区在线观| 久久9热精品视频| 无码任你躁久久久久久久|