精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

4B小模型數學推理首超Claude 4,700步RL訓練逼近235B性能 | 港大&字節Seed&復旦

人工智能
香港大學NLP團隊聯合字節跳動Seed、復旦大學發布名為Polaris的強化學習訓練配方:通過Scaling RL,Polaris讓4B模型的數學推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一眾商業大模型,如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。

4B模型的數學推理能力和頂尖商業大模型差在哪里?

香港大學NLP團隊聯合字節跳動Seed、復旦大學發布名為Polaris的強化學習訓練配方:

通過Scaling RL,Polaris讓4B模型的數學推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一眾商業大模型,如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。

并且,Polaris-4B的輕量化允許在消費級顯卡上部署。

圖片圖片

詳細的blog、訓練數據、模型和代碼都已全部開源,鏈接可見文末。

圍繞待訓練模型進行參數配置

之前的RL訓練配方,如DeepScaleR,已經展示了Scaling RL在較弱基模型上強大的效果。

但對于目前最前沿的開源模型(如Qwen3),Scaling RL是否也能復現如此顯著的提升呢?

Polaris的研究團隊給出了明確回答:可以!

具體來說,Polaris通過僅僅700步的RL訓練,成功地讓Qwen3-4B在數學推理任務上接近了其235B版本的表現

只要方法得當,RL還存在著巨大的開發潛力。

Polaris的成功的秘籍就是:訓練數據及超參數設置都要圍繞待訓練的模型來進行設置。

訓練數據構造

Polaris團隊發現,對于同一份數據,不同能力的基模型展現出的難度分布呈現出鏡像化的特征。、

對于DeepScaleR-40K訓練集中的每個樣本,研究人員使用R1-Distill-Qwen-1.5B/7B兩個模型回答分別推理了8次,再統計其中正確次數,以此衡量每個樣本的難度水平。

圖片圖片

實驗結果顯示,大多數樣本位于兩端(8/8正確解答或0/8正確解答),意味著該數據集雖然對1.5B模型具有挑戰性,卻不足以有效訓練7B模型。

Polaris提出,構建輕微偏向難題的數據分布,形狀就像鏡像J,過度偏向簡單題或難題的分布都會使得無法產生優勢的樣本在每個batch中占有過大的比例。

Polaris對開源數據DeepScale-40K和AReaL-boba-106k進行了篩選,剔除所有8/8正確的樣本,最終形成了53K的初始化數據集。

圖片圖片

盡管已經得到了一個好的初始化數據,但它并不是訓練數據的“最終版本”。

在強化學習訓練過程中,隨著模型對訓練樣本的“掌握率”提高,難題也會變成簡單題。

為此,研究團隊在訓練中引入了數據動態更新策略。訓練過程中,每個樣本的通過率會隨著reward計算而實時更新。在每個訓練階段結束時,準確率過高的樣本將被刪除。

以多樣性為核心的采樣控制

在RL訓練中,多樣性被視為提升模型表現的重要因素。好的多樣性使模型能探索更廣泛的推理路徑,避免在訓練早期陷入過于確定的策略中。

Rollout階段的多樣性主要通過topp、topk與溫度t來調控。當前大多數工作都采用topp=1.0和topk=-1,這已經達到了最大的多樣性,但采樣溫度t還沒有統一的設置。

目前主流的t的設置方法有兩種:1、采用建議的解碼溫度,如Qwen3 demo中設置的0.6;2、直接設置為一個整數1.0。

但這兩種做法在Polaris的實驗中都不是最優解。

溫度、性能與多樣性的平衡之道

圖片圖片

Polaris團隊通過一系列試驗,分析了采樣溫度與模型準確率及路徑多樣性之間的關系。

為了量化采樣軌跡的多樣性,他們采用Distinct N-gram指標(n=4)用于衡量生成文本中獨特連續詞組的比例:分數越接近1.0,說明生成內容越多樣;反之則重復率較高。

結果顯示,較高的溫度能顯著提升多樣性,但不同模型在相同溫度下的表現也存在較大差異。從上圖來看,對于這兩個模型來說,以0.6作為采樣溫度明顯多樣性是不足的。

圖片圖片

但也并非是把溫度設的越大就越好,也需要考慮性能的變化。

Polaris團隊發現模型性能隨溫度升高呈現“低-高-低”的趨勢。例如,把采樣溫度設置成1.0,對于Deepseek-R1-distill系列模型過高了,而對于Qwen3系列來說又有點低。

說明理想溫度的設計需要針對待模型進行精細校準,沒有一個超參數是適配所有模型的。

溫度區間的定義

圖片圖片

Polaris團隊基于實驗趨勢歸納出模型采樣溫度的三個區域:

1.魯棒生成區(Robust Generation Zone)在該區域內,性能波動較小。測試階段解碼溫度通常就選自魯棒生成區。

2.控制探索區(Controlled Exploration Zone)此區域的溫度雖然會導致模型性能較魯棒生成區略有下降,但降幅在可接受范圍內,同時能顯著提升多樣性,適合作為訓練溫度使用。

3.性能崩塌區(Performance Collapse Zone)當采樣溫度超出一定范圍時,性能急劇下降。

根據上圖規律,Polaris團隊提出以控制探索區的溫度作為初始化溫度。

圖片

實驗顯示,常用的t=0.6或t=1.0的設置溫度過低,限制了模型的探索空間,導致難以挖掘RL潛力。

因此,Polaris把Qwen3-4B的初始訓練溫度設置為1.4。

動態溫度調整

圖片圖片

在性能增長的同時,多樣性同樣也會發生偏移。隨著訓練收斂,各路徑間共享的N-gram比例增加,探索空間也隨之縮小。

在整個訓練過程中始終使用最開始的溫度,會導致訓練后期多樣性不足。

因此,Polaris團隊提出在RL訓練過程中動態更新采樣溫度的策略:在每個階段開始前都進行和溫度初始化時類似的搜索方法,使得后續階段起始的多樣性分數和第一階段的相似。

舉個例子,假如第一階段開始的多樣性分數是60,那此后的每個階段,Polaris團隊都會選擇一個能把多樣性分數拉到60的溫度來進行訓練。

圖片圖片

對比實驗的結果顯示,采用同一溫度訓練到結束,其效果不及多階段溫度調整。

多階段溫度調整不僅帶來了更優的RL訓練效果,還使得回答長度的提升更加穩定。

思維鏈長度外推

在訓練Qwen3-4B的過程中,一個顯著難題在于長上下文訓練,因為模型本身的回答長度就已經非常長了,要繼續訓練的更長需要更高昂的計算代價。

Qwen3-4B的模型預訓練上下文長度僅有32K,而RL階段Polaris將最大訓練長設定為52K。但實際達到最大序列長度的訓練樣本比例不足10%,意味著真正使用長文本進行訓練的樣本非常有限。

圖片圖片

為評估Polaris-4B-Preview的長文生成能力,Polaris究團隊選取了AIME2024/25中的60題,每題進行32次推理,總計1920個樣本,并按照回答長度將其分為三組:

  • 短文本組:回答長度小于16K;
  • 中等文本組:回答長度介于16K到32K;
  • 長文本組:回答長度超過預訓練長度32K。

統計結果表明,長文本組的準確率僅為26%,證明模型在生成超過預訓練長度的長CoT時,性能明顯受限。

既然RL在長上下文長度的時候具備劣勢,那么長CoT性能不佳可能是由于長文本訓練不充分導致。

針對長文本訓練樣本不足的問題,團隊引入了長度外推技術。通過位置編碼RoPE的調整,模型能夠在推理時處理超出訓練時所見的更長序列,進而補償長文本訓練中的不足。

具體實現上,研究團隊采用了YaRN作為外推方法,并設置擴展因子為1.5,如下配置所示:

圖片圖片

實驗結果顯示,通過應用該策略,超過32K長度回答的準確率由26%提升至超過50%

圖片圖片

多階段訓練

圖片圖片

Polaris采用多階段的訓練方式,在早期階段,模型使用較短的上下文窗口;待模型表現收斂后,再逐漸增加上下文窗口的長度以拓寬模型的推理能力。

盡管這一策略在某些模型下有效,但在多階段訓練中,初始階段選擇合適的最大長度至關重要,不同基礎模型token利用效率存在差異。

圖片圖片

實驗發現,對于DeepSeek-R1-Distill-Qwen-1.5B/7B,采用較短的響應長度訓練效果都較好;但對Qwen3-4B來說,即使響應長度只有24K且響應截斷比例低于15%,其性能也會急劇下降,這種下降即使在后期階段也難以恢復。

圖片圖片

通常來說,從一開始就讓模型“思考更長”會更安全:對于Qwen3-4B,實驗觀察到從零開始使用40K響應長度時性能穩步提升,這與從一開始就采用24K和24K→40K的方案形成了鮮明對比。

要點:當計算資源允許時,直接從官方倉庫建議的最大解碼長度開始。

評估結果

圖片圖片

Polaris模型需要使用比Qwen3更高的采樣溫度和更長的響應長度;所有其他設置保持相同。

對于AIME24和AIME25,上表報告了32次運行的平均性能。

可以看到,Polaris讓4B模型的數學推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一眾商業大模型,在大多數評測中表現最佳。

notion地址: https://honorable-payment-890.notion.site/POLARIS-A-POst-training-recipe-for-scaling-reinforcement-Learning-on-Advanced-ReasonIng-modelS-1dfa954ff7c38094923ec7772bf447a1

blog 地址: https://hkunlp.github.io/blog/2025/Polaris/

代碼: https://github.com/ChenxinAn-fdu/POLARISHuggingface主頁: https://huggingface.co/POLARIS-Project


責任編輯:武曉燕 來源: 量子位
相關推薦

2025-08-07 09:07:21

2025-06-06 09:10:00

模型開源AI

2024-06-11 14:30:18

2025-05-14 13:22:08

Qwen3訓練小模型

2022-01-04 15:35:51

鴻蒙HarmonyOS應用

2022-06-21 11:02:27

系統移植鴻蒙

2025-10-27 08:35:00

2025-10-28 02:11:00

2025-08-05 09:02:00

2025-06-04 13:56:06

英偉達訓練模型

2025-06-17 08:45:00

模型智能工具

2025-04-29 08:14:14

2025-08-26 15:31:35

英偉達模型架構

2025-05-16 09:10:00

2023-09-23 12:50:39

AI訓練

2021-11-23 15:35:05

鴻蒙HarmonyOS應用

2021-12-09 10:11:04

鴻蒙HarmonyOS應用

2021-12-31 10:00:30

鴻蒙HarmonyOS應用

2023-10-11 12:32:53

AI模型

2025-02-14 11:18:57

點贊
收藏

51CTO技術棧公眾號

国产精品第10页| 亚洲v中文字幕| 国产成人+综合亚洲+天堂| 播金莲一级淫片aaaaaaa| 伊人久久国产| 国产日韩欧美一区二区三区乱码 | 欧美日韩亚洲精品内裤| 欧美一区少妇| 国产绿帽刺激高潮对白| 欧美三级第一页| 日韩精品亚洲元码| 麻豆av免费在线| 久热国产在线| 99精品久久久久久| 国产精品永久免费视频| 久久免费精彩视频| 午夜福利理论片在线观看| 男人的天堂在线视频免费观看| 国产在线精品一区在线观看麻豆| 97国产精品视频| 久久久精品成人| 国产美女撒尿一区二区| 欧美性xxxxx极品少妇| 久久av高潮av| 免费在线看a| 久久亚区不卡日本| 97se亚洲综合| 中文字幕二区三区| 亚洲精选久久| 久久天天躁狠狠躁夜夜爽蜜月| 国产吞精囗交久久久| 精品视频一二| 欧美三级欧美一级| 69堂免费视频| 欧美v亚洲v| 国产精品久久久久影视| 蜜桃导航-精品导航| 国产三级小视频| 奇米精品一区二区三区在线观看| 97视频在线免费观看| 欧美成人精品激情在线视频| 日韩av在线播放网址| 亚洲精品久久在线| 亚洲美女在线播放| 亚洲网一区二区三区| 欧美日韩视频不卡| 天天色综合社区| 日韩欧美一区二区三区在线观看| 大桥未久av一区二区三区| 国产高清不卡无码视频| 麻豆免费在线观看| 亚洲欧洲日产国产综合网| 亚洲 国产 日韩 综合一区| 欧美偷拍视频| 26uuu亚洲综合色欧美| 国产区一区二区三区| 午夜精品久久久久久久96蜜桃| 激情六月婷婷综合| 成人国产精品久久久| 曰批又黄又爽免费视频| 免费高清成人在线| 91久久精品在线| 国产一区二区视频免费观看| 久久精品国产秦先生| 国产在线观看一区二区三区| 国产一区二区三区三州| 国产一区二区三区黄视频 | 神马午夜在线视频| 天天色天天爱天天射综合| 久久在线中文字幕| 国产夫妻在线| 大桥未久av一区二区三区| 鲁一鲁一鲁一鲁一澡| 一二三四视频在线中文| 一本久久a久久免费精品不卡| 无码人妻丰满熟妇区96| 奇米777日韩| 欧美日韩性生活| 日韩一区二区三区视频在线观看| 日韩电影天堂视频一区二区| 国产一二三区在线视频| 日本一二三不卡| 一区二区三区av| 国产成人无吗| 亚洲午夜精品久久久久久久久| 全黄性性激高免费视频| 伊人网在线播放| 欧美午夜精品一区| 欧美精品 - 色网| www.神马久久| 亚洲一级一级97网| 侵犯稚嫩小箩莉h文系列小说| 欧美在线网址| 欧美一级电影免费在线观看| 涩涩视频在线观看| 国产伦精品一区二区三区在线观看 | xxxxx99| 91精品国产调教在线观看| 欧美精品18videosex性欧美| 福利网址在线观看| 国产一区二区三区在线看麻豆| 国产欧美精品一区二区三区| 国产福利电影在线| 一区二区在线看| 成人免费无码av| 综合中文字幕| 在线观看日韩av| 久久精品国产av一区二区三区| 三级一区在线视频先锋 | 在线视频 中文字幕| 国产精选一区二区三区| 欧洲高清一区二区| 国产成人三级视频| av在线资源| 欧美精品 国产精品| 无码人妻一区二区三区在线| 成人精品影院| 91国语精品自产拍在线观看性色 | 成人动漫视频在线观看完整版| 污视频网站免费观看| 一区精品在线播放| 精品国产成人av在线免| 秋霞午夜一区二区三区视频| 亚洲色图第一页| 久久精品国产亚洲AV无码男同| 男女男精品视频| 久久99影院| 色图在线观看| 欧美精品一级二级三级| 亚洲AV无码国产成人久久| 亚洲一级黄色| 91在线免费视频| 在线日本中文字幕| 色www精品视频在线观看| 日本黄色动态图| 欧美日韩久久| 亚洲qvod图片区电影| a天堂中文在线88| 色婷婷综合久久| 国产亚洲色婷婷久久99精品91| 久久久久美女| 成人激情视频在线观看| av在线免费播放网站| 一本一道久久a久久精品综合蜜臀| 久99久在线| 1024手机在线视频| 黄页网站大全一区二区| 亚洲 国产 日韩 综合一区| 免费福利视频一区二区三区| 亚洲黄色在线观看| 四虎永久在线精品| 成人禁用看黄a在线| 欧美日韩福利在线| 一区中文字幕| 久久久之久亚州精品露出| 性欧美8khd高清极品| 亚洲女性喷水在线观看一区| 57pao国产成永久免费视频| 欧美成人激情| 国产在线高清精品| 国产黄色在线免费观看| 欧美高清www午色夜在线视频| 亚洲黄色网址大全| 麻豆精品国产91久久久久久| 一区二区三区三区在线| 97精品资源在线观看| 美女精品久久久| 成人av一区二区三区在线观看| 亚洲中国最大av网站| 白嫩情侣偷拍呻吟刺激| 国产一区二区三区久久久久久久久| 久久久久久欧美精品色一二三四| 大胆人体一区二区| 丝袜情趣国产精品| 精品国产一级片| 亚洲国产精品麻豆| 国产色视频一区二区三区qq号| 日韩成人免费在线| 在线不卡欧美精品一区二区三区| 日本在线观看一区二区三区| 福利一区二区| 欧美成在线观看| 天天综合网在线观看| 一本久道中文字幕精品亚洲嫩| 日韩一区二区a片免费观看| 毛片基地黄久久久久久天堂| 国产精品8888| 日韩超碰人人爽人人做人人添| 国产成人在线一区| 自拍亚洲图区| 亚洲精品日韩欧美| 97精品人妻一区二区三区| 一区二区三区不卡视频在线观看| 91av在线免费| 久久国产精品第一页| 大陆极品少妇内射aaaaaa| 美女一区二区在线观看| 国产精品丝袜白浆摸在线 | 欧美美最猛性xxxxxx| 五月婷婷深深爱| 欧美日韩高清影院| 国产一级片播放| 国产精品免费久久| 亚洲av成人精品一区二区三区| 美腿丝袜一区二区三区| 97视频在线免费| 青青草91久久久久久久久| 国产精品v欧美精品v日韩精品| 成人看片网站| 久久久久日韩精品久久久男男| www.成人.com| 亚洲国产精品免费| 国产伦理一区二区| 欧美性猛交xxxxxx富婆| 久久久久久久久久影院| 亚洲免费在线视频| wwwww黄色| 久久夜色精品国产噜噜av| wwwxxxx在线观看| 蜜桃精品视频在线| 中国丰满人妻videoshd| 自拍视频亚洲| 亚洲一区二区三区四区中文| 人人精品亚洲| 999在线观看免费大全电视剧| 成人av色网站| 日韩av电影中文字幕| 成人女同在线观看| 麻豆乱码国产一区二区三区| 成人资源www网在线最新版| 亚洲第一福利网| www.国产欧美| 91精品国产色综合久久ai换脸| 中文字幕精品无| 欧美日韩亚洲视频| 日本五十路女优| 亚洲一区二区欧美| 欧美精品乱码视频一二专区| 成人欧美一区二区三区黑人麻豆 | 91精品国产91久久| 黄色成人在线网| 超碰日本道色综合久久综合| 三区四区在线视频| 在线观看国产精品91| 国产精品久久久久久久龚玥菲| 日韩精品在线免费| 五月婷婷六月丁香综合| 亚洲国产一区二区三区四区| 国产小视频一区| 精品日韩一区二区| 国产黄色一区二区| 日韩精品一区二区三区在线观看 | 日韩av在线一区| 三级视频在线看| 亚洲精品久久久久久久久久久久| 日韩在线视频免费| 精品国产成人在线影院| 欧美一级视频免费| 日韩福利在线播放| 青青草视频在线观看| 亚洲人成免费电影| av中文字幕一区二区三区| 综合激情国产一区| 蜜桃视频在线观看www社区| 久久久www成人免费精品| 99福利在线| 午夜精品久久久久久久久久久久久| 3344国产永久在线观看视频| 2020国产精品视频| 朝桐光一区二区| 国产一区私人高清影院| 久久视频免费| 国产伦精品一区二区三区高清| 欧美a一欧美| 婷婷四月色综合| 亚洲欧洲美洲一区二区三区| 国产手机免费视频| 午夜一级在线看亚洲| 在线看的黄色网址| 国产成人精品三级麻豆| 日本一级片在线播放| 久久精品人人爽人人爽| 久久嫩草捆绑紧缚| 亚洲一区成人在线| 日本黄色中文字幕| 91精品国产综合久久精品图片| 免费av网站在线播放| 一区二区三区无码高清视频| 国产超级va在线视频| 69久久夜色精品国产7777| www.久久.com| ts人妖另类在线| 九九视频免费观看视频精品| 国产又粗又爽又黄的视频| 亚洲黄色影院| 一区二区三区视频在线观看免费| 国产伦精品一区二区三区免费| 亚洲观看黄色网| 中文字幕一区二区在线观看| 日本熟妇成熟毛茸茸| 欧美日韩一区久久| 手机在线不卡av| 最近2019中文字幕第三页视频| 波多野结衣中文在线| 成人国产精品一区二区| 久久1电影院| 午夜啪啪福利视频| 日本欧美一区二区在线观看| 久久av二区| 91肉色超薄丝袜脚交一区二区| 欧美老女人在线| 免费资源在线观看| 色综合久久88| 国产欧美自拍| 欧美精品一区二区视频| 国产精品mv在线观看| 亚洲77777| 久久美女艺术照精彩视频福利播放| 婷婷久久综合网| 欧美主播一区二区三区| 亚洲av片在线观看| 色中色综合影院手机版在线观看| 日本午夜免费一区二区| 日韩电影天堂视频一区二区| 国产一区二区精品| 亚洲一区二区在线免费| 自拍av一区二区三区| 国产精华7777777| 日韩久久精品成人| 成人超碰在线| 亚洲永久免费观看| 婷婷综合在线| 三年中国国语在线播放免费| xf在线a精品一区二区视频网站| 国产一二三四在线| 日韩一区二区麻豆国产| 免费看美女视频在线网站 | 成人国产综合| 品久久久久久久久久96高清| 国产精品视区| 欧美大片免费播放器| 午夜激情一区二区三区| 囯产精品久久久久久| 欧美国产日韩在线| 清纯唯美激情亚洲| 国产 欧美 日本| 岛国av在线一区| 日韩伦理在线视频| 亚洲国产97在线精品一区| 操喷在线视频| 久久国产一区| 久久精品30| 在线观看国产精品一区| 欧美中文字幕一二三区视频| 国产一级片在线播放| 国产精品久久久一区| 成人毛片免费看| 伊人网在线综合| 亚洲人成人一区二区在线观看 | 精品第一国产综合精品aⅴ| 色女人在线视频| 精品国产乱码久久久久软件| 亚洲专区免费| 国产在线观看h| 欧美午夜精品一区二区三区| 免费大片黄在线| 91网免费观看| 天天综合精品| 国产精品果冻传媒| 欧美日韩国产影院| 国产精品秘入口| 2020国产精品久久精品不卡| 欧美特黄视频| 日韩人妻无码一区二区三区| 欧美无砖砖区免费| 26uuu亚洲电影在线观看| 国产精品一区二区在线观看| 亚洲一区久久| 国精产品久拍自产在线网站| 99精品在免费线偷拍| 久久综合狠狠综合久久综青草| 三级一区在线视频先锋| 亚洲少妇xxx| 精品国产99国产精品| 丝袜老师在线| 中文字幕一区二区三区有限公司 | 男人天堂资源在线| 国产女人18毛片水18精品| 午夜精品婷婷| 人人妻人人藻人人爽欧美一区| 欧美日韩亚洲综合在线 | 国产乱码精品一区二区亚洲| 污视频网站观看| 亚洲国产成人av网| a天堂中文在线88| 欧美男女性生活在线直播观看| 国产亚洲欧美精品久久久www | 亚洲一级毛片| 亚洲精品视频大全| 91精品国产一区二区三区香蕉|