精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

清華團隊:1.5B 模型新基線!用「最笨」的 RL 配方達到頂尖性能

人工智能 新聞
清華團隊帶著一個樸素的想法開始了這項工作:"如果我們用最基礎的配方,但訓練得足夠充分,能到什么水平?"

如果有人告訴你:不用分階段做強化學習、不搞課程學習、不動態調參,只用最基礎的 RL 配方就能達到小模型數學推理能力 SOTA,你信嗎?

清華團隊用兩個 1.5B 模型給出了答案:不僅可行,還特別高效。

  • 核心發現: 單階段訓練 + 固定超參數 = SOTA 性能 + 省一半算力
  • 意外之喜: 訓練曲線平滑得像教科書,4000 步沒遇到任何 "典型問題"
  • 關鍵啟示: 充分 scale 的簡單 baseline,可能比我們想象的強大得多

圖片

圖片

  • 技術博客:https://relieved-cafe-fe1.notion.site/JustRL-Scaling-a-1-5B-LLM-with-a-Simple-RL-Recipe-24f6198b0b6b80e48e74f519bfdaf0a8
  • 開源模型:https://huggingface.co/collections/hbx/justrl
  • 評測腳本:https://github.com/thunlp/JustRL

背景:RL 訓練小模型的 "技術軍備競賽"

2025 年初,DeepSeek-R1 開源后,如何用 RL 訓練 1.5B 級別的推理模型成為了熱門研究方向。短短幾個月內,這個領域經歷了快速的技術演進:早期的工作嘗試超參數調優和長度控制;隨后出現了多階段漸進訓練,每個階段調整數據難度和 RL 超參數;也有方法引入了課程學習,用部分解作為提示精心設計難度梯度;最激進的做法直接將 rollout 數量提升到 512 次,用算力進行暴力探索。

圖片

近期工作用到的技術對比

這些方法都取得了不錯的效果,性能在不斷刷新。 動態采樣、KL 重置、自適應懲罰、長度控制…… 各種穩定技術和優化 trick 被逐一引入。每個新工作都在前人基礎上增加新的模塊和機制,整個訓練 pipeline 變得越來越復雜。

然而,這種復雜度的增長也帶來了困惑:這些技術真的都是必要的嗎? 當不同工作組合使用不同的技術子集時,我們很難分辨哪些是解決根本問題的,哪些只是在修補其他設計選擇帶來的副作用。更重要的是,如果 baseline 本身就不穩定,那么為了穩定它而加入的技術,可能只是在治標而非治本。

清華團隊帶著一個樸素的想法開始了這項工作:"如果我們用最基礎的配方,但訓練得足夠充分,能到什么水平?"

于是就有了 JustRL—— 名字的意思是 "就這樣"。

方法:極簡到極致的訓練配方

JustRL 的設計哲學是 "減到不能再減"。研究者刻意避免了近期工作中常見的復雜技術,只保留了最基礎的組件。

訓練配方簡單到令人意外: 算法使用標準的 GRPO,沒有任何魔改;訓練只有一個階段,從頭到尾連續進行;超參數完全固定,不做任何動態調整;數據來自常規的數學問題集,不進行離線難度篩選、不做數據增強、不使用 dynamic sampling。

更關鍵的是,同一套超參數在兩個完全不同的起點上都有效。 第一個實驗使用 DeepSeek-R1-Distill-Qwen-1.5B 作為基座,這是一個相對較弱的起點(AIME 2024 準確率 29%);第二個實驗使用 OpenMath-Nemotron-1.5B,這已經是一個相當強的基座(AIME 2024 準確率 61%)。研究者沒有針對不同模型調整任何參數,在 9 個數學推理基準(AIME 2024/2025、AMC 2023、MATH-500、Minerva Math、OlympiadBench、HMMT/CMIMC/BRUMO 2025)上的全面評測顯示,JustRL 達到了 1.5B 模型的最高水平。

圖片

一個關鍵問題:會不會是用了更多算力?正好相反,我們用了更少。

從弱基座起步的 JustRL-DeepSeek-1.5B,最終在 9 項基準上平均達到 54.87%,超越了采用 9 階段訓練的 ProRL-V2(53.08%)。更值得注意的是計算效率:JustRL 使用的總 token 預算約為 1.4E+11,僅為 ProRL-V2 的一半,為 BroRL 的五分之一。在算力 - 性能的權衡上,JustRL 達到了一個新的平衡點。

從強基座起步的 JustRL-Nemotron-1.5B 表現更加出色,平均準確率達到 64.32%,略微超過使用課程學習的 QuestA(63.81%)。關鍵的差異在于,QuestA 需要完整的推理軌跡來構建 hint,還要分階段調整提示難度;而 JustRL 只需要標準的問題與標答,不需要額外的數據工程,總 token 預算也相對較小。

整個訓練在 32 張 A800-80GB GPU 上進行,每個模型訓練約 15 天。相比一些需要多階段訓練、頻繁調參的方法,JustRL 的工程復雜度和計算開銷都顯著更低。這些結果的意義不僅在于數字本身,更在于它們揭示的一個可能性:很多時候,我們可能低估了簡單方法在充分 scale 下的潛力。

意外發現:4000 步訓練,異常平穩

也許比最終性能更令人驚訝的是訓練過程本身。研究者詳細記錄了 JustRL-DeepSeek-1.5B 整個 4000 步 RL 過程中的關鍵動態指標:策略熵、平均獎勵、響應長度。

策略熵始終在 1.2-1.4 范圍內健康震蕩,沒有出現向上漂移(探索崩塌)或向下崩潰(過早收斂);平均獎勵從 - 0.6 單調上升到 +0.4,雖然有噪聲但趨勢清晰,沒有長時間的 plateau 或突然的下跌;響應長度從初始的 8000 tokens 自然壓縮到 4000-5000 tokens,并穩定在這個范圍,這一切都是在沒有使用 overlong penalty 的情況下發生的,僅僅設置了最大 16k 的上下文長度。

圖片

JustRL-DeepSeek-1.5B 的訓練 dynamic

這與很多現有工作報告的訓練困難形成鮮明對比。

  • ProRL:"我們觀察到熵崩潰和訓練不穩定性…"
  • BroRL:"訓練到瓶頸只能加 rollout 加大探索…"
  • QuestA:"需要課程學習避免熵崩塌(簡單題)或者減緩學習效率(難任務)…"

而在 JustRL 的訓練中,這些問題都沒有出現。這給了我們一個有趣的觀察:也許在某些配置下,當 baseline 足夠簡單、訓練規模足夠充分時,一些在復雜系統中出現的穩定性問題可能就不容易發生。

一個有趣的插曲:加 "優化" 反而更差

訓練過程中,團隊嘗試了兩個 "按常理應該有幫助" 的修改。這兩個實驗的結果頗具啟發性。

第一個實驗是加入顯式的長度懲罰。 動機很直接:不少工作證明長度懲罰有效,那么添加一個懲罰項應該能讓模型輸出更簡潔,提高訓練效率。結果卻令人意外:性能從 55% 下降到 50%。深入分析發現,顯式懲罰導致了熵崩塌,熵值從 1.2-1.4 降到 0.4-0.6 ,探索空間被過早壓縮。模型還沒來得及充分探索有效的解題策略,就被迫收斂到更短的響應上。

第二個實驗是換用更寬松的驗證器。 邏輯同樣合理:減少假陰性(正確答案被誤判為錯誤)應該能提供更清晰的學習信號。但性能繼續下滑到 45%。可能的原因包括:更寬松的驗證器雖然減少了誤判,但也降低了學習信號的細粒度 ——"幾乎正確" 和 "完全正確" 不再有明顯區分;另一種可能是,嚴格的格式要求實際上在迫使模型發展更魯棒的內部推理,而寬松的驗證器消除了這種壓力。

圖片

兩組 ablation 效果

這說明什么?一方面,ablation 在接近 2k steps 的尺度上才開始分道揚鑣,意味著現有的 RL tricks ablation 可能在小規模上(幾十 / 幾百步)得到的結論不一定適合于大規模 scaling,要驗證 tricks 的作用可能長期才能看出區別;另一方面,不是說這些技術本身不好(它們在其他工作中確實有效),而是:

  • 技術的價值高度依賴于 baseline 的特性
  • 在一個穩定的 baseline 上,某些 "優化" 可能適得其反
  • 不是所有看起來合理的東西都該加

這個工作想說什么?

不是要證明 "簡單永遠最好"

  • 不是說: "復雜方法都沒用"
  • 而是說: "我們可能低估了簡單方法在充分 scale 下的潛力"
  • 不是說: "大家都做錯了"
  • 而是說: "建立清晰的簡單 baseline,能更準確地評估復雜技術的價值"
  • 不是說: "永遠別用復雜技術"
  • 而是說: "先驗證簡單方法的極限在哪,再決定是否需要復雜度"

寫在最后:關于 "夠用" 的哲學

"Perfection is achieved, not when there is nothing more to add, but when there is nothing left to take away.“

 — Antoine de Saint-Exupéry, Airman's Odyssey

JustRL 不是要證明 "簡單就是答案"。它想提醒的是:在不斷追求技術創新的同時,別忘了回頭看看 —— 最樸素的方法,在足夠的努力下,能做到什么程度。

也許在 RL 訓練小模型這個領域,我們一直在做加法:加階段、加調度、加采樣策略、加穩定技巧。也許現在是時候試試奧卡姆剃刀的做法:減到不能再減,看看還剩什么。JustRL 的發現是:剩下的,可能已經夠用了。

如果你正在做 RL,不妨試試:先把簡單配方訓練充分,看看它能帶你走多遠。

也許你會發現:夠用了。

也許你會發現:還不夠,但現在你知道差在哪了。

無論哪種,都是有價值的收獲。"如無必要,勿增實體"。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-04-07 02:25:00

DeepSeek模型訓練GRPO

2025-02-11 16:17:42

2025-11-18 07:00:00

2025-02-25 10:20:00

2025-11-14 09:31:41

2025-04-15 09:19:00

模型AI數據

2025-04-27 08:54:00

英偉達開源模型

2025-05-16 11:03:48

2025-07-31 08:45:00

模型AI開源

2025-06-06 09:10:00

模型開源AI

2025-04-23 12:09:25

RL大模型進化

2025-09-16 10:09:00

2025-02-13 09:10:00

2025-06-23 09:14:00

2025-02-10 09:35:00

2025-01-21 10:10:56

2025-01-16 14:38:10

2025-03-03 10:17:00

模型數據生成

2025-01-10 12:58:37

點贊
收藏

51CTO技術棧公眾號

野花视频免费在线观看| 欧美日韩国产系列| 国模一区二区三区私拍视频| 无码人妻一区二区三区线| 日韩在线二区| 精品国产成人系列| 激情婷婷综合网| 成人影院在线看| 91麻豆免费看| 97人人模人人爽视频一区二区 | 日韩精品一区二区三区中文| 午夜精品久久久久久久| 亚洲精品在线免费| 免费观看的毛片| 久久精品72免费观看| 久久全球大尺度高清视频| 久久中文字幕精品| y111111国产精品久久久| 欧美三级视频在线| 日韩av一二三四区| 久草在线资源站资源站| 国产精品进线69影院| 久久伊人一区| 亚洲精品18在线观看| 美日韩一级片在线观看| 97avcom| 午夜国产福利一区二区| 欧美精选一区二区三区| 亚洲国产欧美久久| 日韩高清一二三区| 欧美爱爱视频| 欧洲日韩一区二区三区| 99爱视频在线| 九九色在线视频| 亚洲国产精品一区二区久久 | 黄黄的网站在线观看| 久久久九九九九| 国产原创精品| 欧美 日韩 中文字幕| 国产精品一区久久久久| 成人久久久久爱| 中文字幕永久免费视频| 丝袜诱惑亚洲看片| 人九九综合九九宗合| www.国产高清| 亚洲美女色禁图| 国内精品视频一区| xxxxxx国产| 一本色道久久综合一区 | 国产大片中文字幕| 午夜精品久久99蜜桃的功能介绍| 久久精品99无色码中文字幕| 午夜激情视频在线播放| 欧美xxxx中国| zzjj国产精品一区二区| 91视频最新网址| 中文字幕免费一区二区三区| 久久这里只有精品视频首页| 午夜激情福利网| 综合精品一区| 久久久伊人日本| 国产精品100| 日韩av中文在线观看| 国产精品久久久久9999| 怡红院男人天堂| 精品一区二区三区免费| 51成人做爰www免费看网站| 亚洲精品字幕在线观看| 国产精品亚洲第一区在线暖暖韩国| 91精品中国老女人| 国产成人精品无码高潮| 岛国精品一区二区| 美日韩免费视频| 在线免费看黄网站| 玉足女爽爽91| www.四虎成人| 欧美大陆国产| 日韩精品一区二区三区在线观看 | 国产亚洲福利社区一区| 亚洲三区在线观看| 手机在线免费av| 欧美日韩中国免费专区在线看| 国产激情在线观看视频| 日本国产亚洲| 精品成人在线观看| 亚洲精品国产熟女久久久| 国产精品成人一区二区不卡| 欧美高清视频免费观看| 亚洲欧美一区二区三区在线观看| 九色综合狠狠综合久久| 国产一区二区中文字幕免费看| 国产裸舞福利在线视频合集| 亚洲精品综合在线| 高清在线观看免费| 91精品福利观看| 日韩av在线最新| 久久噜噜色综合一区二区| 伊人狠狠色j香婷婷综合| 国产精品福利在线观看| 国产 日韩 欧美 精品| 国产清纯白嫩初高生在线观看91| 污污污污污污www网站免费| 吉吉日韩欧美| 欧美sm极限捆绑bd| 91香蕉视频网| 亚洲在线播放| 成人av免费在线看| 在线观看免费黄色| 狠狠躁夜夜躁人人爽天天天天97| www.51色.com| 国产一区不卡| 97激碰免费视频| 国产chinasex对白videos麻豆| 久久久影视传媒| a级黄色片免费| 国产亚洲精彩久久| 精品无码久久久久久国产| 欧美日韩人妻精品一区二区三区| 日韩av一区二| 蜜桃传媒视频第一区入口在线看| 色黄网站在线观看| 欧美精品1区2区| 精品无码国产污污污免费网站| 黄色精品免费| 91传媒视频免费| 久草资源在线| 欧美日韩欧美一区二区| 国产激情在线免费观看| 亚洲深夜av| 国产伦精品一区二区三区| 中文字幕中文字幕在线中高清免费版| 欧美性生活久久| av黄色免费网站| 国产欧美精品| 国产在线精品一区二区中文| 免费在线国产视频| 日韩一区二区麻豆国产| 免费看一级大片| 久久福利资源站| 一区二区三视频| 只有精品亚洲| 久久精品91久久香蕉加勒比| 一级片aaaa| 中文字幕一区三区| 亚洲18在线看污www麻豆| 成人久久综合| 国产一区二区丝袜高跟鞋图片| 91社区在线观看播放| 欧美日韩免费在线视频| 免费观看特级毛片| 激情都市一区二区| 日韩精品手机在线观看| 亚洲91网站| 国外成人在线直播| 四虎在线免费看| 91久久精品一区二区二区| 蜜桃无码一区二区三区| 视频一区二区不卡| 一卡二卡3卡四卡高清精品视频| 成人国产精选| 久久影院资源网| 丁香六月色婷婷| 欧美日韩国产精品一区| 中文字幕av网址| 日一区二区三区| 异国色恋浪漫潭| 综合视频一区| 奇米4444一区二区三区 | 国产欧美日韩视频一区二区| 国产一区二区在线免费播放| 亚欧美无遮挡hd高清在线视频| 亚洲伊人第一页| 欧美13videosex性极品| 亚洲欧美综合另类中字| 国产精品乱码一区二区| 亚洲综合一二三区| 亚洲欧美视频在线播放| 蜜桃精品视频在线| 青青青在线观看视频| 欧美大胆视频| 国产精品一区二区女厕厕| 性欧美video高清bbw| 亚洲欧美另类中文字幕| 一级黄色片网站| 精品动漫一区二区三区| 男人的天堂官网| 成人一区在线观看| 久久久精品麻豆| 欧美日韩网址| 欧洲成人一区二区| 国产一区二区三区黄网站| 久久久伊人欧美| 日本视频在线观看| 日韩av中文在线| 国产精品区在线观看| 五月天久久比比资源色| 三级影片在线观看| 337p粉嫩大胆噜噜噜噜噜91av| 不卡的在线视频| 亚洲看片一区| 影音先锋亚洲视频| 奇米影视777在线欧美电影观看 | 国产精品一线| 国产日韩欧美成人| 乱人伦视频在线| 久久91精品国产| 波多野结衣在线影院| 亚洲成人亚洲激情| 国产精品一区二区人人爽| 色婷婷av一区二区三区软件 | 欧美性jizz18性欧美| 成人免费视频网站入口::| 久久亚洲综合色| 99久久久无码国产精品性波多| 麻豆精品网站| 精品国产av无码一区二区三区| 日韩啪啪电影网| 久久精品国产第一区二区三区最新章节 | 99久久精品费精品国产| 欧美视频观看一区| 久久精品色综合| 91国产在线免费观看| 本网站久久精品| 2020欧美日韩在线视频| 国产天堂在线播放视频| 久久久av亚洲男天堂| 成年人在线观看网站| 亚洲美女自拍视频| 日本高清视频网站| 精品国产伦一区二区三区免费| 91精品国自产| 欧美日韩国产综合一区二区三区| 男人天堂视频在线| 色婷婷精品大视频在线蜜桃视频 | 在线播放不卡| 男女裸体影院高潮| 自拍偷拍欧美专区| 日韩精品免费一区| 亚洲最新色图| 在线看视频不卡| 欧美成人直播| 日日噜噜噜夜夜爽爽| 色喇叭免费久久综合网| 亚洲 日韩 国产第一区| 欧美激情在线免费| 欧美一级爱爱| 教室别恋欧美无删减版| 日韩av不卡在线播放| 国产99久久| 欧美日韩综合另类| 精品产国自在拍| 亚洲图片都市激情| 99久久精品费精品国产风间由美| 在线视频不卡一区二区三区| 99国产**精品****| 日本久久高清视频| 欧美日韩三级| 国产精品专区在线| 国产精品综合| 别急慢慢来1978如如2| 美国十次了思思久久精品导航| 少妇一级淫免费播放| 激情综合色综合久久综合| 亚洲精品中文字幕乱码无线| 高清不卡在线观看| 老司机免费视频| 久久婷婷国产综合精品青草 | 日本xxxxwww| 亚洲品质视频自拍网| h视频网站在线观看| 久久香蕉国产线看观看av| 日本在线视频中文有码| 91av在线播放视频| 91国拍精品国产粉嫩亚洲一区| 国产精品视频26uuu| 午夜视频在线观看精品中文 | 三级理论午夜在线观看| 国产亚洲一区二区在线| 黄色在线播放网站| 91精品国产91久久久久久| 综合在线影院| 91最新国产视频| 欧美天堂社区| 在线观看成人一级片| 亚洲国产午夜| 韩国中文字幕av| 风间由美性色一区二区三区| 国产人妻人伦精品1国产丝袜| 国产精品美女一区二区三区| 青青草国产在线观看| 欧美性精品220| 国产精品人妻一区二区三区| 精品亚洲永久免费精品| 五月天婷婷在线视频| 韩国一区二区电影| 亚洲精品一区av| 久久国产日韩欧美| 欧美va亚洲va日韩∨a综合色| 九色在线视频观看| 国产一区二区三区高清播放| 国产伦精品一区二区三区妓女| 亚洲丝袜自拍清纯另类| 精品欧美一区二区三区免费观看 | 在线观看av网页| 不卡一区二区三区四区| 婷婷国产成人精品视频| 欧美日韩国产精品一区二区三区四区| 国产一区二区三区在线观看| 日韩电影免费在线观看中文字幕 | 粉色视频免费看| 91老师国产黑色丝袜在线| 欧美日韩激情在线观看| 在线免费观看日本一区| 人妻偷人精品一区二区三区| 久久亚洲精品中文字幕冲田杏梨| 黑人巨大精品欧美一区二区桃花岛| 国产二区不卡| 欧美一区免费| 色一情一区二区三区| 久久久国产精品麻豆| 日韩乱码人妻无码中文字幕| 欧美一区二区免费观在线| 日韩免费网站| 国产精品高潮视频| 丝袜连裤袜欧美激情日韩| 18禁裸男晨勃露j毛免费观看| 久久99精品久久久久| 精品人妻一区二区三区蜜桃视频| 五月综合激情网| 人妻精品一区一区三区蜜桃91| 麻豆国产精品va在线观看不卡| 国产成人毛片| 五月天久久综合网| 久久综合狠狠| 国产精品成人一区二区三区电影毛片| 亚洲一区二区视频| www.精品视频| 欧美黑人一级爽快片淫片高清| 成人在线分类| 色乱码一区二区三区熟女| 蜜桃一区二区三区在线观看| 国产1区2区在线观看| 日韩人体视频一二区| 同心难改在线观看| 91av在线不卡| 亚洲小说图片视频| 亚洲色欲综合一区二区三区| 99精品欧美一区二区三区小说| 久久久久久久99| 亚洲国产精品电影| а√天堂8资源在线| 国产一区再线| 亚洲一区二区成人| 好吊日免费视频| 日韩欧美国产网站| 黄网在线免费| 国产精品老女人视频| 日韩精品永久网址| 天天干天天操天天做| 最新中文字幕一区二区三区| 国产美女精品视频国产| 久久91精品国产91久久跳| 6080亚洲理论片在线观看| 777av视频| 久久久久亚洲蜜桃| 最近中文字幕av| 欧美大片va欧美在线播放| 一区二区三区视频播放| 国产精品久久久久久久乖乖| 99re6这里只有精品视频在线观看| 免费人成视频在线| 日韩精品一区二区三区中文不卡| wwwww亚洲| 日本在线观看不卡| 国产在线观看免费一区| 精品少妇久久久| 亚洲美女视频网| 国产精品一区免费在线 | 视频一区欧美日韩| 亚洲熟女毛茸茸| 亚洲第一精品久久忘忧草社区| 日韩影片中文字幕| 国产又大又长又粗又黄| 成人国产精品免费网站| 在线观看国产区| 欧美成人在线免费| 亚洲aa在线| 91 视频免费观看| 欧美日韩国产黄| 男人和女人做事情在线视频网站免费观看 | caoporen国产精品视频| 中文人妻熟女乱又乱精品| 久久99精品久久久久久噜噜| 女厕嘘嘘一区二区在线播放| 伊人色在线视频| 日本韩国欧美在线| 中文在线免费| 四虎一区二区| 91在线观看一区二区| 国产女人高潮毛片|