一半成本,更優性能:JustRL用"反常識"配方打破強化學習訓練迷思

大家好,我是肆〇柒。我看到一個關于RL的實踐研究,今天和大家分享一下,是清華大學自然語言處理實驗室(THU NLP Lab)最新發布的JustRL研究。他們在探索大型語言模型強化學習訓練時,做了一個"反常識"的實驗:把所有超參數固定、取消多階段管道、直接使用完整數據——那些被認為必不可少的復雜機制,統統去掉。結果令人意外:這套極簡配方不僅訓練過程異常穩定,4000多步沒有一次震蕩,最終在九個數學基準測試中達到了當前最優(SOTA)性能,而且只用了主流復雜方法一半的計算量。更重要的是,這套配方在DeepSeek和Nemotron兩個完全不同的架構上都有效,證明了方法的普適性。

這個發現對整個強化學習訓練范式提出了一個尖銳的問題:我們是否在復雜性的道路上走得太遠了?
一個實驗,兩個結果,一個顛覆性發現。
當研究團隊把訓練超參數全部固定——沒有學習率衰減、沒有動態調度、沒有課程學習——他們預期會看到訓練崩潰或性能平庸。結果恰恰相反:訓練曲線平滑上升,4000多步沒有一次震蕩,最終在九個數學基準測試中達到當前最優(SOTA)性能。更令人意外的是,這套"簡陋"配方只用了主流復雜方法一半的計算量。
這不是偶然。JustRL在兩個不同架構的1.5B模型上驗證了同一個結論:強化學習訓練的競爭性能,不需要復雜的多階段管道、精巧的超參數調度,甚至不需要課程學習。單階段、固定參數、完整數據——這個極簡配方挑戰了過去幾年建立起來的方法論共識。
對于正在為訓練不穩定頭疼、為超參數調優煎熬、為論文復現困擾的研究者和工程師,這個發現意味著一條完全不同的路徑:你不需要海量算力和復雜工程,也能訓練出高性能的推理模型。
當前訓練范式的隱性成本
翻開ProRL-V2、BroRL、QuestA等近期高性能方法的論文,會看到驚人相似的技術清單:
- 多階段訓練管道:預訓練階段、初始對齊階段、強化學習階段,每個階段有不同的數據配置和超參數設置
- 動態超參數調度:學習率從warm-up逐步提升再衰減,采樣溫度根據訓練進度調整,KL懲罰系數動態變化
- 課程學習策略:根據問題難度排序,從簡單問題逐步過渡到困難問題,有的甚至根據模型表現實時調整數據分布
- 復雜獎勵設計:不僅評估最終答案,還對推理過程、步驟正確性、格式規范性分別打分
這套體系看似嚴密,但帶來了三個隱性成本:
第一,訓練不穩定風險。 動態調度的每一個決策點都是潛在的故障點。學習率衰減太快,模型學習停滯;衰減太慢,后期震蕩。課程設計不當,模型可能過擬合簡單樣本,在困難問題上表現反而下降。這些復雜機制反而成為訓練不穩定和結果難以復現的源頭。
第二,超參數調優負擔。 每增加一個動態調度策略,就多了一組需要調優的超參數。調度曲線的形狀(線性?指數?余弦?)、切換時機(多少步后開始衰減?)、切換幅度(每次調整多少?)——每個選擇都需要大量試錯。對于資源有限的團隊,這種試錯成本可能比訓練本身更高。
第三,方法復現困難。 即使論文詳細描述了超參數設置,動態調度策略的細節往往難以完整傳達。不同代碼實現、不同硬件環境,都可能導致訓練動態的微妙差異。研究的blog指出,復雜性帶來了"復現困難"的問題。
JustRL的核心問題由此而來:這些復雜性真的必要嗎? 如果不必要,能否用極簡方案達到同等甚至更好的效果?
反常識的實驗:固定一切,然后等待
JustRL的做法在強化學習領域近乎"異端":
- 超參數全程固定:學習率、采樣溫度、裁剪閾值、KL懲罰系數——所有參數從第一步到最后一步保持恒定,沒有任何調度
- 單階段訓練:沒有預熱期、沒有調優期、沒有階段切換,從頭到尾就是一個訓練循環
- 完整數據直接使用:DAPO-Math-17k數據集不做任何難度過濾、不做動態采樣、不做課程設計,模型接觸到完整的問題分布
- 極簡獎勵機制:答案對就是1分,錯就是0分,不評估過程、不打部分分、不考慮格式
這套配方簡單到令人懷疑。按照傳統觀念,固定的學習率會導致訓練初期不穩定(步長太大)或后期收斂緩慢(步長太小)。沒有課程學習,模型可能被困難樣本"嚇倒",學習效率低下。極簡獎勵可能丟失有價值的過程信號。
但實驗結果打破了這些預期。
超過4000個訓練步驟呈現出"平滑、單調的性能改進曲線,沒有出現訓練崩潰或性能震蕩現象"。這種穩定性在強化學習訓練中極為罕見——動態調度方法常常在某個階段出現性能突然下降,需要調整策略才能恢復。而JustRL的訓練過程就像一條平穩向上的直線,沒有意外、沒有波動。
更關鍵的證據來自跨架構驗證。研究發布了兩個模型:JustRL-DeepSeek-1.5B和JustRL-Nemotron-1.5B,分別基于完全不同的基礎架構訓練。兩個模型使用完全相同的超參數配置,都實現了穩定訓練并達到SOTA性能。 這意味著這套極簡配方不是針對某個特定模型的偶然發現,而是在1.5B規模上具有普適性的方法論。
數據會說話:簡約方法的競爭力
JustRL-DeepSeek-1.5B模型的性能數據揭示了第一層反差。該模型基于DeepSeek-R1-Distill-Qwen-1.5B訓練,在九大基準上的完整表現如下:
模型 | AIME24 | AIME25 | AMC23 | MATH-500 | Minerva | OlympiadBench | HMMT25 | BRUMO25 | CMIMC25 | 平均 |
DeepSeek-R1-Distill-1.5B | 29.90 | 22.40 | 63.82 | 84.90 | 34.65 | 45.95 | 13.44 | 30.94 | 12.89 | 37.65 |
DeepScaleR-1.5B-Preview | 40.21 | 28.65 | 73.83 | 89.30 | 39.34 | 52.79 | 18.96 | 40.00 | 21.00 | 44.88 |
ProRL-V2 | 51.87 | 35.73 | 88.75 | 92.00 | 49.03 | 67.84 | 19.38 | 47.29 | 25.86 | 53.08 |
BroRL | 57.50 | 36.88 | / | 92.14 | 49.08 | 61.54 | / | / | / | / |
JustRL-DeepSeek-1.5B | 52.60 | 38.75 | 91.02 | 91.65 | 51.47 | 67.99 | 21.98 | 52.71 | 25.63 | 54.87 |
這張表格講述的不只是性能數字,而是三個顛覆性的發現:
發現一:簡單配方打敗復雜管道。 JustRL的平均54.87%超過ProRL-V2的53.08%,雖然僅1.79個百分點,但,JustRL使用的計算量僅為ProRL-V2的一半。在AMC23上,JustRL達到91.02%,比ProRL-V2的88.75%高出2.27個百分點。在BRUMO25這個最新競賽基準上,JustRL的52.71%顯著超過ProRL-V2的47.29%——提升5.42個百分點。這意味著在新問題的泛化能力上,簡約方法甚至可能更強。
發現二:效率才是真正的護城河。 BroRL在AIME24上取得了57.50%的最高分,超過JustRL的52.60%。研究的blog揭示了一個關鍵細節:BroRL將每個樣本的rollout次數增加到512,總計算量是JustRL的4.9倍。這本質上是窮舉式探索解決方案空間,通過暴力搜索覆蓋更多可能的解題路徑。這種方法在學術基準上可能有效,但在實際應用中面臨嚴重的可行性問題:誰愿意為每個問題生成512個候選答案?
發現三:相比基線的提升幅度揭示了方法的真實價值。 JustRL相比基線模型DeepSeek-R1-Distill-1.5B,平均性能從37.65%躍升至54.87%,增幅達到17.22個百分點。在BRUMO25上提升21.77個百分點,在AIME25上提升16.35個百分點,在CMIMC25上提升12.74個百分點。這些大幅提升集中在競賽級困難問題上,說明強化學習訓練對于復雜推理的改進效果顯著——而這一切,是用極簡方案達成的。
JustRL-Nemotron-1.5B模型的數據揭示了第二層反差:
模型 | AIME24 | AIME25 | AMC23 | MATH-500 | Minerva | OlympiadBench | HMMT25 | BRUMO25 | CMIMC25 | 平均 |
OpenMath-Nemotron-1.5B | 58.75 | 48.44 | 90.55 | 92.40 | 26.93 | 71.70 | 30.10 | 61.67 | 30.08 | 56.74 |
QUESTA-Nemotron-1.5B | 71.56 | 62.08 | 93.44 | 92.95 | 32.08 | 72.28 | 40.94 | 67.50 | 41.48 | 63.81 |
JustRL-Nemotron-1.5B | 69.69 | 62.92 | 96.02 | 94.15 | 30.24 | 76.59 | 40.63 | 66.88 | 41.72 | 64.32 |
這張表格傳遞的信息更加微妙但同樣重要。JustRL-Nemotron-1.5B實現了64.32%的平均性能,小幅超越QuestA的63.81%,僅0.51個百分點的差距。在九個基準中,JustRL在五個測試上領先,包括AMC23的96.02%(領先2.58個百分點)、Olympiad-Bench的76.59%(領先4.31個百分點)。
研究的blog對這種微小差距給出了坦誠的解讀:"這種差距是合理的——兩種方法都在推動1.5B規模的性能邊界。"在這個參數規模下,任何方法都很難實現大幅領先。但關鍵的區別在于達成路徑:JustRL使用的計算量僅為QuestA的一半,且無需設計復雜的課程學習策略。QuestA采用了精心設計的課程,根據問題難度動態調整訓練樣本分布。而JustRL直接使用完整數據集,用更簡單的方式達到了相當甚至略好的效果。
兩張表格共同傳遞的核心信息是:簡約不是妥協,而是效率革命。 在兩個不同架構上,使用相同的簡單配置,JustRL都實現了與最復雜方法相當或更優的性能,同時顯著降低了計算成本和工程復雜度。
為什么簡單反而更好?技術機制的深層邏輯
JustRL的成功不是靠運氣,而是基于三個核心技術選擇的協同效應。
GRPO:用群體智慧替代價值估計
理解JustRL的起點是GRPO(Group-wise Relative Policy Optimization)算法。傳統的PPO算法需要一個獨立的價值網絡來估計"這個行動有多好",這個網絡需要額外訓練,消耗大量內存,還可能因為估計偏差誤導訓練方向。
GRPO的創新在于徹底取消價值網絡,用群組統計量替代個體估計。對于每個數學問題,模型生成多個不同的解答(通常幾十個),形成一個"評估群組"。每個解答獨立評分后,用群組的平均分作為參照基線。表現高于組內平均的解答被強化,低于平均的被抑制。
這種設計在數學推理場景中特別有效。數學答案有明確的對錯標準,通過群組內的橫向對比,模型能夠快速識別哪些推理策略更優。同時,一次生成多個解答也帶來了探索的多樣性——模型能夠嘗試不同的解題路徑,不會過早鎖定某個局部最優解。
從資源角度,GRPO的優勢更加明顯。取消價值網絡意味著內存消耗大幅降低——不需要存儲和更新另一個大型神經網絡的參數。這使得在有限的GPU資源下訓練更大規模的模型成為可能。同時,基于群組統計的優勢估計避免了價值網絡可能帶來的擬合偏差,訓練過程因此更加穩定。
二元獎勵:聚焦本質的設計哲學
JustRL的獎勵系統只有兩個狀態:答案正確得1分,錯誤得0分。沒有過程分、沒有部分分、沒有根據解題步驟給予的漸進式獎勵。
這種極簡設計抓住了數學問題的本質特征——答案的確定性。無論推理過程多么曲折,最終結果要么對、要么錯。二元獎勵將評估邏輯完全聚焦于這個本質,避開了過程獎勵設計的所有困境:如何定義"部分正確"?如何量化"推理質量"?如何在不同題型間統一評分標準?這些問題在二元框架下根本不存在。
答案驗證采用DAPO驗證器的字符串匹配方法,刻意避開SymPy等符號計算庫。字符串匹配雖然簡單,但在數學答案驗證場景中已經足夠可靠,同時能夠大幅降低系統復雜度和計算開銷——更少的軟件依賴、更快的驗證速度、更少的潛在故障點。
評估階段引入CompassVerifier-3B模型作為混合驗證的補充。這個3B參數的模型能夠理解格式變化和等價表達(比如"1/2"和"0.5"),彌補純字符串匹配的局限。訓練階段保持簡單,評估階段適度增強——這種分層設計在簡潔性和可靠性之間找到了平衡。
固定超參數:穩定性的意外來源
最違反直覺的設計是超參數的完全固定。從第一步到最后一步,學習率、采樣溫度、梯度裁剪閾值——所有參數保持恒定。
傳統觀念認為,固定學習率會帶來兩難:設置太大,訓練初期不穩定;設置太小,后期收斂緩慢。因此主流做法是動態調度——初期warm-up保證穩定,中期提升加快收斂,后期衰減精細調優。
但JustRL的實踐揭示了一個反常識的規律:在某些場景下,固定的簡單策略反而比動態的復雜機制更穩定。4000多個訓練步驟呈現平滑上升曲線,沒有崩潰或震蕩。這種穩定性的來源可能是:動態調度的每個決策點都是潛在的故障點,而固定策略消除了所有這些風險。
跨架構驗證進一步證實了這一點。DeepSeek和Nemotron代表不同的模型設計理念,卻都能用相同的固定超參數實現高性能訓練。這表明存在一組相對魯棒的超參數配置,在1.5B規模的數學推理訓練中具有普適性,無需為每個模型專門調優。
唯一引入的技術是"clip higher"——允許正向梯度有更大步長的非對稱裁剪。這鼓勵模型在發現有效策略時更大膽地強化,促進策略空間的探索。但即便如此,這個技術本身也是固定的,不隨訓練進度變化。
完整數據直接使用:質疑課程學習的必要性
JustRL直接使用DAPO-Math-17k數據集,沒有離線難度過濾,沒有在線動態采樣。模型在訓練中接觸到完整的問題分布,簡單題和困難題隨機混合出現。
這挑戰了課程學習的傳統智慧。主流觀點認為,從易到難的漸進式學習能幫助模型更好地掌握知識。QuestA等方法采用精心設計的課程,根據問題難度動態調整訓練樣本。
但JustRL的實踐提出了質疑:如果數據集本身已經經過策劃,額外的課程調度可能收益有限。DAPO-Math-17k的"精選"性質意味著它已經排除了過于簡單或質量不佳的問題。在此基礎上,GRPO的群組采樣機制提供了自適應學習能力——對于困難問題,模型有多次嘗試機會,通過群組內的相對比較來學習;對于簡單問題,模型能快速識別有效策略。混合難度反而可能幫助模型建立更魯棒的推理能力,學會適應不同難度場景,而不是依賴固定的難度梯度。
上下文長度硬性限制在16K Token,超過則直接截斷,不設軟性懲罰項。這個長度已經能夠覆蓋絕大多數問題的完整解答過程,同時避免了長度懲罰帶來的超參數調優負擔。
從零到結果:實踐路徑
JustRL的開源實現為研究者提供了清晰的實踐路徑,降低了復現和應用的門檻。
環境準備:精確版本的可復現性保證
推薦使用conda創建Python 3.10環境,然后安裝精確版本的依賴包:PyTorch 2.6.0、vLLM 0.8.4、transformers 4.51.3、sympy 1.13.1、pylatexenc 2.10。
這些版本要求不是隨意選擇——深度學習框架的版本差異可能導致數值計算的微妙變化,最終影響推理結果。精確指定依賴版本是確保結果可復現的關鍵。許多研究因為版本差異而無法復現,JustRL通過明確版本要求規避了這個問題。
生成與評分:兩步評估流程
評估分為兩個階段。第一階段使用gen_vllm.py腳本調用vLLM推理引擎生成回答。用戶在腳本中設置NAME變量指定模型(如"hbx/JustRL-DeepSeek-1.5B"),配置available_workers參數控制并行度。腳本自動遍歷九個基準測試,為每個問題生成指定次數的回答(競賽基準32次,綜合基準4次),輸出保存為JSONL格式。
第二階段使用grade.py腳本進行評分。腳本掃描所有JSONL文件,使用混合驗證器——先規則匹配檢查格式和內容,再調用CompassVerifier-3B模型進行語義驗證——判斷每個回答的正確性,最終生成grading_results.json匯總文件。
快速驗證:預生成輸出的直接訪問
想要快速驗證結果的研究者可以從Google Drive下載預生成的評估輸出。這些文件包含JustRL-DeepSeek-1.5B和JustRL-Nemotron-1.5B在所有基準上的完整回答和評分結果。下載后解壓到justrl_eval_outputs/文件夾,即可直接查看詳細數據,無需重新運行生成和評分流程。
模型權重:即用型資源的開放獲取
模型權重托管在Hugging Face平臺:hbx/JustRL-DeepSeek-1.5B和hbx/JustRL-Nemotron-1.5B。即使沒有訓練資源,研究者也能下載這些訓練好的模型進行推理或進一步分析。這種開放性降低了使用門檻,讓更多人能夠基于這些模型開展工作。
倉庫的目錄結構清晰:evals/存放評估腳本,data/包含九個基準測試數據集,justrl_eval_outputs/用于存放評估輸出。這種組織讓研究者能夠快速定位所需組件。
簡約哲學的行業啟示:我們是否走錯了方向?
JustRL的價值不僅在于1.5B模型的性能數字,更在于它對整個強化學習訓練范式的反思。
復雜性不等于先進性
在許多研究領域,技術方案的復雜度似乎成為了創新的標志。更多的訓練階段、更精巧的調度策略、更復雜的損失函數——這些元素在論文中被視為技術深度的體現。JustRL的實踐表明,至少在某些場景下,簡單穩定的方法比精巧復雜的系統更有價值。
這并非反對復雜性本身,而是質疑"為復雜而復雜"的傾向。每增加一個技術組件,都應該問:這個組件解決了什么真實問題?去掉它會有什么后果?如果答案是"不確定"或"可能沒什么影響",那就該重新審視這個組件的必要性。
效率是可持續創新的基礎
JustRL用一半計算量達到更好性能,這不只是成本節約,更是可持續創新的基礎。當一個方法需要數周訓練、消耗數萬美元算力時,只有少數擁有海量資源的機構能夠開展研究。這種高門檻限制了參與者的多樣性,最終可能限制創新的多樣性。
相反,如果一個方法只需數天訓練、成本降低一半,更多團隊就能參與進來。學術機構、創業公司、獨立研究者——不同背景的參與者會帶來不同視角的創新。降低資源門檻就是拓寬創新的賽道。
可復現性是科學研究的生命線
研究的"可復現性"和"穩定性"很重要。這不是技術細節,而是科學研究的生命線。一個需要大量調參才能復現的方法,其科學價值是存疑的——它更像是一個"偶然成功的配置",而非一個"穩健的方法論"。
JustRL通過固定超參數、精確版本依賴、完整開源實現,最大化了可復現性。任何人按照文檔操作,都應該能夠得到相近的結果。這種透明度和可驗證性,是建立研究信任的基礎。
普適性比專用優化更重要
兩個不同架構使用相同超參數都成功,這揭示了方法的普適性價值。在實際應用中,普適的簡單方法往往比專用的復雜優化更有用——前者可以快速應用到新場景,后者則需要為每個新場景重新調優。
這對工業界尤其重要。當需要快速驗證一個想法、評估一個新模型、遷移到新任務時,能夠直接套用的簡單方法比需要精心調參的復雜方案更具實用價值。時間成本和機會成本常常比性能的幾個百分點更重要。
你可以做什么:行動建議
對于正在或計劃開展強化學習訓練的研究者和工程師,JustRL提供了三條可行的行動路徑:
路徑一:直接使用。 如果你的任務是1.5B規模的數學推理,可以直接下載JustRL-DeepSeek-1.5B或JustRL-Nemotron-1.5B模型進行推理。這些模型已經在九個基準上驗證,可以作為強有力的基線或直接應用。
路徑二:復現驗證。 按照開源的評估腳本和環境配置,在你關心的基準上驗證JustRL的性能。這既是對方法的驗證,也是建立自己評估流程的起點。完整的依賴版本和詳細文檔大幅降低了復現難度。
路徑三:方法遷移。 如果你的任務不是數學推理,可以嘗試將JustRL的簡約哲學遷移到你的場景:固定超參數、單階段訓練、簡化獎勵設計。這些原則在1.5B數學推理上有效,它們在其他規模和任務上的表現值得探索。
更重要的是思維轉變。 下次設計訓練方案時,先從最簡單的配置開始。只有當簡單方案確實不夠用時,才逐步增加復雜性。每增加一個組件,都要問:這真的必要嗎?去掉它會有什么后果?這種"簡約優先"的思維方式,可能會帶來意想不到的收獲。
總結:重新定義"先進"
JustRL的故事揭示了一個常被忽視的真理:先進不等于復雜,有時恰恰相反。
在1.5B參數規模的數學推理訓練中,單階段、固定超參數、完整數據這個極簡配方,用一半的計算量達到了當前最優性能。這不是性能妥協,而是效率革命。它證明了強化學習訓練不必是少數擁有海量算力的機構才能玩轉的游戲,也不必是需要精巧調參技藝的藝術——它可以是一個簡單、穩定、可復現的工程實踐。
對于正在為訓練不穩定困擾、為超參數調優煎熬、為論文復現掙扎的你,JustRL的信息很清晰:試試最簡單的方案,它可能比你想象的更有效。
當整個行業在復雜性的道路上越走越遠時,或許是時候停下來問一句:我們是否走錯了方向?簡單、高效、可復現——這些看似"不性感"的品質,也許才是可持續創新的真正基石。




























