快手Klear-Reasoner登頂8B模型榜首，GPPO算法雙效強化穩定性與探索能力！精華

發布于 2025-8-19 18:15

瀏覽

0收藏

在大語言模型的競爭中，數學與代碼推理能力已經成為最硬核的“分水嶺”。從 OpenAI 最早將 RLHF 引入大模型訓練，到 DeepSeek 提出 GRPO 算法，我們見證了強化學習在推理模型領域的巨大潛力。然而，想要復現這些頂尖成果，并不只是“多喂點數據、跑幾輪訓練”這么簡單。現實是，很多中小規模的開源推理模型，在 AIME 這樣的高難數學競賽題、或 LiveCodeBench 這樣的復雜代碼評測中，依然與閉源 SOTA 存在明顯差距。

最近，快手 Klear 語言大模型團隊推出了全新的?Klear-Reasoner?模型，基于 Qwen3-8B-Base 打造，在數學與代碼的多個權威基準測試中達到同規模模型的 SOTA 水平，并完整公開了訓練細節與全流程 pipeline。
快手Klear-Reasoner登頂8B模型榜首，GPPO算法雙效強化穩定性與探索能力！-AI.x社區
論文標題： Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization
論文鏈接： https://arxiv.org/pdf/2508.07629
Hugging Face地址： https://huggingface.co/Suu/Klear-Reasoner-8B
GitHub地址： https://github.com/suu990901/KlearReasoner/tree/mainKlear-Reasoner

在 AIME2024、AIME2025、LiveCodeBench V5 和 V6 等基準測試中，不僅全面超越同規模的強力開源模型（包括 DeepSeek 蒸餾版 DeepSeek-R1-0528-8B），更是在 AIME2024 上取得了?90.5%、AIME2025 上取得了?83.2%?的驚人成績，直接登頂 8B 模型榜首。
快手Klear-Reasoner登頂8B模型榜首，GPPO算法雙效強化穩定性與探索能力！-AI.x社區
在這些成果的背后，最核心的技術創新是Klear團隊提出的?GPPO（Gradient-Preserving Clipping Policy Optimization）算法?——一種在保留訓練穩定性的同時，大幅提升探索能力的強化學習優化方法。

一、傳統clip的隱性代價

在PPO和GRPO等常用的策略優化方法中，clip是控制訓練穩定性的重要手段，它通過限制策略更新幅度，避免模型一步走得太遠而導致崩潰。然而，Klear團隊在實踐中發現，這種做法有兩個隱藏問題：

高熵token被裁剪：當高熵token（通常對應推理過程中的關鍵探索步驟）的重要性采樣比例$r_t(\theta)$超過上限$1+\epsilon$時，它們的梯度會被直接丟棄。這會限制模型的探索能力，使模型很快變得保守，不再嘗試新的思路。
負樣本延遲收斂：當次優軌跡的重要性采樣比例低于下限$1-\epsilon$時，梯度同樣被丟棄掉。這樣，模型需要多次重復犯同樣的錯誤，才能積累足夠信號去修正行為，顯著拖慢收斂速度。

換句話說，clip 機制在保護穩定性的同時，也切斷了模型獲取最有價值學習信號的通道，模型變得保守，不敢嘗試新路徑，遇到錯誤也修正遲緩。

二、GPPO方法：保留梯度的“溫和”方案

GPPO 的核心思想很直接：不丟棄任何梯度，并且對其進行溫和回傳。它通過stop gradient操作，將clip操作與梯度反向傳播解耦，在保持 clip 機制穩定性的同時，讓被截斷的 token 依然參與反向傳播，其優化目標如下：
快手Klear-Reasoner登頂8B模型榜首，GPPO算法雙效強化穩定性與探索能力！-AI.x社區
值得注意的是，$\frac{\delta}{\operatorname{sg}(\delta)}$數值上始終等于 1，因此前向計算保持不變。由于GPPO將梯度傳播與裁剪約束解耦，所以反向計算過程與標準clip方法不同。通過分析GPPO梯度表達式，可以進一步明確其回傳的梯度和標準clip方法的不同之處：
快手Klear-Reasoner登頂8B模型榜首，GPPO算法雙效強化穩定性與探索能力！-AI.x社區

GPPO讓被clip的token依然參與反向傳播。對于原本被clip的高熵token（正優勢且$r_t(\theta)>1+\epsilon_h$），梯度被保留，并約束在$1+\epsilon_h$水平，既能保留探索能力，又避免過大更新引發不穩定；對于原本被clip的負樣本token（負優勢且$r_t(\theta)<1-\epsilon_l$），梯度同樣被保留，并限制在$1-\epsilon_l$的幅度，加快錯誤修正。

三、實驗驗證

如下圖1，在與現有方法的對比中（包括DAPO的clip-higher以及MiniMax-M1的CISPO方法），GPPO在數學和代碼任務上都表現出優勢。DAPO法調整clip上限，但無法解決本質問題，還是會存在高熵token被clip的情況；相比于CISPO方法，GPPO繼承了PPO悲觀更新的策略，有助于其保持更清晰的優化信號，并促進更穩定的策略訓練。
快手Klear-Reasoner登頂8B模型榜首，GPPO算法雙效強化穩定性與探索能力！-AI.x社區
圖1: 數學強化學習訓練中GPPO、GRPO（帶Clip Higher策略）與CISPO的對比兩種方法均基于早期長鏈思維微調檢查點（序列長度32K tokens）進行訓練。

對于GRPO，我們采用DAPO論文推薦的Clip-Higher策略$\epsilon_h$ = 0.28。

四、更多實驗洞察

除了提出GPPO算法外，Klear團隊在論文中對訓練流程的多個關鍵環節進行了深入實驗與分析，揭示了長思維鏈推理模型成功背后的幾個核心要素：

SFT階段：質量優先，數據可靠性比數量更重要

要在長思維鏈推理中實現強大的性能，優先考慮數據質量比簡單地最大化表面的多樣性更有效。實驗表明，與數據量大但質量參差的數據源相比，來自少數高質量數據源的樣本更具訓練效率和效果優勢。原因在于，高質量來源的數據往往封裝了解決復雜任務所需的最有效、內部一致的推理模式，而添加低質量來源數據會不可避免地引入噪音，例如邏輯混亂、不正確的推導或低效的問題解決策略，從而在訓練過程中影響模型的優化方向。如下表1和表2，分別對數學和代碼TopK優質數據源進行實驗，僅來自Top1或者Top2的優質數據源取得了最好的成績。
快手Klear-Reasoner登頂8B模型榜首，GPPO算法雙效強化穩定性與探索能力！-AI.x社區
表1:?高質量數學數據Top-K子集組合對監督微調（SFT）性能的影響在每個Top-K配置下。加粗數值表示對應Top-K配置下的最佳性能表現。

快手Klear-Reasoner登頂8B模型榜首，GPPO算法雙效強化穩定性與探索能力！-AI.x社區
表2:?高質量代碼數據Top-K子集組合對監督微調（SFT）性能的影響

在每個Top-K配置下。加粗數值表示對應Top-K配置下的最佳性能表現。

SFT階段：高難樣本容錯反而能促進學習

對于簡單任務，錯誤樣本的引入會明顯影響性能，但對于高難度任務，完全剔除推理鏈中有錯誤的樣本未必是最優策略。相反，保留部分帶瑕疵的推理路徑，反而能夠提升模型表現。這一看似反直覺的現象表明，在高不確定性、初始學習信號較弱的場景中，錯誤示例同樣具有價值，它們為模型提供了更多在解題空間中的探索能力。如下表3所示，未對錯誤的簡單樣本過濾對性能損害明顯，然而不對困難樣本進行正確性過濾對性能卻能有明顯提升。
快手Klear-Reasoner登頂8B模型榜首，GPPO算法雙效強化穩定性與探索能力！-AI.x社區
表3: 通過三組實驗分析了數據正確性對模型性能的影響。

分別在簡單（Easy）、困難（Hard）和整體（Overall）任務集上對比了純正確數據（Only True）與含錯誤數據的混合數據（Mixed）的表現差異。上述表格中加粗數值標識了各組內的最優性能結果。

RL階段：軟獎勵優于硬獎勵

在代碼任務的強化學習階段，使用軟獎勵（根據通過測試用例的通過率）比硬獎勵（完全通過得分，否則為零）更有效。如下圖2所示，將測試用例的通過率作為獎勵比直接用硬獎勵取得了明顯的改進。軟獎勵不僅緩解了獎勵稀疏問題，還增加了訓練信號的密度，降低了梯度估計的方差，讓模型的學習過程更穩定、更高效。
快手Klear-Reasoner登頂8B模型榜首，GPPO算法雙效強化穩定性與探索能力！-AI.x社區
圖2:代碼強化學習中軟獎勵與硬獎勵策略的對比

在軟獎勵設置中，獎勵值等于測試用例通過率；而在硬獎勵設置中，僅當所有測試用例均通過時給予正向獎勵，否則給予負向獎勵。

RL階段：代碼數據測試用例過濾

開源的代碼數據，有些數據的測試用例存在錯誤，即使是正確的代碼也無法通過執行，這些數據會導致RL訓練存在假陰的情況。為了過濾掉測試存在問題的數據，在代碼RL數據準備階段，Klear團隊調用DeepSeek-R1-0120為每個prompt生成了16條回復，只有pass@16大于0.5的數據會被保留。如下圖3所示過濾能顯著提升了 RL 訓練的性能。
快手Klear-Reasoner登頂8B模型榜首，GPPO算法雙效強化穩定性與探索能力！-AI.x社區
圖3: 在LiveCodeBench V5基準（avg@4指標）上，使用過濾與未過濾數據的代碼強化學習性能對Filter表示使用過濾數據的強化學習結果，而w/o Filter代表使用原始未過濾數據集的結果。

五、未來展望

Klear-Reasoner 的推出，不僅是一份性能亮眼的開源權重，更為社區貢獻了一條可復現、可推廣的推理模型監督學習和強化學習路線。通過 GPPO，推理模型可以在穩定性與探索力之間找到新的平衡點，讓它們既敢于嘗試，也能迅速糾錯。這對于未來的數學、代碼，甚至其他RLVR任務，都有著重要的參考價值。

標簽

后端

人工智能

大模型

已于2025-8-19 18:15:00修改

贊

回復

舉報

社區頭條

回復

51CTO

51CTO博客

51CTO學堂

快手Klear-Reasoner登頂8B模型榜首，GPPO算法雙效強化穩定性與探索能力！精華

一、傳統clip的隱性代價

二、GPPO方法：保留梯度的“溫和”方案

三、實驗驗證