精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

快手Klear-Reasoner登頂8B模型榜首,GPPO算法雙效強化穩定性與探索能力! 精華

發布于 2025-8-19 18:15
瀏覽
0收藏

在大語言模型的競爭中,數學與代碼推理能力已經成為最硬核的“分水嶺”。從 OpenAI 最早將 RLHF 引入大模型訓練,到 DeepSeek 提出 GRPO 算法,我們見證了強化學習在推理模型領域的巨大潛力。然而,想要復現這些頂尖成果,并不只是“多喂點數據、跑幾輪訓練”這么簡單。現實是,很多中小規模的開源推理模型,在 AIME 這樣的高難數學競賽題、或 LiveCodeBench 這樣的復雜代碼評測中,依然與閉源 SOTA 存在明顯差距。

最近,快手 Klear 語言大模型團隊推出了全新的?Klear-Reasoner?模型,基于 Qwen3-8B-Base 打造,在數學與代碼的多個權威基準測試中達到同規模模型的 SOTA 水平,并完整公開了訓練細節與全流程 pipeline
快手Klear-Reasoner登頂8B模型榜首,GPPO算法雙效強化穩定性與探索能力!-AI.x社區
論文標題: Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization
論文鏈接: https://arxiv.org/pdf/2508.07629
Hugging Face地址: https://huggingface.co/Suu/Klear-Reasoner-8B
GitHub地址: https://github.com/suu990901/KlearReasoner/tree/mainKlear-Reasoner

在 AIME2024、AIME2025、LiveCodeBench V5 和 V6 等基準測試中,不僅全面超越同規模的強力開源模型(包括 DeepSeek 蒸餾版 DeepSeek-R1-0528-8B),更是在 AIME2024 上取得了?90.5%、AIME2025 上取得了?83.2%?的驚人成績,直接登頂 8B 模型榜首。
快手Klear-Reasoner登頂8B模型榜首,GPPO算法雙效強化穩定性與探索能力!-AI.x社區
在這些成果的背后,最核心的技術創新是Klear團隊提出的?GPPO(Gradient-Preserving Clipping Policy Optimization)算法?——一種在保留訓練穩定性的同時,大幅提升探索能力的強化學習優化方法

一、傳統clip的隱性代價

在PPO和GRPO等常用的策略優化方法中,clip是控制訓練穩定性的重要手段,它通過限制策略更新幅度,避免模型一步走得太遠而導致崩潰。然而,Klear團隊在實踐中發現,這種做法有兩個隱藏問題:

  1. 高熵token被裁剪:當高熵token(通常對應推理過程中的關鍵探索步驟)的重要性采樣比例$r_t(\theta)$超過上限$1+\epsilon$時,它們的梯度會被直接丟棄。這會限制模型的探索能力,使模型很快變得保守,不再嘗試新的思路。
  2. 負樣本延遲收斂:當次優軌跡的重要性采樣比例低于下限$1-\epsilon$時,梯度同樣被丟棄掉。這樣,模型需要多次重復犯同樣的錯誤,才能積累足夠信號去修正行為,顯著拖慢收斂速度。

換句話說,clip 機制在保護穩定性的同時,也切斷了模型獲取最有價值學習信號的通道,模型變得保守,不敢嘗試新路徑,遇到錯誤也修正遲緩。

二、GPPO方法:保留梯度的“溫和”方案

GPPO 的核心思想很直接:不丟棄任何梯度,并且對其進行溫和回傳。它通過stop gradient操作,將clip操作與梯度反向傳播解耦,在保持 clip 機制穩定性的同時,讓被截斷的 token 依然參與反向傳播,其優化目標如下:
快手Klear-Reasoner登頂8B模型榜首,GPPO算法雙效強化穩定性與探索能力!-AI.x社區
值得注意的是,$\frac{\delta}{\operatorname{sg}(\delta)}$數值上始終等于 1,因此前向計算保持不變。由于GPPO將梯度傳播與裁剪約束解耦,所以反向計算過程與標準clip方法不同。通過分析GPPO梯度表達式,可以進一步明確其回傳的梯度和標準clip方法的不同之處:
快手Klear-Reasoner登頂8B模型榜首,GPPO算法雙效強化穩定性與探索能力!-AI.x社區
快手Klear-Reasoner登頂8B模型榜首,GPPO算法雙效強化穩定性與探索能力!-AI.x社區
GPPO讓被clip的token依然參與反向傳播。對于原本被clip的高熵token(正優勢且$r_t(\theta)>1+\epsilon_h$),梯度被保留,并約束在$1+\epsilon_h$水平,既能保留探索能力,又避免過大更新引發不穩定;對于原本被clip的負樣本token(負優勢且$r_t(\theta)<1-\epsilon_l$),梯度同樣被保留,并限制在$1-\epsilon_l$的幅度,加快錯誤修正。

三、實驗驗證

如下圖1,在與現有方法的對比中(包括DAPO的clip-higher以及MiniMax-M1的CISPO方法),GPPO在數學和代碼任務上都表現出優勢。DAPO法調整clip上限,但無法解決本質問題,還是會存在高熵token被clip的情況;相比于CISPO方法,GPPO繼承了PPO悲觀更新的策略,有助于其保持更清晰的優化信號,并促進更穩定的策略訓練。
快手Klear-Reasoner登頂8B模型榜首,GPPO算法雙效強化穩定性與探索能力!-AI.x社區
圖1: 數學強化學習訓練中GPPO、GRPO(帶Clip Higher策略)與CISPO的對比兩種方法均基于早期長鏈思維微調檢查點(序列長度32K tokens)進行訓練。

對于GRPO,我們采用DAPO論文推薦的Clip-Higher策略$\epsilon_h$ = 0.28。

四、更多實驗洞察

除了提出GPPO算法外,Klear團隊在論文中對訓練流程的多個關鍵環節進行了深入實驗與分析,揭示了長思維鏈推理模型成功背后的幾個核心要素:

SFT階段:質量優先,數據可靠性比數量更重要

要在長思維鏈推理中實現強大的性能,優先考慮數據質量比簡單地最大化表面的多樣性更有效。實驗表明,與數據量大但質量參差的數據源相比,來自少數高質量數據源的樣本更具訓練效率和效果優勢。原因在于,高質量來源的數據往往封裝了解決復雜任務所需的最有效、內部一致的推理模式,而添加低質量來源數據會不可避免地引入噪音,例如邏輯混亂、不正確的推導或低效的問題解決策略,從而在訓練過程中影響模型的優化方向。如下表1和表2,分別對數學和代碼TopK優質數據源進行實驗,僅來自Top1或者Top2的優質數據源取得了最好的成績。
快手Klear-Reasoner登頂8B模型榜首,GPPO算法雙效強化穩定性與探索能力!-AI.x社區
表1:?高質量數學數據Top-K子集組合對監督微調(SFT)性能的影響在每個Top-K配置下。加粗數值表示對應Top-K配置下的最佳性能表現。

快手Klear-Reasoner登頂8B模型榜首,GPPO算法雙效強化穩定性與探索能力!-AI.x社區
表2:?高質量代碼數據Top-K子集組合對監督微調(SFT)性能的影響

在每個Top-K配置下。加粗數值表示對應Top-K配置下的最佳性能表現。

SFT階段:高難樣本容錯反而能促進學習

對于簡單任務,錯誤樣本的引入會明顯影響性能,但對于高難度任務,完全剔除推理鏈中有錯誤的樣本未必是最優策略。相反,保留部分帶瑕疵的推理路徑,反而能夠提升模型表現。這一看似反直覺的現象表明,在高不確定性、初始學習信號較弱的場景中,錯誤示例同樣具有價值,它們為模型提供了更多在解題空間中的探索能力。如下表3所示,未對錯誤的簡單樣本過濾對性能損害明顯,然而不對困難樣本進行正確性過濾對性能卻能有明顯提升。
快手Klear-Reasoner登頂8B模型榜首,GPPO算法雙效強化穩定性與探索能力!-AI.x社區
表3: 通過三組實驗分析了數據正確性對模型性能的影響。

分別在簡單(Easy)、困難(Hard)和整體(Overall)任務集上對比了純正確數據(Only True)與含錯誤數據的混合數據(Mixed)的表現差異。上述表格中加粗數值標識了各組內的最優性能結果。

RL階段:軟獎勵優于硬獎勵

在代碼任務的強化學習階段,使用軟獎勵(根據通過測試用例的通過率)比硬獎勵(完全通過得分,否則為零)更有效。如下圖2所示,將測試用例的通過率作為獎勵比直接用硬獎勵取得了明顯的改進。軟獎勵不僅緩解了獎勵稀疏問題,還增加了訓練信號的密度,降低了梯度估計的方差,讓模型的學習過程更穩定、更高效。
快手Klear-Reasoner登頂8B模型榜首,GPPO算法雙效強化穩定性與探索能力!-AI.x社區
圖2:代碼強化學習中軟獎勵與硬獎勵策略的對比

在軟獎勵設置中,獎勵值等于測試用例通過率;而在硬獎勵設置中,僅當所有測試用例均通過時給予正向獎勵,否則給予負向獎勵。

RL階段:代碼數據測試用例過濾

開源的代碼數據,有些數據的測試用例存在錯誤,即使是正確的代碼也無法通過執行,這些數據會導致RL訓練存在假陰的情況。為了過濾掉測試存在問題的數據,在代碼RL數據準備階段,Klear團隊調用DeepSeek-R1-0120為每個prompt生成了16條回復,只有pass@16大于0.5的數據會被保留。如下圖3所示過濾能顯著提升了 RL 訓練的性能。
快手Klear-Reasoner登頂8B模型榜首,GPPO算法雙效強化穩定性與探索能力!-AI.x社區
圖3: 在LiveCodeBench V5基準(avg@4指標)上,使用過濾與未過濾數據的代碼強化學習性能對Filter表示使用過濾數據的強化學習結果,而w/o Filter代表使用原始未過濾數據集的結果。

五、未來展望

Klear-Reasoner 的推出,不僅是一份性能亮眼的開源權重,更為社區貢獻了一條可復現、可推廣的推理模型監督學習和強化學習路線。通過 GPPO,推理模型可以在穩定性與探索力之間找到新的平衡點,讓它們既敢于嘗試,也能迅速糾錯。這對于未來的數學、代碼,甚至其他RLVR任務,都有著重要的參考價值。

已于2025-8-19 18:15:00修改
收藏
回復
舉報
回復
相關推薦
欧美777四色影视在线| 国产精品美女毛片真酒店| 一区在线不卡| 亚洲大片在线观看| 视频一区视频二区视频| 99国产精品久久久久久久成人| 激情一区二区| 日韩中文字幕av| 老司机午夜免费福利| 国产私拍福利精品视频二区| 一片黄亚洲嫩模| 日本一区视频在线观看| 亚洲精品久久久蜜桃动漫 | 黑森林福利视频导航| 秋霞影院午夜丰满少妇在线视频| av网站免费线看精品| 91视频88av| 懂色av蜜臀av粉嫩av分享吧最新章节| 欧美 日韩 国产精品免费观看| 亚洲欧洲激情在线| 国产成人av片| 四虎视频在线精品免费网址| 日韩欧美国产成人| 日韩av新片网| 新版中文在线官网| 国产精品久久久久久久久果冻传媒| 国产在线播放一区二区| 精品二区在线观看| 麻豆精品一区二区| 国产精品久久久久久一区二区 | 色婷婷激情综合| 91免费黄视频| 大香伊人久久| 一区二区免费在线| 亚洲成人动漫在线| 免费人成在线观看播放视频| 国产亚洲欧美中文| 久久综合九色欧美狠狠| 日韩一级在线播放| 成人精品免费视频| 成人性色av| 精品久久久无码中文字幕| 老司机精品视频一区二区三区| 欧美综合在线第二页| 国产一区二区三区影院| 欧美日韩国内| 欧美黑人国产人伦爽爽爽| 色老板免费视频| 亚洲电影在线一区二区三区| 久久精品视频在线播放| 91日韩中文字幕| 欧美91视频| 欧美激情二区三区| 国产一级特黄aaa大片| 国产精品大片| 性色av香蕉一区二区| xxxxxx国产| 亚洲第一精品影视| 欧美在线www| 蜜臀99久久精品久久久久小说| 久久久精品性| 国产精品一区二区久久精品| 销魂美女一区二区| 老汉av免费一区二区三区| 国产噜噜噜噜久久久久久久久| 91精品国自产| 国产伦精品一区二区三区免费迷 | 国内精品久久久久久久影视蜜臀| 欧美激情视频在线观看| 亚洲国产综合久久| 美女日韩在线中文字幕| 国产精品久久久久久中文字| 国产又黄又猛又爽| 成人免费三级在线| 日韩av电影免费在线| 日日夜夜精品一区| 亚洲尤物在线视频观看| 日本a级片免费观看| 久久精品超碰| 日韩美女视频一区二区在线观看| 久久免费精品国产| 秋霞欧美视频| 欧美激情网站在线观看| 中文人妻av久久人妻18| 激情欧美日韩一区二区| 国产一区在线免费观看| √天堂资源地址在线官网| 亚洲主播在线观看| 日韩视频在线免费看| 国产不卡精品在线| 亚洲人成自拍网站| 欧美精品99久久久| 米奇777在线欧美播放| 国产日产欧美精品| 亚洲 另类 春色 国产| 成人免费在线观看入口| 777精品久无码人妻蜜桃| 开心久久婷婷综合中文字幕| 精品国产乱码久久久久久浪潮 | 国产自摸综合网| 四虎永久在线精品免费网址| 国产精品久久久久婷婷二区次| 亚洲人成无码网站久久99热国产 | 国产一区二区精品久久99| 精品国产综合| 成人影院在线看| 91黄色激情网站| youjizz.com日本| 色乱码一区二区三区网站| 97精品一区二区三区| 国产又粗又大又爽视频| 2021久久国产精品不只是精品| 法国空姐在线观看免费| 国产精品亚洲成在人线| 日韩精品中文字幕视频在线| 污污的视频在线免费观看| 久久亚洲一区| 国产综合第一页| 91一区二区三区在线| 欧美色综合网站| 久久久久久久久久久国产精品| 欧美三级特黄| 亚洲自拍另类欧美丝袜| 欧美日本一道| 精品视频一区二区三区免费| 高潮毛片无遮挡| 99国产精品| 高清国产在线一区| 午夜av在线免费观看| 91精品国产高清一区二区三区蜜臀| 久久久久亚洲av成人无码电影| 一区二区三区国产在线| 国产精品一国产精品最新章节| 国产成人在线视频免费观看| 欧美精品自拍偷拍| 九一在线免费观看| 日本不卡视频在线| 午夜精品一区二区在线观看的 | 成人欧美一区二区| 欧美人与性动交α欧美精品济南到| 欧美日韩成人在线| 国产精品久久国产精麻豆96堂| 久久综合九色综合欧美狠狠| 九九热久久66| 久久uomeier| 亚洲色图激情小说| 日韩xxx视频| 国产精品狼人久久影院观看方式| 久久99999| 久久精品亚洲人成影院| 亚洲最大av在线| 欧美黑人xx片| 亚洲国产精品电影在线观看| 日本少妇激情舌吻| 91麻豆国产香蕉久久精品| 国产精品丝袜久久久久久消防器材| 激情五月激情综合| 亚洲欧美日韩精品一区二区| 欧美日韩国产高清视频| 99久久伊人| 久久这里只有精品视频首页| 亚洲AV无码精品色毛片浪潮| 亚洲成av人综合在线观看| 变态另类丨国产精品| 日韩电影免费在线观看网站| 中文字幕在线亚洲精品| 亚洲精品视频一二三区| 欧美亚洲成人网| h视频在线播放| 91精品国产高清一区二区三区| 国产一级久久久| 久久蜜臀中文字幕| 国产乱叫456| 一区二区三区四区五区在线 | 成人免费高清完整版在线观看| a视频在线免费看| 亚洲黄页视频免费观看| 中文字幕乱码人妻二区三区| 一区二区免费在线播放| 久久99中文字幕| 国产精品自拍第一页| 成人avav在线| 男女男精品视频站| 影音先锋中文字幕一区二区| 青青草久久网络| 视频一区国产| 国产成人综合久久| 污污的网站在线看| 亚洲欧美一区二区三区四区| 国产精品乱码久久久| 午夜久久久久久久久| 五月天婷婷丁香网| a美女胸又www黄视频久久| 国产精品久久久毛片| 国产综合网站| 亚洲人久久久| 网友自拍区视频精品| 亚洲一区二区三区在线视频 | 一级黄色片大全| 国产精品一区二区在线观看不卡 | 国产午夜精品一区二区三区 | 久久久久久无码午夜精品直播| 一区二区三区在线视频播放| 韩国女同性做爰三级| 懂色一区二区三区免费观看| 另类小说第一页| 国产亚洲精品自拍| 久久久久久av无码免费网站下载| 国产精品一区二区av日韩在线 | 成人午夜av| 久久久久久欧美精品色一二三四| www.久久草.com| 国产精品丝袜白浆摸在线| 僵尸再翻生在线观看| 欧美成人激情图片网| av片在线免费观看| 亚洲开心激情网| 欧美自拍偷拍一区二区| 欧美一区二区三区四区高清 | 精品成人在线观看| 国产视频第二页| 欧美性xxxxxx少妇| 成人a v视频| 色综合天天狠狠| 黄色片视频网站| 亚洲一区二区三区四区的 | 欧美性猛交视频| 91美女免费看| 午夜精品免费在线| av资源吧首页| 亚洲一二三四在线| 国产一级视频在线观看| 亚洲国产综合色| 日本三级中文字幕| 舔着乳尖日韩一区| 国产成人精品一区二三区| 亚洲福利一区二区| 欧美一级高潮片| 亚洲国产中文字幕| 国产小视频在线免费观看| 午夜精品久久久久久| 99热只有这里有精品| 欧美色道久久88综合亚洲精品| 天天干天天干天天| 色偷偷成人一区二区三区91| 亚洲免费在线观看av| 一本一道波多野结衣一区二区| 全部毛片永久免费看| 婷婷国产在线综合| 亚洲不卡在线视频| 欧美色图12p| 99久久久久久久| 精品毛片乱码1区2区3区| 亚洲精品久久久久久动漫器材一区| 精品精品国产高清一毛片一天堂| 亚洲乱色熟女一区二区三区| 亚洲成人亚洲激情| 欧美日韩国产中文字幕在线| 国产一区二区三区在线观看视频| 最新97超碰在线| 欧美xxxx18性欧美| 超级白嫩亚洲国产第一| 日韩av免费网站| 2020国产精品小视频| 国产成人精品免费视频大全最热| 人体久久天天| 亚洲乱码国产乱码精品天美传媒| 亚洲国产精品久久久天堂| 中国丰满熟妇xxxx性| 久久亚洲欧美| 女人扒开腿免费视频app| 成人小视频在线观看| 久久久久久久久久久久| 亚洲婷婷综合久久一本伊一区| 久久久久亚洲av片无码下载蜜桃 | 色综合老司机第九色激情| 黄色在线免费观看网站| 国产精品福利在线观看网址| 国产一区二区三区亚洲综合 | 一边摸一边做爽的视频17国产| 91浏览器在线视频| 国产在线免费看| 午夜精品久久久久久久久| 最近国语视频在线观看免费播放| 日韩亚洲欧美综合| 免费在线观看一级毛片| 久久国产精品久久久| 自拍偷自拍亚洲精品被多人伦好爽| 成人免费福利视频| 久久av中文| 日本阿v视频在线观看| 免费观看久久久4p| 中文字幕一区三区久久女搜查官| 中文字幕av不卡| 国产成人无码一区二区三区在线| 欧美人伦禁忌dvd放荡欲情| 少妇人妻一区二区| 欧美成人中文字幕| 99久久婷婷国产综合精品首页| 国产在线精品一区二区三区| 性欧美69xoxoxoxo| 91蝌蚪视频在线观看| 成人av网站免费观看| www深夜成人a√在线| 欧美在线观看视频一区二区三区| 亚洲av永久无码国产精品久久 | 激情av综合网| 91激情视频在线观看| 亚洲成人一区在线| 国内精品久久久久久久久久久| 中文字幕亚洲欧美| 黑人巨大精品| 国严精品久久久久久亚洲影视 | 亚洲3p在线观看| 亚洲精品一区国产| 一本一道久久a久久精品综合| 免费欧美日韩| 先锋资源av在线| 午夜精品福利视频网站| www.精品久久| 欧美精品在线观看| 国产在线一区不卡| 一区二区视频在线观看| 人人爽香蕉精品| 少妇视频在线播放| 欧美亚一区二区| 国产51人人成人人人人爽色哟哟| 69av成年福利视频| 欧美日韩导航| 日韩av片在线看| 91在线视频播放地址| 亚洲精品77777| 亚洲国产精久久久久久久| а√天堂8资源在线| 久久av二区| 久久国产99| 天天舔天天操天天干| 欧美丝袜丝nylons| 97超碰人人在线| 成人免费自拍视频| 久久久久久久久国产一区| 久久久久xxxx| 亚洲欧美日韩在线不卡| 亚洲不卡免费视频| 久久久噜噜噜久久| 亚洲系列另类av| 好男人www社区| 国产精品二区一区二区aⅴ污介绍| 伊人网av在线| 日韩在线观看免费全| 国产剧情一区二区在线观看| 永久免费网站视频在线观看| 国产成人av电影在线播放| 国产大片aaa| 亚洲天堂第一页| 久久亚洲人体| 2022中文字幕| 99久久综合99久久综合网站| 亚洲婷婷综合网| 最好看的2019的中文字幕视频| gogo大尺度成人免费视频| 天堂а√在线中文在线 | 久久精品日产第一区二区三区乱码| 亚洲免费高清| av网在线播放| 欧美一卡2卡三卡4卡5免费| 在线看三级电影| 韩国成人一区| 日本美女一区二区三区| 国产97免费视频| 日韩精品999| 99久久伊人| www.日本在线视频| 久久久精品2019中文字幕之3| 在线视频1卡二卡三卡| 美女视频黄免费的亚洲男人天堂| 欧美成人基地| 亚洲精品20p| 午夜av电影一区| 在线观看a视频| 国产精品久久九九| 日韩1区2区3区| 欧美成人精品欧美一| 日韩精品在线视频| 高清久久一区| 国产真实乱子伦| 一区二区三区91| 在线激情网站| 精品一区国产| 国产精选一区二区三区| 人人草在线观看| 高清一区二区三区四区五区 | 日本欧美黄色片| 成人免费在线视频观看| 日韩资源在线| 国产精品10p综合二区| 久久99久久99精品免视看婷婷| 日韩在线观看第一页| 欧美不卡视频一区发布| 国产欧美亚洲精品a|