精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

NeurIPS25高分論文|以判別式監督學習強化推理LLM,解決難度偏差和熵崩塌難題

人工智能 新聞
在本文中,作者分析了二元獎勵(binary reward)設置下的 GRPO 優化目標,發現了由其群體相對優勢函數引起的問題難度偏差的固有局限性,并且揭示了 GRPO 與傳統判別式監督學習方法之間的聯系。

作者介紹:德州農工大學博士生李港,專注于設計和應用高效算法到大規模機器學習和人工智能任務,包括增強大型基礎模型的后訓練算法、對抗性魯棒學習算法和分布魯棒性學習算法。曾發表數篇論文在 NeurIPS、ICML、KDD 等頂會, 并作為主要貢獻者之一發布了針對不平衡分類任務的知名軟件包 LibAUC。

DeepSeek-R1 的成功吸引了人們對群體相對策略優化(GRPO)作為大型推理模型(LRM)強化學習方法的廣泛關注。

在本文中,作者分析了二元獎勵(binary reward)設置下的 GRPO 優化目標,發現了由其群體相對優勢函數引起的問題難度偏差的固有局限性,并且揭示了 GRPO 與傳統判別式監督學習方法之間的聯系。

基于這些分析發現,作者提出了一個新穎的判別式約束優化(DisCO)框架來強化大型推理模型。該框架基于判別式學習的基本原則:增加正確答案的得分,同時減少錯誤答案的得分。

與 GRPO 及其變體相比,DisCO 具有以下優勢:

  1. 它通過采用判別式優化目標完全消除了難度偏差;
  2. 通過使用非裁剪評分函數和約束優化方法,解決了 GRPO 及其變體的熵不穩定性,得到了長期穩定的訓練動態;
  3. 它允許結合先進的判別式學習技術來解決數據不平衡問題,例如在訓練過程中一些問題的錯誤答案遠遠多于正確答案。

在增強大型模型的數學推理能力方面的實驗表明,DisCO 大幅優于 GRPO 及其改進版本(如 DAPO),在 1.5B 模型的六個基準任務中,平均增益比 GRPO 高 7%,比 DAPO 高 6%。值得注意的是,最大響應長度(max response length)為 8k 的 DisCO 甚至優于最大響應長度為 32k 的 GRPO。

論文以「5,5,5,5」的高分被 NeurIPS 2025 接收。

  • 論文標題:DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization
  • 論文地址:https://arxiv.org/abs/2505.12366
  • 開源模型地址:https://huggingface.co/collections/ganglii/disco-681b705decb9979e65614d65
  • GitHub 地址:https://github.com/Optimization-AI/DisCO

GRPO 的難度偏差問題分析

GRPO 的核心思想在于對輸入問題 q 生成多個輸出,并定義群體相對優勢函數。當采用期望形式而非經驗平均時,其優化目標為:

其中,表示群體相對優勢函數,表示裁剪操作,是凍結的參考模型。在二元獎勵(binary reward)設置下,即獎勵函數時,上述目標可簡化為(暫時忽略 KL 項后):

其中:

  • 是正確答案概率
  • 是獎勵為 1 的輸出分布(正確答案)
  • 是獎勵為 0 的輸出分布(錯誤答案)
  • 是裁剪后的評分函數。

從上面的變式分析中,作者有兩個重要發現:

1. 與判別式監督學習的聯系

在上述優化目標中,最大化就是在增加正確答案的得分,同時減少錯誤答案的得分。這種優化目標與 AUC 最大化的判別式監督學習的思路不謀而合。

2. 難度偏差(Difficulty Bias)

在上述優化目標中,在每個問題上起到了加權作用,導致模型只重點學習「中等難度」的問題(如下圖 a 所示)。然而實際訓練過程有很多正確率相對較高或較低的問題卻不被重視,使得學習效率下降。

當作者移除進行實驗發現,沒有加權的變體「GRPO_RW」能夠在更多的問題上實現 100% 正確率和更少的問題上實現 0% 正確率(如下圖 c, d 所示),證實了不適當的加權的有害影響。

提出方法:判別式強化學習

1. 判別式目標函數(類似 AUC 優化)

基于上述與 AUC 最大化聯系的分析發現,作者直接從判別式學習的原則重新設計了新的判別式強化學習框架:

為了避免其他研究發現的由裁剪操作引起的熵崩塌現象,作者設計選擇非裁剪評分函數, 例如:

  • 對數似然 (log-L):
  • 似然比 (L-ratio):

2. 基于 DRO 的判別式目標函數(類似局部 AUC 優化)

基于判別式學習原則設計目標函數的一個優點是能夠利用文獻中先進監督學習技術來改進訓練。推理模型的強化學習微調的一個關鍵挑戰就是稀疏獎勵,這導致答案生成的不平衡。具體來說,對于一些問題,錯誤答案的輸出的數量可能大大超過正確答案的數量,這反映了一個經典的數據不平衡問題。這個問題在判別式學習領域中得到了廣泛的研究。

為了解決這個問題,作者利用局部 AUC 優化設計了分布魯棒性優化(DRO)目標:

3. 約束優化(穩定訓練)

為了穩定訓練,作者借鑒 TRPO 中的信任域思想,加入 KL 散度約束,形成以下優化問題:

  • DisCO-b:
  • DisCO:

不同于 TRPO 的二階優化方法,作者采用近期發展的一種非凸不等式約束優化策略,將約束替換為平滑的方形鉸鏈懲罰項 (squred hinge penalty):

其中。 在適當條件下, 求解上述方形鉸鏈懲罰目標可保證滿足原始問題的 KKT 條件。

實驗結果與分析

測試效果對比

作者采用平均 16 次輸出的 Pass@1 作為評價指標,在六個數學基準數據集上評估了 DisCO 和其他基線方法。

從下表觀察到,作者提出的 DisCO 方法始終顯著優于其他基線方法。值得注意的是,訓練和推理長度均為 8k 的 DisCO (log-L)比 GRPO 平均提高了 7%,超過了以最大 24k 長度訓練并以 32k 長度評估的 DeepScaleR-1.5B-Preview。在 7B 模型實驗中,DisCO 也大幅優于所有基線方法,比 GRPO 平均提高了 3.5%。

在上面這張表格中,作者展示了多種強化學習方法在 1.5B 模型上的效果對比。作者也加入了 OpenAI 的 o1-preview 模型作為參考基線。 表中的 MRL(Max Response Length)表示訓練或測試時使用的最大響應長度,限制模型能生成多長的推理結果。 其中用陰影標注的模型,是其他團隊所訓練的成果,相應的指標也來自他們的原始論文或 DeepScalaR 項目。除了這些以外,其余結果要么來自現有模型的直接評估,要么是基于不同方法訓練后得到的結果。 值得注意的是,表格下半部分的所有方法,都是基于相同的數據集(DeepScaleR),對 DeepSeek-R1-Distill-Qwen-1.5B 模型進行微調的結果。其中,DS 是 DeepSeek-R1 的縮寫,DSR 是 DeepScalaR 的縮寫。

訓練動態對比

隨著大規模強化學習訓練成為改進推理模型的核心技術,學習算法的穩定性至關重要,因為學習穩定性決定了學習算法是否適用于大規模訓練。作者從訓練獎勵和生成熵的角度比較了不同方法的訓練動態。

從下圖對 1.5B 和 7B 模型進行微調的實驗中,我們可以看到,由于 GRPO、GRPO-ER、Dr. GRPO 的熵崩塌和 DAPO 的熵過度增長,它們都只能獲得早熟的確定性策略或高度隨機的策略,所有基線都出現了過早飽和。使用 KL 散度正則化的 TRPA 在后面的步驟中也觀察到不穩定的生成熵。

相比之下,作者提出的 DisCO 使用兩種非裁剪評分函數的方法最為穩定,訓練獎勵不斷增加,生成熵保持相對穩定。

上圖展示不同方法在訓練過程中的動態表現:左邊兩張圖展示的是在訓練 1.5B 模型時的訓練情況,右邊兩張圖則對應于訓練 7B 模型。圖 (a) 和 (c) 展示了訓練獎勵隨訓練步數的變化情況,獎勵是對每一步中用于訓練的問題所生成答案的平均得分。圖 (b) 和 (d) 展示的是生成結果的熵值(反映輸出的多樣性)隨訓練步數的變化趨勢。

消融實驗

作者通過單獨替換 DisCO 中的組件來分析每個組件的單獨貢獻。他們在 1.5B 模型上進行了實驗,與 (1) 去除困難負樣本權重的 DisCO-b 進行了比較;(2) 在 DisCO-b 中添加問題級權重偏差,(3) 在 DisCO-b 中使用 KL-divergence 正則化替換 KL-divergence 約束,以及 (4) 在 DisCO-b 中分別使用的裁剪評分函數。

從下圖中可以看到,作者提出的每個組件在 DisCO 的改進中都很重要,其中使用非裁剪評分函數是至關重要的。

總結

在這項工作中,作者提出了一種新的判別式約束優化框架用于強化大型推理模型,避免了難度偏差和熵崩塌問題。數學推理實驗表明,與 GRPO 及其最近的變體相比,本文方法具有顯著的優越性。

雖然這項工作主要關注的是二元獎勵,但是對于非二元獎勵,可以考慮利用監督學習中排序目標函數或者其他新穎的評分函數來進行設計。作者將應用判別式約束優化微調更大的模型或其他推理任務留作后續研究。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2017-06-12 14:04:45

深度學習人工智能

2020-08-14 11:00:44

機器學習人工智能機器人

2020-08-16 11:34:43

人工智能機器學習技術

2023-11-23 15:54:01

人工智能監督學習無監督學習

2020-04-28 17:26:04

監督學習無監督學習機器學習

2025-10-14 08:58:00

2025-10-29 09:25:34

LLM模型訓練

2025-07-09 01:22:00

AI強化學習監督學習

2015-10-12 10:37:42

學習算法檢測

2019-10-14 10:40:03

機器學習人工智能非監督學習

2025-10-13 09:10:00

2021-12-06 17:38:51

強化學習工具人工智能

2025-10-21 09:06:00

2022-02-07 15:08:58

視覺理解研究模型

2021-11-08 22:42:51

機器學習監督學習數據

2022-11-12 13:50:39

學習模型計算機算法

2025-07-03 01:45:00

LLMCoT思維鏈

2023-07-10 16:01:56

2022-02-15 09:04:44

機器學習人工智能監督學習

2025-07-09 07:52:59

點贊
收藏

51CTO技術棧公眾號

欧美一级一片| 在线观看网站免费入口在线观看国内 | 欧美日韩成人一区| 四虎免费在线观看视频| 国内老熟妇对白hdxxxx| 精品91久久久久| 国产亚洲精品一区二555| 日本人69视频| 国产高清中文字幕在线| 久久这里只有精品视频网| 国产精品大陆在线观看| 91麻豆免费视频网站| 911亚洲精品| 在线亚洲+欧美+日本专区| 精品久久免费观看| 秋霞av在线| 国产成人精品一区二| 欧美专区在线视频| 成人免费毛片东京热| 亚洲成在人线免费观看| 欧美日韩激情在线| 国产人妻777人伦精品hd| www.成人.com| 91丨九色丨国产丨porny| 国产欧美精品一区二区| 日韩特黄一级片| 午夜欧美在线| 在线播放国产一区二区三区| 亚洲综合婷婷久久| 亚洲欧美se| 亚洲香肠在线观看| 在线无限看免费粉色视频| 日韩欧美亚洲系列| 成人的网站免费观看| 成人精品在线视频| 国产女优在线播放| 久久动漫亚洲| 97久久精品人人澡人人爽缅北| 国产福利在线导航| 久久av免费看| 精品视频www| 欧美大喷水吹潮合集在线观看| 欧美三级电影网址| 欧美亚洲国产一区二区三区va | 成人啪啪18免费游戏链接| 亚洲成人短视频| 欧美日韩免费区域视频在线观看| 天天成人综合网| 在线观看黄av| 中文字幕va一区二区三区| 久久久av水蜜桃| 成人毛片在线精品国产| 国产美女久久久久| 91探花福利精品国产自产在线| 无码视频在线观看| 亚洲尤物影院| 奇米影视亚洲狠狠色| 国产精品第二十页| 亚洲承认在线| 国外成人在线播放| 欧美福利视频一区二区| 影院欧美亚洲| 欧美亚洲激情视频| 天堂网中文字幕| 肉色丝袜一区二区| 国产精品爽黄69天堂a| 日韩精品一区二区亚洲av观看| 一区二区三区国产盗摄| 5566日本婷婷色中文字幕97| 国产性一乱一性一伧一色| 国语对白精品一区二区| 欧美日韩福利电影| 国产又色又爽又黄的| 99riav国产精品| 欧美一区二区.| 国产精品午夜一区二区| 美女视频黄久久| 成人自拍性视频| 成人小说亚洲一区二区三区| 国产在线看一区| 国产精品久久精品国产| 特级丰满少妇一级aaaa爱毛片| proumb性欧美在线观看| 精品乱码一区| 成人精品福利| 亚洲黄色片在线观看| 又大又硬又爽免费视频| 日本在线播放一二三区| 欧美伊人久久久久久久久影院 | 亚洲激情 国产| a毛片毛片av永久免费| 狠狠做六月爱婷婷综合aⅴ| 中文字幕欧美专区| 久久免费视频播放| 日产国产高清一区二区三区| 国产精品久久久久久久久久新婚| 一炮成瘾1v1高h| 成人免费毛片app| 亚洲国产一区二区在线| 青草在线视频在线观看| 婷婷国产v国产偷v亚洲高清| 国产三区在线视频| 警花av一区二区三区| 亚洲电影在线观看| 日韩欧美在线视频播放| 国产中文一区| 国产精品自拍小视频| 亚洲国产综合网| 国产欧美日韩激情| 日日摸日日碰夜夜爽无码| 亚洲www啪成人一区二区| 欧美一区二区三区啪啪| 欧美做受xxxxxⅹ性视频| 国产精品国产三级国产在线观看 | 国产一区第一页| 一区二区三区四区五区在线| 国产精品com| 欧美特黄一级视频| 亚洲三级在线观看| 91人人澡人人爽人人精品| 麻豆精品国产| 色婷婷久久av| 午夜久久久久久久久久影院| 国产揄拍国内精品对白| 欧美13一14另类| 17videosex性欧美| 日韩欧美中文一区二区| 精品无码人妻一区二区免费蜜桃| 欧美视频在线观看| 亚洲一区亚洲二区亚洲三区| 色综合888| 五月综合激情网| 欧美一区二区三区影院| 999精品在线| 国产精品扒开腿做爽爽爽男男 | 欧美成人aaa片一区国产精品| 午夜在线播放视频欧美| 99在线观看视频| 亚洲波多野结衣| 无码aⅴ精品一区二区三区| 丝袜亚洲另类丝袜在线| 动漫精品视频| 丝袜综合欧美| 欧美一区二区三区思思人 | 亚洲四区在线观看| 99re精彩视频| 国产精品久久久久久久免费观看| 国产成人91久久精品| 亚洲三区在线播放| 丰满岳妇乱一区二区三区| 91人人澡人人爽| 国模一区二区三区| 成人黄视频免费| 国产盗摄精品一区二区酒店| 51精品秘密在线观看| 91麻豆制片厂| 精品中文字幕一区二区小辣椒 | 中文字幕avav| 欧美午夜一区| 国产精品中出一区二区三区| av大大超碰在线| 欧美成人高清电影在线| 久久av高潮av无码av喷吹| 国产精品一区在线观看你懂的| 日本不卡一区二区三区四区| 成人日韩精品| 久久久国产精品x99av| 99久久精品日本一区二区免费| 综合av第一页| av av在线| 老鸭窝毛片一区二区三区| 明星裸体视频一区二区| 久久久一本精品| 久久九九免费视频| 神马久久久久久久久久| 欧美性高潮在线| 国产三级短视频| 国产精品亚洲第一区在线暖暖韩国| av不卡在线免费观看| 日韩欧美中文字幕一区二区三区| 欧美高清视频一区二区| 免费成人在线看| 91精品福利在线| 欧美日韩中文字幕在线观看| 国产剧情一区二区三区| 一本久道高清无码视频| 日本国产精品| 成人黄色生活片| 欧美激情网站| www.欧美精品| 日韩av免费观影| 日韩一区二区在线观看视频播放| 日本在线视频免费| 国产精品欧美经典| 李丽珍裸体午夜理伦片| 日韩精品欧美精品| 六月婷婷激情网| 要久久爱电视剧全集完整观看| 国产精品久久久久久久天堂| 黄网页免费在线观看| 亚洲а∨天堂久久精品9966| 国产特黄大片aaaa毛片| 亚洲国产精品国自产拍av| 4438x全国最大成人| 六月婷婷一区| 国产一级不卡视频| 欧洲激情视频| 精品欧美一区二区在线观看视频 | 国产精品久久久久久久久久久不卡| 麻豆影视国产在线观看| 亚洲激情视频在线| 国产精品久久久久久免费| 亚洲电影一级黄| 国产高潮流白浆| 久久久噜噜噜久久中文字幕色伊伊| 日韩欧美亚洲另类| 爽好多水快深点欧美视频| 玖玖精品在线视频| 日本大胆欧美| 欧美成人第一区| 加勒比久久高清| 91在线观看免费高清| 国产h片在线观看| 欧美另类xxx| 毛片在线看网站| 国产午夜精品免费一区二区三区| 高h震动喷水双性1v1| 欧美日韩五月天| 亚洲无码精品一区二区三区| 亚洲视频在线一区| 奇米网一区二区| 国产三级三级三级精品8ⅰ区| 一级黄色大片免费看| 久久精品国产精品青草| 日本在线观看a| 国产亚洲激情| 毛片在线视频播放| 尹人成人综合网| av无码久久久久久不卡网站| 国产精品手机在线播放| 激情伦成人综合小说| 午夜精品在线| 成人免费视频视频在| 粉嫩一区二区三区在线观看| 日韩美女av在线免费观看| h片在线观看视频免费| 欧美成人网在线| av在线下载| 欧美成人精品一区| 在线观看免费视频你懂的| 久久精品视频中文字幕| 日本电影全部在线观看网站视频| 亚洲视频欧洲视频| а天堂8中文最新版在线官网| 日韩精品视频免费| 久久伊伊香蕉| 欲色天天网综合久久| h视频在线播放| xvideos亚洲| 神马午夜伦理不卡| 久久久久久久一| 樱桃视频成人在线观看| 国产91av在线| 日韩一区精品| 亚洲在线视频福利| 精品国内亚洲2022精品成人| 99免费在线观看视频| 白白在线精品| 久久久久一区二区三区| 亚洲桃色综合影院| 亚洲视频在线观看日本a| 91综合网人人| 欧美这里只有精品| 蜜桃伊人久久| 99九九99九九九99九他书对| 久久精品国产第一区二区三区| 日韩成人精品视频在线观看| 青青草伊人久久| 人妻巨大乳一二三区| 成人午夜电影久久影院| bl动漫在线观看| 欧美极品另类videosde| 97在线观看视频免费| 一区二区三区自拍| 国产一区二区视频网站| 欧美日韩视频在线第一区| 国产丝袜视频在线观看 | 春暖花开成人亚洲区| 中文字幕日韩有码| 国产精品蜜臀| 国产精品极品美女在线观看免费| av一级久久| 麻豆成人小视频| 亚洲欧美色图| 丰满少妇被猛烈进入高清播放| 蜜桃av一区二区| 国产日韩视频一区| 国产精品福利av| 91视频免费网址| 日韩一卡二卡三卡国产欧美| 性中国xxx极品hd| 亚洲一区二区久久久| 影音先锋中文在线视频| 日本中文字幕久久看| 国产一区精品二区| 婷婷精品国产一区二区三区日韩| 欧美+日本+国产+在线a∨观看| 欧美 日韩 国产一区| 久久91精品国产91久久小草| 欧美熟妇精品一区二区| 久久先锋影音av| 久久免费小视频| 欧美精品乱码久久久久久按摩| 黄色一级大片在线免费看国产| 国产亚洲精品高潮| 乱人伦视频在线| 99re国产在线播放| 日韩久久视频| 国产真实乱子伦| 成人丝袜视频网| 欧美日韩免费一区二区| 欧洲一区二区av| 少妇av在线播放| 欧美精品情趣视频| 日韩一区二区三免费高清在线观看| 国产女人水真多18毛片18精品| 清纯唯美综合亚洲| 国产l精品国产亚洲区久久| 国产风韵犹存在线视精品| 国产第一页精品| 91福利视频网站| 韩国免费在线视频| 日本韩国在线不卡| 九九亚洲视频| 日韩人妻精品无码一区二区三区| 国产麻豆精品95视频| 综合 欧美 亚洲日本| 色天天综合色天天久久| 日本人妻熟妇久久久久久| 精品自拍视频在线观看| 亚洲欧洲专区| 一区二区三区久久网| 男人的j进女人的j一区| 亚洲图片另类小说| 色婷婷久久久久swag精品| 婷婷视频在线观看| 91精品国产91久久久久久吃药 | 色爱综合区网| 97超碰人人看人人| 狠狠综合久久av一区二区老牛| 一级黄色高清视频| 亚洲天堂av一区| www.久久色| 久久久久久久久久久成人| 日本久久伊人| 国产91沈先生在线播放| 国产精品一区久久久久| 亚洲欧美小视频| 日韩欧美国产一二三区| 色呦呦在线播放| 国产精品日韩一区二区三区| 久久精品高清| 久久久精品高清| 亚洲在线观看免费视频| 性中国xxx极品hd| 3344国产精品免费看| 网曝91综合精品门事件在线| 91午夜在线观看| 不卡电影一区二区三区| 日韩污视频在线观看| 精品中文视频在线| 精品乱码一区二区三区四区| 青娱乐一区二区| 久久激情五月激情| 久青草免费视频| 亚洲精品在线看| 嫩草伊人久久精品少妇av杨幂| 一区二区三区欧美成人| 精品一区二区三区影院在线午夜 | 久久精品免费一区二区三区| 538任你躁在线精品免费| 国产精品国产自产拍高清av王其| 一级淫片免费看| 久久久亚洲影院| 精品理论电影在线| 91精品人妻一区二区三区四区| 午夜视频在线观看一区二区三区| 四虎影院在线域名免费观看| 欧美资源在线观看| 一区二区中文| 成年人网站免费在线观看| 欧美在线free| 成人性生交大片免费看在线播放| 欧美极品色图| 国产麻豆精品视频| 一二三区免费视频| 欧美精品免费看| 成人嫩草影院| 中文字幕乱视频| 欧美视频第二页|