精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

「重要性采樣」并不「重要」?快手清華ASPO攻克重要性采樣權重錯配

人工智能 新聞
近期,由快手與清華合作的研究團隊發現,現有的結果監督強化學習范式存在一種深層次的權重錯配現象,它不僅讓模型「過度自信」,甚至可能導致熵坍縮與訓練早熟收斂。

從ChatGPT到DeepSeek,強化學習(Reinforcement Learning, RL)已成為大語言模型(LLM)后訓練的關鍵一環。

然而,隨著模型參數規模的不斷擴大,一個長期被忽視的問題正悄然成為性能瓶頸:重要性采樣真的「重要」嗎

近期,由快手與清華合作的研究團隊發現,現有的結果監督強化學習范式存在一種深層次的權重錯配現象,它不僅讓模型「過度自信」,甚至可能導致熵坍縮與訓練早熟收斂。

為此,他們提出了一種簡單但有效的算法:ASPO(Asymmetric Importance Sampling Policy Optimization)。

「重要性采樣」其實并不重要

在強化學習中,重要性采樣(Importance Sampling, IS)用于修正舊策略與新策略之間的分布差異,從而讓模型能「重用舊數據」而不偏離目標分布。

在小規模強化學習中,這個理論確實有效;然而,在大語言模型的結果監督強化學習中,這一機制卻開始「失靈」。

研究團隊通過實驗證明:

在GRPO類算法中,IS不僅沒有帶來分布修正的好處,反而成為引發訓練不穩定的元兇。

研究者在實驗中對比了兩種做法:

  • 保留原始的IS權重;
  • 完全移除IS權重,將其全部設置為1.0。

結果令人驚訝:

  • 兩種方法在最終準確率上幾乎沒有差異;
  • 移除IS后的模型訓練曲線反而更加平滑、穩定;
  • 熵值下降速度放緩,重復率降低,KL散度更穩定。

為什么會出現這種現象?

其一,結果監督強化學習中的優勢值本身就是不準確的:一方面,不同token對最終答案的貢獻是不同的,它們的優勢值不應該相同;另一方面,正確的回答中可能包含不正確的推理步驟,這些錯誤步驟的優勢值甚至是相反的。

其二,如下圖所示,正優勢token的平均IS權重高于負優勢token,學習高概率正優勢token導致熵下降。

上述分析說明,IS在結果監督強化學習算法中不再是「校正項」,而是變成了token級的權重

放大權重錯配的真相:被放大的「正樣本」

研究團隊進一步深入分析發現,IS權重在LLM場景下出現了非對稱性錯誤:

  • 對于負優勢token,IS權重的變化符合預期:在舊策略概率一定時,當前概率較高,其IS權重也較高,起到合理的抑制作用;
  • 但對于正優勢token,權重分布卻完全反了:在舊策略概率一定時,當前概率越高的token權重越高,概率越低的token權重越低

也就是說,模型在更新時,會進一步強化那些已經「高分」的token,而忽視那些仍然需要改進的低概率token。這種偏差不斷積累,形成一種自我強化循環(self-reinforcing loop),最終導致模型陷入局部最優、輸出重復、甚至熵崩塌

上述權重錯配問題在三維空間下清晰可見:

在舊策略概率一定時,當前高概率token的更新權重居高不下,而低概率token被壓制至幾乎無梯度更新。結果是模型的行為因此逐漸僵化——「越來越像自己」,但也越來越缺乏探索與多樣性。

核心思想:翻轉正樣本權重

ASPO的核心創新,正如其名所示,是一次「不對稱翻轉」(Asymmetric Importance Sampling,AIS)。

它將正優勢token的重要性采樣權重取倒數,讓低概率token得到更強的更新,而高概率token被適當削弱:

其中,sg(·)表示停止梯度操作。

在此基礎上,ASPO還引入了一個Dual-Clipping(軟雙重裁剪)機制,用于裁剪掉翻轉正樣本權重后導致的極端值。在裁剪過程中,ASPO采用了類似CISPO中的軟裁剪方法,既限制了極端比率導致的不穩定,又保留了正樣本梯度的有效流動。

此外,對于所有token,ASPO仍保留原有的硬裁剪機制,對IS比例大于1+ε的正樣本和IS比例小于1-ε的負樣本裁剪值和梯度。

通過梯度分析,研究者發現:

ASPO在梯度上翻轉了IS權重項,使梯度與token概率的倒數成正比,即概率越低的token,更新的梯度越大,增大低概率token的學習力度。

實驗結果:更強、更穩

在一系列數學推理(AIME24/25、AMC23、MATH-500、Minerva、Olympiad)和代碼生成(LiveCodeBench v5/v6)基準測試中,ASPO展現出顯著優勢:

  • 相比于base model,數學任務平均性能提升 12.5%,代碼生成任務平均性能提升 17.0%;
  • 訓練過程更平滑,無明顯熵坍塌;
  • 在代碼基準LiveCodeBench v5上,ASPO達到了31.5 avg@8 / 47.0 pass@8的成績,領先主流RL方法(DAPO、DeepScaleR、Nemotron等)。

訓練動力學分析

不僅如此,ASPO的訓練曲線也展現出前所未有的穩定性:

  • 熵下降更平緩——避免了傳統算法中的「熵坍縮」問題;
  • 重復率更低——輸出更加多樣;
  • KL散度與Clip Ratio穩定;
  • 訓練過程無明顯震蕩,表現出典型的「健康收斂」特征。

論文鏈接:
https://arxiv.org/abs/2510.06062
GitHub:
https://github.com/wizard-III/Archer2.0
HuggingFace:
https://huggingface.co/collections/Fate-Zero/archer20-68b945c878768a27941fd7b6

責任編輯:張燕妮 來源: 量子位
相關推薦

2010-07-30 16:28:06

2023-10-24 11:07:57

2009-12-25 15:00:48

WPF軟件

2017-12-29 10:14:48

IT項目

2013-08-08 10:10:06

備份策略全備份增量備份

2020-08-27 07:00:00

代碼軟件應用程序

2009-12-23 15:57:40

WPF傳遞事件

2011-07-05 18:30:44

站內優化

2011-06-30 16:22:00

首選域

2016-08-29 20:31:17

2014-04-23 11:36:29

運維日志

2009-03-03 17:25:41

2010-07-05 14:27:30

UML各種圖形

2022-11-04 14:13:54

2010-01-20 18:45:44

VB.NET DoEv

2021-12-22 23:12:19

物聯網隱私安全

2009-09-28 13:23:00

CCNA學習方法CCNA

2009-11-25 17:36:38

PHP函數includ

2011-08-11 10:12:11

2013-08-23 14:07:45

磁盤分區
點贊
收藏

51CTO技術棧公眾號

www.com黄色片| 在线免费观看黄| 一区二区日本| 国产人妻人伦精品1国产丝袜| 1区2区3区在线| 久久精品一区二区三区不卡牛牛| 国产美女久久久| 人妻久久一区二区| 亚洲精品**不卡在线播he| 欧美伊人久久久久久久久影院| 综合操久久久| 牛牛热在线视频| 国产乱对白刺激视频不卡| 97超碰国产精品女人人人爽| 欧美成人一区二区在线观看| 欧美一区二区三区在线| 91av福利视频| 国产精品免费在线视频| 91禁在线观看| 激情黄色小视频| 亚洲在线观看av| 激情自拍一区| 99麻豆久久久国产精品免费| 一区二区三区视频在线| 日本女人性视频| av高清不卡| 中文字幕一区在线| 九色综合日本| 成人av一区二区三区在线观看| 久久久亚洲一区| 欧美大片在线看免费观看| 色欲狠狠躁天天躁无码中文字幕| 亚洲日本va| 欧美夫妻性生活| 亚洲中文字幕久久精品无码喷水| jizz一区二区三区| 亚洲免费电影在线| youjizz.com亚洲| √天堂资源地址在线官网| 91美女片黄在线观看| 成人午夜影院在线观看| 国产又粗又猛又爽| 日本中文一区二区三区| 日韩av不卡在线| 日韩久久久久久久久| 欧美日韩 国产精品| 精品国内产的精品视频在线观看| 免费看污片的网站| 国产精品最新| 亚洲欧洲日韩国产| 欧美老熟妇乱大交xxxxx| 日韩护士脚交太爽了| 免费动漫网站在线观看| 亚洲第一毛片| 久久久久久国产三级电影| 欧美在线视频第一页| 97视频精品| 久久国内精品一国内精品| 91免费在线看片| 93在线视频精品免费观看| 在线观看国产精品淫| 无码少妇一区二区| 日韩欧美视频| 久久精品久久久久| 玖玖爱免费视频| 伊人久久亚洲影院| 97在线视频一区| 亚洲va在线观看| 日本色综合中文字幕| 国产精品欧美日韩| 国产主播第一页| 麻豆一区二区在线| 亚洲影院污污.| 亚洲精品久久久狠狠狠爱| 成人高清av在线| 麻豆久久久av免费| 97最新国自产拍视频在线完整在线看| 国产精品久久久久久久久久久免费看| 小说区图片区图片区另类灬| 黄色免费在线观看网站| 亚洲综合在线观看视频| 人妻熟妇乱又伦精品视频| 欧美第一视频| 69久久夜色精品国产69蝌蚪网| 欧美色图校园春色| 欧美三级电影在线| 中文字幕一区电影| 国产亚洲精品女人久久久久久| 亚洲精品美女91| 国产成人午夜视频网址| 国产免费久久久| 99re这里只有精品6| 欧洲久久久久久| av黄色在线| 欧美日韩亚洲一区二区三区| 色噜噜狠狠永久免费| 99精品中文字幕在线不卡| 国产丝袜一区二区三区| 最新av电影网站| 在线观看的日韩av| 国产精品永久在线| 老司机午夜福利视频| 中文字幕不卡在线观看| 97碰在线视频| 成人免费一区| 日韩精品免费综合视频在线播放 | 国产欧美日韩伦理| 成年人免费在线视频| 一区二区三区视频在线看| 无遮挡又爽又刺激的视频| 精品一区二区三区中文字幕视频 | 在线免费高清一区二区三区| 国产精品久久久久久久美男 | 日韩一区二区三免费高清在线观看| 欧美xingq一区二区| 五月婷婷欧美激情| 国产欧美亚洲一区| ts人妖另类在线| 免费在线看黄色| 在线观看日韩av先锋影音电影院| 亚洲乱妇老熟女爽到高潮的片| 欧美h版在线| 人体精品一二三区| 天堂成人在线视频| 亚洲一区在线看| 中文字幕色网站| 日韩欧美精品一区| 国产精品激情av在线播放| 五月婷婷在线播放| 亚洲一区二区三区四区在线观看 | 欧美在线视频一区二区| 性一交一乱一色一视频麻豆| 亚洲欧洲一区二区在线播放| 亚洲精品高清无码视频| 蜜桃一区二区| 91tv亚洲精品香蕉国产一区7ujn| 精品国产亚洲av麻豆| 最好看的中文字幕久久| 国产91色在线观看| 国产一区二区亚洲| 日韩免费av一区二区| 日色在线视频| 欧美性感美女h网站在线观看免费| 国产a级黄色片| 在线不卡欧美| 激情一区二区三区| 爱啪视频在线观看视频免费| 亚洲精品一区二区在线观看| 国产精品99精品| 成人涩涩免费视频| 男女私大尺度视频| 欧美人妖视频| 热re91久久精品国99热蜜臀| 免费在线国产| 欧美中文字幕一二三区视频| 五月天婷婷丁香网| 久久精品国产免费看久久精品| 亚洲欧洲精品一区二区| 狂野欧美性猛交xxxx| 久久久国产精品x99av | 女人抽搐喷水高潮国产精品| 亚洲va久久久噜噜噜久久| 亚洲国产精品免费| 在线看成人av| 91偷拍与自偷拍精品| 免费高清在线观看免费| 国产成人1区| 国产精品免费网站| 欧美性videos| 欧美成人伊人久久综合网| 国产一级片免费观看| 不卡电影一区二区三区| 97av视频在线观看| 欧美日中文字幕| 成人在线国产精品| 色a资源在线| 日韩成人av网址| 九九热最新视频| 综合欧美亚洲日本| 亚洲中文字幕无码一区| 蜜桃视频一区| 三级网在线观看| 国产精东传媒成人av电影| 97色在线观看| 欧美一级片在线免费观看| 综合视频在线| 久久精品国产精品国产精品污 | 国产精品久久久久久久久久久久久 | 成人黄页在线观看| 免费国产成人av| 亚洲精品va| 九色91在线视频| 国产精品日韩精品在线播放| 久久综合九色综合97婷婷女人| 国产不卡视频一区| 电影午夜精品一区二区三区| 中文在线资源| 久久在线免费观看视频| 少妇高潮一区二区三区99小说| 色综合天天综合网天天狠天天| 四虎影视一区二区| av在线不卡观看免费观看| 精品无码一区二区三区爱欲| 好男人在线视频www| 精品久久久久久久久久久久久久| jizz日本在线播放| aaa国产一区| 日本在线观看视频一区| 亚洲免费影视| 欧美高清中文字幕| 久久一区二区中文字幕| 精品一区在线播放| 欧美日韩中出| 国产美女精彩久久| 涩涩网在线视频| 欧美国产日韩xxxxx| jizz在线观看| 亚洲精品网站在线播放gif| 国产老女人乱淫免费| 日本韩国欧美一区| 免费在线不卡视频| 亚洲一二三专区| 情侣偷拍对白清晰饥渴难耐| 国产日韩三级在线| 51调教丨国产调教视频| 懂色av中文一区二区三区| 天天干天天综合| 日韩影院在线观看| 欧美日韩激情视频在线观看| 欧美精品一线| 国产在线拍揄自揄拍无码| 日韩欧美高清在线播放| 日韩高清国产一区在线观看| 视频福利一区| 久久国产精品-国产精品| 国产区精品视频在线观看豆花| 91精品视频在线播放| 日韩av黄色| 国产精品欧美一区二区三区奶水| 成人片免费看| 欧洲成人在线观看| 日韩伦理在线一区| 97在线观看视频| 看黄在线观看| 97免费中文视频在线观看| аⅴ资源天堂资源库在线| 久久久亚洲精选| 高h视频在线播放| 欧美激情一区二区久久久| 神马午夜伦理不卡| 九九精品在线播放| 欧美xxxx视频| 久久久噜噜噜久噜久久| av在线理伦电影| 午夜精品久久久久久久久久久久 | 亚洲日本在线看| 国产日产精品一区二区三区的介绍| 国产精品久久久久久久久果冻传媒 | 成年人网站免费在线观看| 99视频有精品| 成人午夜剧场视频网站| 久久精品一区二区三区不卡| 久久久精品成人| 亚洲人成7777| 国产午夜免费视频| 欧美性猛交xxxx偷拍洗澡| 欧美超碰在线观看| 欧美日韩1区2区| 不卡视频免费在线观看| 亚洲第一免费网站| 欧美另类自拍| www.xxxx欧美| 岛国片av在线| 国产精品精品一区二区三区午夜版| 日本免费在线一区| 国产一区二区三区四区五区在线 | 一区二区精品在线| 亚洲天堂一区二区三区四区| 日韩视频在线视频| 久久一区精品| 能看毛片的网站| 91色porny在线视频| 5566中文字幕| 黄色91在线观看| 一区二区精品视频在线观看| 精品少妇一区二区三区在线视频| 嫩草研究院在线| 久久久成人精品视频| 男人av在线播放| 成人做爽爽免费视频| 最新亚洲精品| 男女裸体影院高潮| 久久一区欧美| 日本道中文字幕| 中文字幕一区二区三区乱码在线| 国产精品9191| 91精品国产综合久久久久久久| 无码国产精品一区二区免费16| 中文综合在线观看| av免费不卡| 成人有码视频在线播放| 在线日本制服中文欧美| 91嫩草国产丨精品入口麻豆| 久久久久久色| 中文字幕99页| 亚洲人精品一区| 97人妻一区二区精品视频| 精品欧美乱码久久久久久| 91青青在线视频| 日本精品视频在线观看| 8x国产一区二区三区精品推荐| 亚洲精品日韩在线观看| 校园激情久久| 国产精品亚洲一区二区无码| 国产精品久久久久天堂| 欧美超碰在线观看| 日韩国产精品一区| 神马午夜伦理不卡 | 噜噜噜天天躁狠狠躁夜夜精品| 中文字幕欧美人与畜| 视频一区二区国产| 三级电影在线看| 午夜国产不卡在线观看视频| 国产情侣自拍小视频| 色悠悠久久久久| abab456成人免费网址| 免费国产一区二区| 国产精品亚洲产品| 国产精品无码电影| 亚洲午夜久久久久| www.超碰在线.com| 久久97精品久久久久久久不卡| 国精品产品一区| 日韩精品久久一区二区三区| 另类av一区二区| 日韩av一二区| 狠狠久久五月精品中文字幕| 日韩一级片免费看| 国内精品400部情侣激情| 91精品国产乱码久久久竹菊| 超碰人人爱人人| 国产成人av一区二区三区在线 | avtt亚洲| 国产日韩精品入口| 日韩综合网站| www.国产福利| 亚洲男人的天堂在线aⅴ视频| aaa国产视频| 欧美国产日韩一区| 岛国精品一区| 亚洲熟妇av一区二区三区漫画| 91影院在线观看| 亚洲GV成人无码久久精品| 亚洲欧美日韩中文在线制服| 校园春色亚洲色图| 日本在线视频不卡| 久久国产麻豆精品| 欧美大片xxxx| 亚洲第一精品夜夜躁人人躁| 美女高潮视频在线看| 奇米精品在线| 久久精品免费看| 欧洲猛交xxxx乱大交3| 精品国内二区三区| 天天综合av| 亚洲一区二区三区涩| 中文字幕一区久| 国产精品午夜久久| 萌白酱视频在线| 欧美一级搡bbbb搡bbbb| 日本性爱视频在线观看| 国产三区精品| 日韩电影在线免费观看| 国产精品嫩草影院俄罗斯| 日韩欧美国产不卡| 在线观看爽视频| 亚洲一区二区三区精品在线观看| 国产在线不卡一区| 99免费在线观看| 亚洲香蕉成视频在线观看 | 色婷婷av一区二区三区gif | 欧美夫妻性视频| 综合亚洲自拍| 91pony九色| 精品国产91久久久久久老师| av在线免费播放网站| 99精品国产高清在线观看| 欧美一级专区| 黄色一级大片在线免费观看| 亚洲国产另类久久精品| 欧美艳星kaydenkross| 无颜之月在线看| 久久久久久久一区| www.色视频| 国产精品九九九| 在线国产欧美| 网站永久看片免费| 精品性高朝久久久久久久| **精品中文字幕一区二区三区| 97国产在线播放|