精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式

發布于 2025-11-17 07:32
瀏覽
0收藏

在大語言模型(LLM)與強化學習(RL)深度融合的浪潮中,后訓練階段通常采用基于策略梯度的方法,如近端策略優化(PPO),以提升模型的推理能力。然而,傳統PPO采用對稱的actor-critic架構,即critic(價值函數)與actor(策略模型)規模相當,這在LLM尺度下帶來巨大的計算開銷和訓練不穩定問題。近年來,無critic的RLVR(Reinforcement Learning for LLM Reasoning)范式逐漸成為主流,例如GRPO(Group Policy Optimization)通過平均優勢基線替代critic,簡化了訓練流程,但犧牲了價值估計的魯棒性。這種趨勢引發了一個核心問題:「是否真的需要一個與策略模型規模相當的“巨型critic”?能否通過輕量化設計重新激發PPO的潛力?」

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式-AI.x社區

阿里巴巴ROLL團隊、香港科技大學和Mila的最新研究《Asymmetric Proximal Policy Optimization: Mini-Critics Boost LLM Reasoning》(arXiv:2510.01656v3, 2025)對此給出了否定答案。論文提出的「Asymmetric PPO(AsyPPO)」 框架,首次系統性揭示了critic的參數規模與其價值估計能力并無必然關聯,通過一組輕量化的“mini-critics”實現了高效、穩定的RL4LLM訓練。本文將從背景、方法、實驗到最新趨勢,深度解讀這一突破性工作。

一、背景:RL4LLM的瓶頸與Critic的失落

傳統PPO在游戲、機器人控制等領域表現卓越,但其對稱架構在LLM尺度下面臨嚴峻挑戰。LLM的規模通常達數十億參數,直接應用PPO會導致:

  • 「計算開銷巨大」:訓練與actor規模相當的critic需要大量GPU內存和時間。
  • 「稀疏獎勵問題」:長推理鏈中獎勵稀疏,critic難以準確估計狀態價值。
  • 「訓練不穩定」:價值估計偏差易導致策略崩潰。

因此,RL4LLM社區轉向無critic方法,如GRPO、DAPO等,使用分組采樣或平均優勢基線簡化估計。但這類方法放棄了RL的核心思想——「魯棒的價值估計能緩解優勢偏差帶來的訓練崩潰」。論文指出,這本質上是架構問題而非算法局限,并質疑:能否通過不對稱設計實現輕量且魯棒的價值估計?

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式-AI.x社區

Figure 1直觀展示了問題:經典PPO(對稱架構)在LLM訓練中效率低下,而AsyPPO在恢復critic作用的同時,保持了輕量級開銷。這為重新思考架構提供了動機。

二、AsyPPO方法詳解:輕量化Critic與不確定性感知優化

AsyPPO的核心創新在于兩大組件:「輕量化mini-critics集合」和「基于不確定性的策略損失重構」。下面我們逐步解析。

1. 輕量化價值估計:從單小Critic到多樣性Ensemble

論文首先驗證了不對稱架構的可行性:即使小如Qwen3-0.6B的critic,也能為Qwen3-8B的actor提供有效指導(Figure 3左),這得益于預訓練模型提供的豐富表示能力。但單小critic受限于稀疏獎勵和長尾推理軌跡,價值估計不準確,性能不及對稱PPO。

「關鍵突破點」:通過ensemble提升估計魯棒性。然而,直接使用多個小critic(如兩個Qwen3-0.6B)效果有限,因為它們從相同預訓練 checkpoint 初始化,訓練數據重疊,導致行為同質化(Figure 3中右)。為此,論文提出了「組級非重疊數據分區策略」:

  • 將訓練數據(如5000個樣本)按提示(prompt)均勻劃分為不重疊子集,每個critic僅訓練于其分配的子集。
  • 這確保了每個critic接觸不同的獎勵分布和軌跡,促進功能多樣性,同時保持對同一提示的感知同步。

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式-AI.x社區

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式-AI.x社區

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式-AI.x社區

Figure 4從語言學角度證實,ensemble校正后的價值估計鼓勵策略學習核心推理模式,如邏輯連接詞(“therefore”)的出現頻率提升。

2. 策略損失重構:利用Critic不確定性優化探索

AsyPPO的第二個創新是「將critic間的不確定性作為信號優化策略損失」。具體地,critic價值估計的標準差(value-std)反映了狀態的信息量:

  • 「低value-std(高一致性)」:狀態動態被充分建模,樣本信息量低,易導致過擬合。
  • 「高value-std(高分歧)」:狀態與最終獎勵耦合弱,可能對應推理無關模式(如副詞、感嘆詞),探索意義小。

基于此,論文重構了PPO損失:

  • 「優勢掩碼(Advantage Masking)」:對value-std最低的k%狀態(如20%),掩碼其優勢值,避免對低信息量樣本的過擬合。
  • 「熵過濾(Entropy Filtering)」:對value-std最高的h%狀態(如20%),從熵正則化中過濾,抑制虛假探索。

重構后的損失函數為:

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式-AI.x社區

其中掩碼指標I_t^A和過濾指標I_t^{\mathcal{H}}基于value-std σ_t設定。

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式-AI.x社區

Figure 5顯示,在高效樣本復用(UTD=4)下,優勢掩碼顯著提升樣本效率(約6點增益),且value-std掩碼效果優于熵掩碼。Figure 6進一步揭示低value-std狀態與低熵高度相關,驗證了value-std作為不確定性度量的精確性。

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式-AI.x社區

熵過濾機制同樣關鍵:Figure 7表明,過濾高value-std狀態后,策略熵保持穩定,避免了樸素熵正則化導致的崩潰(約7%提升)。統計顯示,被過濾的token多為推理無關詞匯(如副詞“very”),強化了探索的安全性。

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式-AI.x社區

三、實驗結果:輕量化設計解鎖大型模型推理能力

論文在多個數學推理基準(如MATH-500、OlympiadBench)上驗證了AsyPPO,使用開源數據(僅5000樣本),演員模型涵蓋Qwen3-4B/8B/14B。

1. 泛化到大型模型(RQ1)

Figure 8顯示,AsyPPO(雙4B critics)在Qwen3-14B演員上相比GRPO提升約3%準確率,且內存開銷降低20%。單小critic(如1.7B)無法可靠指導14B演員,但AsyPPO通過ensemble突破了這一限制,彰顯了輕量化設計的威力。

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式-AI.x社區

2. 消融研究(RQ2&3)

  • 「Critic規模與數量」:Figure 9a顯示,critic規模擴大(如從0.6B到4B)帶來性能提升,符合縮放定律;但雙critic已足夠(Figure 9b),更多critic收益不顯著。
  • 「超參數敏感性」:優勢掩碼比例20%(Figure 10左)、熵過濾比例20%(Figure 10中右)為最優平衡點。

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式-AI.x社區

四、結合最新背景與未來展望

AsyPPO的提出正值RL4LLM技術快速演進期。2025年以來,無critic方法如GRPO、DAPO主導業界,但批評聲漸起:Yuan等人(2025b)指出衰減因子不適用于長鏈推理,Yue等人(2025)嘗試增強critic魯棒性。AsyPPO通過架構創新回應了這些挑戰,與同期工作如T-PPO(異步設置)、Implicit PRM(隱式獎勵模型)形成互補。

「最新趨勢聯系」:

  • 「輕量化部署需求」:隨著模型規模爆炸(如GPT-4o、Llama 3),計算效率成為核心瓶頸。AsyPPO的異步設計為邊緣設備部署RL4LLM提供了可能。
  • 「不確定性感知RL」:論文的價值std機制與經典RL的Bootstrapped DQN思想一脈相承,但適配了LLM特性。
  • 「開源生態推動」:論文基于ROLL框架實現,強調可復現性,契合開源社區對透明算法的需求。

「局限與未來工作」:實驗限于Qwen3系列,未來需擴展至Llama等模型;生成長度固定為8k token,超長推理下的泛化性待驗證。展望中,論文提出多個方向:異質critic ensemble、超參數對校準的影響、置信加權估計等。

五、結論

AsyPPO成功將RL4LLM的critic瓶頸重新定義為架構問題,通過雙輕量化mini-critics和數據分區策略,實現了魯棒價值估計和高效訓練。其不確定性感知損失重構進一步提升了樣本效率和探索安全性。實驗證明,該方法在多個基準上穩定提升性能,同時降低計算開銷,為RL4LLM的未來發展開辟了新路徑。在大型模型技術日新月異的背景下,這種輕量化設計有望成為后訓練階段的標準工具之一。

阿里Asymmetric PPO —— 輕量評論家協同,重煥 Critic-based RL 高效新范式-AI.x社區

通過本文的深度解讀,我們可以看到,AsyPPO不僅是技術上的突破,更是一種范式轉變:它證明在LLM時代,輕量化設計能釋放傳統RL算法的潛力,為AGI的推理能力優化提供了可持續路徑。

本文轉載自??AIGC深一度??,作者:一度

已于2025-11-17 07:32:46修改
收藏
回復
舉報
回復
相關推薦
日本天堂在线| 日本一区二区不卡在线| 另类一区二区三区| 亚洲欧美中日韩| 99re视频在线播放| 久久视频免费在线观看| 精品视频免费| 日韩欧美专区在线| 男人操女人免费软件| 91在线导航| www.av精品| 91精品啪在线观看麻豆免费| 日本熟妇一区二区| 欧美电影免费| 亚洲美女中文字幕| 亚洲精品在线视频播放| 小h片在线观看| 亚洲欧美怡红院| 快播日韩欧美| 粉嫩av一区二区夜夜嗨| 青青草一区二区三区| 欧美激情精品久久久久久大尺度| 久久精品午夜福利| 91麻豆免费在线视频| 国产日韩欧美在线一区| 国内不卡一区二区三区| 夜夜躁狠狠躁日日躁av| 国产精品久久国产愉拍| 欧美裸体xxxx极品少妇| 免费看日本黄色片| 色天下一区二区三区| 717成人午夜免费福利电影| 日韩手机在线观看视频| 麻豆国产在线| 亚洲高清三级视频| 最新av在线免费观看| 国产黄在线播放| 2024国产精品| 国产精品久久一区二区三区| 国产女主播福利| 蜜桃视频免费观看一区| 欧美综合激情网| 奇米影视第四色777| 国产精品porn| 精品国产一区二区三区久久久| 午夜不卡福利视频| 99九九久久| 在线免费精品视频| av五月天在线| 妞干网免费在线视频| 亚洲高清不卡在线| 国产乱淫av片杨贵妃| 怡红院红怡院欧美aⅴ怡春院| 高清不卡一区二区| 成人看片视频| www.热久久| 成人自拍视频在线观看| www.成人av| 国产成人精品无码高潮| 国内精品伊人久久久久av一坑| 97视频在线观看成人| 国产一级久久久| 激情文学一区| 欧美一级在线亚洲天堂| 日韩久久中文字幕| 日本欧美在线观看| 91精品久久久久久久久久久久久| 国产精品第九页| 日韩天天综合| 奇米4444一区二区三区| 高潮毛片又色又爽免费 | 日本三级亚洲精品| 国产精品99久久99久久久二8| 欧美人禽zoz0强交| 狠狠入ady亚洲精品| 久久久视频在线| 日韩精品视频免费看| 亚洲一区中文| 国产精品女视频| 国产日本精品视频| 成人爽a毛片一区二区免费| 久久国产一区| 在线视频91p| 一区二区三区免费在线观看| 霍思燕三级露全乳照| 老司机成人影院| 欧美美女视频在线观看| 久久久久久久久久久久国产精品| 91国拍精品国产粉嫩亚洲一区| 亚洲国产日韩av| 毛片一区二区三区四区| 小说区图片区亚洲| 亚洲福利在线看| 久久久久久国产免费a片| 婷婷丁香综合| 欧美一级大片在线观看| 亚洲一区二区人妻| 国产成人亚洲精品狼色在线| 欧美精品一区二区三区在线看午夜| 色噜噜在线播放| 国产欧美一区二区精品仙草咪| 蜜桃狠狠色伊人亚洲综合网站| 国产综合视频在线| 中文av一区二区| 妺妺窝人体色www看人体| 色是在线视频| 日韩一区二区三区视频在线 | 狂野欧美xxxx韩国少妇| 亚洲精品国产欧美| 蜜桃av免费在线观看| 亚洲国产91| 国产一区二区丝袜| 青青免费在线视频| 亚洲综合色区另类av| 美女一区二区三区视频| 久久黄色影视| 久久精品久久久久| 国产一区二区视频免费| 波波电影院一区二区三区| 在线精品亚洲一区二区| 精品三级久久| 日韩欧美国产小视频| 日本裸体美女视频| 日韩福利视频导航| 九色91在线视频| 女囚岛在线观看| 欧美一级片在线| 人人艹在线视频| 视频一区视频二区中文字幕| 国内精品视频免费| 精灵使的剑舞无删减版在线观看| 偷拍亚洲欧洲综合| 久久黄色一级视频| 天天综合网91| 国产美女精品视频免费观看| 国产在线视频网址| 色婷婷久久久久swag精品 | 日韩av电影网| 国产成人免费网站| 男人天堂成人网| 97久久中文字幕| 色七七影院综合| 国产乡下妇女三片| 国产欧美1区2区3区| 91视频最新入口| 少妇精品导航| 日本精品视频网站| 精品影院一区| 欧美性受xxxx黑人xyx性爽| 精品无码国产污污污免费网站| 婷婷久久一区| 91免费福利视频| 美女黄视频在线观看| 欧美日韩成人一区| 青青操在线视频观看| 国产在线视频一区二区三区| 水蜜桃一区二区三区| 国产91欧美| 久久综合电影一区| 国产丰满美女做爰| 亚洲国产成人av| 国产精品久久久久久久无码| 国产日韩欧美一区在线| 日本成人黄色免费看| 国产极品久久久久久久久波多结野 | 经典三级在线视频| 日韩免费精品| 97视频在线播放| 国产小视频福利在线| 欧美日韩国产影片| 久久97人妻无码一区二区三区| 日韩中文字幕91| 午夜视频久久久| 亚洲国产天堂| 久久久这里只有精品视频| 青青草免费观看免费视频在线| 亚洲精品写真福利| 老司机午夜免费福利| 久久精选视频| 视频一区二区视频| 福利片在线一区二区| 国产成人精品免高潮在线观看 | 国产精品久久久久久久乖乖| 日韩欧美天堂| 国产日本欧美一区| 超碰在线资源| 中文字幕在线成人| 性一交一乱一伧老太| 一道本成人在线| 三级黄色录像视频| 99re这里只有精品视频首页| 天天爽人人爽夜夜爽| 黑人一区二区| 视频一区视频二区视频三区视频四区国产 | 精品国产亚洲日本| 欧美在线不卡区| 在线免费看黄| 亚洲精品国产美女| 国产精品羞羞答答在线| 黄网动漫久久久| 色老板免费视频| 久久精品亚洲精品国产欧美kt∨| 欧美亚洲日本一区二区三区| 欧美亚洲激情| 精品久久精品久久| 亚洲伦理久久| 欧洲永久精品大片ww免费漫画| 欧美日韩免费做爰大片| 在线成人av网站| 成人av网站在线播放| 亚洲一级在线观看| 1024手机在线观看你懂的| 成人精品亚洲人成在线| 色天使在线观看| 欧美亚洲三级| 91免费黄视频| 欧美女人交a| 亚洲一区三区| 久久av超碰| 精品国产一区二区三区麻豆免费观看完整版 | 欧美日韩精品区别| 老司机午夜免费精品视频| 91午夜在线观看| 亚洲欧美综合国产精品一区| 亚洲综合第一| 欧美一二区在线观看| 久久免费看av| 农村少妇一区二区三区四区五区 | 一区二区三区四区久久| 免费精品国产| 久久综合九色综合久99| 国产suv精品一区| 91影视免费在线观看| 日韩国产大片| 国产啪精品视频| 亚洲精品第一| 91精品久久久久久久久久久久久久| 99热国产在线中文| 精品精品国产国产自在线| √新版天堂资源在线资源| 亚洲一区第一页| 免费黄色在线视频网站| 日韩久久精品成人| 青春有你2免费观看完整版在线播放高清 | 成人黄色在线视频| 动漫av在线免费观看| 国产福利精品一区二区| 伊人国产精品视频| 国产最新精品精品你懂的| 亚洲天堂网2018| 国产自产2019最新不卡| 青娱乐国产精品视频| 国产成人午夜99999| 精品1卡二卡三卡四卡老狼| 成人h精品动漫一区二区三区| 中文字幕第36页| 午夜激情视频在线观看| 亚洲狠狠爱一区二区三区| 天天看片中文字幕| 亚洲国产日韩精品| 青青青国产在线 | 老司机福利在线观看| 日本一区免费视频| 欧美一级特黄高清视频| 亚洲精品国久久99热| 日本少妇做爰全过程毛片| 欧美视频在线看| wwwwww在线观看| 91精品国产入口| 后入内射欧美99二区视频| 日韩精品黄色网| 日本三级在线视频| 欧美大片在线免费观看| av成人 com a| 国产精品观看在线亚洲人成网| a级片免费在线观看| 欧美一级淫片videoshd| 亚洲精品555| 成人精品水蜜桃| 国产欧美日韩影院| 久久国产精品免费观看| 亚洲一区欧美二区| 超碰超碰在线观看| 成人av在线播放网址| www.日本高清视频| 亚洲一区视频在线观看视频| 亚洲综合久久网| 欧美一区二区福利视频| 五月天婷婷社区| 久久精品久久久久电影| 黄色软件视频在线观看| 国产精品网红福利| 久久综合五月婷婷| 国产精品夜夜夜爽张柏芝| 99热这里只有成人精品国产| 手机在线成人免费视频| www.av精品| 国产一二三四区| 91高清视频在线| 人人妻人人澡人人爽人人欧美一区 | 久久久久久久久久久免费精品| 超碰公开在线| 欧美一区在线直播| 国产一区二区三区黄网站| 免费国产一区二区| 激情av一区| 污视频免费在线观看网站| kk眼镜猥琐国模调教系列一区二区 | 女厕盗摄一区二区三区| 91精品在线影院| 北条麻妃国产九九九精品小说| 色综合666| 99在线精品免费视频九九视| 粉色视频免费看| 久久久久国产一区二区三区四区| www.黄色在线| 天天色天天操综合| 亚洲精品911| 日韩视频免费中文字幕| 日韩大片欧美大片| 精品一区久久久| 亚洲承认在线| 韩国三级hd中文字幕有哪些| 国产精品久久三| 亚洲精品一区二区二区| 亚洲女人天堂视频| 日韩电影毛片| 精品一区2区三区| 中日韩视频在线观看| 香蕉视频免费网站| 亚洲午夜精品久久久久久久久| 久久久久久久久影院| 亚洲精品一线二线三线无人区| 五月天福利视频| 欧美激情亚洲精品| 欧美经典影片视频网站| 天天爱天天做天天操| 久久爱www久久做| 女教师淫辱の教室蜜臀av软件| 亚洲综合免费观看高清在线观看| av资源免费观看| 日韩av在线播放资源| 波多野结衣久久精品| 欧美日韩精品中文字幕一区二区| 重囗味另类老妇506070| 欧美一级xxxx| 亚洲色图.com| 国产丰满果冻videossex| 欧美高清电影在线看| 亚洲日本一区二区三区在线| 国产爆乳无码一区二区麻豆| 国产不卡视频在线观看| 精品肉丝脚一区二区三区| 欧美不卡激情三级在线观看| missav|免费高清av在线看| 国产一区二区视频在线免费观看 | 日韩在线视频一区| 日韩精品第二页| 91麻豆天美传媒在线| 成人午夜精品在线| 亚洲 欧美 日韩 综合| 亚洲色图在线观看| 国产精品第一| 日本女人高潮视频| 成年人午夜久久久| 国产一区二区视频网站| 色偷偷噜噜噜亚洲男人的天堂| 亚洲承认视频| 国产福利片一区二区| 国产精品白丝av| 国产欧美一区二区三区在线看蜜臂| 欧美成人伊人久久综合网| av资源新版天堂在线| 日韩aⅴ视频一区二区三区| 久久成人免费电影| 国产成人在线免费观看视频| 国产亚洲免费的视频看| www欧美在线观看| 欧美成人三级在线视频| 国产欧美日韩中文久久| 国产三级漂亮女教师| 91禁国产网站| 亚洲mv大片欧洲mv大片| 中文字幕乱码一区| 欧美揉bbbbb揉bbbbb| 免费男女羞羞的视频网站在线观看| 亚洲最大的成人网| 国产视频一区欧美| 一级性生活免费视频| 日韩激情片免费| 亚洲热av色在线播放| 鲁一鲁一鲁一鲁一色| 亚洲色图欧美在线| 麻豆导航在线观看| 高清视频一区二区三区| 日韩av成人高清| 国产精品9191| 日韩一区二区三区在线播放| 女仆av观看一区| 国产成人强伦免费视频网站|