逆強化學習全新視角的大模型對齊技術綜述
在 LLM 時代,對齊(alignment)已成為追求更可靠、更可控、更強大的機器智能的一個基礎但具有挑戰性的問題。推理模型和對話式人工智能系統近期的成功凸顯了強化學習(RL)在提升這些系統中的關鍵作用,通過逆強化學習(IRL)的視角,全面回顧了LLM對齊的最新進展。

一、強化學習基礎
回顧了馬爾可夫決策過程(MDP)的基本概念,包括狀態空間、動作空間、轉移動態、獎勵函數等。

- 定義:馬爾可夫決策過程(MDP)是強化學習中的一個核心框架,用于描述決策過程。MDP由狀態空間(S)、動作空間(A)、轉移動態(T)、獎勵函數(R)、初始狀態分布(ρ?)和折扣因子(γ)組成。
- 目標:強化學習的目標是最大化長期回報。通過與環境的交互,代理(agent)學習如何在每個時間步選擇最優的動作。
- 挑戰:在大型語言模型(LLM)的背景下,狀態空間和動作空間可能非常龐大,且獎勵函數通常需要從數據中學習,而不是預先定義。
盡管RL算法在某些任務中表現出色,但不存在一種適用于所有任務的“萬能算法”,算法的選擇應基于環境屬性和資源限制。
二、 LLM生成的MDP框架
將LLM的生成過程形式化為MDP,其中狀態是當前句子,動作是詞匯表中的單詞,轉移動態是確定性的,而獎勵函數則需要通過數據驅動的方法生成。


三、 無獎勵函數的MDP(MDP\R)
- 動機:在許多現實任務中,獎勵信號難以明確指定。例如,在自動駕駛系統中,學習目標是模仿人類駕駛行為,這很難形式化為獎勵函數。
- 行為數據集:在模仿學習(IL)和逆強化學習(IRL)中,行為數據集是直接和有效的手段,用于指定期望的行為,而無需手動設計獎勵函數。
- 方法:IL和IRL可以被解釋為行為分布匹配,目標是使學習策略的行為分布與專家的行為分布一致。IL直接模仿專家行為,而IRL學習一個獎勵模型,通過最大化累積回報來誘導專家行為。

四、為什么我們需要神經獎勵模型
僅靠模仿學習(IL)優化LLM是不夠的,需要神經獎勵模型(NRM)來提升性能和對齊質量。

- 模仿學習的局限性:
- 模仿學習(如行為克隆、監督微調)依賴于靜態數據集,難以泛化到新任務。
- 提示優化雖有效,但成本高且模型依賴。
- 神經獎勵模型的優勢:
- 偏好數據:偏好數據比演示數據更容易獲取,且能更靈活地構建獎勵模型。
- 泛化能力:獎勵模型幫助LLM在復雜任務(如數學推理)中表現出更強的泛化能力。
- 測試時優化:獎勵模型支持在測試時對生成結果進行優化,使LLM能夠動態調整生成結果。
五、通過獎勵建模實現實用的逆強化學習(IRL)
探討了如何通過獎勵建模(Reward Modeling)將現實世界中的行為數據轉化為對齊目標,從而實現大型語言模型(LLM)的優化。
1. 基于偏好反饋的獎勵建模
- PPO與Bradley-Terry獎勵模型:在標準的RLHF中,獎勵模型通過Bradley-Terry模型從成對的偏好數據中學習,將偏好轉化為標量獎勵信號。訓練好的獎勵模型隨后用于指導策略優化,通常結合近端策略優化(PPO)算法。
- 直接偏好優化(DPO):DPO跳過了顯式的獎勵建模和軌跡采樣步驟,直接優化策略以滿足人類反饋中的成對偏好約束。這種方法通過KL散度正則化的目標函數來優化,避免了顯式獎勵建模的復雜性。
- 對比與選擇:研究表明,當PPO的超參數調整得當時,基于獎勵模型的RLHF可以優于DPO。然而,穩定PPO在實踐中并非易事,而DPO則更為穩健。選擇哪種方法應根據任務的敏感性和計算資源來決定。

2. 數學推理中的獎勵建模
- 從啟發式提示到RLVR:早期的數學推理方法主要集中在提示優化,如鏈式思考(CoT)提示。隨后,研究者轉向基于搜索和規劃的方法,利用密集獎勵和蒙特卡洛樹搜索(MCTS)來探索推理路徑。最近,研究者轉向強化學習與可驗證獎勵(RLVR),直接優化正確性。
- Prompt-OIRL:提出了一種基于IRL的提示優化方法,通過重用歷史提示試驗經驗來訓練獎勵模型,用于離線提示評估和優化。這種方法在數學推理任務中取得了顯著的性能提升。

4.3 從演示數據集中學習獎勵模型
- 前向KL散度(SFT):最小化演示策略和當前策略之間的前向KL散度,對應于監督式微調(SFT)目標。
- 逆向KL散度(對抗性模仿):最小化逆向KL散度導致對抗性模仿學習目標,通過生成對抗方法估計演示策略的軌跡分布。

4.4 使用獎勵模型改進LLM生成
- 訓練時優化與推理時優化:文章討論了在訓練時通過策略更新或在推理時通過解碼策略修改來優化LLM生成的方法。這些方法包括Best-of-N采樣、迭代微調、PPO、REINFORCE、GRPO和DAPO等。
- 方法比較:不同的方法在計算復雜性、穩定性和性能方面各有優劣。例如,Best-of-N采樣簡單但計算成本高;PPO廣泛使用但對超參數敏感;DAPO在穩定性和訓練效率方面表現出色。

https://arxiv.org/pdf/2507.13158
Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances本文轉載自????????????PaperAgent??
贊
收藏
回復
分享
微博
QQ
微信
舉報
回復
相關推薦

















