早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架
Agent Learning via Early Experience
2025-10-09|OSU, Meta Superintelligence Labs, Meta FAIR|??172
??http://arxiv.org/abs/2510.08558v1???
???https://huggingface.co/papers/2510.08558??
研究背景與意義

- 語言智能體旨在通過自身經驗學習和提升,最終在復雜現實任務中超越人類表現。然而,當前訓練方法面臨諸多挑戰。
- 傳統的監督學習依賴專家示范數據,難以擴展且泛化能力有限,因示范數據覆蓋場景狹窄且缺乏環境多樣性。
- 強化學習雖能優化長期獎勵,但現實環境中往往缺乏可驗證的獎勵信號,且多輪交互任務導致訓練低效且不穩定。
- 本文提出“早期經驗”范式,介于模仿學習與強化學習之間,利用智能體自身動作產生的未來狀態作為無獎勵信號的監督,突破了傳統方法的限制。
- 該范式通過智能體自我探索獲得豐富的環境反饋,促進其從失敗和非最優行為中學習,提高適應性和泛化能力。
研究方法與創新

- 早期經驗范式定義:智能體在專家示范基礎上,主動采樣多樣化動作,收集對應的未來環境狀態,構建包含狀態-動作-后續狀態的滾動數據集,作為無獎勵的監督信號。
- 隱式世界建模(Implicit World Modeling, IWM):
將未來狀態預測作為輔助任務,訓練語言模型預測執行某動作后環境的下一狀態。
該方法使模型內化環境動態,無需獨立模擬器,提升對環境轉移規律的理解,增強對非專家動作的魯棒性。
訓練采用兩階段:先用未來狀態預測任務預訓練,再用專家示范數據微調,兼顧環境理解和專家行為擬合。
- 自我反思(Self-Reflection, SR):
基于智能體對專家動作與自身備選動作產生的未來狀態差異進行自然語言推理,生成“鏈式思考”解釋,闡明專家動作優越性。
利用生成的反思文本與專家動作聯合訓練模型,促進模型學習更細粒度、可遷移的決策原則。
該方法強化模型從自身非最優行為中吸取經驗,提升邏輯推理和長期規劃能力。
- 兩種方法均將智能體自身行為及其結果轉化為可擴展的監督信號,突破了傳統依賴外部獎勵或專家示范的局限。
實驗設計與結果分析


- 實驗環境:涵蓋八個多樣化語言智能體任務,包括具身導航、科學實驗模擬、長程規劃、多輪工具使用、網頁導航等,使用多種主流語言模型(Llama、Qwen等)。
- 訓練細節:統一訓練步驟預算,IWM先進行未來狀態預測預訓練再微調,SR生成反思文本與專家數據混合訓練,確保公平比較。
- 效果顯著提升:
兩種方法在幾乎所有環境和模型規模上均超越純模仿學習,成功率提升幅度明顯,尤其在需要多步推理和約束滿足的任務中SR表現突出。
不同動作空間(有限、結構化大空間、開放動作集)和觀察空間復雜度下均表現穩定,顯示方法的廣泛適用性。
- 泛化能力:
在多項環境的領域外測試中,早期經驗方法顯著提升模型對未見狀態的適應性,部分環境中泛化增益甚至超過域內表現。
IWM在環境動態穩定時表現更優,SR在工具可用性和參數變化的分布轉移中更具優勢。
- 強化學習銜接:
在具備獎勵信號的環境中,以早期經驗訓練的模型作為強化學習初始化,顯著提升后續強化學習的最終性能和訓練穩定性。
證明早期經驗范式不僅提升無獎勵階段表現,也為后續獎勵驅動學習奠定堅實基礎。
結論與展望
- 本文系統提出并驗證了早期經驗范式,作為模仿學習與強化學習之間的有效橋梁,解決了語言智能體訓練中缺乏獎勵信號和專家數據不足的核心難題。
- 通過隱式世界建模和自我反思兩種策略,智能體能夠從自身探索中提取豐富監督信號,提升決策質量、泛化能力及后續強化學習效果。
- 實驗覆蓋多樣環境和模型規模,結果表明該范式具有高度的通用性和可擴展性。
- 未來工作可探索更高效的探索策略、更豐富的反思機制以及與更多強化學習算法的深度結合,推動語言智能體邁向完全自主學習的“經驗時代”。
Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning
2025-09-26|KAIST, AITRICS|??44
??http://arxiv.org/abs/2510.03259v1???
???https://huggingface.co/papers/2510.03259???
???https://github.com/akatigre/MASA-RL??
研究背景與意義

- 問題定義與現狀近年來,基于強化學習(RL)的后訓練方法在提升大型語言模型(LLMs)推理能力方面表現突出,尤其是GRPO等算法在數學和代碼生成等復雜任務中取得了領先成績。然而,現有大型推理模型普遍缺乏“元認知”能力,即模型自我感知“如何思考”的能力,表現為模型預測的元信息(如問題難度、推理長度)與實際推理過程嚴重不匹配。
- 挑戰與目標現有元認知推理方法往往依賴外部模型、人工設計的推理流程或專門的數據集,限制了其適用性和訓練效率。本文提出的目標是設計一種無需外部監督、能夠利用模型自生成信號進行元認知訓練的強化學習框架,提升模型的元認知能力,從而直接促進推理性能和訓練效率的提升。
研究方法與創新


- 核心方法——MASA框架MASA(Meta-Awareness via Self-Alignment)通過并行生成元預測路徑和解決方案路徑,分別針對元信息(如預測推理長度、難度及數學概念)和具體解答進行采樣。其核心創新在于設計了“自我對齊”獎勵機制,鼓勵模型預測的元信息與真實推理軌跡統計數據保持一致,從而提升元認知的準確性。
- 獎勵設計
- 長度對齊獎勵:若預測推理長度落在正確解答推理長度范圍內,則給予獎勵。
- 難度對齊獎勵:依據預測通過率與真實通過率的差異,采用指數衰減函數給予獎勵,差異越小獎勵越高。
- 數學概念獎勵:統計預測涉及的數學概念在正確與錯誤解答中的出現頻率,鼓勵模型關注對正確解答有區分度的概念。
- 行為克隆與專家軌跡為提升訓練穩定性,MASA引入基于DAgger的專家行為克隆機制,動態收集高質量的元預測軌跡作為專家數據,并在訓練中進行監督微調,促進模型快速學習準確的元認知能力。
- 訓練效率提升——MASA-efficient在MASA基礎上,提出MASA-efficient,利用元預測結果實現預測性門控(過濾掉無效或過于簡單/復雜的任務)和早期截斷(提前終止可能錯誤的長推理軌跡),顯著節省訓練計算資源并加速收斂。此外,元預測的數學概念用于為模型提供輔助提示,進一步輔助推理過程。
- 理論基礎與對比MASA方法區別于依賴外部驗證器或人類設計推理流程的元認知方法,強調模型內部信號的自我對齊訓練,具有更好的可擴展性和泛化能力。與傳統GRPO等強化學習方法相比,MASA不僅提升了推理準確率,也優化了訓練效率。
實驗設計與結果分析



- 實驗設置
- 使用VeRL數據集和DeepScalerR,結合GRPO算法進行后訓練。
- 評估指標包括數學推理準確率(Pass@1,Pass@32)及邏輯、科學、編碼推理等多領域的泛化能力。
- 對比基線為GRPO和DAPO,驗證MASA與MASA-efficient的性能和效率提升。
- 主要結果
- 數學推理任務:MASA在六個數學基準(AIME24、AIME25、AMC23、MATH500、Minerva、Olympiad)上均顯著優于GRPO,Qwen3-8B模型平均準確率提升6.2%,14B模型提升2.45%。
- 泛化能力:在邏輯推理(ProntoQA、ProofWriter)、科學推理(GPQA-Diamond)和編碼任務(EvalPlus)等多領域測試中,MASA均表現出優于基線的性能,證明元認知訓練提升了模型的跨領域推理能力。
- 訓練效率:MASA-efficient通過預測性門控和早期截斷實現了1.28倍的訓練速度提升,同時保持甚至提升了最終性能。
- 統計顯著性與多場景表現實驗數據表明,元認知獎勵與性能提升之間存在直接正相關,且MASA在不同模型規模和任務領域均表現穩健,驗證了方法的普適性和有效性。
結論與展望
- 貢獻總結
- 提出基于自我對齊的元認知強化學習框架MASA,首次實現無需外部監督的元認知訓練。
- 設計多維度元認知獎勵機制,促進模型準確預測推理過程的關鍵屬性。
- 引入MASA-efficient,結合行為克隆和元預測驅動的計算資源優化策略,實現訓練效率和性能的雙重提升。
- 實驗驗證MASA顯著提升了數學推理準確率及跨領域泛化能力。
- 局限性分析
- 當前元認知獎勵設計依賴于對正確解答軌跡的統計,若訓練數據質量不足,可能影響元認知準確性。
- 行為克隆機制引入額外超參數和訓練復雜度,需進一步優化以適配更大規模模型。
- 預測性門控和截斷策略在極端任務分布下的魯棒性尚需深入研究。
- 未來展望
- 探索更豐富的元認知信號維度,如推理路徑多樣性和模型不確定性,以進一步提升自我認知能力。
- 將MASA框架擴展至多模態推理和交互式任務,增強模型的適用范圍。
- 結合元認知與解釋性推理,促進模型透明度和可控性,推動實際應用中的可信AI發展。
Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward
2025-10-03|Tencent , THU, PKU, CUHK|??37
??http://arxiv.org/abs/2510.03222v1???
???https://huggingface.co/papers/2510.03222???
???https://github.com/CarlanLark/Lp-Reg??
研究背景與意義

- 問題定義與現狀概述
隨著大型語言模型(LLMs)在復雜推理任務中的應用,強化學習與可驗證獎勵(RLVR)成為提升模型推理能力的關鍵技術。然而,RLVR訓練過程中普遍存在性能瓶頸,表現為策略熵快速下降,導致探索能力喪失,訓練陷入停滯甚至崩潰。現有方法多聚焦于保持整體策略熵,但忽視了探索的質量,導致無差別增加隨機性,反而放大了無關噪聲,影響訓練穩定性。
- 挑戰與目標闡明
本文深入分析探索瓶頸,發現關鍵在于低概率但極具價值的“推理火花”(Reasoning Sparks)——如“wait”、“however”等邏輯連接詞的采樣概率被系統性壓制,導致探索路徑單一化。同時,簡單的熵增強方法會無差別放大噪聲詞,破壞訓練穩定。目標是設計一種機制,有選擇地保護這些有意義的低概率探索,過濾掉無關噪聲,從而實現穩定且高質量的探索。
研究方法與創新

- 技術描述提出“低概率正則化”(Low-probability Regularization,Lp-Reg)方法,通過構造一個基于模型自信度的代理分布(proxy distribution),篩除低概率噪聲詞并重新歸一化剩余詞的概率,放大有價值的推理火花的相對概率。正則化項采用前向KL散度,懲罰策略對代理分布的偏離,避免有意義低概率詞被過度懲罰。
- 創新點突出
聚焦探索質量而非整體熵:區別于傳統熵正則化,Lp-Reg通過概率閾值過濾噪聲,精準保護推理火花,提升探索的語義相關性和有效性。
基于模型內在置信度的動態閾值:采用動態“min-p”閾值自適應調整,增強過濾策略的魯棒性和適應性。
選擇性正則化機制:僅對低概率且負優勢(負反饋)的推理火花施加正則化,避免對正向學習信號產生干擾,保持訓練靈活性。
理論基礎扎實:基于LLMs內在置信度區分有意義探索詞與噪聲詞的統計特征,提供了正則化設計的理論支撐。
- 與現有方法對比
Lp-Reg克服了傳統基于策略整體熵的間接調控方法的缺陷,避免了無差別放大噪聲導致的訓練不穩定。相比多種先進熵控制技術,Lp-Reg更精準地維護了探索的核心成分,實現了更穩定和有效的訓練過程。
實驗設計與結果分析




- 實驗設計
在兩個規模的Qwen模型(14B與32B)上,采用五個數學推理基準(AIME24、AIME25、MATH-500、OlympiadBench、MinervaMath)進行評測。對比基線包括GRPO、GRPO+EntropyLoss及多種先進熵控制方法。訓練使用統一框架和相同超參數設置,確保公平比較。重點考察模型在長達1000步訓練過程中的穩定性、策略熵動態及最終準確率。
- 結果分析
性能提升顯著:Lp-Reg在14B模型上實現60.17%的平均準確率,較次優方法提升2.66%。在32B模型上也表現出色,證明方法的規模適應性。
訓練穩定性優越:Lp-Reg能維持穩定的探索狀態,避免策略熵的快速崩塌,支持長周期的on-policy訓練,而其他方法多在早期崩潰。
探索行為合理:通過概率-熵散點圖和推理火花頻率分析,Lp-Reg保持了推理火花的多樣性和合理采樣,避免了無意義噪聲的放大。
消融實驗驗證設計合理性:去除噪聲過濾閾值導致訓練不穩定,固定閾值不如動態閾值表現優異,驗證了核心組件及自適應策略的必要性。
結論與展望
- 研究貢獻總結
本文首次揭示了RLVR中推理火花被系統性壓制導致探索崩潰的根本機制,提出了基于模型內在置信度的低概率正則化方法,有效保護關鍵探索路徑,提升了推理模型的訓練穩定性和最終性能。實驗結果表明,Lp-Reg不僅在多個基準和模型規模上實現了性能領先,還顯著延長了穩定訓練周期。
- 局限性與未來方向
目前Lp-Reg依賴于概率閾值的設定和模型內在置信度的區分能力,未來可探索更細粒度的噪聲識別機制及動態調整策略。此外,方法主要驗證于數學推理任務,后續可擴展至更廣泛的復雜推理和自然語言生成場景。結合更豐富的獎勵信號和多模態信息,或將進一步提升探索效率和模型泛化能力。
- 方法展望
未來研究可聚焦于自動化噪聲與推理火花的區分機制,融合強化學習與自監督學習的優勢,構建更智能的探索調控框架。同時,探索跨任務、跨模型的通用性和適應性,推動RLVR技術在更廣泛領域的應用與發展。
The Alignment Waltz: Jointly Training Agents to Collaborate for Safety
2025-10-09|Meta Superintelligence Labs, JHU|??33
??http://arxiv.org/abs/2510.08240v1???
???https://huggingface.co/papers/2510.08240??
研究背景與意義

- 問題定義與挑戰
本文聚焦于大型語言模型(LLMs)在安全性與有用性之間的核心矛盾:一方面,模型易受對抗攻擊,生成不安全內容;另一方面,為避免風險,模型往往對敏感但無害的提示過度拒絕(overrefusal),導致用戶體驗下降。現有的安全防護機制(如獨立的安全守衛模型)通常通過完全拒絕含有潛在風險的內容來保障安全,但這加劇了過度拒絕問題,且缺乏對拒絕原因的細致指導。
- 研究目標
本文旨在提出一種能夠協調安全與有用性的多智能體協作訓練框架,實現安全對齊的“正和游戲”,使模型在保證安全的同時最大限度地減少過度拒絕,并提升反饋的細致性和有效性。
研究方法與創新

- WaltzRL框架設計
該方法構建了兩個協作智能體:對話智能體負責生成回答,反饋智能體負責審查并提供安全及拒絕相關的反饋建議。二者通過多輪交互共同優化回答。核心創新在于將安全對齊建模為一個正和多智能體強化學習問題,強調協作而非競爭。
- 動態改進獎勵(DIR)機制
反饋智能體的獎勵設計為基于對話智能體在接受反饋后的改進幅度,即反饋導致回答從不安全或過度拒絕向安全且有用轉變的程度。該獎勵動態調整,鼓勵反饋智能體產生有助于改進對話智能體回答的建議。
- 兩階段訓練策略
- 第一階段凍結對話智能體,僅訓練反饋智能體以準確識別不安全與過度拒絕情況及生成格式規范的反饋。
- 第二階段聯合訓練兩個智能體,取消反饋智能體的標簽獎勵以避免過擬合,強化協同改進能力。
- 推理時自適應反饋機制反饋智能體僅在檢測到對話智能體回答存在安全或拒絕問題時介入,避免不必要的反饋,降低延遲,保持對安全提示的靈敏響應。
- 多輪反饋與協作允許多輪反饋與回答修正,提升模型對復雜安全邊界和模糊提示的處理能力,區別于傳統單輪拒絕機制。
實驗設計與結果分析




- 實驗設置
- 使用Llama-3.1-8B-Instruct作為基礎模型,收集包含對抗攻擊和邊界過度拒絕提示的訓練數據。
- 評估指標涵蓋安全性(攻擊成功率ASR)、過度拒絕率(ORR)、指令遵循能力和通用能力,以及反饋觸發率(FTR)以衡量效率。
- 性能表現
- WaltzRL在五個多樣化數據集上顯著降低了不安全回答率(例如WildJailbreak從39.0%降至4.6%)和過度拒絕率(例如OR-Bench從45.3%降至9.9%),優于多種基線方法,包括單模型強化學習和傳統守衛模型。
- 即使未在訓練中引入幫助性提示,WaltzRL仍保持了對話智能體的指令遵循和通用能力,幾乎無性能損失。
- 反饋智能體的標簽預測準確率顯著提升,反饋觸發率大幅降低,顯示了推理時反饋的高效自適應性。
- 消融研究
- 動態改進獎勵中結合標簽獎勵對維持反饋智能體標簽預測準確性至關重要。
- 兩階段訓練策略有效避免了訓練過程中的數據不平衡和過擬合,提升了反饋的實用性和協作效果。
- 反饋機制不僅減少了不安全和過度拒絕回答,還通過詳細反饋指導對話智能體生成更合理的回答。
- 定性分析
反饋智能體能夠生成具體且有說服力的改進建議,甚至引導對話智能體引用理想回答,展現出協作智能體間的復雜互動與策略性。
結論與展望
- 主要貢獻
- 提出WaltzRL,一種基于多智能體強化學習的安全對齊框架,通過協作正和游戲顯著推動了安全性與有用性的Pareto前沿。
- 創新設計動態改進獎勵機制,促進反饋智能體有效引導對話智能體改進回答。
- 采用兩階段訓練策略與自適應反饋機制,實現了安全提升與性能保持的良好平衡。
- 未來方向
- 探索訓練通用反饋智能體,可適配多種對話智能體,提升方法的泛化能力和部署靈活性。
- 擴展多輪反饋機制,進一步提升模型處理復雜安全邊界的能力。
- 結合更多現實場景和多模態輸入,增強系統在實際應用中的魯棒性和實用性。
- 倫理考量本研究旨在提升LLM的安全性和責任感,強調研究目的,提醒實際應用中需配合嚴格的安全測試和監控措施,避免潛在風險。
綜上,WaltzRL通過多智能體協作與動態獎勵機制,創新性地解決了大型語言模型在安全與有用性之間的平衡難題,展示了強化學習在AI安全領域的巨大潛力和應用前景。
Training-Free Group Relative Policy Optimization
2025-10-09|Youtu-AgentTeam|??31
??http://arxiv.org/abs/2510.08191v1???
???https://huggingface.co/papers/2510.08191???
???https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO??
研究背景與意義

- 問題定義與現狀
大型語言模型(LLM)作為通用智能體,具備在復雜環境中解決多樣任務的能力,但在專業領域中表現常受限于對外部工具的集成和特定提示策略的適應性不足。現有強化學習(RL)方法如基于參數微調的GRPO雖能提升性能,但計算成本高昂,且容易過擬合,限制了其實際應用。
- 挑戰與目標
參數微調方法面臨計算資源消耗大、數據需求高、泛化能力差及收益遞減等問題。論文旨在探索非參數化的策略優化方法,降低訓練成本和數據需求,同時保持模型的泛化能力和性能。
- 研究意義
通過提出無需參數更新的訓練范式,論文為LLM在專業領域的高效適應提供了新路徑,解決了傳統RL方法的瓶頸,具有重要的理論價值和廣泛的應用前景。
研究方法與創新


- 核心方法描述提出Training-Free Group Relative Policy Optimization(Training-Free GRPO),該方法通過多輪生成輸出組(rollouts),利用LLM自身進行語義優勢(semantic advantage)的內省和提煉,形成并更新外部的經驗知識庫(token prior),以此引導模型行為,無需參數更新。
- 創新點詳解
- 非參數化策略優化:將策略優化從參數空間轉移到上下文空間,通過動態更新的語義經驗庫實現類似GRPO的效果,避免了昂貴的梯度計算和模型微調。
- 語義組優勢替代數值優勢:利用自然語言形式的經驗總結替代傳統的數值獎勵優勢,增強了模型對不同輸出間質量差異的理解與利用。
- 多步多組學習機制:采用多輪多組輸出比較,持續優化經驗庫,提升了經驗的豐富性和泛化能力。
- 高效數據利用:僅需少量訓練樣本(幾十個),即可顯著提升模型性能,極大降低了數據和計算資源需求。
- 理論基礎與優勢對比
該方法基于LLM強大的上下文學習能力和推理能力,利用內省機制實現經驗知識的積累與利用,兼具RL的策略優化優勢和無微調的輕量級特點。相比傳統GRPO和其他RL方法,Training-Free GRPO在成本、泛化和實用性上具有顯著優勢。
實驗設計與結果分析


- 實驗設置
- 任務與數據:涵蓋數學推理(AIME2024/2025)、網頁搜索(WebWalkerQA)等復雜領域,訓練集規模極小(約100樣本)。
- 模型與基線:使用DeepSeek-V3.1-Terminus等大型凍結模型,比較傳統參數微調的GRPO、ReAct等方法。
- 評估指標:主要采用Mean@32、Pass@1等準確率指標,結合統計顯著性和多場景表現進行綜合評估。
- 關鍵結果
- Training-Free GRPO在數學推理任務中,相較于無訓練的基線提升2.7%-5.4%,超越了需大規模數據和昂貴計算的傳統RL方法。
- 在網頁搜索任務中,提升了4.6%的Pass@1表現,顯示出跨領域的適用性和穩健性。
- 消融實驗表明,語義組優勢、多輪學習和經驗庫優化均為性能提升的關鍵因素。
- 訓練成本僅為傳統方法的千分之一左右(約18美元),極大提升了經濟效益。
- 多場景表現與泛化該方法在不同模型規模和任務域均表現出一致的性能提升,且無需針對每個領域進行參數微調,展示了優越的跨域泛化能力。
結論與展望
- 研究貢獻總結
本文創新性地提出了一種無需參數更新的強化學習策略優化范式——Training-Free GRPO,通過語義優勢引導和經驗庫更新,實現了對大型語言模型行為的高效調控。該方法在多個復雜任務上顯著提升了性能,且極大降低了訓練數據和計算資源需求。
- 局限性分析
- 依賴于基礎模型的推理和工具使用能力,較弱模型效果有限。
- 語義優勢的提煉質量受限于經驗庫的構建和更新策略,未來可探索更精細的知識表示與管理。
- 當前實驗主要聚焦于數學和網頁搜索領域,其他專業領域的適用性有待進一步驗證。
3.未來研究方向
- 探索更豐富的語義經驗表示和自動化更新機制,提升經驗庫的表達力和適應性。
- 結合更多類型的外部工具和多模態信息,擴展方法的應用范圍。
- 設計更高效的訓練策略和并行機制,進一步降低資源消耗。
- 深入研究跨領域遷移和終身學習能力,推動LLM智能體的持續自我優化。
本文轉載自??AI研究前瞻??,作者:胡耀淇

















