精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架

發布于 2025-10-14 00:07
瀏覽
0收藏

Agent Learning via Early Experience

2025-10-09|OSU, Meta Superintelligence Labs, Meta FAIR|??172

??http://arxiv.org/abs/2510.08558v1???
???https://huggingface.co/papers/2510.08558??

研究背景與意義

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  • 語言智能體旨在通過自身經驗學習和提升,最終在復雜現實任務中超越人類表現。然而,當前訓練方法面臨諸多挑戰。
  • 傳統的監督學習依賴專家示范數據,難以擴展且泛化能力有限,因示范數據覆蓋場景狹窄且缺乏環境多樣性。
  • 強化學習雖能優化長期獎勵,但現實環境中往往缺乏可驗證的獎勵信號,且多輪交互任務導致訓練低效且不穩定。
  • 本文提出“早期經驗”范式,介于模仿學習與強化學習之間,利用智能體自身動作產生的未來狀態作為無獎勵信號的監督,突破了傳統方法的限制。
  • 該范式通過智能體自我探索獲得豐富的環境反饋,促進其從失敗和非最優行為中學習,提高適應性和泛化能力。

研究方法與創新

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  • 早期經驗范式定義:智能體在專家示范基礎上,主動采樣多樣化動作,收集對應的未來環境狀態,構建包含狀態-動作-后續狀態的滾動數據集,作為無獎勵的監督信號。
  • 隱式世界建模(Implicit World Modeling, IWM)

將未來狀態預測作為輔助任務,訓練語言模型預測執行某動作后環境的下一狀態。

該方法使模型內化環境動態,無需獨立模擬器,提升對環境轉移規律的理解,增強對非專家動作的魯棒性。

訓練采用兩階段:先用未來狀態預測任務預訓練,再用專家示范數據微調,兼顧環境理解和專家行為擬合。

  • 自我反思(Self-Reflection, SR)

基于智能體對專家動作與自身備選動作產生的未來狀態差異進行自然語言推理,生成“鏈式思考”解釋,闡明專家動作優越性。

利用生成的反思文本與專家動作聯合訓練模型,促進模型學習更細粒度、可遷移的決策原則。

該方法強化模型從自身非最優行為中吸取經驗,提升邏輯推理和長期規劃能力。

  • 兩種方法均將智能體自身行為及其結果轉化為可擴展的監督信號,突破了傳統依賴外部獎勵或專家示范的局限。

實驗設計與結果分析

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  • 實驗環境:涵蓋八個多樣化語言智能體任務,包括具身導航、科學實驗模擬、長程規劃、多輪工具使用、網頁導航等,使用多種主流語言模型(Llama、Qwen等)。
  • 訓練細節:統一訓練步驟預算,IWM先進行未來狀態預測預訓練再微調,SR生成反思文本與專家數據混合訓練,確保公平比較。
  • 效果顯著提升

兩種方法在幾乎所有環境和模型規模上均超越純模仿學習,成功率提升幅度明顯,尤其在需要多步推理和約束滿足的任務中SR表現突出。

不同動作空間(有限、結構化大空間、開放動作集)和觀察空間復雜度下均表現穩定,顯示方法的廣泛適用性。

  • 泛化能力

在多項環境的領域外測試中,早期經驗方法顯著提升模型對未見狀態的適應性,部分環境中泛化增益甚至超過域內表現。

IWM在環境動態穩定時表現更優,SR在工具可用性和參數變化的分布轉移中更具優勢。

  • 強化學習銜接

在具備獎勵信號的環境中,以早期經驗訓練的模型作為強化學習初始化,顯著提升后續強化學習的最終性能和訓練穩定性。

證明早期經驗范式不僅提升無獎勵階段表現,也為后續獎勵驅動學習奠定堅實基礎。

結論與展望

  • 本文系統提出并驗證了早期經驗范式,作為模仿學習與強化學習之間的有效橋梁,解決了語言智能體訓練中缺乏獎勵信號和專家數據不足的核心難題。
  • 通過隱式世界建模和自我反思兩種策略,智能體能夠從自身探索中提取豐富監督信號,提升決策質量、泛化能力及后續強化學習效果。
  • 實驗覆蓋多樣環境和模型規模,結果表明該范式具有高度的通用性和可擴展性。
  • 未來工作可探索更高效的探索策略、更豐富的反思機制以及與更多強化學習算法的深度結合,推動語言智能體邁向完全自主學習的“經驗時代”。

Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning

2025-09-26|KAIST, AITRICS|??44

??http://arxiv.org/abs/2510.03259v1???
???https://huggingface.co/papers/2510.03259???
???https://github.com/akatigre/MASA-RL??

研究背景與意義

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  1. 問題定義與現狀近年來,基于強化學習(RL)的后訓練方法在提升大型語言模型(LLMs)推理能力方面表現突出,尤其是GRPO等算法在數學和代碼生成等復雜任務中取得了領先成績。然而,現有大型推理模型普遍缺乏“元認知”能力,即模型自我感知“如何思考”的能力,表現為模型預測的元信息(如問題難度、推理長度)與實際推理過程嚴重不匹配。
  2. 挑戰與目標現有元認知推理方法往往依賴外部模型、人工設計的推理流程或專門的數據集,限制了其適用性和訓練效率。本文提出的目標是設計一種無需外部監督、能夠利用模型自生成信號進行元認知訓練的強化學習框架,提升模型的元認知能力,從而直接促進推理性能和訓練效率的提升。

研究方法與創新

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  1. 核心方法——MASA框架MASA(Meta-Awareness via Self-Alignment)通過并行生成元預測路徑和解決方案路徑,分別針對元信息(如預測推理長度、難度及數學概念)和具體解答進行采樣。其核心創新在于設計了“自我對齊”獎勵機制,鼓勵模型預測的元信息與真實推理軌跡統計數據保持一致,從而提升元認知的準確性。
  2. 獎勵設計
  • 長度對齊獎勵:若預測推理長度落在正確解答推理長度范圍內,則給予獎勵。
  • 難度對齊獎勵:依據預測通過率與真實通過率的差異,采用指數衰減函數給予獎勵,差異越小獎勵越高。
  • 數學概念獎勵:統計預測涉及的數學概念在正確與錯誤解答中的出現頻率,鼓勵模型關注對正確解答有區分度的概念。
  1. 行為克隆與專家軌跡為提升訓練穩定性,MASA引入基于DAgger的專家行為克隆機制,動態收集高質量的元預測軌跡作為專家數據,并在訓練中進行監督微調,促進模型快速學習準確的元認知能力。
  2. 訓練效率提升——MASA-efficient在MASA基礎上,提出MASA-efficient,利用元預測結果實現預測性門控(過濾掉無效或過于簡單/復雜的任務)和早期截斷(提前終止可能錯誤的長推理軌跡),顯著節省訓練計算資源并加速收斂。此外,元預測的數學概念用于為模型提供輔助提示,進一步輔助推理過程。
  3. 理論基礎與對比MASA方法區別于依賴外部驗證器或人類設計推理流程的元認知方法,強調模型內部信號的自我對齊訓練,具有更好的可擴展性和泛化能力。與傳統GRPO等強化學習方法相比,MASA不僅提升了推理準確率,也優化了訓練效率。

實驗設計與結果分析

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  1. 實驗設置
  • 使用VeRL數據集和DeepScalerR,結合GRPO算法進行后訓練。
  • 評估指標包括數學推理準確率(Pass@1,Pass@32)及邏輯、科學、編碼推理等多領域的泛化能力。
  • 對比基線為GRPO和DAPO,驗證MASA與MASA-efficient的性能和效率提升。
  1. 主要結果
  • 數學推理任務:MASA在六個數學基準(AIME24、AIME25、AMC23、MATH500、Minerva、Olympiad)上均顯著優于GRPO,Qwen3-8B模型平均準確率提升6.2%,14B模型提升2.45%。
  • 泛化能力:在邏輯推理(ProntoQA、ProofWriter)、科學推理(GPQA-Diamond)和編碼任務(EvalPlus)等多領域測試中,MASA均表現出優于基線的性能,證明元認知訓練提升了模型的跨領域推理能力。
  • 訓練效率:MASA-efficient通過預測性門控和早期截斷實現了1.28倍的訓練速度提升,同時保持甚至提升了最終性能。
  1. 統計顯著性與多場景表現實驗數據表明,元認知獎勵與性能提升之間存在直接正相關,且MASA在不同模型規模和任務領域均表現穩健,驗證了方法的普適性和有效性。

結論與展望

  1. 貢獻總結
  • 提出基于自我對齊的元認知強化學習框架MASA,首次實現無需外部監督的元認知訓練。
  • 設計多維度元認知獎勵機制,促進模型準確預測推理過程的關鍵屬性。
  • 引入MASA-efficient,結合行為克隆和元預測驅動的計算資源優化策略,實現訓練效率和性能的雙重提升。
  • 實驗驗證MASA顯著提升了數學推理準確率及跨領域泛化能力。
  1. 局限性分析
  • 當前元認知獎勵設計依賴于對正確解答軌跡的統計,若訓練數據質量不足,可能影響元認知準確性。
  • 行為克隆機制引入額外超參數和訓練復雜度,需進一步優化以適配更大規模模型。
  • 預測性門控和截斷策略在極端任務分布下的魯棒性尚需深入研究。
  1. 未來展望
  • 探索更豐富的元認知信號維度,如推理路徑多樣性和模型不確定性,以進一步提升自我認知能力。
  • 將MASA框架擴展至多模態推理和交互式任務,增強模型的適用范圍。
  • 結合元認知與解釋性推理,促進模型透明度和可控性,推動實際應用中的可信AI發展。

Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward

2025-10-03|Tencent , THU, PKU, CUHK|??37

??http://arxiv.org/abs/2510.03222v1???
???https://huggingface.co/papers/2510.03222???
???https://github.com/CarlanLark/Lp-Reg??

研究背景與意義

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  • 問題定義與現狀概述

隨著大型語言模型(LLMs)在復雜推理任務中的應用,強化學習與可驗證獎勵(RLVR)成為提升模型推理能力的關鍵技術。然而,RLVR訓練過程中普遍存在性能瓶頸,表現為策略熵快速下降,導致探索能力喪失,訓練陷入停滯甚至崩潰。現有方法多聚焦于保持整體策略熵,但忽視了探索的質量,導致無差別增加隨機性,反而放大了無關噪聲,影響訓練穩定性。

  • 挑戰與目標闡明

本文深入分析探索瓶頸,發現關鍵在于低概率但極具價值的“推理火花”(Reasoning Sparks)——如“wait”、“however”等邏輯連接詞的采樣概率被系統性壓制,導致探索路徑單一化。同時,簡單的熵增強方法會無差別放大噪聲詞,破壞訓練穩定。目標是設計一種機制,有選擇地保護這些有意義的低概率探索,過濾掉無關噪聲,從而實現穩定且高質量的探索。

研究方法與創新

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  • 技術描述提出“低概率正則化”(Low-probability Regularization,Lp-Reg)方法,通過構造一個基于模型自信度的代理分布(proxy distribution),篩除低概率噪聲詞并重新歸一化剩余詞的概率,放大有價值的推理火花的相對概率。正則化項采用前向KL散度,懲罰策略對代理分布的偏離,避免有意義低概率詞被過度懲罰。
  • 創新點突出

聚焦探索質量而非整體熵:區別于傳統熵正則化,Lp-Reg通過概率閾值過濾噪聲,精準保護推理火花,提升探索的語義相關性和有效性。

基于模型內在置信度的動態閾值:采用動態“min-p”閾值自適應調整,增強過濾策略的魯棒性和適應性。

選擇性正則化機制:僅對低概率且負優勢(負反饋)的推理火花施加正則化,避免對正向學習信號產生干擾,保持訓練靈活性。

理論基礎扎實:基于LLMs內在置信度區分有意義探索詞與噪聲詞的統計特征,提供了正則化設計的理論支撐。

  • 與現有方法對比

Lp-Reg克服了傳統基于策略整體熵的間接調控方法的缺陷,避免了無差別放大噪聲導致的訓練不穩定。相比多種先進熵控制技術,Lp-Reg更精準地維護了探索的核心成分,實現了更穩定和有效的訓練過程。

實驗設計與結果分析

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  • 實驗設計

在兩個規模的Qwen模型(14B與32B)上,采用五個數學推理基準(AIME24、AIME25、MATH-500、OlympiadBench、MinervaMath)進行評測。對比基線包括GRPO、GRPO+EntropyLoss及多種先進熵控制方法。訓練使用統一框架和相同超參數設置,確保公平比較。重點考察模型在長達1000步訓練過程中的穩定性、策略熵動態及最終準確率。

  • 結果分析

性能提升顯著:Lp-Reg在14B模型上實現60.17%的平均準確率,較次優方法提升2.66%。在32B模型上也表現出色,證明方法的規模適應性。

訓練穩定性優越:Lp-Reg能維持穩定的探索狀態,避免策略熵的快速崩塌,支持長周期的on-policy訓練,而其他方法多在早期崩潰。

探索行為合理:通過概率-熵散點圖和推理火花頻率分析,Lp-Reg保持了推理火花的多樣性和合理采樣,避免了無意義噪聲的放大。

消融實驗驗證設計合理性:去除噪聲過濾閾值導致訓練不穩定,固定閾值不如動態閾值表現優異,驗證了核心組件及自適應策略的必要性。

結論與展望

  • 研究貢獻總結

本文首次揭示了RLVR中推理火花被系統性壓制導致探索崩潰的根本機制,提出了基于模型內在置信度的低概率正則化方法,有效保護關鍵探索路徑,提升了推理模型的訓練穩定性和最終性能。實驗結果表明,Lp-Reg不僅在多個基準和模型規模上實現了性能領先,還顯著延長了穩定訓練周期。

  • 局限性與未來方向

目前Lp-Reg依賴于概率閾值的設定和模型內在置信度的區分能力,未來可探索更細粒度的噪聲識別機制及動態調整策略。此外,方法主要驗證于數學推理任務,后續可擴展至更廣泛的復雜推理和自然語言生成場景。結合更豐富的獎勵信號和多模態信息,或將進一步提升探索效率和模型泛化能力。

  • 方法展望

未來研究可聚焦于自動化噪聲與推理火花的區分機制,融合強化學習與自監督學習的優勢,構建更智能的探索調控框架。同時,探索跨任務、跨模型的通用性和適應性,推動RLVR技術在更廣泛領域的應用與發展。

The Alignment Waltz: Jointly Training Agents to Collaborate for Safety

2025-10-09|Meta Superintelligence Labs, JHU|??33

??http://arxiv.org/abs/2510.08240v1???
???https://huggingface.co/papers/2510.08240??

研究背景與意義

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  1. 問題定義與挑戰

本文聚焦于大型語言模型(LLMs)在安全性與有用性之間的核心矛盾:一方面,模型易受對抗攻擊,生成不安全內容;另一方面,為避免風險,模型往往對敏感但無害的提示過度拒絕(overrefusal),導致用戶體驗下降。現有的安全防護機制(如獨立的安全守衛模型)通常通過完全拒絕含有潛在風險的內容來保障安全,但這加劇了過度拒絕問題,且缺乏對拒絕原因的細致指導。

  1. 研究目標

本文旨在提出一種能夠協調安全與有用性的多智能體協作訓練框架,實現安全對齊的“正和游戲”,使模型在保證安全的同時最大限度地減少過度拒絕,并提升反饋的細致性和有效性。

研究方法與創新

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  1. WaltzRL框架設計

該方法構建了兩個協作智能體:對話智能體負責生成回答,反饋智能體負責審查并提供安全及拒絕相關的反饋建議。二者通過多輪交互共同優化回答。核心創新在于將安全對齊建模為一個正和多智能體強化學習問題,強調協作而非競爭。

  1. 動態改進獎勵(DIR)機制

反饋智能體的獎勵設計為基于對話智能體在接受反饋后的改進幅度,即反饋導致回答從不安全或過度拒絕向安全且有用轉變的程度。該獎勵動態調整,鼓勵反饋智能體產生有助于改進對話智能體回答的建議。

  1. 兩階段訓練策略
  • 第一階段凍結對話智能體,僅訓練反饋智能體以準確識別不安全與過度拒絕情況及生成格式規范的反饋。
  • 第二階段聯合訓練兩個智能體,取消反饋智能體的標簽獎勵以避免過擬合,強化協同改進能力。
  1. 推理時自適應反饋機制反饋智能體僅在檢測到對話智能體回答存在安全或拒絕問題時介入,避免不必要的反饋,降低延遲,保持對安全提示的靈敏響應。
  2. 多輪反饋與協作允許多輪反饋與回答修正,提升模型對復雜安全邊界和模糊提示的處理能力,區別于傳統單輪拒絕機制。

實驗設計與結果分析

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  1. 實驗設置
  • 使用Llama-3.1-8B-Instruct作為基礎模型,收集包含對抗攻擊和邊界過度拒絕提示的訓練數據。
  • 評估指標涵蓋安全性(攻擊成功率ASR)、過度拒絕率(ORR)、指令遵循能力和通用能力,以及反饋觸發率(FTR)以衡量效率。
  1. 性能表現
  • WaltzRL在五個多樣化數據集上顯著降低了不安全回答率(例如WildJailbreak從39.0%降至4.6%)和過度拒絕率(例如OR-Bench從45.3%降至9.9%),優于多種基線方法,包括單模型強化學習和傳統守衛模型。
  • 即使未在訓練中引入幫助性提示,WaltzRL仍保持了對話智能體的指令遵循和通用能力,幾乎無性能損失。
  • 反饋智能體的標簽預測準確率顯著提升,反饋觸發率大幅降低,顯示了推理時反饋的高效自適應性。
  1. 消融研究
  • 動態改進獎勵中結合標簽獎勵對維持反饋智能體標簽預測準確性至關重要。
  • 兩階段訓練策略有效避免了訓練過程中的數據不平衡和過擬合,提升了反饋的實用性和協作效果。
  • 反饋機制不僅減少了不安全和過度拒絕回答,還通過詳細反饋指導對話智能體生成更合理的回答。
  1. 定性分析

反饋智能體能夠生成具體且有說服力的改進建議,甚至引導對話智能體引用理想回答,展現出協作智能體間的復雜互動與策略性。

結論與展望

  1. 主要貢獻
  • 提出WaltzRL,一種基于多智能體強化學習的安全對齊框架,通過協作正和游戲顯著推動了安全性與有用性的Pareto前沿。
  • 創新設計動態改進獎勵機制,促進反饋智能體有效引導對話智能體改進回答。
  • 采用兩階段訓練策略與自適應反饋機制,實現了安全提升與性能保持的良好平衡。
  1. 未來方向
  • 探索訓練通用反饋智能體,可適配多種對話智能體,提升方法的泛化能力和部署靈活性。
  • 擴展多輪反饋機制,進一步提升模型處理復雜安全邊界的能力。
  • 結合更多現實場景和多模態輸入,增強系統在實際應用中的魯棒性和實用性。
  1. 倫理考量本研究旨在提升LLM的安全性和責任感,強調研究目的,提醒實際應用中需配合嚴格的安全測試和監控措施,避免潛在風險。

綜上,WaltzRL通過多智能體協作與動態獎勵機制,創新性地解決了大型語言模型在安全與有用性之間的平衡難題,展示了強化學習在AI安全領域的巨大潛力和應用前景。

Training-Free Group Relative Policy Optimization

2025-10-09|Youtu-AgentTeam|??31

??http://arxiv.org/abs/2510.08191v1???
???https://huggingface.co/papers/2510.08191???
???https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO??

研究背景與意義

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  1. 問題定義與現狀

大型語言模型(LLM)作為通用智能體,具備在復雜環境中解決多樣任務的能力,但在專業領域中表現常受限于對外部工具的集成和特定提示策略的適應性不足。現有強化學習(RL)方法如基于參數微調的GRPO雖能提升性能,但計算成本高昂,且容易過擬合,限制了其實際應用。

  1. 挑戰與目標

參數微調方法面臨計算資源消耗大、數據需求高、泛化能力差及收益遞減等問題。論文旨在探索非參數化的策略優化方法,降低訓練成本和數據需求,同時保持模型的泛化能力和性能。

  1. 研究意義

通過提出無需參數更新的訓練范式,論文為LLM在專業領域的高效適應提供了新路徑,解決了傳統RL方法的瓶頸,具有重要的理論價值和廣泛的應用前景。

研究方法與創新

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  1. 核心方法描述提出Training-Free Group Relative Policy Optimization(Training-Free GRPO),該方法通過多輪生成輸出組(rollouts),利用LLM自身進行語義優勢(semantic advantage)的內省和提煉,形成并更新外部的經驗知識庫(token prior),以此引導模型行為,無需參數更新。
  2. 創新點詳解
  • 非參數化策略優化:將策略優化從參數空間轉移到上下文空間,通過動態更新的語義經驗庫實現類似GRPO的效果,避免了昂貴的梯度計算和模型微調。
  • 語義組優勢替代數值優勢:利用自然語言形式的經驗總結替代傳統的數值獎勵優勢,增強了模型對不同輸出間質量差異的理解與利用。
  • 多步多組學習機制:采用多輪多組輸出比較,持續優化經驗庫,提升了經驗的豐富性和泛化能力。
  • 高效數據利用:僅需少量訓練樣本(幾十個),即可顯著提升模型性能,極大降低了數據和計算資源需求。
  1. 理論基礎與優勢對比

該方法基于LLM強大的上下文學習能力和推理能力,利用內省機制實現經驗知識的積累與利用,兼具RL的策略優化優勢和無微調的輕量級特點。相比傳統GRPO和其他RL方法,Training-Free GRPO在成本、泛化和實用性上具有顯著優勢。

實驗設計與結果分析

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

早期經驗監督的智能體強化學習;推理元信息感知的強化學習獎勵;安全與有效聯合訓練智能體框架-AI.x社區

  1. 實驗設置
  • 任務與數據:涵蓋數學推理(AIME2024/2025)、網頁搜索(WebWalkerQA)等復雜領域,訓練集規模極小(約100樣本)。
  • 模型與基線:使用DeepSeek-V3.1-Terminus等大型凍結模型,比較傳統參數微調的GRPO、ReAct等方法。
  • 評估指標:主要采用Mean@32、Pass@1等準確率指標,結合統計顯著性和多場景表現進行綜合評估。
  1. 關鍵結果
  • Training-Free GRPO在數學推理任務中,相較于無訓練的基線提升2.7%-5.4%,超越了需大規模數據和昂貴計算的傳統RL方法。
  • 在網頁搜索任務中,提升了4.6%的Pass@1表現,顯示出跨領域的適用性和穩健性。
  • 消融實驗表明,語義組優勢、多輪學習和經驗庫優化均為性能提升的關鍵因素。
  • 訓練成本僅為傳統方法的千分之一左右(約18美元),極大提升了經濟效益。
  1. 多場景表現與泛化該方法在不同模型規模和任務域均表現出一致的性能提升,且無需針對每個領域進行參數微調,展示了優越的跨域泛化能力。

結論與展望

  1. 研究貢獻總結

本文創新性地提出了一種無需參數更新的強化學習策略優化范式——Training-Free GRPO,通過語義優勢引導和經驗庫更新,實現了對大型語言模型行為的高效調控。該方法在多個復雜任務上顯著提升了性能,且極大降低了訓練數據和計算資源需求。

  1. 局限性分析
  • 依賴于基礎模型的推理和工具使用能力,較弱模型效果有限。
  • 語義優勢的提煉質量受限于經驗庫的構建和更新策略,未來可探索更精細的知識表示與管理。
  • 當前實驗主要聚焦于數學和網頁搜索領域,其他專業領域的適用性有待進一步驗證。

3.未來研究方向

  • 探索更豐富的語義經驗表示和自動化更新機制,提升經驗庫的表達力和適應性。
  • 結合更多類型的外部工具和多模態信息,擴展方法的應用范圍。
  • 設計更高效的訓練策略和并行機制,進一步降低資源消耗。
  • 深入研究跨領域遷移和終身學習能力,推動LLM智能體的持續自我優化。

本文轉載自??AI研究前瞻??,作者:胡耀淇

已于2025-10-14 09:59:33修改
收藏
回復
舉報
回復
相關推薦
日韩精品系列| 国产成人亚洲欧洲在线| 精品成人18| 一区二区成人在线| 免费成人在线观看av| 亚洲一区二区天堂| 亚洲精品偷拍| 色琪琪综合男人的天堂aⅴ视频| 少妇性l交大片7724com| 中文字幕高清在线播放| 最近日韩中文字幕| 久久精品日韩精品| a网站在线观看| 久久久久国产精品一区二区| 欧美老女人性视频| 手机看片福利视频| 国产精品15p| 欧美丰满少妇xxxbbb| 日韩精品xxxx| 国产精品探花在线| 国产精品区一区二区三| 久久福利电影| www.色视频| 麻豆精品久久久| 青青草原一区二区| www.av视频在线观看| 天天天综合网| 国产一区二区三区高清在线观看| 亚洲图片欧美另类| 韩国三级成人在线| 欧美色网一区二区| 国产一区二区网| 久草免费在线色站| 成人免费小视频| 亚洲精品成人三区| 成人综合影院| 国产日韩欧美精品一区| 久久久久久高清| 黄色片网站免费在线观看| 国产一区二区三区免费观看| 国产精品一区二区久久精品| 日韩在线视频不卡| 亚洲在线电影| 2019最新中文字幕| 91香蕉在线视频| 99在线精品免费视频九九视| 久久久久久综合网天天| 国产精品久久久精品四季影院| 久久日文中文字幕乱码| 一区国产精品视频| 天天摸日日摸狠狠添| 国产毛片一区二区三区| 国产午夜精品免费一区二区三区 | 桃色一区二区| 欧美体内谢she精2性欧美| 欧美 日韩 国产在线观看| 999福利在线视频| 亚洲国产成人精品视频| 国产特级淫片高清视频| av资源亚洲| 91福利视频久久久久| 国产一二三四在线视频| 九九久久国产| 欧美一级日韩免费不卡| 国内自拍偷拍视频| 欧美韩一区二区| 亚洲欧美色婷婷| 性爱在线免费视频| 91精品国产91久久久久久黑人| 久久精品夜夜夜夜夜久久| 男人与禽猛交狂配| 99热这里只有成人精品国产| 日本高清+成人网在线观看| 日韩乱码一区二区三区| 精品伊人久久久久7777人| 亚洲字幕一区二区| 天天插天天干天天操| 久久精品一区蜜桃臀影院| 日韩电影大全在线观看| 久久久久久久久免费视频| 伊人一区二区三区| 好吊妞无缓冲视频观看| jvid一区二区三区| 欧美一区二区成人| xxxx黄色片| 日韩激情免费| 欧美精品videossex88| 国产www在线| 麻豆精品久久精品色综合| 波多野结衣成人在线| 亚洲av成人无码网天堂| 国产精品乱码久久久久久| 无码日本精品xxxxxxxxx| 国产不卡123| 777色狠狠一区二区三区| 亚洲天堂av网站| 禁果av一区二区三区| 久久精品视频99| 国产又大又黄视频| 国内精品伊人久久久久av一坑| 99在线视频播放| av免费在线一区二区三区| 亚洲一区视频在线| 天天爽人人爽夜夜爽| 91成人噜噜噜在线播放| 在线观看免费高清视频97| 日韩欧美大片在线观看| 国内精品视频666| 欧美日韩国产免费一区二区三区| 中文字幕在线三区| 色噜噜狠狠色综合中国| 国产精品一区二区无码对白| 波多野结衣在线播放一区| 久久久久久久网站| 国产在成人精品线拍偷自揄拍| 99re在线视频这里只有精品| 国产四区在线观看| 欧美日韩国产网站| 日韩风俗一区 二区| 五月天色婷婷丁香| 日韩av一级电影| 免费h精品视频在线播放| 国产丝袜在线播放| 91精品久久久久久久91蜜桃 | 亚洲爱情岛论坛永久| 欧美国产精品一区二区三区| 国产原创中文在线观看| 深夜激情久久| 久久精品国产清自在天天线| 欧美亚洲另类小说| 久久新电视剧免费观看| 青青青在线视频播放| 91在线一区| 欧美成人剧情片在线观看| 91丨九色丨丰满| 国产欧美精品一区aⅴ影院| 久久无码高潮喷水| 三级精品视频| 777777777亚洲妇女| 亚洲男人天堂久久| 亚洲一线二线三线久久久| 樱花草www在线| 国产精品久久久久无码av| 国产欧美日韩高清| 97最新国自产拍视频在线完整在线看| 色综合久久综合中文综合网| 亚洲一级中文字幕| 亚欧美中日韩视频| 日本成人黄色| 成人精品动漫| 日韩有码片在线观看| 91国偷自产中文字幕久久| 国产精品久久久久婷婷| 成人不卡免费视频| 欧美黄污视频| 国产精品入口免费| 99爱在线视频| 亚洲免费视频在线观看| 欧美亚洲另类小说| 国产精品嫩草影院av蜜臀| 国产精品自在自线| 欧美日韩中文| 狠狠色综合网站久久久久久久| 免费v片在线观看| 国产丝袜视频一区| 中文字幕av影视| 亚洲人成小说网站色在线| av影片在线播放| 在线亚洲自拍| 亚洲二区自拍| 白嫩白嫩国产精品| 人人爽久久涩噜噜噜网站| av中文天堂在线| 欧美一区二区三区小说| 精品无码人妻一区二区三| 久久综合久久综合亚洲| av亚洲天堂网| 亚洲性视频h| 日韩欧美亚洲日产国产| 97精品资源在线观看| 久久久久久久国产精品| 深夜福利视频在线免费观看| 欧美午夜影院一区| 中文字幕手机在线观看| 久久一区二区三区四区| 男生操女生视频在线观看| 亚洲黄色高清| 先锋影音网一区| 91成人短视频| 国产精品一区二区久久| xxx性欧美| 日韩在线精品视频| 五月天婷婷在线播放| 欧美日韩国产三级| 三级黄色在线视频| 亚洲人成网站影音先锋播放| 日韩片在线观看| 国产一区二区三区精品欧美日韩一区二区三区 | 午夜视频www| 8v天堂国产在线一区二区| 可以免费在线观看的av| 综合激情成人伊人| 日本aaa视频| 国产精品1区二区.| 欧美视频第一区| 欧美日韩亚洲一区| 亚洲精品视频一二三| 欧美挤奶吃奶水xxxxx| 成人性生交xxxxx网站| 欧美激情喷水| 久久免费精品视频| 亚洲小说区图片区都市| 亚洲深夜福利视频| 天堂av在线7| 精品国产乱码久久久久久老虎 | 神马一区二区影院| 免费成人三级| 成人看片在线| 精品视频在线观看免费观看 | 91精品久久久久久综合五月天 | 欧美国产日本在线| 免费黄色在线网站| 中文字幕av一区| 视频午夜在线| 日韩av综合网站| 亚洲精品无码久久久| 欧美一区二区三区视频免费| 在线观看av大片| 色播五月激情综合网| 青青国产在线观看| 精品久久中文字幕| 在线观看精品国产| 亚洲成av人在线观看| 久久久久久久久毛片| 综合久久综合久久| 日本少妇aaa| 中文字幕一区二区三区在线播放| 欧美做受xxxxxⅹ性视频| 99久久精品免费| 中国免费黄色片| 国产不卡视频在线观看| 人妻精油按摩bd高清中文字幕| 久久精品久久综合| 奇米影视四色在线| 精品亚洲aⅴ乱码一区二区三区| 亚洲 欧美 日韩系列| 欧美a一区二区| 在线观看高清免费视频| 青青草国产成人99久久| the porn av| 精品一区二区三区的国产在线播放 | 欧美色图天堂| 97在线看福利| 亚洲精品国产精品国产| 国产a∨精品一区二区三区不卡| 中文在线а√天堂| 国产91色在线|| www.成人在线视频| 亚洲伊人一本大道中文字幕| 日本在线成人| 国产日韩欧美一区二区| 网红女主播少妇精品视频| 欧美一区二区综合| 天天综合一区| 国产一区二区片| 亚洲免费影院| 99re精彩视频| 国产精品1区2区3区| 午夜久久久久久久| 国产三级欧美三级| 成年人午夜剧场| 亚洲不卡在线观看| 亚洲不卡在线视频| 3751色影院一区二区三区| 亚洲精品喷潮一区二区三区| 日韩精品在线观看视频| 伊人在线视频| 欧美精品第一页在线播放| 奇米777日韩| 成人免费视频a| 老司机精品视频在线播放| 日韩影片在线播放| 欧美黄污视频| 欧美日韩在线免费播放| 国产精品一二二区| 欧美狂猛xxxxx乱大交3| 中文字幕视频一区二区三区久| 久久精品波多野结衣| 91黄色免费版| 欧美熟妇另类久久久久久不卡| 亚洲日韩欧美视频一区| 在线免费av导航| 国产精品视频播放| 黑人久久a级毛片免费观看| 婷婷久久伊人| 影音先锋日韩资源| 欧美第一页浮力影院| 99久久99久久精品免费观看| 国精产品久拍自产在线网站| 欧美日韩国产页| 国产男女无套免费网站| 日韩极品精品视频免费观看| yellow91字幕网在线| 欧洲日本亚洲国产区| 另类视频一区二区三区| 日韩精品欧美一区二区三区| 影音先锋久久资源网| 亚洲在线观看网站| 国产欧美综合在线观看第十页| 亚洲欧美在线观看视频| 欧美一级在线免费| www.亚洲资源| 琪琪第一精品导航| 成人午夜三级| 91嫩草国产丨精品入口麻豆| 日韩经典中文字幕一区| 久久一区二区电影| 亚洲一卡二卡三卡四卡无卡久久| 一级日韩一级欧美| 亚洲深夜福利视频| 在线观看福利电影| 国产精品一区二区三区观看| 亚洲精品小说| 91看片破解版| 亚洲欧洲另类国产综合| 五月天中文字幕| 亚洲免费电影在线观看| 松下纱荣子在线观看| 精品国产乱码久久久久软件| 欧美99久久| 亚洲精品久久久久久| 中文字幕综合网| 国产一区二区三区成人| 中文字幕欧美精品在线| 日本综合久久| 日本欧美精品久久久| 玖玖视频精品| 国产真实乱人偷精品人妻| 色综合久久99| 国产精品一二三区视频| 日本精品久久电影| 欧美女优在线视频| 人妻熟女一二三区夜夜爱| 91老司机福利 在线| 亚洲欧美精品一区二区三区| 日韩电影网在线| 欧美momandson| 日韩免费中文专区| 毛片基地黄久久久久久天堂| 国产免费嫩草影院| 在线电影国产精品| 中文字幕在线观看网站| 国产精品国产一区二区| 国产欧美短视频| 亚洲专区区免费| 色哟哟精品一区| 思思99re6国产在线播放| 成人免费网视频| 欧美另类视频| 中文字幕精品久久久| 一本到高清视频免费精品| 不卡在线视频| 91亚洲精品一区| 激情综合视频| 一区二区黄色片| 欧美高清dvd| caoporn视频在线| 欧洲视频一区二区三区| 麻豆免费看一区二区三区| 国产精品三区在线观看| 亚洲成人av片在线观看| 欧美xxxxxx| 亚洲免费av网| 不卡一区二区三区四区| 在线免费观看av网址| 久久韩剧网电视剧| 精品嫩草影院| 91av视频免费观看| 亚洲国产中文字幕在线视频综合| 三级av在线| 91在线视频导航| 国产农村妇女精品一二区| 精品手机在线视频| 亚洲第一综合天堂另类专| avav成人| 免费av手机在线观看| 国产精品美女一区二区在线观看| 亚洲欧美另类一区| 国产精品91久久| 欧美激情综合| 精品人妻中文无码av在线| 日韩写真欧美这视频| 成人激情综合| 欧美高清中文字幕| 国产精品你懂的| 五月激情婷婷综合| 成人日韩在线电影| 羞羞答答国产精品www一本| 久草视频在线免费看| 亚洲深夜福利网站|