AEPO：智能體熵平衡策略優(yōu)化，讓探索更穩(wěn)，推理更深！

2025-11-03 08:41:00

中國人民大學(xué)高瓴人工智能學(xué)院與快手 Klear 語言大模型團(tuán)隊(duì)聯(lián)合提出 Agentic Entropy-Balanced Policy Optimization（AEPO），一種面向多輪智能體的熵平衡強(qiáng)化學(xué)習(xí)優(yōu)化算法。

在智能體強(qiáng)化學(xué)習(xí)的快速發(fā)展中，如何在探索與穩(wěn)定之間取得平衡已成為多輪智能體訓(xùn)練的關(guān)鍵。主流的熵驅(qū)動(dòng)式智能體強(qiáng)化學(xué)習(xí)（Agentic RL）雖鼓勵(lì)模型在高不確定性處分支探索，但過度依賴熵信號常導(dǎo)致訓(xùn)練不穩(wěn)、甚至策略熵坍塌問題。

為此，中國人民大學(xué)高瓴人工智能學(xué)院與快手 Klear 語言大模型團(tuán)隊(duì)聯(lián)合提出 Agentic Entropy-Balanced Policy Optimization（AEPO），一種面向多輪智能體的熵平衡強(qiáng)化學(xué)習(xí)優(yōu)化算法。

AEPO 系統(tǒng)性揭示了「高熵 Rollout 采樣坍縮」和「高熵梯度裁剪」問題，并設(shè)計(jì)了「動(dòng)態(tài)熵平衡 Rollout 采樣」與「熵平衡策略優(yōu)化」兩項(xiàng)核心機(jī)制。前者通過熵預(yù)監(jiān)控與連續(xù)分支懲罰實(shí)現(xiàn)全局與局部探索預(yù)算的自適應(yīng)分配，后者在策略更新階段引入梯度停止與熵感知優(yōu)勢估計(jì)以保留高熵 token 的探索梯度。

圖 1：AEPO 性能概覽：左圖對比深度搜索任務(wù)性能，右圖對比通用推理任務(wù)性能

實(shí)驗(yàn)結(jié)果表明，AEPO 在 14 個(gè)跨領(lǐng)域基準(zhǔn)上顯著優(yōu)于七種主流強(qiáng)化學(xué)習(xí)算法。特別是深度搜索任務(wù)的 Pass@5 指標(biāo)：GAIA (65.0%), Humanity’s Last Exam (26.0%), WebWalkerQA (70.0%)。在保持訓(xùn)練穩(wěn)定性的同時(shí)進(jìn)一步提升了采樣多樣性與推理效率，為通用智能體的可擴(kuò)展強(qiáng)化訓(xùn)練提供了新的優(yōu)化范式。

論文標(biāo)題：Agentic Entropy-Balanced Policy Optimization
論文鏈接：https://arxiv.org/abs/2510.14545
代碼倉庫：https://github.com/dongguanting/ARPO
開源數(shù)據(jù) & 模型：https://huggingface.co/collections/dongguanting/aepo-68ef6832c99697ee03d5e1c7

目前 AEPO 在 X 上收獲極高關(guān)注度，Github 倉庫已獲星標(biāo) 700 余枚，同時(shí)榮登 Huggingface Paper 日榜第二名！

研究動(dòng)機(jī)：在高熵中尋求平衡

隨著 Agentic RL 的發(fā)展，如何在持續(xù)探索與訓(xùn)練穩(wěn)定之間取得平衡已成制約智能體性能的關(guān)鍵。現(xiàn)有方法（如 ARPO）通常依賴熵信號作為依據(jù)，并在高熵時(shí)刻觸發(fā)分支采樣探索潛在推理路徑。我們的研究發(fā)現(xiàn)熵驅(qū)動(dòng)的探索雖能提升多樣性，卻也帶來了顯著的訓(xùn)練不穩(wěn)定：模型在連續(xù)高熵的工具調(diào)用階段容易出現(xiàn)單一鏈條過度分支，導(dǎo)致探索受限（如下圖左側(cè)）；同時(shí)在策略更新階段，高熵 token 的梯度常被無差別裁剪，使模型難以學(xué)習(xí)的探索行為（如下圖右側(cè)）。這種熵失衡也使智能體在強(qiáng)化學(xué)習(xí)中容易陷入局部最優(yōu)解。

圖 2：智能體中的高熵 Rollout 坍縮與高熵梯度裁剪現(xiàn)象

因此，如何在高熵驅(qū)動(dòng)下同時(shí)實(shí)現(xiàn)高效探索與穩(wěn)定優(yōu)化，成為智能體強(qiáng)化學(xué)習(xí)亟待突破的核心瓶頸。為此，我們提出 AEPO，一種面向多輪智能體的熵平衡強(qiáng)化學(xué)習(xí)優(yōu)化算法。我們的貢獻(xiàn)如下：

我們系統(tǒng)性分析并揭示了現(xiàn)有熵驅(qū)動(dòng)的 Agentic RL 在高熵階段易出現(xiàn)的「rollout 坍縮」和「梯度裁剪」問題，為后續(xù)算法設(shè)計(jì)提供了經(jīng)驗(yàn)與理論依據(jù)。
我們提出了 AEPO 算法，旨在通過「動(dòng)態(tài)熵平衡 Rollout 采樣」與「熵感知策略優(yōu)化」兩個(gè)階段實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)探索與穩(wěn)定的協(xié)同優(yōu)化。
在 14 個(gè)挑戰(zhàn)性基準(zhǔn)上的實(shí)驗(yàn)結(jié)果表明，AEPO 在采樣多樣性、訓(xùn)練穩(wěn)定性及工具調(diào)用效率方面均優(yōu)于 7 種主流強(qiáng)化學(xué)習(xí)算法，為智能體在復(fù)雜開放環(huán)境下的可擴(kuò)展訓(xùn)練提供了新的啟發(fā)。

工具調(diào)用的熵變現(xiàn)象：高熵集聚與梯度困境

通過分析智能體在多輪工具調(diào)用強(qiáng)化學(xué)習(xí)中的 token 熵變與訓(xùn)練過程，我們發(fā)現(xiàn)以下核心現(xiàn)象：

高熵工具調(diào)用步驟存在連續(xù)性：連續(xù)的高熵工具調(diào)用輪次占比達(dá) 56.5%，部分軌跡甚至出現(xiàn) 6 次連續(xù)高熵調(diào)用，這種連續(xù)性導(dǎo)致 rollout 階段的分支預(yù)算分配嚴(yán)重傾斜（如下圖左側(cè)）；
高熵 Token 梯度裁剪：傳統(tǒng) Agentic RL 算法在策略更新階段存在「無差別梯度裁剪」問題，未區(qū)分其是否包含有價(jià)值的探索行為，這些 token 大多是在推理中激發(fā)工具調(diào)用，反思等行為的提示（如下圖右側(cè)）。

圖 3：智能體強(qiáng)化學(xué)習(xí)訓(xùn)練中兩種熵相關(guān)問題的量化統(tǒng)計(jì)

上述現(xiàn)象本質(zhì)是高熵信號的雙重矛盾：高熵是智能體探索工具使用潛力的必要條件，但無約束的高熵連續(xù)性會(huì)破壞 rollout 資源分配，激進(jìn)的梯度裁剪又會(huì)扼殺高熵的探索價(jià)值。

AEPO 算法：熵驅(qū)動(dòng)的精準(zhǔn)探索與梯度保護(hù)

圖 4：AEPO 概述

動(dòng)態(tài)熵平衡 Rollout 采樣：

1.熵預(yù)監(jiān)測：按信息增益分配采樣預(yù)算

傳統(tǒng) RL 算法（如 ARPO）憑經(jīng)驗(yàn)分配全局采樣與分支采樣的坍縮資源，AEPO 則基于信息增益理論，根據(jù)問題與工具的信息增益動(dòng)態(tài)調(diào)整采樣預(yù)算，具體來說，在總 rollout 采樣的預(yù)算為 k（包含 m 次全局采樣與 k-m 次高熵分支采樣）的條件下，將 Rollout 階段的信息增益簡單地建模為：

在語言模型的自回歸解碼過程中，輸入問題的信息增益通常由模型解碼的 token 熵值來衡量，因此我們可以得到如下正相關(guān)關(guān)系：

因此，我們的目標(biāo)是盡可能增大 Rollout 階段的信息增益，基于上述公式，AEPO 按信息增益分配采樣預(yù)算：

首先讓模型預(yù)生成 1 條完整工具調(diào)用軌跡，以監(jiān)控問題初始熵與工具調(diào)用平均熵；
若（即問題本身不確定性更高）：增加全局采樣數(shù)量 m，多探索不同完整軌跡；
若（即工具反饋不確定性更高）：減少「全局采樣數(shù)量」，將預(yù)算向分支采樣 k-m 傾斜，聚焦高熵工具步驟的局部探索。

我們的最終預(yù)算分配公式：，其中 σ 為 sigmoid 函數(shù)（確保 m 在 0-k 之間），β 控制熵差異敏感度，k 為總采樣預(yù)算。這一設(shè)計(jì)讓資源分配有理論支撐。

2.連續(xù)高熵分支懲罰：避免單一軌跡過度分支

即使預(yù)算分配合理，連續(xù)高熵調(diào)用仍可能導(dǎo)致單一軌跡過度分支。因此 AEPO 通過動(dòng)態(tài)分支概率施加懲罰：

實(shí)時(shí)監(jiān)測每步工具調(diào)用后的熵變化：；
追蹤每條軌跡的「連續(xù)高熵分支次數(shù)」，分支概率公式：，其中懲罰概率與正相關(guān)；
分支決策規(guī)則：若（預(yù)設(shè)閾值），則對當(dāng)前步驟分支（生成 Z 條子軌跡）；否則繼續(xù)當(dāng)前軌跡，并累計(jì)連續(xù)高熵次數(shù)（+1）。

實(shí)驗(yàn)驗(yàn)證：如下圖所示，相比于 ARPO 通常僅分支 2-3 條軌跡，而 AEPO 可覆蓋全部 8 條預(yù)算軌跡（右圖），采樣聚類數(shù)從 54 提升至 62（左 2 圖），大幅提升 Rollout 采樣的多樣性。

圖 5：采樣多樣性 ARPO vs AEPO（左）與 Rollout 的分支采樣分布（右）

熵平衡策略優(yōu)化：

1.熵裁剪平衡機(jī)制：保留高熵 Token 梯度

收到 GPPO 啟發(fā)，AEPO 將「梯度停止」操作融入到策略更新的高熵裁剪項(xiàng)中，保證了前向傳播不受影響，同時(shí)保護(hù)了高熵 token 的梯度在反向傳播時(shí)不被裁剪。AEPO 在策略更新時(shí)使用如下公式：

其中，表示重要性采樣比率，表示「梯度停止」操作。值得注意的是，的值始終為 1，從而確保了 AEPO 的前向傳播不變。在反向傳播過程中，AEPO 的梯度更新公式為：

其中，的定義如下：

這一設(shè)計(jì)讓高熵探索性 Token 的梯度得以保留，避免訓(xùn)練初期探索能力流失。

2.熵感知優(yōu)勢估計(jì)：優(yōu)先學(xué)習(xí)高價(jià)值探索行為

不同于僅考慮準(zhǔn)確率優(yōu)勢的傳統(tǒng) RL 算法，AEPO 引入熵優(yōu)勢，構(gòu)建融合優(yōu)勢函數(shù)，讓模型優(yōu)先學(xué)習(xí)高熵且對任務(wù)有貢獻(xiàn)的 token：

準(zhǔn)確率優(yōu)勢：基于軌跡最終獎(jiǎng)勵(lì)（如答案準(zhǔn)確率）的標(biāo)準(zhǔn)化值，計(jì)算方式為（為獎(jiǎng)勵(lì)均值，為獎(jiǎng)勵(lì)標(biāo)準(zhǔn)差），反映 token 對答案正確性的貢獻(xiàn)；
熵優(yōu)勢：基于當(dāng)前 Token 熵與軌跡平均熵的差異，計(jì)算方式為（為軌跡平均熵，為熵值標(biāo)準(zhǔn)差），反映 token 的探索不確定性；
融合優(yōu)勢：，其中 α 為熵優(yōu)勢權(quán)重（實(shí)驗(yàn)中設(shè)為 0.3），確保高熵 token 在「對任務(wù)有貢獻(xiàn)」時(shí)能獲得更高優(yōu)勢值，引導(dǎo)模型重點(diǎn)學(xué)習(xí)。

實(shí)驗(yàn)結(jié)果：14 個(gè)基準(zhǔn)驗(yàn)證 AEPO 的高效與穩(wěn)定

為了充分評估 AEPO 的泛化性和高效性，我們考慮以下三種測試集：

計(jì)算型推理任務(wù)：評估模型的計(jì)算推理能力，包括 AIME24、AIME25、MATH500、GSM8K、MATH。
知識密集型推理任務(wù)：評估模型結(jié)合外部知識推理的能力，包括 WebWalker、HotpotQA、2WIKI、MisiQue、Bamboogle。
深度搜索任務(wù)：評估模型的深度搜索能力，包括 HLE、GAIA、SimpleQA、XBench、Frames。

深度信息檢索任務(wù)：小樣本實(shí)現(xiàn)大突破

如上表所示，僅用 1K RL 訓(xùn)練樣本，Qwen3-14B+AEPO 在關(guān)鍵任務(wù)上表現(xiàn)優(yōu)異：

AEPO 在 Pass@1 上較 ARPO 平均提升 3.9%；在 Pass@5 上較 ARPO 平均提升 5.8%；
對比梯度裁剪優(yōu)化 RL 算法（DAPO、CISPO、GPPO）：AEPO 在 GAIA 任務(wù)上領(lǐng)先 7%-10%，在 Qwen3-14B 基座上取得了 47.6% 的 Pass@1 與 65% 的 Pass@5，這證明熵平衡機(jī)制優(yōu)于單純的梯度裁剪優(yōu)化 RL 算法；
對比傳統(tǒng) RL（GRPO、Reinforce++）：AEPO 在 HLE 任務(wù)上領(lǐng)先 2.6%-3.4%，在 Qwen3-14B 基座上取得了 11.2% 的 Pass@1 與 26% 的 Pass@5，凸顯 Agentic RL 中熵平衡的必要性。

我們比較了 7 種強(qiáng)化學(xué)習(xí)算法在 10 個(gè)推理任務(wù)中的表現(xiàn)，發(fā)現(xiàn)：

梯度裁剪優(yōu)化算法的穩(wěn)定性差：在 Qwen 2.5-7B-instruct 上，梯度裁剪優(yōu)化算法表現(xiàn)良好，但在 Llama3-8B 上未顯著優(yōu)于 GRPO，且易導(dǎo)致熵崩潰。
Agentic RL 算法具備泛化能力：ARPO，GIGPO，AEPO 等算法在不同模型上表現(xiàn)穩(wěn)定，證明在高熵環(huán)境下的分支探索有效。
AEPO 優(yōu)勢顯著：AEPO 在所有測試中表現(xiàn)突出，一致性高于 7 種主流 RL 算法。并且平均準(zhǔn)確率比 GRPO 高 5%，更適合訓(xùn)練多輪次 Web 智能體。

實(shí)驗(yàn)：熵穩(wěn)定與準(zhǔn)確率分析

在 Agentic RL 訓(xùn)練中，熵動(dòng)態(tài)穩(wěn)定性與訓(xùn)練準(zhǔn)確率收斂性是衡量算法有效性的核心指標(biāo)：熵過高易導(dǎo)致探索失控，熵過低則會(huì)引發(fā)探索不足；而準(zhǔn)確率的持續(xù)提升則直接反映模型對有效工具使用行為的學(xué)習(xí)能力。

我們對比 AEPO 與主流 RL 算法（含 ARPO、GRPO、DAPO 等）在 10 個(gè)推理任務(wù)中的訓(xùn)練動(dòng)態(tài)，清晰揭示了 AEPO 在「熵穩(wěn)定」與「準(zhǔn)確率提升」雙維度的優(yōu)勢。實(shí)驗(yàn)發(fā)現(xiàn)訓(xùn)練的熵?fù)p失驟增與下降都不會(huì)對性能帶來增益；相比之下，AEPO 的熵?fù)p失全程維持高且穩(wěn)定，對應(yīng)穩(wěn)定的性能增益。其表現(xiàn)遠(yuǎn)超其他 RL 算法，且解決了 ARPO 在訓(xùn)練后期熵波動(dòng)的問題。

圖 5：訓(xùn)練指標(biāo)可視化，包括各訓(xùn)練步驟的熵?fù)p失（左）和準(zhǔn)確率（右）

總結(jié)與未來展望

未來可從三個(gè)方向進(jìn)一步拓展：

多模態(tài) Agent：當(dāng)前 AEPO 與 ARPO 均聚焦文本任務(wù)，未來可擴(kuò)展至圖像、視頻等多模態(tài)輸入，探索多模態(tài)工具的熵平衡優(yōu)化，解決多模態(tài)反饋帶來的熵波動(dòng)問題。
工具生態(tài)擴(kuò)展：引入更復(fù)雜工具（如 MCP 服務(wù)、外部訂機(jī)票酒店服務(wù)調(diào)用、代碼調(diào)試器），基于 AEPO 的熵感知機(jī)制優(yōu)化多工具協(xié)作策略，提升復(fù)雜任務(wù)表現(xiàn)，超越現(xiàn)有工具協(xié)作能力。
多智能體強(qiáng)化學(xué)習(xí)：探索在更多智能體的協(xié)作學(xué)習(xí)，互相任務(wù)交互與博弈中找到平衡，實(shí)現(xiàn)收斂。

作者介紹

董冠霆目前就讀于中國人民大學(xué)高瓴人工智能學(xué)院，博士二年級，導(dǎo)師為竇志成教授和文繼榮教授。他的研究方向主要包括智能體強(qiáng)化學(xué)習(xí)、深度搜索智能體，大模型對齊等。在國際頂級會(huì)議如 ICLR、ACL、AAAI 等發(fā)表了多篇論文，并在快手快意大模型組、阿里通義千問組等大模型團(tuán)隊(duì)進(jìn)行實(shí)習(xí)。其代表性工作包括 ARPO、AUTOIF、Tool-Star、RFT、Search-o1、WebThinker、Qwen2 和 Qwen2.5 等。