清華、快手提出AttnRL:讓大模型用「注意力」探索
從 AlphaGo 戰勝人類棋手,到 GPT 系列展現出驚人的推理與語言能力,強化學習(Reinforcement Learning, RL)一直是讓機器「學會思考」的關鍵驅動力。
然而,在讓大模型真正掌握「推理能力」的道路上,探索效率仍是一道難以逾越的鴻溝。
當下最前沿的強化學習范式之一——過程監督強化學習(Process-Supervised RL, PSRL),讓模型不再只看「結果對不對」,而是學會在「推理過程」中不斷修正自己。
然而,傳統的過程監督強化學習方法在探索效率和訓練成本上仍存在明顯瓶頸。
為此,來自清華和快手的研究團隊提出了一種新框架 AttnRL,通過引入注意力機制作為探索的「指南針」,顯著提升了過程監督強化學習的效率與性能。

- 論文標題:
Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models
- 論文鏈接:
https://arxiv.org/abs/2509.26628
- GitHub:
https://github.com/RyanLiu112/AttnRL
- HuggingFace:
https://huggingface.co/papers/2509.26628
過程監督RL的現實困境
傳統的結果監督強化學習方法對所有token賦予相同的獎勵信號,忽略了推理過程中的細粒度質量。過程監督強化學習方法雖然能提供更精細的獎勵,但在分支位置選擇和采樣策略上效率低下,導致訓練成本高昂:
- 分支策略粗糙:往往按固定長度或熵劃分,忽視語義和推理行為;
- 采樣效率低下:在簡單和困難問題間一視同仁,導致大量計算浪費在簡單問題上;
- 訓練流程冗余:每次訓練需進行兩次采樣,顯著增加了時間與計算成本。

為解決這些難題,研究者提出了全新的過程監督強化學習框架——AttnRL,并將注意力機制首次引入推理探索過程,使「注意力」真正成為模型的推理「指南針」。如上圖所示,AttnRL 在注意力分數高的步驟進行分支,并在效果和效率上超過了基線方法。
研究核心:讓注意力引導探索
研究團隊的關鍵洞察是:在大模型的推理過程中,那些注意力得分高的步驟,往往恰好對應「真正的思考時刻」——模型在規劃、自我驗證或轉折時的關鍵推理節點。

因此,AttnRL 提出了一種創新的探索方式:
不再隨機地從任意位置「分支探索」,而是讓模型從高注意力的關鍵步驟出發,去探索新的推理路徑。
論文將這種策略稱為Attention-based Tree Branching(ATB),ATB會分析推理序列中的每個步驟,通過計算「前向上下文影響力(Forward Context Influence, FCI)」分數來衡量其對后續推理的影響程度,然后只在FCI得分最高的幾個位置建立分支。這種機制讓模型能夠「少走彎路」,在推理樹中更快找到高質量路徑。
具體來說,AttnRL首先對回答進行分步,計算步驟-步驟之間的注意力分數矩陣
,其中,
表示步驟j注意步驟k在第l層第h個注意力頭的分數。計算步驟k后續所有步驟的注意力分數之和:

取所有層和注意力頭的最大值,即為FCI分數:

實驗結果表明,破壞這些高注意力步驟會顯著降低模型的解題準確率,證明它們確實是推理過程的關鍵節點。

自適應采樣:
讓模型在「最值得學」的地方學習
傳統的PSRL方法往往采用固定比例、均勻采樣的方式進行探索,無論任務難易都同等對待,導致大量算力浪費在「簡單題」上。
AttnRL引入了兩種自適應采樣機制:
- 難度感知探索:根據FCI分數過濾掉那些在兩次采樣中大概率100%正確的「簡單題」,對于困難問題,模型會擴展更多「推理樹」來探索解法;而對簡單問題,則自動縮減計算量;
- 動態批次調整:根據當前有效樣本數動態調整采樣批次大小,保證每次訓練中,所有樣本的梯度都「有貢獻」(即非零advantage),大幅提升了訓練效率。
高效訓練:一步采樣,性能反超
在工程層面,AttnRL設計了一個 One-Step Off-Policy 的訓練流程:
以前的 PSRL 方法在每次更新都需要兩次生成(初始采樣+蒙特卡洛采樣),采樣成本高。而 AttnRL 在第 m 步訓練時對 m?1 批進行蒙特卡羅采樣,對m+1批進行初始采樣,將初始采樣與蒙特卡羅采樣交錯執行,每步只生成一次即可得到訓練所需的兩類樣本。

實驗結果:性能與效率雙贏
主要結果
- 在AIME24/25、AMC23、MATH-500、Minerva、Olympiad等六個數學推理基準上,AttnRL對1.5B與7B兩個基座均穩定提升,平均準確率分別達到57.2%與68.7%,顯著高于GRPO、TreeRL及強RLVR基線方法;
- 相比DeepScaleR-Preview-1.5B(1750步,24K上下文),AttnRL僅需500步、8K上下文即實現更優結果。

分支采樣更高效
基于注意力的分支方法相比于熵分支(TreeRL),在「全對比例」、「全錯比例」、「有效比例」等統計上全面占優,AttnRL 在簡單題采樣到更多錯誤回答,在困難題采樣到更多正確回答,證明了 AttnRL 分支采樣更加高效。

采樣更「干凈」
自適應采樣讓每個批次的每個 token 都有非零優勢,訓練信號密度顯著提高。相比于 GRPO 和 TreeRL,AttnRL 在更少的訓練步數下達到更高性能,并且動態批次機制確保每批次中所有樣本均有效,使 AttnRL 能夠訓練更多有效token。

未來展望
AttnRL 將「注意力分數」首次用于過程監督強化學習的探索決策,把探索預算投向「影響后續最多」的關鍵推理步驟,為未來的大模型可解釋性與強化學習研究打開了新的方向。它啟示我們:在讓模型「思考得更好」的路上,效率與智能并非對立,而是可以通過更高效的探索實現共贏。



































