字節&MAP重塑大模型推理算法優化重點,強化學習重在高效探索助力LLM提升上限
強化學習(RL)范式雖然顯著提升了大語言模型(LLM)在復雜任務中的表現,但其在實際應用中仍面臨傳統RL框架下固有的探索難題。
一個普遍存在的現象是:在訓練過程中,模型的熵值迅速下降,推理路徑趨于固化,導致“利用(exploitation)”遠超“探索(exploration)”,嚴重失衡。
這種過早收斂不僅削弱了模型的多樣性生成能力,也限制了其性能上限的進一步突破。
受OpenAI經典論文《First Return, Then Explore》中“先返回,再探索”思想的啟發,來自字節跳動、MAP,曼徹斯特大學的聯合團隊提出了一種全新的結構化探索框架:First Return, Entropy-Eliciting Explore(FR3E)。

該方法通過識別推理軌跡中具有高不確定性的關鍵token,并以此為錨點引導后續的多樣化展開,系統性地重建了LLM在強化學習中的探索機制,旨在實現利用與探索之間的動態平衡,從而釋放RL訓練的更高潛力。
值得一提的是,FR3E發布后,《First Return, Then Explore》的作者之一Jeff Clune還在X(原 Twitter)上轉發了這篇文章。

算法框架
FR3E的算法框架分為兩個階段:
第一階段:First Return

在該階段,模型對每條prompt進行多次rollout,自由探索可能的解題路徑,并收集相應的軌跡及其獎勵信號。
隨后,采用拒絕采樣(rejection sampling)策略過濾掉全正確的樣本(避免對已掌握知識的重復學習),并針對剩余樣本構建基準路徑:對于存在部分正確結果的prompt,選取其中一條正確軌跡作為基準;
對于全部錯誤的prompt,則隨機選取一條作為參考路徑。
在此基礎上,計算基準路徑中每個token的生成熵,篩選出top-n個高熵token作為關鍵決策點。
這些關鍵點將整條軌跡劃分為n+1個partial rollout。通過將原始prompt與前n個partial rollout依次拼接(最后一個包含答案的部分被排除),形成n+1個中間狀態(state),初始狀態即為原始prompt本身。
第二階段:Entropy-Eliciting Explore

基于構建的多狀態prompt組,FR3E在GRPO++(融合了拒絕采樣與Clip-Higher機制的GRPO變體)的基礎上,進一步引入動態優勢調制機制,以更精細地調控學習信號。具體而言,通過引入了一個優勢調制因子,它基于從上一個狀態到當前狀態的價值邊際改善來縮放學習信號。
優勢調制因子定義為:

調控后的Advantage定義為:

當

表示當前state prompt中的partial rollout部分對最終答案有正向影響,此時需要適當降低它的advantage,防止模型過早鎖定當前推理路徑,保留探索空間。
反之,當

則意味著當前state prompt中的partial rollout部分對思考過程沒有或有負向影響,需要放大其優勢信號,激勵模型在該節點進行更積極的探索,以突破推理瓶頸。
在數據構建方面,團隊采用雙難度混合策略:低難度數據來自DeepScaler,用于穩定訓練初期的收斂過程;
高難度數據則取自SimpleRL中難度等級為3–5的樣本,旨在激發模型的深層推理能力。這種組合既保障了訓練穩定性,又提供了足夠的挑戰性以推動能力躍遷。
實驗結果
為全面評估FR3E的有效性,團隊在多個權威數學推理基準上進行了實驗,包括GSM8K、Math500、Minerva Math、Gaokao2023en、OlympiadBench、College Math以及AIME24。并在Qwen2.5-7B、Qwen2.5-Math-7B和Qwen2.5-32B三種模型上進行了評測。

實驗結果表明,FR3E在多個基準上均顯著優于強基線GRPO++,展現出更強的泛化與推理能力。

尤其值得注意的是,在訓練動態分析中,FR3E展現出更持久的探索行為:其熵值衰減更緩慢,響應長度更長,特別是在Qwen2.5-Math-7B這類已微調模型上,成功突破了傳統方法中熵值長期處于低位的“僵化”困境,實現了探索能力的再激活。

此外,通過對多次rollout結果的統計監控,團隊發現FR3E顯著提升了“全正確”軌跡的數量,同時大幅降低了“全錯誤”軌跡的比例。
這表明,原本僅能部分解出或完全失敗的問題,在FR3E的訓練機制下,逐步演化為穩定、完整的正確解答路徑,真正實現了從“部分成功”到“全面突破”的躍遷。
綜上所述,FR3E提出了一種新穎且高效的結構化探索范式,直面LLM在強化學習中“探索不足”的核心瓶頸。
通過“先返回、再探索”的兩階段設計,結合高熵錨點識別與動態優勢調制機制,FR3E不僅有效延緩了模型的過早收斂,更顯著提升了復雜推理任務中的性能上限。
實驗充分驗證了FR3E在多個數學推理基準上的優越性,尤其在提升探索多樣性、增強長程推理穩定性方面表現突出。
更重要的是,該方法所體現的“結構化反饋 + 自適應調節”思想,具備良好的可擴展性。團隊期待FR3E所倡導的探索機制,能夠為未來大模型的強化學習訓練提供新的范式參考。
論文地址:https://arxiv.org/pdf/2507.07017





































