字節&MAP重塑大模型推理算法優化重點，強化學習重在高效探索助力LLM提升上限

2025-08-08 09:02:00

來自字節跳動、MAP，曼徹斯特大學的聯合團隊提出了一種全新的結構化探索框架：First Return, Entropy-Eliciting Explore（FR3E）。

強化學習（RL）范式雖然顯著提升了大語言模型（LLM）在復雜任務中的表現，但其在實際應用中仍面臨傳統RL框架下固有的探索難題。

一個普遍存在的現象是：在訓練過程中，模型的熵值迅速下降，推理路徑趨于固化，導致“利用（exploitation）”遠超“探索（exploration）”，嚴重失衡。

這種過早收斂不僅削弱了模型的多樣性生成能力，也限制了其性能上限的進一步突破。

受OpenAI經典論文《First Return, Then Explore》中“先返回，再探索”思想的啟發，來自字節跳動、MAP，曼徹斯特大學的聯合團隊提出了一種全新的結構化探索框架：First Return, Entropy-Eliciting Explore（FR3E）。

該方法通過識別推理軌跡中具有高不確定性的關鍵token，并以此為錨點引導后續的多樣化展開，系統性地重建了LLM在強化學習中的探索機制，旨在實現利用與探索之間的動態平衡，從而釋放RL訓練的更高潛力。

值得一提的是，FR3E發布后，《First Return, Then Explore》的作者之一Jeff Clune還在X（原 Twitter）上轉發了這篇文章。

算法框架

FR3E的算法框架分為兩個階段：

第一階段：First Return

在該階段，模型對每條prompt進行多次rollout，自由探索可能的解題路徑，并收集相應的軌跡及其獎勵信號。

隨后，采用拒絕采樣（rejection sampling）策略過濾掉全正確的樣本（避免對已掌握知識的重復學習），并針對剩余樣本構建基準路徑：對于存在部分正確結果的prompt，選取其中一條正確軌跡作為基準；

對于全部錯誤的prompt，則隨機選取一條作為參考路徑。

在此基礎上，計算基準路徑中每個token的生成熵，篩選出top-n個高熵token作為關鍵決策點。

這些關鍵點將整條軌跡劃分為n+1個partial rollout。通過將原始prompt與前n個partial rollout依次拼接（最后一個包含答案的部分被排除），形成n+1個中間狀態（state），初始狀態即為原始prompt本身。

第二階段：Entropy-Eliciting Explore

基于構建的多狀態prompt組，FR3E在GRPO++（融合了拒絕采樣與Clip-Higher機制的GRPO變體）的基礎上，進一步引入動態優勢調制機制，以更精細地調控學習信號。具體而言，通過引入了一個優勢調制因子，它基于從上一個狀態到當前狀態的價值邊際改善來縮放學習信號。

優勢調制因子定義為：

調控后的Advantage定義為：

當

表示當前state prompt中的partial rollout部分對最終答案有正向影響，此時需要適當降低它的advantage，防止模型過早鎖定當前推理路徑，保留探索空間。

反之，當

則意味著當前state prompt中的partial rollout部分對思考過程沒有或有負向影響，需要放大其優勢信號，激勵模型在該節點進行更積極的探索，以突破推理瓶頸。

在數據構建方面，團隊采用雙難度混合策略：低難度數據來自DeepScaler，用于穩定訓練初期的收斂過程；

高難度數據則取自SimpleRL中難度等級為3–5的樣本，旨在激發模型的深層推理能力。這種組合既保障了訓練穩定性，又提供了足夠的挑戰性以推動能力躍遷。

實驗結果

為全面評估FR3E的有效性，團隊在多個權威數學推理基準上進行了實驗，包括GSM8K、Math500、Minerva Math、Gaokao2023en、OlympiadBench、College Math以及AIME24。并在Qwen2.5-7B、Qwen2.5-Math-7B和Qwen2.5-32B三種模型上進行了評測。