強化微調 ReFT：開啟大語言模型推理新范式

作者：肆零柒 2025-06-26 09:06:59

這是一篇復習之作，發表在 2024 ACL，字節跳動的ReFT方法，用強化學習打破傳統微調瓶頸，讓大語言模型在數學推理上大展身手。

大家好，我是肆〇柒。因為與合作伙伴項目的需要，最近對 RL 方面的論文關注的多了一些。這兩天，我翻出一篇去年的論文來復習。這篇是來自字節跳動研究團隊（ByteDance Research）的 ACL 2024 論文《ReFT: Reasoning with Reinforced Fine-Tuning》。這篇論文發表在《Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)》上。

在人工智能領域，提升大語言模型（LLM）的數學推理能力一直是研究熱點。然而，現有的監督微調（SFT）方法結合思維鏈（CoT）注釋在泛化能力上存在明顯瓶頸。為解決這一問題，字節跳動研究團隊提出了一種名為 ReFT（Reasoning with Reinforced Fine-Tuning）的創新方法，通過強化學習機制，使模型能夠探索多種推理路徑，從而顯著提升其在數學問題求解任務中的推理能力和泛化性能。

傳統 SFT 方法僅依賴單一正確的推理路徑進行訓練，導致模型在面對多樣化問題時泛化能力不足。例如，在 GSM8K 數據集上，基于 SFT 的模型在某些復雜問題上表現不佳，準確率難以突破瓶頸。這種局限性促使研究者探索新的微調范式，以充分挖掘模型的推理潛力。

下圖展示了 GSM8K 數據集中的一道示例題目及其 CoT 和答案，清晰地說明了監督微調和強化微調的對比。通過這種對比，我們可以更好地理解 ReFT 如何在訓練過程中利用多種推理路徑來提升模型的性能。

GSM8K 數據集示例題目及其 CoT 和答案

數學問題解決中，單一正確推理路徑的依賴，成為模型泛化的主要障礙。實際上，許多數學問題存在多種有效的推理路徑，模型若能學習這些路徑，將大幅提升其泛化能力。ReFT 方法被提出，它突破了傳統微調范式的限制，通過強化學習機制，使模型能夠探索多種推理路徑，從而增強其推理深度與準確性。

ReFT 方法概述

ReFT 的核心在于兩階段訓練框架。

首先，通過監督微調（SFT）對模型進行初始化，使其具備基本的數學問題求解能力。接著，利用強化學習（特別是 PPO 算法）對模型進行進一步優化。在強化學習階段，模型能夠自動采樣多種推理路徑，并基于真實答案獲得獎勵信號，從而不斷調整策略，提升推理能力。相比傳統 SFT，ReFT 預期在泛化能力上實現顯著提升，同時優化模型的推理深度與準確性。

下圖對比了 SFT 和 ReFT 在存在 CoT 替代方案時的表現，直觀地展示了 ReFT 如何通過探索多種推理路徑來提升模型的性能。

SFT 和 ReFT 在 CoT 替代方案上的對比

ReFT 方法論

監督微調（SFT）準備階段

在 SFT 階段，數據集的選擇與標注質量至關重要。GSM8K、SVAMP、MathQA 數據集因其題目類型的多樣性和標注的規范性，成為理想的訓練數據源。以 GSM8K 數據集為例，其包含 8K 道數學應用題，每道題都配有詳細的思維鏈（CoT）注釋，涵蓋從簡單算術到復雜代數的多種類型，為模型訓練提供了豐富的樣本。

模型預訓練基礎的選擇同樣關鍵。研究團隊將 CodeLLAMA 和 Galactica 作為基礎模型，其預訓練特性與數學推理任務高度契合。CodeLLAMA 在代碼生成任務上的優勢，使其能夠更好地理解數學問題中的邏輯結構；而 Galactica 在科學文獻處理上的專長，則有助于模型對數學問題中專業術語的理解。SFT 初始化策略，如學習率的設置、預訓練權重的加載方式等，對后續強化學習階段的學習效果有著深遠影響。

SFT 的訓練目標函數基于交叉熵損失，通過最小化模型預測與真實 CoT 標注之間的差異，使模型逐步掌握數學問題的基本解題思路。訓練過程中的收斂性判斷標準，如連續多個 epoch 驗證損失不再下降，則表明模型在當前數據集上已達到較好的擬合效果，可進入強化學習階段。

ReFT 強化學習階段

ReFT 強化學習階段采用 PPO（Proximal Policy Optimization）算法，這是一種在策略梯度方法基礎上改進的強化學習算法，具有穩定性和高效性優勢。PPO 算法通過限制策略更新的幅度，避免了策略梯度方法中常見的訓練不穩定問題。在 ReFT 的應用場景下，PPO 算法的參數調整需根據數學問題的特點進行優化，例如學習率的設置、折扣因子 γ 的選擇等。

PPO 算法的具體運算過程如下：

1. 策略網絡構建：策略網絡采用多層感知機（MLP）結構，輸入為問題狀態，輸出為動作概率分布。例如，對于一個數學問題求解任務，策略網絡的輸入可以是問題的文本編碼，輸出則是下一步推理動作的概率分布。

2. 價值函數估計：價值函數用于估計當前狀態下的期望累計獎勵。通過訓練一個價值網絡，使用均方誤差損失函數來擬合真實價值函數。價值網絡的輸入與策略網絡相同，輸出為一個標量值，表示當前狀態的價值。

3. 優勢函數計算：優勢函數衡量在當前狀態下采取特定動作相對于平均策略的優劣。計算公式為：

4. 策略更新：根據采樣的軌跡計算優勢函數估計值，使用 PPO 的裁剪目標函數更新策略網絡參數。裁剪目標函數為：

從單一問題中采樣多種推理路徑是 ReFT 的關鍵創新之一。基于策略梯度的路徑探索機制，模型能夠在給定問題時生成多種可能的推理路徑。通過多樣性采樣技術，如溫度調節（temperature scaling）、核采樣（top-k sampling）等，模型能夠生成具有多樣性的路徑集合。隨后，利用篩選機制，如基于答案正確性的過濾、基于路徑相似度的去重等，保留有效的推理路徑，從而豐富模型的學習樣本。

獎勵信號的設計直接關系到模型的學習效果。ReFT 的獎勵函數以真實答案為核心，當模型生成的推理路徑得出正確答案時，給予正向獎勵；否則，給予懲罰。部分獎勵策略在稀疏反饋環境中發揮著重要作用，例如在數學問題的中間步驟給予一定獎勵，引導模型逐步接近正確答案，從而緩解了強化學習中常見的稀疏獎勵問題。

下圖展示了 MathQAMCQ 數據集中的一個示例預測，展示了獎勵欺騙現象。當模型生成錯誤的推理路徑卻得出正確答案時，會獲得不當獎勵，誤導模型的學習方向。這種現象在多選題場景下尤為突出，嚴重時可能導致模型性能下降。ReFT 通過合理設計獎勵函數和采樣策略，在一定程度上緩解了獎勵欺騙問題，確保了訓練過程的可靠性。

MathQAMCQ 數據集示例預測，揭示獎勵欺騙現象

ReFT 關鍵機制深度解析

線上強化學習與自監督學習在 ReFT 中相輔相成。線上強化學習使模型能夠實時根據環境反饋調整策略，而自監督學習則利用模型自身生成的數據進行進一步學習，兩種范式的協同作用顯著提升了模型的泛化能力。例如，在處理復雜的代數問題時，模型通過線上強化學習不斷嘗試不同的解題思路，同時借助自監督學習對生成的推理路徑進行自我評估與優化，從而逐步掌握問題的解題規律。

部分獎勵策略與 KL 散度約束的平衡機制是 ReFT 的另一關鍵。部分獎勵在不同推理階段的合理應用，如在問題初期給予較高的探索獎勵，隨著推理深入逐步增加開發獎勵，能夠引導模型在探索與利用之間取得平衡。KL 散度約束則通過限制新舊策略之間的差異，防止模型在強化學習過程中偏離初始策略過遠，從而保證了訓練的穩定性。這種平衡機制的動態調整，使模型能夠在復雜多變的數學問題中保持穩定的性能提升。

ReFT 支持自然語言 CoT 與程序基 CoT 的雙重處理框架。自然語言 CoT 以自然語言形式描述推理過程，易于人類理解和解釋；而程序基 CoT 則以編程語言形式表達，具有更高的精確性和可執行性。ReFT 的融合處理框架能夠充分利用兩種 CoT 形式的優點，增強模型在不同場景下的適用性與魯棒性。例如，在處理涉及邏輯判斷與循環操作的數學問題時，程序基 CoT 能夠提供更清晰的執行步驟，而自然語言 CoT 則有助于模型理解問題背景與上下文信息。

與離線自訓練和在線自訓練方法相比，ReFT 具有顯著優勢。離線自訓練受限于初始采樣數據的質量與多樣性，難以動態調整訓練策略；在線自訓練則存在反饋延遲問題，影響模型的實時學習效果。ReFT 的即時反饋與動態調整機制使其能夠在訓練過程中快速適應問題的復雜性，從而實現更高效的性能提升。

SFT 方法在數學問題求解中的局限性主要體現在其對單一正確推理路徑的依賴。例如，當面對具有多種解題方法的數學問題時，SFT 模型往往只能學習到其中一種方法，導致其在面對其他解題思路時泛化能力不足。ReFT 通過強化學習機制，使模型能夠探索多種推理路徑。例如，在 GSM8K 數據集上，ReFT 能夠通過采樣不同的推理路徑，逐步學習到多種解題方法，從而克服 SFT 方法的局限性，提升模型的泛化能力和推理深度。

實驗設計與結果評估

實驗環境與配置

實驗基于 GSM8K、SVAMP 和 MathQA 三大數據集展開，這些數據集在數學問題求解研究中具有代表性，涵蓋了從基礎算術到高級代數的廣泛問題類型。例如，SVAMP 數據集包含 3,000 多道經過嚴格篩選的數學題，題目難度適中且具有良好的代表性。下表提供了訓練集和測試集的統計信息，展示了數據集的規模和特性。

訓練集和測試集的統計信息

基礎模型選擇 CodeLLAMA 和 Galactica，主要考慮其架構特點與數學推理任務的適配性。CodeLLAMA 的 decoder-only 架構使其在生成任務上具有高效性，而 Galactica 的 large context window 特性能夠處理較長的數學問題描述。訓練硬件環境采用 8 塊 A100-80GB GPU，配合 DeepSpeed Zero stage 2 和 HuggingFace Accelerate，確保了訓練過程的高效性與穩定性。

在實驗中，ReFT 方法與多種基線方法進行了對比，包括 SFT、離線自訓練和在線自訓練。SFT 作為傳統方法，直接利用標注數據進行監督訓練；離線自訓練通過初始模型生成額外樣本進行訓練；在線自訓練則在訓練過程中動態生成樣本。為確保公平比較，所有基線方法均采用相同的超參數調整策略，如學習率、批次大小等，并通過交叉驗證評估性能穩定性。

實驗結果呈現與分析

下表展示了 ReFT 和基線方法在所有數據集上的價值準確率。在 GSM8K 數據集上，ReFT 的自然語言 CoT 準確率達到 75.28%，程序基 CoT 準確率更是高達 81.2%，相比 SFT 方法分別提升了近 12 個百分點和 17 個百分點。在 SVAMP 數據集上，ReFT 的準確率提升了約 10 個百分點。這些結果表明 ReFT 在不同數據集上均能顯著超越基線方法，展現出卓越的推理性能。

ReFT 和基線方法在所有數據集上的價值準確率

下表針對 MathQAnumeric 基準測試，進一步驗證了 ReFT 的魯棒性。ReFT 在該變種數據集上的準確率達到 78.0%，相比 SFT 提升了近 15 個百分點。這表明 ReFT 在處理數值型答案的數學問題時，能夠有效避免獎勵欺騙問題，保持穩定的性能表現。

ReFT 和基線方法在 MathQAnumeric 基準測試上的價值準確率

下表則凸顯了多數投票與重排序技術對 ReFT 性能的顯著增益效果。結合多數投票策略后，ReFT 在 GSM8K 數據集上的準確率提升了 8.6 個百分點；而在重排序技術的助力下，準確率提升了超過 3 個百分點。這些結果充分證明了 ReFT 與這些技術的兼容性，能夠通過集成方法進一步提升模型的性能。

多數投票和重排序技術對 SFT 和 ReFT 在 GSM8K 數據集上的解題準確率影響

下圖展示了 ReFT 在 GSM8K P-CoT 數據集上的訓練獎勵、評估準確率和 KL 散度隨訓練周期的變化情況。從圖中可以看出，隨著訓練的進行，ReFT 的評估準確率穩步提升，同時 KL 散度逐漸趨于穩定，反映了 ReFT 在強化學習階段的訓練動態過程和穩定性。

ReFT 在 GSM8K P-CoT 數據集上的訓練獎勵、評估準確率和 KL 散度變化情況

下表的消融研究結果進一步量化了 ReFT 各個關鍵組件的貢獻。例如，當移除部分獎勵策略時，ReFT 在 GSM8K P-CoT 任務上的準確率從 81.2% 下降至 80.2%；而將 KL 系數 β 設置為 0 時，模型性能出現嚴重退化，準確率幾乎降為 0。這些結果凸顯了部分獎勵策略和 KL 散度約束在維持 ReFT 穩定性和性能方面的重要作用。

消融研究結果

下圖比較了 SFT 和 ReFT 在不同預熱 epoch 數下的準確率。結果顯示，ReFT 在經過適當的預熱步驟后，性能顯著優于 SFT，尤其是在預熱 epoch 為 3 和 5 時，ReFT 的準確率提升最為明顯。

不同預熱 epoch 數下 SFT 和 ReFT 的準確率對比

下圖展示了 SFT 和 ReFT 模型在 GSM8K 數據集上同一問題的不同訓練周期的 P-CoT 響應。綠色框架表示正確的響應，紅色框架表示錯誤的響應。從圖中可以看出，ReFT 在訓練過程中逐漸收斂到正確的解題路徑，而 SFT 則在多個訓練周期中表現不穩定。

GSM8K 數據集上同一問題在不同訓練周期的 P-CoT 響應對比

結果分析與洞察

ReFT 在不同數據集上的性能提升呈現出一些共性規律。例如，在涉及多步推理的復雜問題上，ReFT 的性能提升更為顯著，這歸因于其能夠探索多種推理路徑，從而更好地應對問題的復雜性。同時，數據集的特性也對性能提升產生影響。在 GSM8K 數據集上，由于問題類型的多樣性，ReFT 能夠充分利用其路徑探索能力，實現顯著的性能提升。而在 SVAMP 數據集上，由于部分問題存在固定的解題模板，ReFT 的提升幅度相對較小，但仍優于基線方法。

小模型實驗進一步驗證了 ReFT 的泛化能力。即使在參數量較少的模型上，ReFT 仍能取得優于 SFT 的結果。例如，在 Galactica-125M 模型上，ReFT 在 GSM8K 數據集上的準確率相比 SFT 提升了近 6 個百分點。這表明 ReFT 方法具有良好的普適性，能夠適應不同規模的模型。

總體而言，實驗結果充分證明了 ReFT 方法在提升大語言模型數學推理能力方面的顯著優勢，為未來推理任務的研究和實踐提供了新的方向和思路。

實踐指南與代碼實現

環境搭建步驟

搭建 ReFT 的運行環境，首先需安裝依賴庫，包括 transformers、torch、accelerate 等。各庫的版本需滿足兼容性要求，例如 transformers 版本應與基礎模型的實現相匹配。以下是具體的安裝命令：

pip install transformers==4.28.0 torch==1.13.1 accelerate==0.16.0

數據預處理流程涉及將原始數據集轉換為模型可接受的格式，如將 GSM8K 數據集中的問題、CoT 和答案整理為 JSON 格式。數據格式規范對模型訓練至關重要，不正確的格式可能導致訓練過程中的錯誤。

SFT 實現詳解

train_sft_model.py 腳本是 SFT 的核心實現。其關鍵參數包括學習率、批次大小、訓練 epoch 數等。例如，學習率設置為 1e-5，批次大小為 48，訓練 epoch 數為 40。這些參數的選擇基于實驗經驗和數據集特性，對 SFT 的訓練效果有著直接的影響。

在訓練過程中，需監控損失變化和驗證集準確率等關鍵指標。可以通過 TensorBoard 進行可視化，具體命令如下：

tensorboard --logdir=./logs

當驗證集準確率 plateau 時，可以嘗試調整學習率或增加正則化。例如，將學習率降低一個數量級：

optimizer = AdamW(model.parameters(), lr=1e-6)

ReFT 代碼實戰

train_rl_reft.py 腳本實現了 ReFT 的強化學習流程。以下是 PPO 算法的關鍵代碼片段：

import torch
import torch.nn as nn
import torch.optim as optim
from torch.distributions import Categorical

classPPO:
    def__init__(self, model, lr, gamma, epsilon, device):
        self.model = model
        self.optimizer = optim.Adam(model.parameters(), lr=lr)
        self.gamma = gamma
        self.epsilon = epsilon
        self.device = device

    defcompute_advantages(self, rewards, values):
        advantages = []
        gae = 0
        for t inreversed(range(len(rewards))):
            delta = rewards[t] + self.gamma * values[t+1] - values[t]
            gae = delta + self.gamma * gae
            advantages.insert(0, gae)
        return advantages

    defupdate(self, states, actions, rewards, log_probs_old):
        states = torch.tensor(states, dtype=torch.float32).to(self.device)
        actions = torch.tensor(actions, dtype=torch.int64).to(self.device)
        rewards = torch.tensor(rewards, dtype=torch.float32).to(self.device)
        log_probs_old = torch.tensor(log_probs_old, dtype=torch.float32).to(self.device)

        # 計算價值函數
        values = self.model.value(states)
        # 計算優勢函數
        advantages = self.compute_advantages(rewards, values)
        advantages = torch.tensor(advantages, dtype=torch.float32).to(self.device)

        # 計算新策略的概率分布
        logits = self.model.policy(states)
        dist = Categorical(logits=logits)
        log_probs_new = dist.log_prob(actions)

        # 計算 PPO 裁剪目標函數
        ratio = torch.exp(log_probs_new - log_probs_old)
        surr1 = ratio * advantages
        surr2 = torch.clamp(ratio, 1.0 - self.epsilon, 1.0 + self.epsilon) * advantages
        policy_loss = -torch.min(surr1, surr2).mean()

        # 計算價值函數損失
        value_loss = nn.MSELoss()(values, rewards)

        # 更新模型
        self.optimizer.zero_grad()
        policy_loss.backward()
        value_loss.backward()
        self.optimizer.step()

在強化學習訓練過程中，調試技巧至關重要。例如，通過打印中間策略分布、獎勵值等信息，診斷采樣多樣性不足、獎勵稀疏等問題，并據此調整采樣溫度、獎勵函數參數等。常用的調試工具有 TensorBoard（用于可視化訓練指標）、PyTorch 的斷點調試功能等。

采樣與評估實踐

sampling.py 提供了多種采樣策略配置，如溫度采樣、核采樣、束搜索等。以下是一個溫度采樣的實現示例：

def temperature_sampling(logits, temperature):
    logits = logits / temperature
    probs = torch.softmax(logits, dim=-1)
    return probs

不同采樣策略適用于不同場景，例如，在探索階段可采用較高的溫度值以增加采樣多樣性；而在開發階段則可降低溫度值以聚焦于高概率路徑。采樣參數的調整對結果多樣性有顯著影響，較高的溫度值會產生更多樣化的路徑，但也可能引入更多噪聲。

重排序模型的訓練基于生成的多個 CoT 樣本，通過訓練二分類器判斷樣本的正確性，從而實現對 CoT 的重排序。模型集成策略，如將多個重排序模型的預測結果進行加權平均，能夠進一步提升最終性能。例如，在 GSM8K 數據集上，結合重排序模型后，ReFT 的準確率提升了超過 3 個百分點。

性能優化

為提升訓練效率，可采用多種工程實踐。例如，利用混合精度訓練（mixed precision training）減少內存占用并加速計算；采用梯度累積技術，在有限 GPU 內存下模擬大批次訓練效果；優化數據加載流程，減少 I/O 瓶頸等。以下是一個混合精度訓練的實現示例：

scaler = torch.cuda.amp.GradScaler()

for epoch in range(num_epochs):
    for batch in dataloader:
        with torch.cuda.amp.autocast():
            outputs = model(batch)
            loss = criterion(outputs, labels)
        scaler.scale(loss).backward()
        scaler.step(optimizer)
        scaler.update()

獎勵欺騙問題的緩解方案包括設計更精細的獎勵函數，如根據中間步驟的正確性給予部分獎勵；引入專家示范數據，在訓練初期引導模型學習正確的推理路徑；實時監控訓練過程中的獎勵分布，及時發現并糾正異常的獎勵模式。

總結

ReFT 方法在數學推理任務上取得了顯著的性能提升。在 GSM8K 數據集上，相比 SFT 方法，ReFT 的自然語言 CoT 準確率提升了 12 個百分點，程序基 CoT 準確率提升了 17 個百分點；在 SVAMP 數據集上，準確率提升了 10 個百分點。這些量化評估結果充分證明了 ReFT 對模型推理能力邊界的擴展作用，使其能夠應對更復雜的數學問題。

ReFT 對 LLM 微調范式的創新拓展價值不容忽視。它為現有微調技術體系引入了強化學習機制，豐富了模型的學習方式。這一創新不僅提升了模型在數學推理任務上的性能，還為未來微調方法的研究提供了新的思路與方向，推動了微調技術的進一步發展。

局限性分析

盡管 ReFT 取得了顯著成果，但在訓練效率方面仍存在瓶頸。強化學習階段的訓練收斂速度較慢，尤其是在處理大規模數據集時，訓練時間成倍增長。這主要歸因于強化學習的試錯特性，模型需通過大量采樣與反饋逐步優化策略。潛在的解決方案包括采用更高效的強化學習算法，如基于模型的強化學習（Model-Based RL），通過學習環境模型減少采樣需求；優化采樣策略，提高采樣效率，如采用優先經驗回放（Prioritized Experience Replay）技術，聚焦于信息量大的樣本。

獎勵欺騙問題是 ReFT 面臨的另一挑戰。其深層成因在于獎勵信號的不完全性，當模型生成的推理路徑得出正確答案但過程錯誤時，仍可能獲得獎勵，誤導模型學習方向。應對思路包括設計更全面的獎勵函數，綜合考慮路徑的中間結果、邏輯合理性等多維度信息；引入輔助監督信號，如基于中間步驟正確性的獎勵，引導模型學習正確的推理過程；在訓練過程中增加人類反饋環節，及時糾正模型的錯誤推理模式。

未來方向

我們在未來的探索中，可以探索將離線強化學習技術與 ReFT 方法進行整合。離線強化學習技術利用預先收集的數據進行訓練，避免了在線強化學習中與環境交互的高成本和高風險。然而，離線強化學習也面臨著數據分布偏移、策略退化等挑戰。通過將離線強化學習的優勢與 ReFT 的在線探索能力相結合，有望開發出更加高效、穩定的強化學習方法。

此外，開發過程導向的獎勵模型也是一個重要的研究方向。與傳統的基于最終結果的獎勵模型不同，過程導向的獎勵模型更加關注推理過程的質量和合理性。例如，可以通過對推理路徑的中間步驟進行評估，給予相應的獎勵信號，從而引導模型生成更高質量的推理路徑。這需要設計更加精細的獎勵模型結構和訓練方法，同時也對數據標注和特征提取提出了更高的要求。

探索 ReFT 在其他推理任務領域的遷移應用前景也具有重要意義。例如，在邏輯推理、文本蘊含、知識問答等領域，ReFT 的強化微調思路和方法可能同樣能夠發揮重要作用。通過針對這些任務的特點和需求，對 ReFT 方法進行適當的改造和優化，有望進一步提升模型在這些領域的推理能力和性能。

記得當時我讀完這篇論文，我深感 ReFT 方法為大語言模型的推理能力提升開辟了全新的路徑。通過強化學習機制，ReFT 使模型能夠擺脫對單一正確推理路徑的依賴，大膽探索多樣化的解題思路。這種創新的微調范式不僅顯著提升了模型在數學問題求解任務上的性能，還為未來微調技術的發展提供了寶貴的借鑒，要知道高效微調對 Agent 有多么重要！在去年年底，OpenAI 就推出了相似的 RFT 方法，并于今年 5 月初，RFT 初步落地。感慨，AI 行業太快了！

總體而言，ReFT 不僅是一項技術進步，更是對大語言模型推理能力邊界的一次勇敢探索。它讓我看到了強化學習在提升模型智能水平方面的巨大潛力，也讓我對 AI 的未來發展充滿期待。

責任編輯：龐桂玉來源：覺察流

微調 ReFT 大語言模型推理