無需數(shù)據(jù)標(biāo)注：RLSC 如何用“自我信心”優(yōu)化語言模型

作者：肆零柒 2025-06-27 04:00:00

RLSC 作為一種強(qiáng)化學(xué)習(xí)微調(diào)方法，它無需外部標(biāo)簽、偏好模型或手動獎勵設(shè)計，僅通過模型自身的“信心”作為獎勵信號，就能顯著提升性能。這一創(chuàng)新方法不僅為LLM的優(yōu)化提供了新思路，且訓(xùn)練高效、成本較低。

大家好，我是肆〇柒。當(dāng)下，大型語言模型（LLM）如 ChatGPT、Qwen 等展現(xiàn)出了卓越的推理能力，能夠在多種任務(wù)中提供高質(zhì)量的解決方案。然而，盡管這些模型具有強(qiáng)大的基礎(chǔ)能力，但要使其行為與特定任務(wù)目標(biāo)精準(zhǔn)對齊，后訓(xùn)練優(yōu)化仍然是不可或缺的關(guān)鍵步驟。現(xiàn)有的強(qiáng)化學(xué)習(xí)（RL）方法，如 RLHF（Reinforcement Learning from Human Feedback）、TTRL（Test-Time Reinforcement Learning）等，往往依賴于昂貴的人工標(biāo)注數(shù)據(jù)或復(fù)雜的外部獎勵模型，這不僅增加了成本，還限制了它們的廣泛應(yīng)用。

為突破這一瓶頸，RLSC（Reinforcement Learning via Self-Confidence）被 Airi 與 Skoltech Moscow 的研究人員提出。作為一種創(chuàng)新的強(qiáng)化學(xué)習(xí)微調(diào)方法，RLSC 是利用模型自身對輸出的信心作為獎勵信號，無需借助外部標(biāo)簽、偏好模型或繁瑣的手動獎勵設(shè)計，為 LLM 的優(yōu)化開辟了一條高效、低成本的新路徑。這一方法在論文《CONFIDENCE IS ALL YOU NEED: FEW-SHOT RL FINE-TUNING OF LANGUAGE MODELS》中得到了詳細(xì)闡述，下面我們一起來了解一下。

為啥提出 RLSC 方法

在探索 LLM 優(yōu)化方法的過程中，研究者們發(fā)現(xiàn)現(xiàn)有 RL 方法存在諸多局限。以 TTRL 為例，它需要為每個問題生成大量樣本（通常至少 64 個），并依賴多數(shù)投票機(jī)制生成偽標(biāo)簽。雖然這種方法能在一定程度上提升模型性能，但其計算開銷極為龐大，且對數(shù)據(jù)預(yù)處理要求極高，需要清晰分離答案與推理痕跡，這在實(shí)際應(yīng)用中往往難以實(shí)現(xiàn)。

鑒于此，RLSC 的提出動機(jī)便是尋找一種更高效、更經(jīng)濟(jì)的微調(diào)方案。它直接利用模型自身的內(nèi)部信息，摒棄對外部監(jiān)督的依賴，從而在保證性能提升的同時，大幅降低成本與資源消耗，使微調(diào)過程更加簡潔、靈活，便于在不同場景和資源約束下應(yīng)用。

通過增強(qiáng)“自信心”實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)的工作流程圖

上圖展示了 RLSC 方法的工作流程，通過自我信心的強(qiáng)化來優(yōu)化模型的輸出分布，使模型在訓(xùn)練過程中逐漸集中于高置信度的答案。

RLSC 的理論基礎(chǔ)

RLSC 的核心思想聚焦于模型輸出分布的眾數(shù)銳化。也就是在模型針對同一問題生成的多個樣本中，通過優(yōu)化使輸出更傾向于集中在最可能正確的答案上。其背后的原理在于：當(dāng)兩個獨(dú)立樣本的輸出相同時，模型對這一輸出的信心最強(qiáng)。因此，最大化這種相同輸出概率的期望，就能提升模型對正確答案的確定性。

這一公式可以提升模型對同一問題不同樣本輸出一致性的概率，從而增強(qiáng)其對正確答案的信心。例如，在一個簡單的文本分類任務(wù)中，若模型對某段文本屬于 “正面情感” 類別的判斷輸出分布較為分散，經(jīng)過 RLSC 優(yōu)化后，其輸出將更傾向于集中在 “正面情感” 這一正確答案上，概率值顯著提高，體現(xiàn)出更強(qiáng)的自信。

訓(xùn)練前后的概率分布

如上圖所示，經(jīng)過 RLSC 優(yōu)化后，模型的輸出概率分布更加集中于高置信度的答案，從而顯著提升了模型的推理能力和穩(wěn)定性。

RLSC 的損失函數(shù)與梯度計算

平滑項 α 的引入是為了應(yīng)對 P_old 出現(xiàn)高度尖銳或稀疏分布的情況。當(dāng) α 取較小正值（如 0.1）時，它能有效穩(wěn)定優(yōu)化過程，提升模型收斂的平穩(wěn)性與泛化能力。以圖像分類任務(wù)中的長尾分布問題類比，某些類別樣本極少，模型對其初始判斷可能極為不自信，分布稀疏且不均勻。此時，α 的加入相當(dāng)于給這些小概率類別輸出提供了一定的基礎(chǔ)權(quán)重，使模型在更新時不會過度忽略它們，從而有助于整體性能的均衡提升。

在梯度計算方面，通過對損失函數(shù)求梯度并利用反向傳播算法，即可實(shí)現(xiàn)模型參數(shù) θ 的更新。具體推導(dǎo)中，借助 log-trick 技巧，將梯度表達(dá)式轉(zhuǎn)化為易于計算的形式，從而高效地指導(dǎo)模型優(yōu)化方向。

損失函數(shù)的適用場景與選擇策略

在實(shí)際應(yīng)用中，選擇合適的損失函數(shù)至關(guān)重要。當(dāng)模型的輸出分布較為均勻，即各個可能輸出的概率相對接近時，L1 損失函數(shù)能夠有效地引導(dǎo)模型逐漸集中注意力于高置信度的輸出上。然而，在模型輸出分布已經(jīng)較為尖銳，即存在少數(shù)高概率輸出的情況下，L2 損失函數(shù)的優(yōu)勢便凸顯出來。平滑項 α 可以防止模型過于自信于當(dāng)前的輸出分布，避免陷入局部最優(yōu)，同時有助于提升模型對未見過樣本的泛化能力。

例如，在對 Qwen2.5-Math-7B 模型進(jìn)行微調(diào)時，若初始階段模型對數(shù)學(xué)問題的答案輸出呈現(xiàn)多樣化且無明顯主導(dǎo)答案，此時采用 L1 損失函數(shù)能夠快速篩選出潛在的正確答案方向。隨著訓(xùn)練的推進(jìn)，當(dāng)模型逐漸傾向于某些特定答案但尚未完全穩(wěn)定時，切換至 L2 損失函數(shù)，并結(jié)合適當(dāng)?shù)?α 值（如 0.1），可進(jìn)一步精細(xì)化模型的輸出分布，增強(qiáng)其對正確答案的穩(wěn)定性。

log-trick 技巧的深入解析

log-trick 技巧是 RLSC 梯度計算中的關(guān)鍵環(huán)節(jié)。其核心思想在于將期望梯度的計算轉(zhuǎn)換為更易處理的形式。根據(jù)期望的性質(zhì)：

而通過引入對數(shù)概率，可以巧妙地將梯度計算與模型的生成過程相結(jié)合：

這一轉(zhuǎn)換在數(shù)學(xué)上更加優(yōu)雅，而且在實(shí)際計算中具有顯著優(yōu)勢。首先，它將梯度計算轉(zhuǎn)化為對模型輸出概率的簡單加權(quán)求和，避免了直接對高維概率分布進(jìn)行復(fù)雜求導(dǎo)。其次，利用對數(shù)概率的形式，能夠更有效地利用自動微分工具進(jìn)行計算，在深度學(xué)習(xí)框架中實(shí)現(xiàn)高效的梯度傳播。

以一個簡單的文本生成任務(wù)為例，假設(shè)模型需要生成單詞序列作為答案。在計算梯度時，對于每個可能的單詞輸出，只需獲取其對數(shù)概率以及對應(yīng)的梯度信息，然后通過加權(quán)求和的方式即可得到整體梯度。這一過程提高了計算效率，還增強(qiáng)了數(shù)值穩(wěn)定性，避免了直接操作概率值可能導(dǎo)致的下溢或上溢問題。

RLSC 的訓(xùn)練設(shè)置

在實(shí)際應(yīng)用 RLSC 進(jìn)行微調(diào)時，以 Qwen2.5-Math-7B 模型為例，訓(xùn)練過程如下：首先，采用基礎(chǔ)模型為每個訓(xùn)練樣本生成 16 個候選完成，生成溫度固定，確保多樣性與穩(wěn)定性兼具。這些樣本被視為從舊模型分布 P_old 中獨(dú)立抽取的樣本點(diǎn)。

接下來，對于每個生成樣本，計算其在更新后模型下的對數(shù)概率。通過對比不同樣本的對數(shù)概率，結(jié)合損失函數(shù)（L1 或 L2），評估當(dāng)前模型參數(shù)的優(yōu)劣。隨后，利用標(biāo)準(zhǔn)的自回歸解碼和訓(xùn)練流程，包括對問題和答案對的標(biāo)記化處理、應(yīng)用助手掩碼鎖定答案標(biāo)記、計算掩碼標(biāo)記的對數(shù)概率之和以獲取響應(yīng)的對數(shù)似然度等步驟，精準(zhǔn)計算損失值并反向傳播更新模型參數(shù)。

整個訓(xùn)練過程僅在 AIME2024 數(shù)據(jù)集上進(jìn)行 10 或 20 步迭代，借助 8 塊 NVIDIA A100 GPU（80GB）的強(qiáng)大算力，并采用 AdamW 優(yōu)化器，設(shè)置學(xué)習(xí)率為 1X10^-5，配合常規(guī)權(quán)重衰減策略，生成序列長度上限為 3072 token。在這一輕量化、高效的訓(xùn)練設(shè)置下，無需輔助數(shù)據(jù)集、指令調(diào)優(yōu)或偏好模型，即可實(shí)現(xiàn)零標(biāo)簽的強(qiáng)化學(xué)習(xí)微調(diào)，充分挖掘模型潛力。

RLSC 方法

上述算法展示了 RLSC 方法在 LLM 中的具體實(shí)現(xiàn)步驟，通過生成樣本、計算概率和更新模型參數(shù)來實(shí)現(xiàn)自我信心的強(qiáng)化。

實(shí)驗與結(jié)果

實(shí)驗設(shè)置

為全面評估 RLSC 的性能，研究者們選用了多個極具挑戰(zhàn)性的基準(zhǔn)數(shù)據(jù)集，涵蓋數(shù)學(xué)推理任務(wù)，如 AIME2024、MATH500、AMC23、GSM8K，以及 GPQADiamond 問答基準(zhǔn)等。這些數(shù)據(jù)集涵蓋了從基礎(chǔ)數(shù)學(xué)問題到復(fù)雜科學(xué)問題的廣泛領(lǐng)域，能夠充分檢驗?zāi)Ｐ驮诓煌瑘鼍跋碌耐评砼c泛化能力。

在評估指標(biāo)方面，采用準(zhǔn)確率（Acc）作為核心衡量標(biāo)準(zhǔn)，其定義為正確回答樣本數(shù)與總評估樣本數(shù)的比值。同時，也計算 Pass@1 分?jǐn)?shù)，即綜合考慮多個可能答案后，模型正確回答的概率。這些指標(biāo)從不同角度反映了模型的實(shí)際性能，確保評估結(jié)果的全面性與客觀性。

實(shí)驗結(jié)果對比

實(shí)驗結(jié)果顯示，RLSC 調(diào)優(yōu)后的模型在各項基準(zhǔn)測試中均取得了顯著的性能提升。以下是在不同數(shù)據(jù)集上的提升情況：

AIME2024：從 13.3% 提升至 26.7%（+13.4%）
MATH500：從 51.4% 提升至 72.6%（+21.2%）
AMC23：從 45.0% 提升至 54.7%（+9.7%）
GPQA：從 21.4% 提升至 24.1%（+2.7%）
Olympiadbench：從 15.1% 提升至 35.9%（+20.8%）
Minerva Math：從 10.7% 提升至 32.4%（+21.7%）
MMLU Stem：從 52.3% 提升至 57.6%（+5.3%）

基線版本的Qwen2.5模型及其經(jīng)過RLSC調(diào)整的變體在推理基準(zhǔn)測試中的準(zhǔn)確率

上表直觀地展示了 RLSC 調(diào)優(yōu)前后模型在各個基準(zhǔn)測試上的準(zhǔn)確率對比，突出了 RLSC 在多個數(shù)據(jù)集上取得的顯著提升。

結(jié)果分析

RLSC 取得如此優(yōu)異成果的關(guān)鍵在于其獨(dú)特的自我信心強(qiáng)化機(jī)制。通過直接利用模型自身的輸出分布信息，無需外部監(jiān)督，便能精準(zhǔn)地引導(dǎo)模型優(yōu)化方向。這種內(nèi)在驅(qū)動的優(yōu)化方式使模型在學(xué)習(xí)過程中更加聚焦于高頻正確答案，不斷增強(qiáng)對這些答案的信心，從而在實(shí)際推理任務(wù)中能夠更穩(wěn)定、更準(zhǔn)確地輸出正確結(jié)果。

尤其值得一提的是，RLSC 的高效性使其在資源受限環(huán)境下表現(xiàn)出色。相較于依賴大規(guī)模數(shù)據(jù)和算力的微調(diào)方法，RLSC 僅需極少量的訓(xùn)練樣本和計算步驟即可達(dá)成顯著性能提升，這對于在邊緣設(shè)備或計算資源有限場景中部署 LLM 具有重要意義，極大地拓展了其應(yīng)用場景和實(shí)用價值。

案例分析與效果展示

案例 1：AIME2024 數(shù)學(xué)問題求解

在 AIME2024 數(shù)學(xué)問題中，給定分段函數(shù) f(x)，要求找出使得 y = f(x) 圖像與水平線 y = 2017 至少相交兩次的最小 a 值。原始 Qwen2.5-Math-7B 模型在解答時陷入了復(fù)雜的符號推導(dǎo)，最終得出了錯誤答案。而經(jīng)過 RLSC 調(diào)優(yōu)后的模型則展現(xiàn)出截然不同的推理過程。

它首先對函數(shù) f(x) 的兩部分分別進(jìn)行分析：對于 x ≥ a 時的 ax2，確定其取值范圍為 [a3, ∞)；對于 x < a 時的 ax + 2a，明確其取值范圍為 (?∞, a2 + 2a)。為了滿足圖像與水平線 y = 2017 至少相交兩次的條件，這兩個范圍必須存在重疊，即 a3 ≤ a2 + 2a。通過巧妙地變形和因式分解該不等式，得到 a(a ? 2)(a + 1) ≤ 0，進(jìn)而求得滿足條件的 a 的區(qū)間為 (?∞, ?1] ∪ [0, 2]。由于題目要求最小的 a 值，模型精準(zhǔn)地得出 a 的最大可能值為 2，這一結(jié)果，邏輯嚴(yán)謹(jǐn)、條理清晰，并且正確。

為了進(jìn)一步驗證答案的正確性，調(diào)優(yōu)后的模型還提供了 Python 代碼實(shí)現(xiàn)，通過編程計算再次確認(rèn)了理論推導(dǎo)的準(zhǔn)確性。這一案例生動地體現(xiàn)了 RLSC 在優(yōu)化模型推理能力方面的顯著效果，使其能夠避開原始模型的冗長錯誤路徑，直接、準(zhǔn)確地抵達(dá)正確答案。

案例 1：模型輸出結(jié)果的比較

上面這個用例展示了 RLSC 調(diào)優(yōu)前后模型在 AIME2024 數(shù)學(xué)問題上的輸出對比，突出了調(diào)優(yōu)后模型的準(zhǔn)確性和邏輯性。

案例 2：幾何問題求解

在求解兩點(diǎn) (2, ?6) 和 (?4, 3) 間距離的幾何問題中，原始模型僅給出了錯誤答案 10，未提供任何有效的推理過程。相比之下，RLSC 調(diào)優(yōu)后的模型則詳細(xì)地展示了正確的解題步驟。

這一案例凸顯了 RLSC 在提升模型幾何問題求解能力方面的優(yōu)勢，使其能夠正確運(yùn)用公式進(jìn)行計算，并以清晰的邏輯呈現(xiàn)完整的推理過程，避免了原始模型的盲目猜測和錯誤輸出。

案例 2: 模型輸出結(jié)果的比較

上面這個用例展示了 RLSC 調(diào)優(yōu)前后模型在幾何問題上的輸出對比，突出了調(diào)優(yōu)后模型的正確性和詳細(xì)推理過程。

案例 3：AIME 風(fēng)格博弈論問題求解

面對一個典型的 AIME 風(fēng)格博弈論問題，即 Alice 和 Bob 輪流取令牌的游戲，要求找出在 n ≤ 2024 的正整數(shù)中，Bob 有必勝策略的 n 的數(shù)量。RLSC 調(diào)優(yōu)后的模型展現(xiàn)了卓越的復(fù)雜問題求解能力。

它首先定義了游戲中的位置狀態(tài)為 “獲勝態(tài)” 或 “失敗態(tài)”，并引入函數(shù) f(n) 來描述這一狀態(tài)關(guān)系。根據(jù)游戲規(guī)則，遞推地構(gòu)建了 f(n) 的邏輯表達(dá)式，即若 n ? 1 或 n ? 4 為失敗態(tài)，則當(dāng)前 n 為獲勝態(tài)，否則為失敗態(tài)。通過迭代計算所有 1 ≤ n ≤ 2024 的狀態(tài)，模型精準(zhǔn)地統(tǒng)計出失敗態(tài)的數(shù)量為 809，這直接對應(yīng)了 Bob 能夠必勝的 n 的數(shù)量。

為確保結(jié)果的準(zhǔn)確性，模型還提供了相應(yīng)的 Python 驗證代碼，通過動態(tài)規(guī)劃的方法重新計算并驗證了這一結(jié)果。這一案例充分展示了 RLSC 在處理復(fù)雜博弈論問題時的推理深度和精確性，能夠?qū)?shí)際問題轉(zhuǎn)化為數(shù)學(xué)模型，并高效求解，體現(xiàn)了其在多領(lǐng)域問題求解中的強(qiáng)大適應(yīng)性。

模型輸出（正確答案）：Qwen2.5在AIME風(fēng)格的博弈論問題上的表現(xiàn)

上面展示了 RLSC 調(diào)優(yōu)后模型在 AIME 風(fēng)格博弈論問題上的正確輸出，體現(xiàn)了其在復(fù)雜問題求解中的優(yōu)勢。

案例 4：對數(shù)方程組求解問題

在一個涉及對數(shù)方程組的數(shù)學(xué)問題中，要求求解未知數(shù) x、y、z 滿足的對數(shù)關(guān)系，并最終得到表達(dá)式 log?(x?y3z2) 的值。RLSC 調(diào)優(yōu)后的模型靈活地運(yùn)用對數(shù)性質(zhì)，將原始方程組巧妙地轉(zhuǎn)化為線性方程組。

通過變量替換 a = log?(x)、b = log?(y)、c = log?(z)，模型將復(fù)雜的對數(shù)方程組簡化為線性方程組：

接著，通過對方程組進(jìn)行整體求和，得出 a + b + c = ?13/12。再分別求解各變量，得到 a = ?7/24、b = ?3/8、c = ?5/12。最終，模型代入這些值計算目標(biāo)表達(dá)式，得出 log?(x?y3z2) = 4a + 3b + 2c = ?25/8，即其絕對值為 25/8，因此 m = 25、n = 8，m + n = 33。

整個推理過程邏輯嚴(yán)密、步驟清晰，從對數(shù)方程組的轉(zhuǎn)換到線性方程組的求解，再到最終結(jié)果的代入計算，環(huán)環(huán)相扣，毫無破綻。這一案例再次印證了 RLSC 在優(yōu)化模型數(shù)學(xué)問題求解能力方面的顯著成效，使其能夠精準(zhǔn)地處理復(fù)雜的對數(shù)運(yùn)算和方程求解任務(wù)，為解決各類數(shù)學(xué)難題提供了可靠的保障。

模型輸出（正確答案），Qwen2.5-Math-7B帶強(qiáng)化學(xué)習(xí)自我糾正

上面展示了 RLSC 調(diào)優(yōu)后模型在對數(shù)方程組求解問題上的正確輸出，體現(xiàn)了其在數(shù)學(xué)問題求解中的精確性和邏輯性。

與同類工作的比較

強(qiáng)化學(xué)習(xí)在推理任務(wù)中的應(yīng)用

強(qiáng)化學(xué)習(xí)在提升 LLM 推理能力方面發(fā)揮了至關(guān)重要的作用。眾多前沿模型紛紛借助強(qiáng)化學(xué)習(xí)的力量來增強(qiáng)自身的推理技能。例如，DeepSeek-R1 通過分解復(fù)雜問題為多個中間步驟，并在每一步都進(jìn)行深度思考與權(quán)衡，從而有效提升了模型的推理深度和準(zhǔn)確性；ChatGPT 憑借其強(qiáng)大的語言理解和生成能力，在與用戶的交互過程中不斷學(xué)習(xí)和優(yōu)化推理策略，能夠針對不同領(lǐng)域的問題給出合理且具有邏輯性的回答；QwQ 則專注于特定領(lǐng)域的推理任務(wù)，通過強(qiáng)化學(xué)習(xí)精細(xì)調(diào)優(yōu)模型參數(shù)，使其在專業(yè)領(lǐng)域內(nèi)展現(xiàn)出卓越的推理性能。

這些模型的共同點(diǎn)在于，它們都借助強(qiáng)化學(xué)習(xí)的框架，以不同的方式激勵模型探索更優(yōu)的推理路徑，從而在復(fù)雜任務(wù)中取得突破。然而，它們大多依賴于外部的獎勵信號或大量的標(biāo)注數(shù)據(jù)來指導(dǎo)學(xué)習(xí)過程，這在一定程度上限制了強(qiáng)化學(xué)習(xí)在推理任務(wù)中的廣泛應(yīng)用，特別是在資源受限或難以獲取高質(zhì)量標(biāo)注數(shù)據(jù)的場景中。

基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）

RLHF 作為一種經(jīng)典的強(qiáng)化學(xué)習(xí)方法，其核心在于利用人類標(biāo)注的數(shù)據(jù)或偏好模型來生成獎勵信號，進(jìn)而引導(dǎo)模型行為與人類偏好相匹配。具體來說，RLHF 通常需要收集大量人類對模型生成結(jié)果的評價數(shù)據(jù)，如評分、排名等，然后訓(xùn)練一個獎勵模型來預(yù)測人類對不同回答的偏好程度。在模型訓(xùn)練過程中，將這個獎勵模型的輸出作為強(qiáng)化學(xué)習(xí)的獎勵信號，指導(dǎo)模型優(yōu)化策略，使模型生成的回答更符合人類的期望。

然而，RLHF 的局限性也十分明顯。因為獲取人類標(biāo)注數(shù)據(jù)的成本極高，這需要耗費(fèi)大量的人力和時間，還可能受到標(biāo)注者主觀因素的影響，導(dǎo)致標(biāo)注數(shù)據(jù)的不一致性。另外，訓(xùn)練獎勵模型本身也是一個復(fù)雜的任務(wù)，需要大量的計算資源和專業(yè)的數(shù)據(jù)處理技巧。此外，由于依賴于人類標(biāo)注的靜態(tài)數(shù)據(jù)，RLHF 在面對新領(lǐng)域或新任務(wù)時，往往需要重新收集數(shù)據(jù)和訓(xùn)練獎勵模型，缺乏靈活性和適應(yīng)性。

可驗證獎勵的強(qiáng)化學(xué)習(xí)（RLVR）

RLVR 則另辟蹊徑，試圖擺脫對人工標(biāo)注的依賴。它的核心思想是僅基于問題 - 答案對本身來計算可驗證的獎勵。例如，在數(shù)學(xué)問題求解中，可以通過將模型生成的答案與已知的正確答案進(jìn)行比較，從而確定獎勵值。這種方法的優(yōu)勢在于，無需額外的標(biāo)注數(shù)據(jù)，只要問題本身具有明確的驗證標(biāo)準(zhǔn)，就能為模型提供即時的反饋信號。

盡管如此，RLVR 也存在一些局限。它要求問題具有明確且易于驗證的正確答案，這在許多實(shí)際場景中并不總是滿足，例如開放性問題、創(chuàng)造性任務(wù)等。其次，對于一些需要評估中間推理過程質(zhì)量的任務(wù)，RLVR 難以提供有效的獎勵信號，因為它僅關(guān)注最終答案的正確性。此外，RLVR 仍然需要一定量的人工標(biāo)注的問答對來進(jìn)行初始的模型訓(xùn)練和驗證，這在一定程度上限制了其完全擺脫人工干預(yù)的可能性。

測試時訓(xùn)練（TTT）方法

TTT 作為強(qiáng)化學(xué)習(xí)領(lǐng)域的新興方向，聚焦于在模型推理階段進(jìn)行實(shí)時優(yōu)化。其中，SelfPlay Critic（SPC）和 Absolute Zero Reasoner（AZR）等方法借鑒了博弈論中的對抗學(xué)習(xí)思想。在 SPC 中，兩個模型相互對抗：一個模型負(fù)責(zé)生成可能的推理步驟或答案，另一個模型則扮演 “批評者” 角色，試圖找出其中的錯誤或薄弱環(huán)節(jié)。通過這種對抗訓(xùn)練，兩個模型相互促進(jìn)、共同提升。AZR 則進(jìn)一步強(qiáng)化了這種對抗機(jī)制，使模型能夠在零樣本條件下通過自我博弈和推理，逐步構(gòu)建對問題的理解和解決方案。

Test-Time Reinforcement Learning（TTRL）同樣是 TTT 領(lǐng)域的重要代表。它通過為每個問題生成多個候選回答，并采用多數(shù)投票機(jī)制來確定偽標(biāo)簽，從而為模型更新提供獎勵信號。這種基于投票的偽標(biāo)簽生成方法能夠在一定程度上減少錯誤標(biāo)簽對模型訓(xùn)練的影響，提高模型的魯棒性。然而，TTRL 的不足之處在于需要為每個問題生成大量的樣本（如 64 個），導(dǎo)致計算開銷巨大，難以在實(shí)際應(yīng)用中大規(guī)模推廣，尤其對于大規(guī)模語言模型和復(fù)雜的任務(wù)來說，其計算成本更是令人望而卻步。

分析對比

RLSC 與 RLHF、RLVR、TTT 等方法的對比如下表所示：

方法	原理	依賴資源	優(yōu)點(diǎn)	缺點(diǎn)
RLHF	基于人類標(biāo)注數(shù)據(jù)或偏好模型生成獎勵信號	大量人工標(biāo)注數(shù)據(jù)、偏好模型訓(xùn)練	能有效使模型行為與人類偏好一致	依賴人工標(biāo)注，成本高、靈活性差
RLVR	僅基于問題 - 答案對計算可驗證獎勵	問題的驗證標(biāo)準(zhǔn)、少量標(biāo)注問答對	無需大量標(biāo)注數(shù)據(jù)，降低成本	適用于有限場景，對問題答案可驗證性要求高
TTT（如 SPC、AZR）	利用對抗學(xué)習(xí)或自我博弈在推理階段優(yōu)化模型	可能需要外部工具（如代碼執(zhí)行器）提供反饋	擺脫對人工監(jiān)督的依賴，提升模型推理能力	部分方法依賴外部工具，增加系統(tǒng)復(fù)雜性
TTRL	通過多數(shù)投票生成偽標(biāo)簽進(jìn)行強(qiáng)化學(xué)習(xí)	大量樣本生成（如 64 個 / 問題）	無需人工監(jiān)督，提高模型魯棒性	計算開銷大，難以大規(guī)模應(yīng)用
RLSC	利用模型自身輸出分布的眾數(shù)銳化，最大化自我信心	無需標(biāo)注數(shù)據(jù)、偏好模型或大量樣本	高效、低成本，適用于資源受限環(huán)境	可能在某些需要多樣化輸出的任務(wù)中表現(xiàn)欠佳

上表對比可以看出，RLSC 在擺脫外部依賴、降低成本和提高效率方面具有顯著優(yōu)勢，為 LLM 的微調(diào)提供了一種全新的思路。它巧妙地利用模型自身的內(nèi)部信息，避免了復(fù)雜的數(shù)據(jù)標(biāo)注流程和大規(guī)模的樣本生成，使得強(qiáng)化學(xué)習(xí)微調(diào)更加簡潔、高效，易于在各種場景下實(shí)施。

總結(jié)認(rèn)知

RLSC 方法，其核心貢獻(xiàn)在于提出了一種無需依賴外部標(biāo)簽、偏好模型或手動設(shè)計獎勵信號的強(qiáng)化學(xué)習(xí)微調(diào)框架。通過巧妙地利用模型自身對輸出的信心作為內(nèi)在獎勵信號，RLSC 實(shí)現(xiàn)了在極少量訓(xùn)練數(shù)據(jù)和低計算成本下對模型性能的顯著提升，為 LLM 的優(yōu)化提供了一種高效、經(jīng)濟(jì)且實(shí)用的新途徑。

在多個權(quán)威基準(zhǔn)數(shù)據(jù)集上的實(shí)驗結(jié)果有力地證明了 RLSC 的有效性。它在數(shù)學(xué)推理等復(fù)雜任務(wù)中取得了性能提升，還展現(xiàn)出了強(qiáng)大的泛化能力和適應(yīng)性。尤其是在資源受限的環(huán)境中，RLSC 憑借其輕量級的訓(xùn)練設(shè)置和對計算資源的低需求，展現(xiàn)了巨大的應(yīng)用潛力，有望使更多研究者和開發(fā)者能夠輕松地對 LLM 進(jìn)行優(yōu)化和定制。

RLSC 的創(chuàng)新性

RLSC 的創(chuàng)新性則主要體現(xiàn)在以下幾個關(guān)鍵方面：

1. 自我信心驅(qū)動的優(yōu)化機(jī)制 ：首次將模型自身對輸出的信心轉(zhuǎn)化為強(qiáng)化學(xué)習(xí)的獎勵信號，開創(chuàng)性地實(shí)現(xiàn)了完全基于模型內(nèi)部信息的自我監(jiān)督學(xué)習(xí)模式。這一機(jī)制摒棄了傳統(tǒng)方法對外部監(jiān)督數(shù)據(jù)的依賴，從根本上降低了數(shù)據(jù)獲取和處理成本，簡化了微調(diào)流程。

2. 眾數(shù)銳化的理論突破 ：通過深入分析多數(shù)投票機(jī)制的本質(zhì)，首次從理論上揭示了其與模型輸出分布眾數(shù)銳化的內(nèi)在聯(lián)系，并將其轉(zhuǎn)化為可微分的優(yōu)化目標(biāo)。這種基于數(shù)學(xué)推導(dǎo)的創(chuàng)新方法為 RLSC 提供了堅實(shí)的理論基礎(chǔ)，還為未來類似方法的研究提供了新的思路和方向。

3. 高效的訓(xùn)練策略 ：設(shè)計了簡潔高效的訓(xùn)練策略，僅需少量樣本和訓(xùn)練步驟即可實(shí)現(xiàn)顯著性能提升。例如，在 Qwen2.5-Math-7B 模型上，僅使用 16 個樣本和 10 至 20 步訓(xùn)練，即可在多個基準(zhǔn)測試中取得超過 10% 至 20% 的準(zhǔn)確率提升。這種高效的訓(xùn)練方式極大地提高了微調(diào)的可行性和實(shí)用性，特別適用于計算資源有限的場景。

RLSC 的局限性

盡管 RLSC 具備諸多優(yōu)勢，但其也存在一些局限性。例如，在某些需要高度多樣化輸出的任務(wù)中，RLSC 可能會因為過度追求輸出一致性而導(dǎo)致模型生成結(jié)果的多樣性不足。此外，對于一些數(shù)據(jù)分布極為特殊或噪聲較大的任務(wù)，RLSC 的自我信心強(qiáng)化機(jī)制可能需要進(jìn)一步調(diào)整和優(yōu)化才能發(fā)揮最佳效果。

針對這些局限性，未來可以嘗試以下下幾個方面：

增強(qiáng)輸出多樣性 ：探索在 RLSC 框架中引入多樣性正則化項或采用多模態(tài)分布建模的方法，使模型在保持高置信度的同時，能夠生成更加豐富多樣的輸出結(jié)果，滿足不同任務(wù)對多樣性的需求。
適應(yīng)復(fù)雜數(shù)據(jù)分布 ：研究如何結(jié)合數(shù)據(jù)增強(qiáng)技術(shù)或自適應(yīng)學(xué)習(xí)策略，提升 RLSC 在面對復(fù)雜、噪聲數(shù)據(jù)時的魯棒性和適應(yīng)性。例如，通過在訓(xùn)練過程中動態(tài)調(diào)整平滑項 α 或采用數(shù)據(jù)驅(qū)動的采樣策略，使模型能夠更好地應(yīng)對不同類型的分布變化。
與其他方法的融合 ：進(jìn)一步探索 RLSC 與現(xiàn)有其他強(qiáng)化學(xué)習(xí)方法（如 RLHF、TTT 等）的融合方式，充分發(fā)揮各自的優(yōu)勢，實(shí)現(xiàn)更強(qiáng)大的模型優(yōu)化效果。例如，在 RLSC 的基礎(chǔ)上，結(jié)合少量人工標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)，或與其他測試時訓(xùn)練方法聯(lián)合使用，以進(jìn)一步提升模型性能。

綜上，RLSC 作為一種創(chuàng)新的強(qiáng)化學(xué)習(xí)微調(diào)方法，憑借其獨(dú)特的自我信心驅(qū)動機(jī)制和高效的訓(xùn)練策略，在 LLM 的優(yōu)化領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力。傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法往往讓人聯(lián)想到復(fù)雜的標(biāo)注流程、龐大的計算資源需求以及繁瑣的外部模型依賴。RLSC 通過利用模型對輸出的信心，RLSC 讓模型在自我反思和自我強(qiáng)化中實(shí)現(xiàn)成長，這種內(nèi)在驅(qū)動的優(yōu)化方式既優(yōu)雅，又具有創(chuàng)新性。

RLSC 給我的感覺有點(diǎn)像再次強(qiáng)化特定任務(wù)目標(biāo)的概率分布，它應(yīng)該是進(jìn)一步放大了特定任務(wù)的先驗概率，使模型的輸出更穩(wěn)健。甚至，這個方法還激發(fā)了我對 inference-time 時 Agent 采樣的思考，通過 Repeat 采樣，其實(shí)也可以實(shí)現(xiàn)類似的效果，當(dāng)然這會消耗 inference-time 的算力。在這里要特別注意的是所強(qiáng)化的任務(wù)類型。我的理解，具有強(qiáng)泛化、弱標(biāo)準(zhǔn)類的任務(wù)（比如創(chuàng)作），RLSC 方法就未必適用；如果過度使用，反而可能會降低模型的泛化能力，發(fā)生在此類任務(wù)上的過擬合現(xiàn)象，而導(dǎo)致模型性能下降。而如果任務(wù)具有確定解或者具有強(qiáng)標(biāo)準(zhǔn)的結(jié)果（比如數(shù)學(xué)或 SOP 等），則應(yīng)該很適合用 RLSC 方法進(jìn)行強(qiáng)化。所以，RLSC 這類方法，用對任務(wù)場景很重要，且從 RFT 的 ROI 角度來看，它很高效。

責(zé)任編輯：龐桂玉來源：覺察流

RLSC 強(qiáng)化學(xué)習(xí)微調(diào)LLM