EMNLP2025 | SFT與RL的結合,vivo AI Lab提出新的后訓練方法
本文的第一作者曾敏來自 vivo AI Lab,主要研究方向為大語言模型、強化學習、agent。
監督微調(SFT)和強化學習(RL)微調是大模型后訓練常見的兩種手段。通過強化學習微調大模型在眾多 NLP 場景都取得了較好的進展,但是在文本分類場景,強化學習未取得較大的進展,其表現往往不如監督學習。
SFT 和 RL 在訓練的過程中都存在各自的特點:SFT 直接對著答案「死記硬背」,簡單且有效,收斂速度快,但是泛化能力不行。而 RL 通過探索來獲得答案,泛化能力強。但強化學習只會一味地探索,而不學習答案,學習速度緩慢,可能出現長期無法得到收斂甚至最后出現訓練不穩定的現象。
為了解決這些難題,最近,vivo AI Lab 算法團隊提出了一種新的大模型后訓練框架 GTA,該方法可以綜合發揮出 SFT 的優點和 RL 的優點,成功解決了文本分類場景中 RL 收斂速度慢的問題。該論文已被 AI 頂級學術會議之一的 EMNLP 2025 錄用。

- 論文標題:GTA: Supervised-Guided Reinforcement Learning for Text Classification with Large Language Models
- 論文地址:https://arxiv.org/abs/2509.12108
- 作者郵箱:zengmin325@163.com / zengmin.ai@vivo.com
方法:把 SFT 和 RL 拼接成效率更高的后訓練范式
論文提出了 Guess–Think–Answer(GTA)框架,將監督信號與強化學習整合到單階段訓練流程,以同時獲得 SFT 的高效收斂與 RL 的性能上限。核心設計思路是把分類模型的輸出分成三個階段,并且把監督損失與強化學習的獎勵機制結合起來訓練這些階段的不同部分。輸出的三個階段如下:

- Guess
模型首先給出一個初始猜測,這一步用傳統的交叉熵損失(cross-entropy loss)來計算初始猜測和標簽的損失。這部分是基于監督學習,以快速給模型一個容易收斂的信號。
- Think
在完成初始的猜測之后,模型接下來開始思考輸入的問題與猜測的答案之間的關聯,并且對答案進行進一步的分析。考慮猜測是正確的或者不是正確的,分析輸入中的線索或特征等。這部分是為了讓模型能夠「反省」(reflect)猜測,從而在后面生成更好或修正的最終答案。
- Answer
模型最終生成的答案,結合前兩個階段的信息生成。這個答案(以及整個 GTA 框架的格式結構)會由強化學習的獎勵來引導優化。也就是說,不只是最終分類任務的正確性,還有中間思考階段對最終答案的輔助或整體的結構格式也可能受到 RL 獎勵值的影響。
最終總的損失是監督損失和強化學習損失 / 目標函數的共同作用。在猜測答案的引導下,強化學習探索答案的效率和收斂速度得到了進一步提升,從而提高性能的上限。

處理梯度沖突
為了防止不同優化目標可能帶來的梯度沖突現象,該過程使用了特定位置的 loss mask 和梯度沖突檢測。
loss mask:在計算 guess 部分交叉熵損失的時候,對于 guess 部分以外的內容進行 mask,而計算 RL 損失的時候,對 guess 部分的內容進行 mask,通過這種方式使得監督信號和 RL 優化目標之間不會相互干擾。

梯度沖突檢測:作者參考現有的研究,通過反向傳播時的梯度的余弦相似度來檢測監督信號和 RL 信號的梯度是否發生沖突,這樣可以更穩定地融合兩種訓練信號。
實驗結果
作者在多臺多機多卡的 L40s 上基于 qwen2.5(3B)、qwen3(3B)、Llama(3B)等三個尺寸相對較小的模型上進行了分布式訓練。選擇了四個常見的文本分類數據集,分別是 SST-5、Amazon、Emotion、BBC News 數據集,每個數據集都包含了多個類別,它們覆蓋的領域主要包括情感分析、商品評價、情緒 / 情感類別識別,以及新聞 / 話題分類等。
如圖所示,作者在實驗過程中與 GRPO、SFT 進行了對比,從實驗結果可以發現 GRPO 在分類任務上的效果并不理想,而 GTA 在分類任務展示了比 SFT 和 GRPO 更好的性能。

作者跟蹤訓練過程中的獎勵值變化曲線和在測試集任務上的準確性評估曲線,來觀察訓練過程中的收斂速度。從圖中可以發現,訓練到 500–1000 step 即超過 GRPO(step 的計算包含了重要性采樣數據重復利用的次數),即使將訓練時長繼續延長至 10000 step,GRPO 仍未追上 GTA。這表明 GTA 在 guess 部分的監督信號的引導下,收斂速度遠高于 GRPO。
image.png
此外,作者也驗證了在分類任務上,帶思考過程和不帶思考過程的準確率。如圖所示,作者在這些數據集上進行了測試,帶有思考過程的推理可以獲得更高的準確率。相比 SFT,作者提出的 GTA 方法,無需額外的人工標注推理過程,即可在訓練過程中自發地引入思考。

作者在推理的時候發現兩個現象:盡管猜測答案可以加快 RL 的收斂速度,但是模型不會盲目選擇猜測的答案作為最終答案。從圖中 case A 可以看到,模型首先輸出了一個錯誤的猜測,然后在思考過程中基于猜測的答案和已有的答案進行分析和判斷,最終成功地得出了正確答案。而從 case B 中可以看到,當生成了一個標簽列表以外的猜測答案時,模型在思考過程中會糾正這個問題,并得出最終的正確答案。

后續計劃
本文僅在文本分類任務上進行了驗證,從原理上來分析,該方法不僅適用于文本分類任務,還有可能適用于更多的 NLP 場景,作者計劃未來探索更多的場景。此外,結合監督微調和強化學習微調可能帶來更大的顯存開銷,作者在本文主要選擇小模型上進行實驗,未來將會探索更大的模型。
未來展望
SFT 和 RL 的結合正在受到更多的關注,近期的討論都集中在如何把兩種范式的優勢合并,以獲得更好的性能(如通義 CHORD 和上海人工智能實驗室的 LUFFY)。GTA 是在后訓練方向上的一種新的實踐。SFT 和 RL 的結合有望成為未來一種新的后訓練范式。




































