精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

EMNLP2025 | SFT與RL的結合,vivo AI Lab提出新的后訓練方法

人工智能 新聞
本文僅在文本分類任務上進行了驗證,從原理上來分析,該方法不僅適用于文本分類任務,還有可能適用于更多的 NLP 場景。

本文的第一作者曾敏來自 vivo AI Lab,主要研究方向為大語言模型、強化學習、agent。

監督微調(SFT)和強化學習(RL)微調是大模型后訓練常見的兩種手段。通過強化學習微調大模型在眾多 NLP 場景都取得了較好的進展,但是在文本分類場景,強化學習未取得較大的進展,其表現往往不如監督學習。

SFT 和 RL 在訓練的過程中都存在各自的特點:SFT 直接對著答案「死記硬背」,簡單且有效,收斂速度快,但是泛化能力不行。而 RL 通過探索來獲得答案,泛化能力強。但強化學習只會一味地探索,而不學習答案,學習速度緩慢,可能出現長期無法得到收斂甚至最后出現訓練不穩定的現象。

為了解決這些難題,最近,vivo AI Lab 算法團隊提出了一種新的大模型后訓練框架 GTA,該方法可以綜合發揮出 SFT 的優點和 RL 的優點,成功解決了文本分類場景中 RL 收斂速度慢的問題。該論文已被 AI 頂級學術會議之一的 EMNLP 2025 錄用。

1195538705.jpg

  • 論文標題:GTA: Supervised-Guided Reinforcement Learning for Text Classification with Large Language Models
  • 論文地址:https://arxiv.org/abs/2509.12108
  • 作者郵箱:zengmin325@163.com / zengmin.ai@vivo.com

方法:把 SFT 和 RL 拼接成效率更高的后訓練范式

論文提出了 Guess–Think–Answer(GTA)框架,將監督信號與強化學習整合到單階段訓練流程,以同時獲得 SFT 的高效收斂與 RL 的性能上限。核心設計思路是把分類模型的輸出分成三個階段,并且把監督損失與強化學習的獎勵機制結合起來訓練這些階段的不同部分。輸出的三個階段如下:


  • Guess

模型首先給出一個初始猜測,這一步用傳統的交叉熵損失(cross-entropy loss)來計算初始猜測和標簽的損失。這部分是基于監督學習,以快速給模型一個容易收斂的信號。

  • Think

在完成初始的猜測之后,模型接下來開始思考輸入的問題與猜測的答案之間的關聯,并且對答案進行進一步的分析。考慮猜測是正確的或者不是正確的,分析輸入中的線索或特征等。這部分是為了讓模型能夠「反省」(reflect)猜測,從而在后面生成更好或修正的最終答案。

  • Answer

模型最終生成的答案,結合前兩個階段的信息生成。這個答案(以及整個 GTA 框架的格式結構)會由強化學習的獎勵來引導優化。也就是說,不只是最終分類任務的正確性,還有中間思考階段對最終答案的輔助或整體的結構格式也可能受到 RL 獎勵值的影響。

最終總的損失是監督損失和強化學習損失 / 目標函數的共同作用。在猜測答案的引導下,強化學習探索答案的效率和收斂速度得到了進一步提升,從而提高性能的上限。

-352289542.jpg

處理梯度沖突

為了防止不同優化目標可能帶來的梯度沖突現象,該過程使用了特定位置的 loss mask 和梯度沖突檢測。

loss mask:在計算 guess 部分交叉熵損失的時候,對于 guess 部分以外的內容進行 mask,而計算 RL 損失的時候,對 guess 部分的內容進行 mask,通過這種方式使得監督信號和 RL 優化目標之間不會相互干擾。

-353455824.jpg

梯度沖突檢測:作者參考現有的研究,通過反向傳播時的梯度的余弦相似度來檢測監督信號和 RL 信號的梯度是否發生沖突,這樣可以更穩定地融合兩種訓練信號。

實驗結果

作者在多臺多機多卡的 L40s 上基于 qwen2.5(3B)、qwen3(3B)、Llama(3B)等三個尺寸相對較小的模型上進行了分布式訓練。選擇了四個常見的文本分類數據集,分別是 SST-5、Amazon、Emotion、BBC News 數據集,每個數據集都包含了多個類別,它們覆蓋的領域主要包括情感分析、商品評價、情緒 / 情感類別識別,以及新聞 / 話題分類等。

如圖所示,作者在實驗過程中與 GRPO、SFT 進行了對比,從實驗結果可以發現 GRPO 在分類任務上的效果并不理想,而 GTA 在分類任務展示了比 SFT 和 GRPO 更好的性能。

image.png

作者跟蹤訓練過程中的獎勵值變化曲線和在測試集任務上的準確性評估曲線,來觀察訓練過程中的收斂速度。從圖中可以發現,訓練到 500–1000 step 即超過 GRPO(step 的計算包含了重要性采樣數據重復利用的次數),即使將訓練時長繼續延長至 10000 step,GRPO 仍未追上 GTA。這表明 GTA 在 guess 部分的監督信號的引導下,收斂速度遠高于 GRPO。

image.pngimage.png

此外,作者也驗證了在分類任務上,帶思考過程和不帶思考過程的準確率。如圖所示,作者在這些數據集上進行了測試,帶有思考過程的推理可以獲得更高的準確率。相比 SFT,作者提出的 GTA 方法,無需額外的人工標注推理過程,即可在訓練過程中自發地引入思考。

作者在推理的時候發現兩個現象:盡管猜測答案可以加快 RL 的收斂速度,但是模型不會盲目選擇猜測的答案作為最終答案。從圖中 case A 可以看到,模型首先輸出了一個錯誤的猜測,然后在思考過程中基于猜測的答案和已有的答案進行分析和判斷,最終成功地得出了正確答案。而從 case B 中可以看到,當生成了一個標簽列表以外的猜測答案時,模型在思考過程中會糾正這個問題,并得出最終的正確答案。

image.png

后續計劃

本文僅在文本分類任務上進行了驗證,從原理上來分析,該方法不僅適用于文本分類任務,還有可能適用于更多的 NLP 場景,作者計劃未來探索更多的場景。此外,結合監督微調和強化學習微調可能帶來更大的顯存開銷,作者在本文主要選擇小模型上進行實驗,未來將會探索更大的模型。

未來展望

SFT 和 RL 的結合正在受到更多的關注,近期的討論都集中在如何把兩種范式的優勢合并,以獲得更好的性能(如通義 CHORD 和上海人工智能實驗室的 LUFFY)。GTA 是在后訓練方向上的一種新的實踐。SFT 和 RL 的結合有望成為未來一種新的后訓練范式。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-10-10 02:15:00

2025-07-28 09:12:00

2025-06-06 04:10:00

LLM人工標注RL

2025-09-16 10:09:00

2025-08-04 08:49:00

2025-10-17 09:56:05

2025-07-03 14:58:16

模型開源AI

2022-02-28 10:31:22

人工智能視覺檢測

2025-11-17 08:38:00

AI技術論文

2025-09-04 11:58:42

2025-07-22 08:50:00

AI模型框架

2025-04-15 09:22:00

AI訓練模型

2025-04-10 09:38:37

2025-06-16 14:40:40

模型AI訓練

2025-09-10 09:10:00

2025-10-27 09:11:00

2025-03-12 12:10:13

2025-11-14 08:42:00

2024-12-16 07:20:00

點贊
收藏

51CTO技術棧公眾號

久久中文字幕在线| 好吊成人免视频| 91美女片黄在线观看游戏| 亚洲国产精品免费在线观看| 亚洲图色一区二区三区| 精品久久久久久久久久久| 日本一区二区精品| 99久久精品国产成人一区二区| 狠狠干成人综合网| 亚洲三级免费看| 免费欧美一级片| 国产精品专区免费| 亚洲欧美二区三区| 精品亚洲一区二区三区四区五区高| 正在播放木下凛凛xv99| 你懂的网址国产 欧美| 精品亚洲永久免费精品| av亚洲天堂网| 色一区二区三区| 日韩美女精品在线| 日韩欧美激情一区二区| 亚洲国产精品一| 免费成人美女在线观看.| 国语自产在线不卡| 天天看天天摸天天操| 精品影片在线观看的网站| 日韩亚洲欧美综合| 在线观看免费成人av| 激情图片在线观看高清国产| 亚洲国产精品成人综合| 久久精品欧美| 亚洲a视频在线| 激情亚洲综合在线| 国产精品久久一区| 九九热在线免费观看| 国产主播一区| 欧美成人亚洲成人日韩成人| 欧美成人短视频| 国产免费播放一区二区| 亚洲第一中文字幕在线观看| 久久精品一二三四| 欧美aaaaaaaa| 欧美自拍偷拍午夜视频| 农村妇女精品一二区| 国模私拍一区二区国模曼安| 一区二区三区中文字幕精品精品 | 欧美日韩成人精品| 久久久久人妻一区精品色| 国产一区二区精品久| 日韩高清欧美高清| 黄色免费视频网站| 久久午夜影院| 亚洲激情国产精品| 99热超碰在线| 老汉色老汉首页av亚洲| 亚洲成人av在线| 最新国产精品自拍| 爱高潮www亚洲精品| 欧美成人三级在线| www.黄色网| 精品福利一区| 日韩精品欧美国产精品忘忧草| 超碰caoprom| 欧美久久精品| 亚洲人成电影网站色xx| 亚洲理论片在线观看| 俺要去色综合狠狠| 自拍偷拍免费精品| 中文字幕在线观看2018| 中文字幕乱码亚洲无线精品一区 | 性欧美gay| 色久综合一二码| 国产一二三四在线视频| 久久69成人| 欧美一级片免费看| 在线播放第一页| 同性恋视频一区| 一区二区三区四区在线观看视频| 貂蝉被到爽流白浆在线观看| 国产精品99久久| 欧美激情18p| 中文字幕av影院| 另类综合日韩欧美亚洲| 日韩av片永久免费网站| 91在线公开视频| 国产黄色精品视频| 久久精品人成| 看女生喷水的网站在线观看| 亚洲第一福利一区| 国产a级片免费观看| 高清一区二区中文字幕| 日韩av一区在线观看| 日韩视频在线观看免费视频| 一本到12不卡视频在线dvd| 国模叶桐国产精品一区| 蜜臀99久久精品久久久久小说| 久久精品国内一区二区三区| 国产乱码精品一区二区三区日韩精品 | 国产在线一区二区三区四区| 激情综合闲人网| 亚洲激情五月婷婷| 粉嫩虎白女毛片人体| 亚洲成人黄色| 国产一区二区免费| 国产真实乱偷精品视频| 日本麻豆一区二区三区视频| 国产精品国产一区二区| 天天在线视频色| 富二代精品短视频| 亚洲av无码成人精品区| 国产探花在线精品一区二区| 欧美乱人伦中文字幕在线| 欧美男人亚洲天堂| 丁香激情综合五月| 亚洲永久激情精品| 在线看片国产福利你懂的| 91麻豆精品国产91久久久久久久久 | 成人精品电影在线观看| 亚洲精品日韩成人| 中文一区一区三区高中清不卡免费 | jizzjizzxxxx| 最新国产一区二区| 久久色精品视频| 精品国产午夜福利| 成人白浆超碰人人人人| aaa免费在线观看| 亚洲成人短视频| 亚洲精品国偷自产在线99热| 青青草精品在线视频| 久久精品免费观看| 日日噜噜噜噜夜夜爽亚洲精品| 韩日毛片在线观看| 精品久久久久久久久久久久包黑料 | 色婷婷综合视频在线观看| 亚洲熟女一区二区三区| 亚洲色图网站| 91欧美激情另类亚洲| 午夜在线播放| 欧美三级欧美一级| 精品人妻中文无码av在线| 男人天堂欧美日韩| 蜜桃999成人看片在线观看| 24小时免费看片在线观看| 日韩视频永久免费| 老妇女50岁三级| 国产精品亚洲第一区在线暖暖韩国 | 91pony九色| 天天天综合网| 91日韩在线视频| caopo在线| 日韩精品一区二区三区中文精品| 国语对白在线播放| 国产成人综合精品三级| av动漫在线免费观看| 亚洲国产aⅴ精品一区二区| 久久久av电影| 国产强被迫伦姧在线观看无码| 国产精品色一区二区三区| 久久九九国产视频| 成人精品视频| 奇米成人av国产一区二区三区| 免费看av毛片| 亚洲激情一二三区| 国产激情第一页| 久久国产欧美| 亚洲精品在线免费看| 涩涩涩久久久成人精品| 欧美成年人网站| 黄色成人一级片| 欧美性xxxxxxx| 亚洲色图 激情小说| 国产在线国偷精品产拍免费yy| 福利网在线观看| 国产伦精品一区二区三区免费优势| 久久久久久伊人| 神马精品久久| 欧美亚洲免费在线一区| 免费中文字幕日韩| 成a人片亚洲日本久久| 干日本少妇首页| 日韩精品一卡| 成人情视频高清免费观看电影| av资源在线播放| 这里只有精品久久| 99国产精品一区二区三区| 亚洲国产精品嫩草影院| 久久精品国产亚洲av久| 久久机这里只有精品| bt天堂新版中文在线地址| 色婷婷狠狠五月综合天色拍 | 久久久久女人精品毛片九一| 中文乱码免费一区二区| 岛国大片在线免费观看| 亚洲欧美高清| 水蜜桃在线免费观看| 亚洲一区二区三区四区电影| 国产精品爱啪在线线免费观看| 99久久精品免费观看国产| 日韩精品视频免费| 国产又粗又猛又黄又爽| 精品久久久中文| 国产精品成人69xxx免费视频| av午夜一区麻豆| 九九热免费在线观看| 亚洲一区二区毛片| 国产高潮呻吟久久久| 台湾亚洲精品一区二区tv| 91青草视频久久| 欧美黑人疯狂性受xxxxx野外| 欧美巨乳美女视频| 国产一二在线观看| 亚洲成av人影院在线观看| www.亚洲激情| 欧美日韩亚洲视频一区| 成年人av电影| 国产精品家庭影院| 欧美做受xxxxxⅹ性视频| 国产成人午夜精品5599| 国产三级生活片| 久久中文字幕一区二区三区| 无码av天堂一区二区三区| 一区二区三区午夜探花| 亚洲精品成人自拍| 亚洲三级性片| 国产偷国产偷亚洲高清97cao| 成人51免费| 国产精品自拍视频| 欧美aa视频| 欧美一区深夜视频| 白浆视频在线观看| 久久久久久国产精品久久| 韩国中文字幕在线| 色老头一区二区三区在线观看| 全部免费毛片在线播放网站| 亚洲国产美女精品久久久久∴| 国产富婆一级全黄大片| 91精品国产91久久综合桃花 | 亚洲乱码一区二区三区| 欧美精美视频| 欧洲精品久久| 精品72久久久久中文字幕| 蜜桃精品久久久久久久免费影院 | 国产精品夜夜嗨| 国内av一区二区| 国精品**一区二区三区在线蜜桃| 午夜免费看视频| 捆绑调教美女网站视频一区| 亚洲一级免费观看| 久久精品国产久精国产| 最新天堂在线视频| 久久成人18免费观看| 亚洲免费av一区| 国内成人免费视频| 制服.丝袜.亚洲.中文.综合懂| 国产精品18久久久久久vr| 久久黄色一级视频| 成人激情黄色小说| 无码成人精品区在线观看| caoporn国产精品| 少妇真人直播免费视频| 欧美国产欧美亚州国产日韩mv天天看完整 | 99热这里只有精品在线观看| 日韩欧美在线观看一区二区三区| 国产特级黄色片| 精品国精品国产尤物美女| 少妇精品高潮欲妇又嫩中文字幕| 日韩av综合网| 番号集在线观看| 久久久97精品| 91超碰在线免费| 欧美亚洲激情在线| jizz久久久久久| 亚洲在线观看视频网站| 97久久综合精品久久久综合| 精品一区二区三区视频日产| 国产中文精品久高清在线不| 一区二区在线观看网站| 欧美黄色一级视频| 5月婷婷6月丁香| 日本强好片久久久久久aaa| 激情黄色小视频| 成人av免费网站| 手机看片福利视频| 亚洲精品国产a| 四虎成人永久免费视频| 欧美日韩在线一区二区| 亚洲AV无码成人片在线观看 | 国产欧美黑人| 欧美在线国产精品| 色综合一区二区日本韩国亚洲 | 欧美日韩亚洲精品一区二区三区| 少妇又紧又色又爽又刺激视频| 日韩欧美色综合| 国产一级在线| 国内精品一区二区三区| 91成人在线| 国产一区国产精品| 99久久www免费| 日韩激情免费视频| 国产精品小仙女| 久久美女免费视频| 亚洲成人精品一区二区| 在线免费观看一区二区| 亚洲精品av在线播放| www在线视频| 国产精品久久久久久网站| 国产精品调教视频| 在线视频不卡国产| 狂野欧美一区| 污污内射在线观看一区二区少妇| 国产精品污www在线观看| 日韩熟女精品一区二区三区| 91精品在线麻豆| аⅴ资源新版在线天堂| 97在线精品视频| 88久久精品| 国产又黄又爽免费视频| 日本人妖一区二区| 美女100%无挡| 天天色综合天天| 亚洲狼人综合网| 久久天天躁狠狠躁夜夜躁| 91av一区| 日韩片电影在线免费观看| 国产欧美三级| 性农村xxxxx小树林| 亚洲视频香蕉人妖| 怡红院成永久免费人全部视频| 日韩精品中文字幕有码专区| 24小时免费看片在线观看 | 日韩在线影视| 午夜免费福利小电影| 国产成人av一区二区三区在线观看| 国产成人免费在线观看视频| 欧美在线免费观看视频| 久久经典视频| 欧美一区二区三区……| 亚洲另类春色校园小说| 成年人午夜免费视频| 成人小视频在线观看| 欧美精品xxxxx| 精品久久久久久亚洲综合网| 欧美1—12sexvideos| 高清国产一区| 激情久久五月| 精品一区二区三区四区五区六区| 亚洲大片在线观看| 狠狠躁夜夜躁av无码中文幕| 色综合91久久精品中文字幕| 91精品导航| 欧美图片激情小说| 成人动漫一区二区三区| 国产一级理论片| 亚洲精品ady| 少妇淫片在线影院| 欧美在线视频二区| 蜜桃av噜噜一区| 国产精品 欧美激情| 欧美电影精品一区二区| 不卡av免费观看| 久久亚洲精品欧美| 石原莉奈在线亚洲二区| jizzjizzjizz国产| 91精品国产综合久久小美女| 伊人精品影院| 国产欧美日韩亚洲| 亚洲欧美日韩国产| 美国一级黄色录像| 91精品国产欧美一区二区18| 美女网站视频在线| 久久精品综合一区| 青椒成人免费视频| 欧美色图亚洲天堂| 亚洲精品乱码久久久久久金桔影视 | 欧美自拍偷拍第一页| 45www国产精品网站| 欧美中文一区二区| 日批视频免费看| 91福利小视频| 中文字幕中文字幕在线中高清免费版| 成人区精品一区二区| 久久国产精品久久w女人spa| 香蕉久久久久久久| 精品日本一线二线三线不卡| 澳门成人av网| 中文字幕中文字幕一区三区| 成人午夜看片网址| 亚洲av人无码激艳猛片服务器| 精品久久久av| 美女视频免费精品| 五月天婷婷亚洲| 午夜婷婷国产麻豆精品| 91大神xh98hx在线播放| 成人羞羞视频免费| 青娱乐精品在线视频| 国产精品19乱码一区二区三区| 在线亚洲午夜片av大片| 丁香婷婷成人| www.51色.com| 91福利国产精品|