精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

SFT在幫倒忙?新研究:直接進行強化學習,模型多模態(tài)推理上限更高

人工智能 新聞
「盡管經過 SFT 的模型可能看起來在進行推理,但它們的行為更接近于模式模仿 —— 一種缺乏泛化推理能力的偽推理形式。」

隨著 OpenAI 的 o1/o3 和 Deepseek-R1 等具備強大推理能力的大語言模型相繼問世,學界普遍采用「監(jiān)督微調 + 強化學習」的兩階段訓練范式:先通過推理數據進行監(jiān)督微調(SFT),再通過強化學習(RL)進一步提升性能。這種成功模式啟發(fā)了研究人員將其優(yōu)勢從純文本領域拓展到視覺 - 語言大模型(LVLM)領域。

但近日的一項研究成果卻給出了一個驚人的發(fā)現:「SFT 可能會阻礙學習 —— 經常導致出現偽推理路徑,而 RL 則是在促進真正的多模態(tài)推理!」

圖片

這個發(fā)現來自加州大學圣克魯茲分校和德克薩斯大學達拉斯分校等機構的一個研究團隊,他們深入探討了「SFT+RL」這一經典范式在視覺語言模型開發(fā)中的適用性,其中重點關注了兩個核心問題:1)SFT 與 RL 在多模態(tài)推理中分別產生何種獨特作用?2)這種兩階段訓練對 LVLM 的推理能力是否確有必要?

圖片

  • 論文標題: SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models 
  • 論文地址:https://arxiv.org/pdf/2504.11468
  • 項目頁面:https://ucsc-vlaa.github.io/VLAA-Thinking/

為系統(tǒng)性地研究這些問題,研究者構建了首個支持 SFT 與 RL 的全方位高質量圖文推理數據集 VLAA-Thinking。下表給出了該數據集的統(tǒng)計數據。

圖片

與現有數據集不同,該數據集包含基于 R1 模型「先思考后回答」范式生成的完整推理鏈條,其中 SFT 分支包含適合視覺指令調優(yōu)的多模態(tài)思維鏈(CoT)樣本,強化學習分支則從同源數據中篩選更具挑戰(zhàn)性的樣本以激發(fā)深度推理行為。

為有效遷移純文本模型的推理能力,研究者設計了六階段數據處理流程:元數據收集→圖像描述生成→基于 R1 的知識蒸餾→答案重寫→人工驗證→數據劃分。

具體而言,他們將圖像描述和視覺問題輸入 DeepSeek-R1 生成初始推理軌跡,經改寫優(yōu)化流暢度后,再由 GPT 驗證器進行質量把關,最終形成高質量的 SFT 與 RL 訓練數據。

意料之外的發(fā)現

基于 VLAA-Thinking 數據集,研究者系統(tǒng)分析了 SFT 與 RL 在多模態(tài)推理中的作用機制。為探究 SFT 的影響,他們詳細考察了數據類型(如是否包含反思性頓悟時刻,即 aha moment)、數據規(guī)模和模型能力等因素。

針對視覺語境下的 RL 優(yōu)化,他們在 GRPO 框架中創(chuàng)新性地設計了融合感知與認知獎勵的混合獎勵函數,包含 2 大類 5 種子函數:規(guī)則類問題采用數字識別、多項選擇題、數學運算和邊界框檢測函數,開放類問題則采用稱職的獎勵模型 XComposer-2.5-RM,以及基于參考的獎勵方法來對答案進行評分。

研究者對 SFT 和 RL 進行了廣泛的實驗比較,發(fā)現了幾個值得注意的問題:

首先,他們探究了 SFT 和 RL 在多模態(tài)推理中的貢獻:與基礎模型相比,SFT 提高了模型在標準任務中的性能,但在增強復雜推理方面能力卻有所欠缺。如圖 1 所示,僅僅通過 SFT 來模仿專家的思維往往會誘發(fā)「偽推理路徑」,這是一種膚淺的推理模式,其中可能包含「偽 aha moment」(膚淺的自我反思線索)。

圖片

這項研究表明,這些模仿的推理模式會阻礙真正的推理進步,即在 7B 模型上相對性能下降 47%。這一觀察結果也與最近的研究結果一致,即需要反饋和探索信號來驅動高級推理行為。此外,消融分析表明,對于基于規(guī)則的獎勵,數學和多選題比其他獎勵更有益,而基于規(guī)則和開放式獎勵的結合則能得到最佳性能。

圖片

現有研究認為 LVLM 應先通過 SFT 學習推理格式,再通過 RL 反饋進行優(yōu)化,但研究者發(fā)現:如果對已對齊的模型使用 SFT+GRPO,會導致平均 12.7% 的性能下降,且模型規(guī)模差異影響甚微 ——7B 模型與更小模型呈現相似的性能衰減。

圖片

訓練過程分析表明,響應長度、獎勵分數與性能表現無顯著相關性:經 SFT 的模型雖能獲得更高初始獎勵和更長響應,但實際表現遜于純 RL 訓練模型,這與「更優(yōu)模型通常產生更長響應」的既有結論相悖。

研究表明:SFT 雖可幫助未對齊模型遵循指令,但其倡導的模仿式推理會限制 RL 階段的探索空間;相比之下,直接從獎勵信號學習能產生更有效的適應性思維。實證研究表明純 RL 方案更具優(yōu)勢 —— 該團隊訓練得到的 VLAA-Thinker-Qwen2.5VL-3B 模型在 Open LMM 推理榜單 4B 量級模型中位列第一,以 1.8% 優(yōu)勢刷新紀錄。案例分析表明,該模型生成的推理軌跡更簡潔有效。

使用混合獎勵提升多模態(tài)推理

上面的結果表明 SFT 不足以將 R1 的能力遷移到 LVLM。于是,研究者提出了自己的方案。

由于強化學習在增強推理能力方面表現出色,且 GRPO 在文本數學推理任務中被證明比其他方法(如 PPO)更有效、更高效,這促使他們將 GRPO 訓練應用于視覺語言推理任務。

數學上,設 q 為一個查詢,圖片為從舊策略模型 π_old 中采樣的 G 個輸出,GRPO 最大化以下目標:


圖片

其中,圖片是估計的優(yōu)勢,β 是 KL 懲罰系數,π_θ、π_θ_old、π_ref 分別是當前、舊的和參考的策略。

帶有混合獎勵的 GRPO

為了更好地將 GRPO 應用于多模態(tài)推理,除了采用類似文本 GRPO 訓練中的基于規(guī)則的獎勵機制外,還需要考慮視覺模態(tài)引入的額外特征。受多模態(tài)大型語言模型綜合評價基準 MME 的啟發(fā)(MME 通過感知和認知(推理)來對視覺語言模型進行基準測試),研究者提出了一個用于 GRPO 訓練的混合獎勵框架,如圖 4 所示。該獎勵系統(tǒng)包含五種可驗證的獎勵類型,采用兩種格式,涵蓋了視覺感知和視覺推理任務。

圖片

SFT 對 GRPO 訓練的影響

SFT 與多模態(tài)推理中的 GRPO 不兼容。 盡管論文中揭示了單獨使用 SFT 會導致多模態(tài)推理性能下降,但目前仍不清楚 SFT 是否像 DeepSeekR1 中的「金鑰匙」一樣對 GRPO 訓練起到關鍵作用。研究者使用不同的模型架構進行 GRPO 訓練實驗。具體來說,他們采用了 Qwen2VL-7B-Base 和 Qwen2VL-7B-Inst,并在它們上使用 25K 樣本進行 SFT,隨后進行 GRPO 訓練。

從表 3 中可以觀察到,在 GRPO 訓練之前進行 SFT 的模型,其性能比僅使用 GRPO 訓練的模型更差,平均而言,Qwen2VL-Base 和 Qwen2VL-Inst 在經過 SFT 后比未經過 SFT 的模型性能下降了 8.9%。研究者還發(fā)現,SFT 對指令模型的性能損害比對沒有指令跟隨能力的基礎模型更大。例如,經過 SFT 后,Qwen2VL-Inst 的性能比 Qwen2VL-Base 下降了 7.7%,這表明 SFT 可能會削弱對有效 GRPO 訓練至關重要的指令跟隨能力。

綜合這些結果,可以得出結論:在多模態(tài)推理的背景下,SFT 目前與 GRPO 不兼容,會損害基礎模型和經過指令調優(yōu)的 LVLM 的性能。

圖片

此外,研究者還發(fā)現,較小的 SFT 數據集仍然會影響 GRPO 的性能,如圖 5 所示。

圖片

回應長度、獎勵與模型性能并非必然相關。先前的強化學習研究通常認為,更長的回應往往與更好的推理能力以及更高的 RL 獎勵相關。然而,圖 6 中的發(fā)現表明,在 GRPO 中,回應長度和獎勵并不是推理能力的可靠指標。

圖片

有趣的是,經過 SFT 的模型在訓練初期的獎勵更高。這可能是由于它們在早期通過監(jiān)督學習獲得了經驗,因為 SFT 和 GRPO 數據共享相同的分布。然而,這些經過 SFT 的模型在訓練過程中獎勵提升有限,而僅使用 GRPO 的模型則迅速超過了它們。

這些趨勢進一步揭示,SFT 僅提供了 RL 訓練的一個更高的「下限」,但它可能會降低「上限」,因為推理相關的 SFT 數據限制了模型的探索路徑。因此,推理是一種內生的、更可能通過強化學習而非 SFT 發(fā)展起來的能力。盡管經過 SFT 的模型可能看起來在進行推理,但它們的行為更接近于模式模仿 —— 一種缺乏泛化推理能力的偽推理形式。

無 SFT 的 GRPO 訓練

根據前一節(jié)的發(fā)現,研究者直接進行了 GRPO 訓練,生成了四個模型:VLAA-Thinker-Qwen2-VL-2B、VLAA-Thinker-Qwen2-VL-7B、VLAA-Thinker-Qwen2.5-VL-3B 和 VLAA-Thinker-Qwen2.5-VL-7B。他們還在 Qwen2-VL-7B 的基礎模型上進行了訓練,得到的模型命名為 VLAA-Thinker-Qwen2-7B-Zero。

表 4 中展示了評估結果:

圖片

主要發(fā)現如下:

  • 直接使用 GRPO 訓練的模型在視覺語言推理任務中顯著優(yōu)于其基礎模型。
  • 經過更好指令調優(yōu)的模型在 GRPO 訓練后表現更佳,說明高質量的指令調優(yōu)能夠增強模型在強化學習后的推理能力。
  • GRPO 訓練能夠誘導模型產生真實的自我反思行為,但「aha」時刻的數量與整體推理性能并不直接相關。(見圖 7)

圖片

更多細節(jié)請參見原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-12-01 08:00:00

2025-11-12 08:56:15

2020-10-14 07:46:46

Linux大小寫轉換

2025-06-09 09:32:35

2024-08-28 13:53:42

多代理強化學習機器人

2025-05-30 04:00:00

IBMRLVRGRPO

2023-08-28 06:52:29

2025-04-21 09:10:00

2025-05-06 08:40:00

2025-06-26 09:13:22

2025-06-27 10:10:43

AI模型技術

2025-10-11 04:00:00

2025-02-18 15:02:13

2025-04-14 09:45:00

2025-05-09 08:40:00

2025-07-09 08:55:39

2025-08-08 09:02:00

AI架構模型

2021-10-11 09:51:38

谷歌人工智能強化學習

2025-03-21 13:00:54

2025-07-22 08:50:00

AI模型框架
點贊
收藏

51CTO技術棧公眾號

亚洲人成电影网站色| 中文字幕av资源一区| 国内精品小视频在线观看| aa片在线观看视频在线播放| 国产精品伊人| 亚洲亚洲精品在线观看| 另类视频在线观看+1080p| 欧美日韩在线视频免费| 精品免费视频| 亚洲福利在线视频| 色婷婷狠狠18| 国产社区精品视频| 国产无人区一区二区三区| 2014亚洲精品| 最近国语视频在线观看免费播放| 欧美三级第一页| 中文字幕日韩精品在线观看| 少妇激情一区二区三区视频| 自拍偷拍亚洲| 日本道色综合久久| 久激情内射婷内射蜜桃| 黄色成年人视频在线观看| 久久一日本道色综合| 懂色一区二区三区av片| 国产又粗又大又爽视频| 久久深夜福利| 777精品视频| 欧美卡一卡二卡三| 久久看人人摘| 亚洲视频第一页| 国产xxxxxxxxx| 亚洲码欧美码一区二区三区| 欧美老年两性高潮| 久久久三级国产网站| 欧美激情极品视频| 国产日韩欧美在线观看视频| 欧美日韩水蜜桃| 亚洲精品中文字幕女同| 水蜜桃av无码| 国产极品模特精品一二| 日韩欧美一区在线观看| 嫩草视频免费在线观看| 国产亚洲欧美日韩精品一区二区三区| 日韩欧美在线免费观看| 97国产精东麻豆人妻电影| 黑人精品视频| 亚洲一区二三区| 亚洲小视频在线播放| 黄色国产网站在线播放| 中文字幕人成不卡一区| 永久免费精品视频网站| av在线播放网站| 亚洲国产精品传媒在线观看| 日本在线观看一区二区三区| av网站大全在线观看| 亚洲国产成人一区二区三区| 午夜精品美女久久久久av福利| 你懂的视频在线| 国产亚洲一区二区在线观看| 欧美午夜精品理论片a级大开眼界 欧美午夜精品久久久久免费视 | 亚洲激情一二三区| 久久天天东北熟女毛茸茸| 性爱视频在线播放| 亚洲福利视频三区| 无码人妻丰满熟妇区96| 中文字幕资源网在线观看免费| 精品国产老师黑色丝袜高跟鞋| 夫妻免费无码v看片| 波多视频一区| 欧美综合在线视频| 911av视频| 韩国精品福利一区二区三区| 精品视频在线观看日韩| 国产视频123区| 欧美福利专区| 91极品女神在线| 亚洲精品中文字幕乱码三区91| 日韩国产成人精品| 91精品国产综合久久香蕉的用户体验| 99精品久久久久久中文字幕| 国产69精品久久久久毛片| 精品日本一区二区三区在线观看| 欧美美乳在线| 亚洲色图视频网| 欧洲精品视频在线观看| 日韩免费中文专区| 黄色免费网站在线| 精品久久久久久国产| 能在线观看的av网站| 青青在线精品| 亚洲国产精彩中文乱码av在线播放 | 久久久久无码国产精品| 欧美亚洲专区| 亚洲aⅴ日韩av电影在线观看 | 日本精品在线观看| 亚洲精品美女久久久| 免费看一级黄色| 99国产精品视频免费观看一公开| 国产精品久久久久久一区二区| 精品久久人妻av中文字幕| 久久影院午夜片一区| 亚洲资源视频| 日韩欧美另类一区二区| 日韩欧美国产麻豆| 亚洲av无码一区二区三区人| 国产精品豆花视频| 国产精品九九久久久久久久| 好吊视频一区二区三区| 国产精品美日韩| 精品人妻一区二区三区四区在线 | 午夜激情福利电影| 国产日韩视频| 99在线视频播放| 最新电影电视剧在线观看免费观看| 一区二区三区精品久久久| av免费网站观看| 国产区精品视频在线观看豆花| 中文字幕日韩精品有码视频| 国产三级精品三级在线观看| 福利视频网站一区二区三区| 一区二区在线高清视频| 精品91久久| 亚洲精品国产精品国自产在线| 一区二区三区四区五区| 日本欧美加勒比视频| 久久精品中文字幕一区二区三区| 伊人手机在线| 欧美一区二区久久| 搜索黄色一级片| 美女视频第一区二区三区免费观看网站 | 中文字幕在线一| 久久色在线观看| 久久久一本二本三本| 成功精品影院| 欧美黄色片免费观看| 99热精品在线播放| 中文字幕一区二区三区不卡| 波多结衣在线观看| 欧洲激情综合| 国产91在线播放精品91| 精品美女视频在线观看免费软件 | 免费午夜视频在线观看| 久久资源综合| 69av视频在线播放| 无码国精品一区二区免费蜜桃| 亚洲一区二区视频| 亚洲黄色小说在线观看| 欧美全黄视频| 国产亚洲一区在线播放| 91老司机福利在线| 亚洲国产精品va在看黑人| 久久精品性爱视频| 99免费精品在线| 欧美成人xxxxx| 中国av一区| 国产精品免费一区| 91精品专区| 日韩一区二区视频在线观看| 九九热国产精品视频| 成人av电影在线| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 天堂av一区二区三区在线播放| 日韩av高清不卡| 午夜在线播放| 日韩欧美二区三区| 日韩欧美视频在线免费观看| xfplay精品久久| 爱情岛论坛亚洲首页入口章节| 久久福利影院| 成人三级在线| 日韩伦理三区| 欧美大尺度激情区在线播放| 熟妇高潮一区二区三区| 日本丶国产丶欧美色综合| 97精品在线播放| 国产福利电影一区二区三区| 国产欧美123| 伊人久久大香线蕉av不卡| 国产精品在线看| 免费在线播放电影| 亚洲人成自拍网站| 国产精品一区二区三区在线免费观看| 亚洲综合免费观看高清完整版在线 | 久久视频在线直播| 天天干视频在线| 欧美日韩精品一区二区在线播放| 毛片a片免费观看| 国产亚洲欧美中文| gogo亚洲国模私拍人体| 久久久久免费| 蜜臀av性久久久久蜜臀av| 国产一区二区三区亚洲| 国产在线观看精品| 日韩av影片| 粗暴蹂躏中文一区二区三区| 欧美男男同志| 精品国产污网站| 中文字幕在线观看免费| 精品国产31久久久久久| 免费黄色激情视频| 91视频精品在这里| 原创真实夫妻啪啪av| 丝袜美腿高跟呻吟高潮一区| 亚洲精品国产suv一区88| 国产91精品对白在线播放| 97人人干人人| av成人免费| 日本国产一区二区三区| 性欧美1819sex性高清大胸| 中文字幕欧美在线| 日本中文字幕一区二区有码在线 | 欧美香蕉爽爽人人爽| 日韩一级大片在线观看| www.亚洲激情| 欧美日韩在线视频一区二区| 欧美成人精品欧美一| 国产精品久久久久影院| 色哟哟精品观看| 99久久99久久精品免费观看| 亚洲精品乱码久久久久久9色| 免费在线观看视频一区| 无码无遮挡又大又爽又黄的视频| 亚洲午夜黄色| 精品一区二区三区毛片| 天天精品视频| 亚洲一区三区电影在线观看| 国产一区二区欧美| 看欧美日韩国产| 久久悠悠精品综合网| 国产精品区一区| 国产人与zoxxxx另类91| 91精品久久久久久久久| 国产精品亲子伦av一区二区三区| 国产成人中文字幕| 伊人久久精品一区二区三区| 97成人在线视频| 97蜜桃久久| 97在线免费观看| aaa在线播放视频| 久久久久久久91| www555久久| 97国产精品视频| 久久青草伊人| 日本三级久久久| 男人最爱成人网| 国产精品99久久久久久白浆小说| 成人天堂yy6080亚洲高清| 青青草99啪国产免费| 欧美成人黑人| 国产成人免费91av在线| 第四色男人最爱上成人网| 国产精品 欧美在线| 69堂免费精品视频在线播放| 国产精品久久久久高潮| abab456成人免费网址| 国产精品青青在线观看爽香蕉| 成人一级视频| 91色视频在线导航| xxxxxhd亚洲人hd| 欧美二区在线看| 日韩精品欧美激情一区二区| 亚洲三区在线观看| 中文字幕免费精品| 日韩人妻无码精品久久久不卡| 在线成人av| 精品国产成人av在线免| 免播放器亚洲一区| 婷婷中文字幕在线观看| 成人性生交大片免费看中文网站| 欧美在线一级片| 中文字幕成人av| 永久久久久久久| 欧美日韩中文在线观看| 亚洲图片视频小说| 精品少妇一区二区三区| 日色在线视频| 日韩有码视频在线| 国产盗摄在线视频网站| 日韩免费在线观看视频| 亚洲一区有码| 精品网站在线看| 久久中文亚洲字幕| 青青青在线视频播放| 人人爽香蕉精品| 国产成人av片| 欧美激情在线看| 黄色一级视频免费| 一本高清dvd不卡在线观看| 国产精品色综合| 精品视频偷偷看在线观看| 老司机在线视频二区| 5278欧美一区二区三区| 中文字幕日本一区| 欧美二区三区| 激情欧美亚洲| 污污动漫在线观看| 暴力调教一区二区三区| 婷婷国产成人精品视频| 精品国产户外野外| 国产偷拍一区二区| 国产亚洲欧美日韩美女| 成人免费一区二区三区牛牛| 国产日本欧美视频| 小嫩嫩12欧美| 欧妇女乱妇女乱视频| 免费观看在线色综合| 欧洲一级黄色片| 一区二区三区中文在线观看| 日韩欧美一级大片| 日韩精品在线观| 欧美xxxx性xxxxx高清| 国产精品久久久亚洲| 色综合久久中文| 国产一级做a爰片久久毛片男| 久久精品国产第一区二区三区| 老司机福利av| 亚洲成人激情av| www.99视频| 久久亚洲精品一区| 成人在线视频观看| 奇米精品在线| 亚洲一区二区三区高清| 久久国产劲爆∧v内射| 亚洲欧美日韩中文播放 | 国产成人一级电影| 精品国产国产综合精品| 91国产视频在线观看| 日韩三级电影网| 66m—66摸成人免费视频| 中文字幕一区二区三区四区久久 | 99综合视频| 大尺度做爰床戏呻吟舒畅| 亚洲影视在线播放| 精品人妻一区二区三区含羞草 | 欧美中日韩一区二区三区| 亚洲精选久久| 欧美日韩一区二区三区四区五区六区| 亚洲欧美另类在线| 国产美女免费视频| 麻豆乱码国产一区二区三区 | 国产偷倩在线播放| 999国内精品视频在线| 亚洲综合激情在线| 青青草精品在线| 一区二区三区av电影| 亚洲精品成人电影| 欧美激情一级二级| 高清精品视频| 岳毛多又紧做起爽| 久久久久久久综合| 国产精品欧美综合| 日韩亚洲一区二区| 秋霞一区二区三区| 国产欧美日韩小视频| 韩国一区二区三区| 青娱乐国产精品| 亚洲电影天堂av| 久久久国产精品免费| 性欧美video高清bbw| 国产高清一区视频| 亚洲精品日本| 9.1成人看片免费版| 在线免费不卡视频| 国产在线观看91| 国产精品嫩草在线观看| 国产欧美一区二区三区国产幕精品| 好吊一区二区三区视频| 欧美亚洲一区二区在线| 国产一二三区在线观看| 国产精品v欧美精品∨日韩| 亚洲免费影视| 青青青视频在线免费观看| 爽好久久久欧美精品| 91精品国产综合久久香蕉| 亚洲成人国产| 久久人妻少妇嫩草av无码专区| 欧美日韩亚洲系列| 三级外国片在线观看视频| 91香蕉视频在线下载| 国产精品最新自拍| 一本色道久久88| 亚洲国产日韩欧美在线99| 成人软件在线观看| 亚洲成人动漫在线| 99re视频这里只有精品| 亚洲性在线观看| 欧美激情a在线| 精品一区电影| 午夜免费视频网站| 欧美日韩一区二区免费在线观看 | 亚洲欧洲美洲综合色网| 国产91免费看| 国产精品亚洲片夜色在线| 欧美视频官网| 久久视频精品在线观看| 日韩精品一区二区三区视频播放| 希岛爱理一区二区三区av高清| 成人在线免费观看网址| 国产欧美va欧美不卡在线| 丰满少妇被猛烈进入|