精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多模態后訓練反常識:長思維鏈SFT和RL的協同困境

人工智能 新聞
華為與香港科大的最新研究發現了一個出人意料的現象:在多模態視覺語言模型(VLM)中,這對組合難以實現協同增益,甚至有時會互相拖后腿。

在語言模型領域,長思維鏈監督微調(Long-CoT SFT)與強化學習(RL)的組合堪稱黃金搭檔 —— 先讓模型學習思考模式,再用獎勵機制優化輸出,性能通常能實現疊加提升。

但華為與香港科大的最新研究發現了一個出人意料的現象:在多模態視覺語言模型(VLM)中,這對組合難以實現協同增益,甚至有時會互相拖后腿。

圖片

  • 論文標題:The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs
  • 論文地址:https://www.arxiv.org/abs/2507.07562

推動這項研究的一個關鍵見解是認識到多模態推理評測與純語言評測存在微妙差異。雖然文本推理任務通常側重于邏輯要求高的問題,但多模態評測通常包含簡單基于感知的問題和復雜的認知推理挑戰。作者假設,這種異質性是 Long-CoT SFT 和 RL 在多模態設置中表現出不同現象的核心原因。

為探索各種后訓練技術如何影響不同類型問題性能,作者們引入了一個簡單有效的難度分類方法,并基于此構建了難度層級細化后的多模態推理榜單數據集(包括新的 MathVision、MathVerse、MathVista、MMMU val 和 MMStar val)。該方法根據基線模型 Qwen2.5-VL-Instruct-7B 在五個數據集的每個問題上 16 次獨立運行的成功率,將題目分為五個級別(L1-L5),分別代表從簡單到困難:

  • L1 (簡單):通過率 ≥ 12/16 (75%)
  • L2 (中等偏易):8/16 ≤ 通過率 < 12/16 (50-75%)
  • L3 (中等):5/16 ≤ 通過率 < 8/16 (31-50%)
  • L4 (中等偏難):2/16 ≤ 通過率 < 5/16 (13-31%)
  • L5 (困難):通過率 < 2/16 (13%)

數據、模型地址:https://github.com/JierunChen/SFT-RL-SynergyDilemma

圖片

圖片

長思維鏈 SFT 引導模型反復演算,專攻難題

長思維鏈 SFT 就像給模型配備了 「超級草稿本」,通過少量帶反思驗證等思考模式的推理樣本訓練,讓模型學會層層拆解復雜問題:

  • 在 L5 級難題上,它能讓 VLM 準確率顯著提升,尤其擅長處理 MathVision 中的圖文結合推理難題
  • 但在最簡單的 L1 級題目(如 「圖中有幾個紅色圓形」)上,反而比基礎模型表現更差:多余的推理步驟變成 「畫蛇添足」,導致 「搖擺不定」 甚至 「矯枉過正」
  • 經過 Long-CoT SFT 的模型會頻繁使用 「首先驗證」「其次推導」 等邏輯詞,甚至出現 「這里可能算錯了」 的人類化思考痕跡,雖然邏輯深度增加,但冗余度飆升至原來的數倍。

RL 強化模型整體性能,能力均衡不偏科

強化學習則像給模型裝上 「精準導航」,通過獎勵機制引導模型輸出高質量答案:

  • 在所有難度級別(L1-L5)均能實現較為穩定的提升,簡單題不翻車,中等題表現穩健
  • 輸出文本保持了基線模型的高效簡潔,極少出現冗余推理
  • 但 RL 的短板也很明顯:在 L5 級難題上的提升不及 Long-CoT SFT,復雜邏輯鏈的構建能力以及反思驗證等認知行為無法高效激活

圖片

協同困境:五種組合策略全失效

既然 SFT 強于難題、RL 長于均衡,研究團隊嘗試了五種組合方案,結果令人意外,所有方法都沒能實現 「1+1>2」 的效果:

  • 兩階段(先 SFT,后 RL):回答范式固化于冗長思考,性能困于 SFT 水平,RL 優勢難以體現
  • 交替式(相鄰訓練步數交替使用 SFT 和 RL,SFT 損失僅應用于通過率為零的問題,RL 損失應用于其他問題):性能始終卡在兩種方法之間,無法突破單一方法上限
  • 漸進式(在訓練過程中逐漸減少 SFT 監督,過渡到純 RL):顯示出最大的潛力,難題解決能力高于純 RL、媲美純 SFT,但仍是一種折衷,犧牲了部分簡單題目的性能
  • 數據混合(將 SFT 和 RL 模型的輸出合并到一個統一的數據集中,用于后續訓練,其中只有 RL 模型不會做的題目采用 SFT 模型的輸出):模型缺乏題目難度感知能力,導致推理風格難以自適應切換,在簡單題出現冗長回答和掉點風險
  • 模型合并(使用線性、TIES 和 SLERP 合并技術在不同混合比例下的無訓練參數插值):表現出的是性能插值而非疊加增強

圖片

其中兩階段、交替式和漸進式的混合訓練曲線如圖所示

圖片

其他實驗發現

  • 推理軌跡的質量比數據規模和模態匹配更重要。用 1k 條高質量文本思維鏈數據(來自 s1.1)做 SFT 微調的效果優于用 34k 多模態推理數據 Eureka-Distill。
  • KL 正則化項有效保持了 RL 長穩訓練。沒有它,模型容易陷入獎勵崩潰、熵減小和響應長度的劇烈波動,最終導致性能不佳。
  • 簡單題是 「性能壓艙石」。即便簡單題的歸一化獎勵為零,把它們納入 RL 訓練數據也至關重要。它們能通過 KL 約束發揮作用,避免因專注難題訓練而丟失處理簡單題的基礎能力。

未來方向:讓模型學會 「見題下菜碟」

1. 自適應推理:長思維鏈 SFT 帶來的慢思考和 RL 強化的快思考兩種回答范式難以兼容,VLM 的題目異質性更是放大了這種沖突,未來研究應考慮如何有效實現模型自適應推理,對簡單題給出簡潔回答,對難題采用深度推理。

2. 構建模型親和的訓練數據:在此項研究中,長思維鏈數據是從外部模型蒸餾而來,可能和基線模型存在親和性不足的風險。為避免損害模型基礎能力,應考慮采用其他方式如提示詞工程自蒸餾構建訓練數據。

3. 分層評估體系:將榜單分為不同難度題目,有助于差異化、針對性地評測和優化模型。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-10-10 02:15:00

2025-02-10 09:35:00

2025-07-22 08:50:00

AI模型框架

2025-03-25 09:06:11

2025-06-06 04:10:00

LLM人工標注RL

2025-09-16 10:09:00

2025-09-22 10:44:20

2024-08-12 09:40:00

模型數據

2025-07-28 09:12:00

2024-12-12 00:25:09

2025-09-10 09:10:00

2025-04-07 00:00:00

多模態大模型

2025-06-19 09:15:00

自然語言訓練模型

2025-11-18 07:00:00

2025-03-13 09:47:29

2025-03-10 09:10:00

2021-12-23 10:00:38

谷歌訓練技術

2025-07-14 14:38:45

視覺模型AI

2023-10-27 09:47:22

模態框架

2025-10-22 08:00:00

多模態訓練數據
點贊
收藏

51CTO技術棧公眾號

东方aⅴ免费观看久久av| 欧洲福利电影| 午夜成人免费电影| 日韩美女视频中文字幕| 亚洲精品午夜视频| 福利一区二区三区视频在线观看| 欧美国产精品v| 96国产粉嫩美女| 久久久久香蕉视频| 欧美福利在线播放网址导航| 欧美综合久久久| 色爽爽爽爽爽爽爽爽| 亚洲国产精品久久人人爱潘金莲| 国产精品久久久久久模特| 国产亚洲精品美女| 人妻换人妻仑乱| 天堂av在线网| 中文字幕在线不卡| 99国内精品久久久久久久软件| 五月天婷婷网站| 波多野结衣的一区二区三区| 91精品国产综合久久久蜜臀图片| 国产freexxxx性播放麻豆| 天堂中文在线8| 韩国女主播成人在线观看| 欧美—级高清免费播放| japanese中文字幕| 亚洲一区二区三区在线免费| 黑人巨大精品欧美一区二区免费| 一区二区三区三区在线| 国产日韩欧美一区二区东京热 | 双性尿奴穿贞c带憋尿| 成人国产一区| 亚洲欧美乱综合| 欧美亚洲一级二级| 亚洲一区中文字幕永久在线| 影音先锋在线一区| 深夜福利91大全| 人妻丰满熟妇av无码久久洗澡| 欧美系列精品| 日本韩国欧美一区二区三区| 18禁裸男晨勃露j毛免费观看| 国产精品一级伦理| 99久久精品费精品国产一区二区| 成人精品视频99在线观看免费| 久草视频一区二区| 在线成人h网| 不卡伊人av在线播放| 少妇户外露出[11p]| 亚洲欧洲国产精品一区| 欧美日本一区二区三区四区| 久久精品国产精品亚洲色婷婷| 国产羞羞视频在线播放| 中文字幕免费观看一区| 欧美日韩成人一区二区三区 | wwwww黄色| 自拍偷拍一区| 日韩av影视综合网| 动漫美女无遮挡免费| 国产午夜精品一区在线观看| 欧美日韩高清一区| av污在线观看| 国产一区二区主播在线| 一本色道a无线码一区v| 国产 福利 在线| 末成年女av片一区二区下载| 日韩久久一区二区| 一区二区不卡在线观看| a天堂中文在线88| 久久久不卡影院| 欧美日韩精品免费看| 日韩电影免费| 99久久精品免费观看| 国产一区二区视频在线免费观看| 亚洲国产精品久久人人爱潘金莲| 激情国产一区二区| 91老司机在线| 99久久精品国产色欲| 国产在线精品视频| 成人有码视频在线播放| 国产成人精品白浆久久69| 国产精一区二区三区| 99在线观看视频| 欧美在线 | 亚洲| 国产精品一二一区| 国产乱码精品一区二区三区卡| 色哟哟在线观看| 日韩一区在线看| 国产xxxx振车| av久久网站| 欧美精品一区二区三区一线天视频 | 色女孩综合网| 欧美videosex性极品hd| 欧美性xxxxxx| 在线观看日本www| 日韩欧美影院| 久久综合伊人77777| 黄色一级片免费看| 蜜桃视频一区二区| 国产在线一区二区三区播放| 日韩免费啪啪| 欧美三级免费观看| 日韩av福利在线观看| 亚洲人成网77777色在线播放| 日韩视频在线观看免费| 少妇一级淫片免费放中国| 久久99蜜桃精品| 欧美日韩国产高清视频| 性直播体位视频在线观看| 日本韩国欧美在线| 在线免费看黄色片| 91精品亚洲| 国产精品91视频| 人妻中文字幕一区| 中文字幕亚洲视频| 精品一卡二卡三卡| 国产精品久久久久久久久久白浆 | 欧美精品v日韩精品v国产精品| 秋霞影院午夜丰满少妇在线视频| 欧美日韩国产专区| 又大又长粗又爽又黄少妇视频| 青青草原综合久久大伊人精品| 91av成人在线| 二区三区在线视频| 亚洲视频图片小说| 亚欧美在线观看| 国产精品片aa在线观看| 97激碰免费视频| www.色日本| 中文字幕色av一区二区三区| 国产福利一区视频| 网红女主播少妇精品视频| 久久久久久久色| 亚洲精品国产av| 亚洲免费av观看| 不卡中文字幕在线观看| 第九色区aⅴ天堂久久香| 日韩美女视频在线观看| 午夜视频在线播放| 天天操天天色综合| 日本少妇xxxx| 亚洲视频大全| 久久伊人一区| 小视频免费在线观看| 亚洲精品久久久久久久久| 国产精品日日夜夜| 成人丝袜高跟foot| 缅甸午夜性猛交xxxx| 日韩成人一级| 欧洲美女免费图片一区| 色综合888| 在线视频你懂得一区二区三区| av黄色在线免费观看| 视频一区在线播放| 亚洲福利av在线| 国产香蕉久久| 久久精品国产一区二区三区| 国产欧美一级片| 亚洲人成在线播放网站岛国 | www国产成人| 久久久久人妻精品一区三寸| 米奇777超碰欧美日韩亚洲| 国产精品igao视频| 午夜看片在线免费| 欧美一区二区免费观在线| 久久久无码精品亚洲国产| 成+人+亚洲+综合天堂| a√天堂在线观看| 国产成人一区| 91麻豆国产精品| 第一av在线| 亚洲欧美在线看| 国产又粗又猛又黄又爽无遮挡| 亚洲精品成人在线| aa一级黄色片| 捆绑紧缚一区二区三区视频| 国产女人18毛片| 欧美交a欧美精品喷水| 国产精品99蜜臀久久不卡二区| 黄色网址在线免费播放| 亚洲福利视频网站| 超碰在线免费97| 亚洲日本va在线观看| 国产精品麻豆入口| 奇米影视一区二区三区小说| 亚洲天堂第一区| 全球av集中精品导航福利| 国产精品久久久久久久久久小说| 黄网站视频在线观看| 亚洲大尺度美女在线| 高潮毛片又色又爽免费 | 国产xxx精品视频大全| 精品视频在线观看一区| 国产精品视频一区二区三区四蜜臂| 国产日韩精品在线播放| 黑人另类精品××××性爽| 国产一区二区三区毛片| www.黄色一片| 91高清视频在线| www.99re7.com| 国产精品美女一区二区| 国产精品扒开腿做爽爽爽a片唱戏| 日本一不卡视频| 一区二区传媒有限公司| 91精品秘密在线观看| 欧美影视一区二区| jizz国产精品| 成人网在线视频| 午夜无码国产理论在线| 91黄色8090| 性网站在线观看| 色偷偷噜噜噜亚洲男人的天堂| 五月婷婷六月丁香| 欧美r级在线观看| 亚洲手机在线观看| 色欧美乱欧美15图片| 国产亚洲欧美精品久久久久久| 中文字幕成人在线观看| 国产全是老熟女太爽了| 国产成人av电影在线观看| jizz18女人| 日韩精品国产精品| 成人在线免费在线观看| 亚洲麻豆av| 日本五级黄色片| 欧美在线播放| 中文精品视频一区二区在线观看| 国产不卡一区| 美女精品国产| 久久aimee| 国产精品制服诱惑| 粉嫩久久久久久久极品| 91九色极品视频| 亚洲1区在线| 91精品在线一区| 日日夜夜精品| 国产在线拍偷自揄拍精品| 欧美xxxx性| 国产精品爽爽ⅴa在线观看| 韩国三级一区| 国产精品69av| 成人国产一区| 国产伊人精品在线| 成人黄色91| 91久久在线观看| 亚洲视频国产精品| 国产成人精品日本亚洲11| 日韩国产在线不卡视频| 91久久精品www人人做人人爽| av日韩一区| 99国产精品久久久久老师| 福利电影一区| 精品免费国产| 国产精品一线天粉嫩av| 午夜精品一区二区在线观看| 色乱码一区二区三区网站| 一区二区三区四区不卡| 中文字幕日韩欧美精品高清在线| 50度灰在线观看| 99精品热6080yy久久| 国产精品亚洲αv天堂无码| 久久一区二区三区超碰国产精品| 欧美成人免费高清视频| 美女久久久精品| 手机在线国产视频| 成人动漫一区二区在线| wwwwww日本| 国产精品进线69影院| 欧美成人手机视频| 精品免费在线视频| 中文字幕视频二区| 日韩欧美专区在线| 日本人妖在线| 日韩视频免费观看| 草草视频在线观看| 国产欧美日韩最新| 亚洲一区二区三区四区电影| 精品一区二区不卡| 大色综合视频网站在线播放| 精品人妻人人做人人爽| 香蕉久久久久久久av网站| 中文字幕在线视频精品| 不卡视频在线看| 麻豆视频免费在线播放| 一区二区成人在线| 成人免费一级片| 日韩欧美三级在线| 好男人免费精品视频| 美日韩在线视频| 亚洲欧美小说色综合小说一区| 国产精品自拍网| 麻豆一区一区三区四区| 亚洲精品视频一二三| 亚洲精华国产欧美| 在线观看日本一区二区| 91在线视频在线| 欧美特级一级片| 欧美在线观看视频在线| 黄色av一区二区三区| 日韩中文字幕在线播放| 黄色在线免费观看网站| 成人亚洲激情网| 国产乱码精品一区二区亚洲 | 亚洲国产精品热久久| 免费人成在线观看播放视频| 欧美中文字幕精品| 91夜夜蜜桃臀一区二区三区| 伊人狠狠色丁香综合尤物| 中文亚洲欧美| 中文字幕人妻一区| 亚洲人成网站影音先锋播放| 91视频在线视频| 精品视频—区二区三区免费| 中文av资源在线| 成人精品网站在线观看| 人人狠狠综合久久亚洲婷婷| 日韩a在线播放| 不卡区在线中文字幕| 丰满少妇高潮久久三区| 88在线观看91蜜桃国自产| 高清美女视频一区| 欧洲中文字幕国产精品| 伦理一区二区三区| www.日本在线播放| 国产成人av资源| 欧美爱爱小视频| 欧美一区欧美二区| 免费高清在线观看| 国产精品成人va在线观看| 欧美美女在线直播| 日本xxxxxxxxxx75| www.av精品| 好吊妞视频一区二区三区| 亚洲国产一区二区三区四区| 免费电影视频在线看| 97在线资源站| 国内自拍一区| 91九色蝌蚪porny| 香蕉影视欧美成人| 日韩中文字幕综合| 午夜精品久久久久久久99热 | 国产一区二区三区综合| 美国黑人一级大黄| 欧美私人免费视频| 1769视频在线播放免费观看| 国产精品女人久久久久久| 不卡一区综合视频| 国产一级免费大片| 亚洲综合一区二区| 日本美女一级片| 欧美性一区二区三区| 欧美**字幕| 国产精品拍拍拍| 一区在线观看免费| 国产高清视频免费观看| 久久久久久久av| 女同另类激情重口| 国产视频在线视频| 国产精品你懂的| www黄色网址| 7777精品视频| 精品国产一区二区三区| 久久久久久久久久久久久久久国产| 中文字幕在线不卡一区| 亚洲国产精品二区| 青青在线视频一区二区三区| 日韩免费久久| 老司机av网站| 欧美网站在线观看| 欧洲不卡视频| 国产精品手机视频| 日韩精品成人一区二区在线| a一级免费视频| 欧美精品一区二区三区很污很色的| 一二三四视频在线中文| 亚洲一区二区三区色| 国产一区91精品张津瑜| 97人人澡人人爽人人模亚洲| 中文字幕少妇一区二区三区| **爰片久久毛片| 欧美牲交a欧美牲交aⅴ免费下载| 国产精品乱码久久久久久| 国产黄色av片| 热久久这里只有精品| 一个色综合网| 久久只有这里有精品| 日韩一级黄色片| 乡村艳史在线观看| 免费在线精品视频| 久久综合狠狠综合久久综合88| 国产乱码精品一区二区| 91国内在线视频| 永久亚洲成a人片777777| 一卡二卡三卡四卡| 精品久久久久一区| 激情中国色综合| 日b视频免费观看| 国产精品免费久久| 天天射天天色天天干| 96pao国产成视频永久免费|