多模態后訓練反常識:長思維鏈SFT和RL的協同困境
在語言模型領域,長思維鏈監督微調(Long-CoT SFT)與強化學習(RL)的組合堪稱黃金搭檔 —— 先讓模型學習思考模式,再用獎勵機制優化輸出,性能通常能實現疊加提升。
但華為與香港科大的最新研究發現了一個出人意料的現象:在多模態視覺語言模型(VLM)中,這對組合難以實現協同增益,甚至有時會互相拖后腿。

- 論文標題:The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs
- 論文地址:https://www.arxiv.org/abs/2507.07562
推動這項研究的一個關鍵見解是認識到多模態推理評測與純語言評測存在微妙差異。雖然文本推理任務通常側重于邏輯要求高的問題,但多模態評測通常包含簡單基于感知的問題和復雜的認知推理挑戰。作者假設,這種異質性是 Long-CoT SFT 和 RL 在多模態設置中表現出不同現象的核心原因。
為探索各種后訓練技術如何影響不同類型問題性能,作者們引入了一個簡單有效的難度分類方法,并基于此構建了難度層級細化后的多模態推理榜單數據集(包括新的 MathVision、MathVerse、MathVista、MMMU val 和 MMStar val)。該方法根據基線模型 Qwen2.5-VL-Instruct-7B 在五個數據集的每個問題上 16 次獨立運行的成功率,將題目分為五個級別(L1-L5),分別代表從簡單到困難:
- L1 (簡單):通過率 ≥ 12/16 (75%)
- L2 (中等偏易):8/16 ≤ 通過率 < 12/16 (50-75%)
- L3 (中等):5/16 ≤ 通過率 < 8/16 (31-50%)
- L4 (中等偏難):2/16 ≤ 通過率 < 5/16 (13-31%)
- L5 (困難):通過率 < 2/16 (13%)
數據、模型地址:https://github.com/JierunChen/SFT-RL-SynergyDilemma


長思維鏈 SFT 引導模型反復演算,專攻難題
長思維鏈 SFT 就像給模型配備了 「超級草稿本」,通過少量帶反思驗證等思考模式的推理樣本訓練,讓模型學會層層拆解復雜問題:
- 在 L5 級難題上,它能讓 VLM 準確率顯著提升,尤其擅長處理 MathVision 中的圖文結合推理難題
- 但在最簡單的 L1 級題目(如 「圖中有幾個紅色圓形」)上,反而比基礎模型表現更差:多余的推理步驟變成 「畫蛇添足」,導致 「搖擺不定」 甚至 「矯枉過正」
- 經過 Long-CoT SFT 的模型會頻繁使用 「首先驗證」「其次推導」 等邏輯詞,甚至出現 「這里可能算錯了」 的人類化思考痕跡,雖然邏輯深度增加,但冗余度飆升至原來的數倍。
RL 強化模型整體性能,能力均衡不偏科
強化學習則像給模型裝上 「精準導航」,通過獎勵機制引導模型輸出高質量答案:
- 在所有難度級別(L1-L5)均能實現較為穩定的提升,簡單題不翻車,中等題表現穩健
- 輸出文本保持了基線模型的高效簡潔,極少出現冗余推理
- 但 RL 的短板也很明顯:在 L5 級難題上的提升不及 Long-CoT SFT,復雜邏輯鏈的構建能力以及反思驗證等認知行為無法高效激活

協同困境:五種組合策略全失效
既然 SFT 強于難題、RL 長于均衡,研究團隊嘗試了五種組合方案,結果令人意外,所有方法都沒能實現 「1+1>2」 的效果:
- 兩階段(先 SFT,后 RL):回答范式固化于冗長思考,性能困于 SFT 水平,RL 優勢難以體現
- 交替式(相鄰訓練步數交替使用 SFT 和 RL,SFT 損失僅應用于通過率為零的問題,RL 損失應用于其他問題):性能始終卡在兩種方法之間,無法突破單一方法上限
- 漸進式(在訓練過程中逐漸減少 SFT 監督,過渡到純 RL):顯示出最大的潛力,難題解決能力高于純 RL、媲美純 SFT,但仍是一種折衷,犧牲了部分簡單題目的性能
- 數據混合(將 SFT 和 RL 模型的輸出合并到一個統一的數據集中,用于后續訓練,其中只有 RL 模型不會做的題目采用 SFT 模型的輸出):模型缺乏題目難度感知能力,導致推理風格難以自適應切換,在簡單題出現冗長回答和掉點風險
- 模型合并(使用線性、TIES 和 SLERP 合并技術在不同混合比例下的無訓練參數插值):表現出的是性能插值而非疊加增強

其中兩階段、交替式和漸進式的混合訓練曲線如圖所示

其他實驗發現
- 推理軌跡的質量比數據規模和模態匹配更重要。用 1k 條高質量文本思維鏈數據(來自 s1.1)做 SFT 微調的效果優于用 34k 多模態推理數據 Eureka-Distill。
- KL 正則化項有效保持了 RL 長穩訓練。沒有它,模型容易陷入獎勵崩潰、熵減小和響應長度的劇烈波動,最終導致性能不佳。
- 簡單題是 「性能壓艙石」。即便簡單題的歸一化獎勵為零,把它們納入 RL 訓練數據也至關重要。它們能通過 KL 約束發揮作用,避免因專注難題訓練而丟失處理簡單題的基礎能力。
未來方向:讓模型學會 「見題下菜碟」
1. 自適應推理:長思維鏈 SFT 帶來的慢思考和 RL 強化的快思考兩種回答范式難以兼容,VLM 的題目異質性更是放大了這種沖突,未來研究應考慮如何有效實現模型自適應推理,對簡單題給出簡潔回答,對難題采用深度推理。
2. 構建模型親和的訓練數據:在此項研究中,長思維鏈數據是從外部模型蒸餾而來,可能和基線模型存在親和性不足的風險。為避免損害模型基礎能力,應考慮采用其他方式如提示詞工程自蒸餾構建訓練數據。
3. 分層評估體系:將榜單分為不同難度題目,有助于差異化、針對性地評測和優化模型。




































