美團提出多模態推理新范式:RL+SFT非傳統順序組合突破傳統訓練瓶頸
多模態推理,也可以講究“因材施教”?
來自美團的研究者們提出Metis-RISE框架(RL Incentivizes and SFT Enhances),探索了這一方法。
他們提出了一個混合訓練框架,將RL激勵和SFT增強以非傳統順序結合,更有效地提升多模態大語言模型(MLLMs)的推理能力。

簡單來說,就是先用強化學習(RL)放任模型大膽去探索,激發潛能,再通過監督微調(SFT)針對性補齊短板,來突破多模態推理瓶頸。
最終產生7B和72B參數的MLLM,2個模型在OpenCompass多模態推理榜單上取得了優異成績,其中72B參數模型平均得分在整體排名中位列第四,驗證了Metis-RISE的可擴展性和有效性。
突破傳統訓練范式,激活模型潛在推理能力
當前多模態推理大模型訓練范式面臨雙重挑戰:
純RL:一方面正確軌跡采樣成功率波動大(0-1),另一方面不能“無中生有”,受限于基座模型的能力上限
先SFT后RL:早期監督訓練禁錮模型創造力,如同給AI“套上枷鎖”,后期RL探索空間受到限制
這些恰是Metis-RISE破局之處,如下圖所示,與從冷啟動SFT階段開始的傳統流程不同,團隊方法基于經驗觀察省略了這一初始步驟,直接從使用Group Relative Policy Optimization(GRPO)算法變體的RL訓練開始。

方法分為2步走:
階段1:強化學習激勵
采用改進版GRPO算法,通過比較同一查詢生成的候選輸出組來估計模型生成響應的優勢。
允許模型大膽“放飛自我”,將取消KL散度約束、在線數據過濾、非對稱耦合、token級策略損失和軟過長懲罰應用于多模態學習,增強GRPO訓練過程的穩定性和有效性。
關鍵機制:非對稱裁剪+動態數據過濾,避免無效探索
階段2:SFT對癥下藥
Metis-RISE中的SFT階段通過一個精心策劃的數據集,策略性地增強模型:
自我蒸餾推理軌跡:團隊使用RL訓練的模型在prompt數據池中進行k-shot軌跡采樣。對于模型推理表現不一致的prompt(軌跡正確性得分嚴格在0和1之間),使用模型自身的正確推理軌跡作為監督信號。這強化了模型可以發現但尚未可靠執行的推理路徑,以解決采樣效率低下問題。
專家增強知識注入:對于模型始終無法成功處理的prompt(所有嘗試中軌跡正確性得分為0),團隊推斷其缺乏必要的推理能力。在這種情況下,一個更強的外部推理專家會生成高質量的軌跡。這些專家生成的解決方案隨后用于增強SFT數據集,有效注入新知識并彌補模型的原始能力缺陷。
成績亮眼,72B模型OpenCompass排名第四
團隊基于開源的Qwen2.5-VL系列進行開發,采用結合RL激勵和SFT增強的兩階段訓練方法,訓練了兩個模型變體:Metis-RISE-7B和Metis-RISE-72B。
為了全面評估模型性能,團隊采用了VLMEvalKit,并在OpenCompass多模態推理排行榜上進行基準測試。
團隊將Metis-RISE與專有模型、開源≤10B模型、開源>10B模型,這三類最先進模型進行比較,如下圖所示。

結果顯示,Metis-RISE-7B模型在≤10B參數類別中表現出色,平均得分為46.4。這一結果超越了所有同等規模的模型,包括VLAAThinker-7B(42.5)和InternVL3-8B(41.4),確定了Metis-RISE-7B在這些基準上的水平最先進。
Metis-RISE-72B平均分數為56.6,使其成為>10B參數類別中表現最佳的模型。它顯著優于其他大模型如InternVL3-78B(51.0)和Qwen2.5-VL-72B(50.3)的表現,這進一步展示了團隊方法的強大優勢。
值得注意的是,Metis-RISE-72B的性能具有很強的競爭力,并且在某些情況下超過了著名的專有模型。例如,Metis-RISE-72B超過了ChatGPT4o-202504(54.8)和Claude3.7Sonnet(50.4),同時與Gemini-2.0-Pro(56.6)的性能相當。
綜合來看,這些優異的結果使得Metis-RISE-72B在本次評估時在OpenCompass多模態推理排行榜上位列第四,突顯了它在復雜多模態推理任務中的先進能力。
消融實驗
下圖展示了Metis-RISE-7B進行的詳細消融研究,細致地說明了Metis-RISE框架中每個階段的不同影響和協同貢獻。基準模型(Qwen2.5-VL-7B)在評估數據集上取得了39.2分的初始平均分數。在應用初始RL階段(基準→RL)后,平均分數增加到44.0分(+4.8分),性能顯著提升。
這一巨大進步突顯了RL在激勵模型探索能力方面的關鍵作用,鼓勵模型發現并激活潛在的正確推理路徑。這種效果在WeMath等具有挑戰性的數據集上尤為明顯,分數從36.2躍升至43.3,在DynaMath上則從21.8提升至26.2,展示了RL解鎖推理潛力的能力。

同時,所有SFT變體在RL增強基線(平均得分為44.0)之上都帶來了性能提升。具體來說,在RL階段之后應用多模態圖文SFT,平均得分進一步提高了1.7分(從44.0提高到45.7),而純文本SFT導致得分增加了1.5分(達到45.5);混合數據SFT方法取得了最佳結果,在RL增強模型上平均得分提高了2.4分,達到46.4。這一額外提升突顯了SFT在精煉和鞏固RL揭示和激活的推理能力方面的有效性。
定性分析
在Metis-RISE-72B模型的初始強化學習(RL)階段,團隊觀察到準確率獎勵和響應長度方面的顯著趨勢。
具體來說,下圖展示了隨著訓練的進行,準確率獎勵持續且穩定地增加。同時,揭示了模型響應平均長度的相應上升趨勢,即RL階段模型輸出長度持續增長,思維鏈逐漸清晰。

團隊表示,在后續研發工作中,將繼續探索RL和SFT的循環迭代應用,實現推理能力的持續改進,并開發基于模型的驗證器,擴展Metis-RISE在更復雜推理場景中的應用。
論文地址:
https://arxiv.org/pdf/2506.13056
項目主頁:
https://github.com/MM-Thinking/Metis-RISE

































