精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

美團提出多模態推理新范式:RL+SFT非傳統順序組合突破傳統訓練瓶頸

人工智能 新聞
來自美團的研究者們提出Metis-RISE框架(RL Incentivizes and SFT Enhances),探索了這一方法。

多模態推理,也可以講究“因材施教”?

來自美團的研究者們提出Metis-RISE框架(RL Incentivizes and SFT Enhances),探索了這一方法。

他們提出了一個混合訓練框架,將RL激勵和SFT增強以非傳統順序結合,更有效地提升多模態大語言模型(MLLMs)的推理能力。

圖片

簡單來說,就是先用強化學習(RL)放任模型大膽去探索,激發潛能,再通過監督微調(SFT)針對性補齊短板,來突破多模態推理瓶頸。

最終產生7B和72B參數的MLLM,2個模型在OpenCompass多模態推理榜單上取得了優異成績,其中72B參數模型平均得分在整體排名中位列第四,驗證了Metis-RISE的可擴展性和有效性。

突破傳統訓練范式,激活模型潛在推理能力

當前多模態推理大模型訓練范式面臨雙重挑戰

純RL:一方面正確軌跡采樣成功率波動大(0-1),另一方面不能“無中生有”,受限于基座模型的能力上限

先SFT后RL:早期監督訓練禁錮模型創造力,如同給AI“套上枷鎖”,后期RL探索空間受到限制

這些恰是Metis-RISE破局之處,如下圖所示,與從冷啟動SFT階段開始的傳統流程不同,團隊方法基于經驗觀察省略了這一初始步驟,直接從使用Group Relative Policy Optimization(GRPO)算法變體的RL訓練開始。

圖片

方法分為2步走:

階段1:強化學習激勵

采用改進版GRPO算法,通過比較同一查詢生成的候選輸出組來估計模型生成響應的優勢。

允許模型大膽“放飛自我”,將取消KL散度約束、在線數據過濾、非對稱耦合、token級策略損失和軟過長懲罰應用于多模態學習,增強GRPO訓練過程的穩定性和有效性。

關鍵機制:非對稱裁剪+動態數據過濾,避免無效探索

階段2:SFT對癥下藥

Metis-RISE中的SFT階段通過一個精心策劃的數據集,策略性地增強模型:

自我蒸餾推理軌跡:團隊使用RL訓練的模型在prompt數據池中進行k-shot軌跡采樣。對于模型推理表現不一致的prompt(軌跡正確性得分嚴格在0和1之間),使用模型自身的正確推理軌跡作為監督信號。這強化了模型可以發現但尚未可靠執行的推理路徑,以解決采樣效率低下問題。

專家增強知識注入:對于模型始終無法成功處理的prompt(所有嘗試中軌跡正確性得分為0),團隊推斷其缺乏必要的推理能力。在這種情況下,一個更強的外部推理專家會生成高質量的軌跡。這些專家生成的解決方案隨后用于增強SFT數據集,有效注入新知識并彌補模型的原始能力缺陷。

成績亮眼,72B模型OpenCompass排名第四

團隊基于開源的Qwen2.5-VL系列進行開發,采用結合RL激勵和SFT增強的兩階段訓練方法,訓練了兩個模型變體:Metis-RISE-7B和Metis-RISE-72B。

為了全面評估模型性能,團隊采用了VLMEvalKit,并在OpenCompass多模態推理排行榜上進行基準測試。

團隊將Metis-RISE與專有模型、開源≤10B模型、開源>10B模型,這三類最先進模型進行比較,如下圖所示。

圖片

結果顯示,Metis-RISE-7B模型在≤10B參數類別中表現出色,平均得分為46.4。這一結果超越了所有同等規模的模型,包括VLAAThinker-7B(42.5)和InternVL3-8B(41.4),確定了Metis-RISE-7B在這些基準上的水平最先進。

Metis-RISE-72B平均分數為56.6,使其成為>10B參數類別中表現最佳的模型。它顯著優于其他大模型如InternVL3-78B(51.0)和Qwen2.5-VL-72B(50.3)的表現,這進一步展示了團隊方法的強大優勢。

值得注意的是,Metis-RISE-72B的性能具有很強的競爭力,并且在某些情況下超過了著名的專有模型。例如,Metis-RISE-72B超過了ChatGPT4o-202504(54.8)和Claude3.7Sonnet(50.4),同時與Gemini-2.0-Pro(56.6)的性能相當。

綜合來看,這些優異的結果使得Metis-RISE-72B在本次評估時在OpenCompass多模態推理排行榜上位列第四,突顯了它在復雜多模態推理任務中的先進能力。

消融實驗

下圖展示了Metis-RISE-7B進行的詳細消融研究,細致地說明了Metis-RISE框架中每個階段的不同影響和協同貢獻。基準模型(Qwen2.5-VL-7B)在評估數據集上取得了39.2分的初始平均分數。在應用初始RL階段(基準→RL)后,平均分數增加到44.0分(+4.8分),性能顯著提升。

這一巨大進步突顯了RL在激勵模型探索能力方面的關鍵作用,鼓勵模型發現并激活潛在的正確推理路徑。這種效果在WeMath等具有挑戰性的數據集上尤為明顯,分數從36.2躍升至43.3,在DynaMath上則從21.8提升至26.2,展示了RL解鎖推理潛力的能力。

圖片

同時,所有SFT變體在RL增強基線(平均得分為44.0)之上都帶來了性能提升。具體來說,在RL階段之后應用多模態圖文SFT,平均得分進一步提高了1.7分(從44.0提高到45.7),而純文本SFT導致得分增加了1.5分(達到45.5);混合數據SFT方法取得了最佳結果,在RL增強模型上平均得分提高了2.4分,達到46.4。這一額外提升突顯了SFT在精煉和鞏固RL揭示和激活的推理能力方面的有效性。

定性分析

在Metis-RISE-72B模型的初始強化學習(RL)階段,團隊觀察到準確率獎勵和響應長度方面的顯著趨勢。

具體來說,下圖展示了隨著訓練的進行,準確率獎勵持續且穩定地增加。同時,揭示了模型響應平均長度的相應上升趨勢,即RL階段模型輸出長度持續增長,思維鏈逐漸清晰。

圖片

團隊表示,在后續研發工作中,將繼續探索RL和SFT的循環迭代應用,實現推理能力的持續改進,并開發基于模型的驗證器,擴展Metis-RISE在更復雜推理場景中的應用。

論文地址:
https://arxiv.org/pdf/2506.13056
項目主頁:
https://github.com/MM-Thinking/Metis-RISE

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-08-04 08:49:00

2025-06-20 09:00:00

智能體訓練模型

2025-04-15 09:22:00

AI訓練模型

2025-10-10 02:15:00

2025-07-28 09:12:00

2025-11-17 08:49:00

2025-06-18 02:30:00

推理能力強化學習大語言模型

2025-03-21 10:08:37

2015-09-16 17:29:02

聯想開放開源

2016-01-14 16:06:19

CIO時代網

2020-04-14 10:06:05

安全 疫情物聯網

2025-05-09 08:40:00

2025-06-03 08:49:00

2025-08-07 09:16:41

2025-05-28 09:17:00

端到端模型視覺

2023-07-26 07:24:07

2025-06-05 11:51:14

NVIDIAProRLLLM

2025-08-22 15:06:52

2025-09-22 10:44:20

點贊
收藏

51CTO技術棧公眾號

99国内精品久久久久| 99精品久久久久久中文字幕| 亚洲福利天堂| 在线观看视频一区二区欧美日韩| 青青成人在线| 亚洲一二区视频| 我不卡手机影院| 精品剧情在线观看| 亚洲中文字幕无码不卡电影| 天天射天天色天天干| 亚洲欧美日韩国产| 亚洲福利在线看| 超碰网在线观看| 成人在线视频成人| 国产在线看一区| 久久久久国产精品www| 日本少妇毛茸茸| 777午夜精品电影免费看| 亚洲色图清纯唯美| 国外成人在线视频网站| 午夜一区二区三区四区| 国产精品7m凸凹视频分类| 欧美一区二区三区系列电影| 日韩av高清在线看片| 在线激情小视频| 成人a免费在线看| 国产精品无码专区在线观看| 激情四射综合网| 欧美裸体在线版观看完整版| 日韩精品一区在线| 在线观看的毛片| 麻豆91在线| 久久久噜噜噜久久中文字幕色伊伊 | 丁香天五香天堂综合| 国产成人精品免费视频| 欧美色图亚洲天堂| 日韩成人动漫在线观看| 欧美久久久久久久久久| 久久成人免费观看| www国产在线观看| 国产日韩欧美麻豆| 精品麻豆av| 国产极品久久久| 免费日韩av| 久久久之久亚州精品露出| 国产主播av在线| 九九综合久久| 欧美不卡视频一区| 亚洲老女人av| xxx欧美xxx| 午夜精品久久久久久久久| 国产日韩欧美大片| 日本www在线观看| 白白色 亚洲乱淫| 97久久天天综合色天天综合色hd| 一本一道人人妻人人妻αv| 日韩视频久久| 久久久久久综合网天天| 欧美日韩精品一区二区三区视频播放| 日韩欧美高清在线播放| 亚洲色图偷窥自拍| 国产高清自拍视频| 伊人精品综合| 亚洲成人av在线| 亚洲美女高潮久久久| 精品一区二区三区四区五区| 欧美日本免费一区二区三区| www.久久久精品| 免费一级欧美在线观看视频| 欧美自拍丝袜亚洲| www.日本xxxx| 欧美国产日韩电影| 欧美日韩午夜影院| 任你操这里只有精品| 在线最新版中文在线| 婷婷中文字幕综合| 日韩精品―中文字幕| 爱福利在线视频| 亚洲素人一区二区| 一区二区三区av在线| 羞羞污视频在线观看| 亚洲va欧美va国产va天堂影院| 草草久久久无码国产专区| 台湾佬中文娱乐久久久| 欧美丰满嫩嫩电影| wwwxx日本| 国产一区二区三区四区大秀| 日韩在线观看高清| 国产网址在线观看| 奇米精品一区二区三区四区| 91在线播放视频| 日本一卡二卡四卡精品| 中文幕一区二区三区久久蜜桃| 9色视频在线观看| 麻豆mv在线看| 欧美一区二区视频在线观看2022| 波多野结衣影院| 欧美顶级大胆免费视频| 欧美精品激情在线观看| 一级一级黄色片| 成人丝袜视频网| 一本一生久久a久久精品综合蜜| 草草影院在线| 在线不卡a资源高清| 欧美成人三级伦在线观看| 99re6这里只有精品| 992tv成人免费影院| 91精品国产乱码久久久| 99这里只有久久精品视频| 一区不卡视频| 黑人巨大亚洲一区二区久 | 免费欧美一级片| 国产日产一区 | 日韩污视频在线观看| 蜜桃91丨九色丨蝌蚪91桃色| 国产在线欧美日韩| 国产三级在线播放| 欧美综合在线视频| 玖草视频在线观看| 亚洲欧美一级二级三级| 国产精品黄色av| 先锋av资源站| 一区二区三区91| 亚洲欧美天堂在线| 成人网18免费网站| 欧美在线视频一区二区| 内射后入在线观看一区| 亚洲日本青草视频在线怡红院 | 亚洲国产精品影视| 日韩性xxx| 亚洲欧美成人网| 91久久国产视频| 福利一区在线观看| 久久久久久久久久久综合| 一区二区三区日本视频| 一区二区三区无码高清视频| www.国产一区二区| 91在线观看视频| 久久成人福利视频| av综合网站| 欧美日本精品在线| 国产黄色小视频在线观看| 日韩毛片一二三区| 欧美美女一级片| 色综合天天爱| 91麻豆国产精品| 黄色大片在线播放| 日韩一区二区三区电影| 黄色片在线观看网站| 韩国理伦片一区二区三区在线播放 | 亚洲一区二区三区四区在线观看| 巨乳女教师的诱惑| 激情婷婷欧美| 麻豆av一区二区| 亚洲欧美在线成人| 综合国产在线观看| 夜夜嗨av禁果av粉嫩avhd| 中文字幕中文字幕中文字幕亚洲无线| 欧美美女性视频| 牛牛国产精品| 精品国产一区二区三区日日嗨| 日本不良网站在线观看| 亚洲人成网站777色婷婷| 一级一级黄色片| 1区2区3区国产精品| 亚洲av综合色区无码另类小说| 黄色欧美成人| 久久婷婷人人澡人人喊人人爽| 波多野结衣亚洲| 日韩视频免费观看| 北条麻妃一二三区| 欧美午夜女人视频在线| 久久亚洲无码视频| 韩日欧美一区二区三区| 69sex久久精品国产麻豆| 婷婷亚洲精品| 国产精品一区电影| 呦呦在线视频| 日韩国产在线看| 亚洲一区在线观| 一区二区欧美在线观看| 泷泽萝拉在线播放| 韩国av一区二区三区| 野外做受又硬又粗又大视频√| 免费黄色成人| 91久久精品美女高潮| 成年人在线网站| 在线观看久久av| 亚洲奶汁xxxx哺乳期| 在线观看亚洲a| 国产小视频在线看| 中文字幕的久久| 欧洲熟妇的性久久久久久| 蜜桃视频一区二区| 夜夜添无码一区二区三区| 日韩欧美视频| 激情视频在线观看一区二区三区| 欧洲午夜精品| 日本高清视频一区| 曰本三级在线| 日韩在线观看成人| 欧美伦理影视网| 日韩欧美视频在线| 中文字幕在线观看视频一区| 一区二区三区国产| 免费91在线观看| 91在线看国产| 一级黄色大片免费看| 日本不卡高清视频| 成人免费观看视频在线观看| 欧美欧美全黄| 一本久道久久综合| 韩日一区二区三区| 久久精品国产第一区二区三区最新章节| 91精品麻豆| 国产精品久久久久久av福利| av免费在线视| 欧美日本啪啪无遮挡网站| 18视频免费网址在线观看| 亚洲欧美日韩一区二区三区在线| 国产高清不卡视频| 欧美一区二区三区在线电影| 自拍偷拍第八页| 在线看日韩精品电影| 亚洲精品午夜国产va久久成人| 亚洲欧美色图小说| 手机av在线看| 亚洲日本中文字幕区| 欧美性生交大片| 国产精品久久久久久户外露出 | 国产成人精品日本亚洲专区61| 免费男女羞羞的视频网站在线观看| 在线丨暗呦小u女国产精品| 全色精品综合影院| 亚洲欧美国产一本综合首页| 天天综合网在线| 日韩精品一区二区三区老鸭窝| 99在线无码精品入口| 在线播放欧美女士性生活| 91精品国产乱码久久| 欧美日韩1区2区| 国产麻豆免费视频| 91精品国产综合久久福利软件| 国产精品视频一区二区三区,| 欧美日韩一区二区三区免费看| 无码视频在线观看| 在线视频欧美区| 在线观看国产精品入口男同| 精品视频在线视频| 在线免费看av片| 欧美久久久久久久久中文字幕| 国产又粗又长又大视频| 欧美一区二区免费视频| 国产夫绿帽单男3p精品视频| 欧美大片在线观看一区二区| www.com在线观看| 亚洲国产女人aaa毛片在线| 污污的视频网站在线观看| 亚洲成人亚洲激情| 麻豆国产在线播放| 一区二区三区动漫| 国产原创精品视频| 国内精品一区二区三区四区| 岛国在线视频网站| 国产ts一区二区| 精品九九久久| 成人动漫视频在线观看免费| 老汉色老汉首页av亚洲| 欧美日韩一区二区视频在线 | 久久精品中文字幕免费mv| 国内精品久久久久国产| 久久久久国产视频| 一区二区三区短视频| 国产精品视频精品视频| 亚洲精品黑牛一区二区三区| 精品国产一区二区三区麻豆免费观看完整版 | 精品亚洲成a人| 国产日韩视频一区| 久久精品一区八戒影视| 免费在线观看a级片| 亚洲高清免费观看| 中文字幕av第一页| 日韩欧美精品在线视频| 免费观看成年在线视频网站| 久久香蕉国产线看观看网| 国产拍在线视频| 国产精品爽黄69| 国产精品网址| 在线综合视频网站| 亚洲国产一区二区三区a毛片| 男女av免费观看| 国产福利不卡视频| 久久婷婷五月综合| 亚洲成人www| 一区二区视频网| 亚洲福利精品在线| 搞黄网站在线观看| 国产精品91在线观看| 日韩三级网址| 亚洲v欧美v另类v综合v日韩v| 国产精品v亚洲精品v日韩精品 | 国产丝袜视频一区| 成人在线网址| 国产精品99免视看9| 老牛精品亚洲成av人片| 强开小嫩苞一区二区三区网站| 亚洲少妇诱惑| 无码人妻一区二区三区精品视频| 日本一区二区免费在线观看视频 | 在线视频一区二区三区| 后进极品白嫩翘臀在线视频| www国产亚洲精品久久网站| 国产精品专区免费| 国产亚洲欧美一区二区 | 久久av.com| 亚洲爱爱视频| 女同一区二区| 亚洲精品乱码久久久久久蜜桃麻豆| 91福利免费观看| 久久久久久电影| 日本va欧美va国产激情| 日韩精品一区二区三区视频| 男人的天堂在线视频免费观看 | 午夜电影网一区| 精品人妻一区二区三区含羞草| 综合网中文字幕| 成人视屏在线观看| 欧美另类视频在线| 国产精品普通话对白| 激情综合激情五月| 一区二区久久久| 性网爆门事件集合av| 九九久久精品一区| 麻豆精品国产| 日本黄色播放器| 国产原创一区二区| 天天做夜夜爱爱爱| 欧美高清视频不卡网| 日本精品在线| 91九色单男在线观看| 欧美高清视频在线观看mv| 波多野结衣xxxx| 中文字幕中文字幕一区二区| 中文字幕视频在线播放| 中文字幕久精品免费视频| 福利一区二区| 亚洲精品免费在线看| 免费看欧美美女黄的网站| 四虎影视一区二区| 91麻豆精品久久久久蜜臀| 国产精品剧情一区二区在线观看| 91香蕉电影院| 国产精品草草| 中文字幕免费高清视频| 五月天一区二区三区| 欧洲成人av| 国产精品青青在线观看爽香蕉| 欧美成人精品一区二区三区在线看| 国模私拍视频在线观看| 亚洲久草在线视频| 偷拍精品一区二区三区| 2019亚洲男人天堂| 狠狠做深爱婷婷综合一区| 污污网站免费观看| 亚洲蜜臀av乱码久久精品 | 99国产精品久久久| 亚洲国产精品无码久久久| 最近2019年中文视频免费在线观看| 日韩色性视频| 日韩成人三级视频| 久久蜜桃av一区精品变态类天堂| 亚洲 国产 日韩 欧美| 久久亚洲私人国产精品va| 国内自拍欧美| 免费观看成人网| 亚洲女女做受ⅹxx高潮| 亚洲区小说区图片区| 国产精品福利网| 欧美激情麻豆| 伊人网在线视频观看| 717成人午夜免费福利电影| av在线资源| 五月天av影院| 99久久久免费精品国产一区二区 | 美日韩一区二区| 国产精品theporn动漫| 在线性视频日韩欧美| 99精品国产高清一区二区麻豆| aa免费在线观看| 一区二区三区视频在线观看| 天堂视频中文在线| 91热精品视频| 首页综合国产亚洲丝袜| 国内偷拍精品视频| 亚洲欧洲美洲在线综合| 涩爱av色老久久精品偷偷鲁| 国产成人精品视频ⅴa片软件竹菊| 亚洲欧美一区二区三区久本道91 | 国产浮力第一页| 国产精品成人品|