精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

MM-Eureka:極少數據實現多模態推理的R1-Zero時刻

人工智能 新聞
我們這篇工作聚焦于一個核心問題:如何在多模態環境中復現 DeepSeek-R1 的關鍵特性,包括穩定的回答長度增長、準確率獎勵以及 Visual aha-moment?

盡管 DeepSeek-R1 在單模態推理中取得了顯著成功,但已有的多模態嘗試(如 R1-V、R1-Multimodal-Journey、LMM-R1)尚未完全復現其核心特征。

例如,R1-V 僅在簡單計數任務上表現出進步,未能實現回答長度的增長和頓悟時刻;R1-Multimodal-Journey 則在訓練過程中回答長度反而降低;LMM-R1 雖然有所進步,但尚未在大規模圖文數據訓練中得到驗證。而 Kimi 1.5 盡管表現突出,但并未開源其模型或數據。

圖片

  • 論文標題:MM-EUREKA:EXPLORING VISUAL AHA MOMENT WITH RULE-BASED LARGE-SCALE REINFORCEMENT LEARNING
  • 代碼地址:https://github.com/ModalMinds/MM-EUREKA
  • 技術報告:https://arxiv.org/pdf/2503.07365
  • 模型地址:https://huggingface.co/FanqingM/MM-Eureka-Zero-38B
    https://huggingface.co/FanqingM/MM-Eureka-8B
  • 數據集地址:https://huggingface.co/datasets/FanqingM/MM-Eureka-Dataset

我們這篇工作聚焦于一個核心問題:如何在多模態環境中復現 DeepSeek-R1 的關鍵特性,包括穩定的回答長度增長、準確率獎勵以及 Visual aha-moment?

為了解答這一問題,來自上海人工智能實驗室、上海創智學院、上海交通大學和香港大學的研究人員提出了多模態學科推理模型 MM-Eureka。

圖片

我們的探索

開源框架:我們基于 OpenRLHF 開發了一個高效可擴展的多模態大規模強化學習框架,支持 InternVL 等多種模型和 RL 算法。相比 R1-V 等已有框架,我們的方案成功訓練了 InternVL 2.5-38B 等大型模型。

穩定訓練:我們開發了兩個模型——MM-Eureka-8B(基于 InternVL 2.5-Instruct-8B)和 MM-Eureka-Zero-38B(基于 InternVL 2.5-Pretrained-38B),均成功復現了穩定的 accuracy reward、response length 增長以及 Visual aha-moment。

極大的數據效率:僅使用 54K 圖文數據進行規則型 RL 訓練,平均性能超過使用 1M 數據的 MPO 模型;整體基準準確率與使用 12M 數據進行 CoT SFT 訓練的模型相當!MM-Eureka-Zero 僅使用 8K 圖文數學推理數據(指令模型的 0.05%),在我們自建的 K12 基準測試上超越指令模型 8.2%,在 MathVerse 上表現相當。

重要發現

  • 極簡的 RL 設計足以獲得出色效果。在 instruct 模型上實驗時,添加 KL 散度會限制模型探索,導致無法觀測到 response length 的提高。

圖片

  • 數據選擇對于穩定 RL 訓練很重要!基于難度的數據過濾策略對 RL 訓練穩定性至關重要。在 8B-instruct 模型上進行 RL 訓練時,若不進行數據過濾,訓練過程極其不穩定。

圖片

  • 模型在 RL 訓練中展現類似 DeepSeek-R1 的 aha-moment,特別是模型不僅學會反思和回溯,還學會重新審視圖像中的關鍵信息,我們認為這是 Visual aha-moment 的關鍵特征。

圖片

我們的成果

  • 無論在 Instruct 還是 Pretrained Model 上,我們均在極簡 RL 設計以及數據篩選策略下實現了穩定的 Accuracy Reward 提升和 Response Length 提升。

圖片

  • 在 Instruct 模型上,幾乎全部使用開源數據(50K),便在所有多模態數學推理基準上取得穩定提升。相比其他后訓練策略,比如 MPO(1M 數據)和 CoT SFT(12M 數據),我們發現簡單的 rule-based RL 具備極強的數據高效性,使用幾十分之一的數據,平均性能超過 MPO,與 CoT SFT 相當。

圖片

  • 在 Pretrained 模型上進一步挖掘 RL 潛力,僅需 8K 多模態數學推理數據,即可在奧林匹克數學測試集(部分)和 K12 數學推理測試集上,超過使用 16.3M 數據進行 SFT 的指令模型。在 MathVerse 上,兩種模型表現也相似。我們僅使用了指令模型數據量的 0.05%,凸顯了強化學習的巨大潛力!

圖片

其他嘗試與反思

我們在復現過程中進行了許多其他的嘗試,在此分享一些我們認為有幫助,但并未成功驗證的操作。我們認為這并不代表這些方法有問題,而是需要進一步探索。

Curriculum Learning:盡管我們基于難度劃分數據并嘗試從易到難訓練,但未觀察到明顯性能提升。我們認為簡單問題的學習難以直接泛化到難題,如何更有效地組織課程學習數據仍需探索。

圖片

Online Data Filter:我們將預先基于難度的數據篩選策略記為 Offline Data Filter。這種方案雖然可以幫助 RL 進行穩定訓練,但其數據利用率降低了,因此我們希望在模型訓練過程中動態進行基于難度的數據篩選(類似 PRIME)。然而,我們發現訓練結果不如 offline data filter 穩定,我們認為這是因為每次更新時的數據量不同,導致梯度不穩定。

圖片

Model Size:盡管目前一些工作,比如 ORZ、SimpleRL 在 7B level 的 LLM 上也復現了 R1 的表現,但我們在多模態推理場景下,難以通過 8B 的 InternVL Pretrained 進行成功復現。我們認為這受制于多模態推理數據質量以及多模態預訓練數據中很少存在 long CoT 數據。

圖片

我們的期望

我們開源了全套數據(包括自助收集的高質量多模態 K12 數據集)、代碼和模型,并發布了詳細的技術報告,涵蓋所有復現過程及未成功的嘗試。希望我們的工作能幫助社區共同推進多模態推理的發展!我們同樣在持續推進模型訓練,請繼續關注!

責任編輯:張燕妮 來源: 機器之心
相關推薦

2013-10-22 10:48:22

2025-03-06 01:00:00

2023-07-18 13:58:09

模型原理

2025-03-24 10:00:00

2025-03-12 13:55:05

2025-03-13 08:13:47

DeepSeekMLLMVision-R1

2025-06-10 03:30:00

2025-02-07 14:08:45

2025-07-16 13:05:15

2025-06-27 08:40:00

模型推理AI

2025-10-20 09:02:00

2023-04-28 09:24:50

自動駕駛數據

2025-04-15 09:22:00

AI訓練模型

2024-08-08 13:04:28

2025-05-21 08:47:00

2024-11-07 13:19:03

2025-02-06 09:11:54

2021-12-30 15:15:17

數據泄露交換攻擊信息安全
點贊
收藏

51CTO技術棧公眾號

蜜桃av综合| 免费黄色在线| 欧美777四色影| 欧美男男青年gay1069videost| 日韩午夜视频在线观看| 亚洲一区二区三区高清视频| 色综合天天爱| 韩国三级电影一区二区| zzijzzij亚洲日本成熟少妇| 佐佐木明希电影| 涩涩涩在线视频| 国产精品无码永久免费888| 亚洲最大福利网站| 中文字幕一区在线播放| 日韩免费电影在线观看| 欧美丝袜自拍制服另类| 国产经典久久久| 香蕉视频成人在线| 美女免费视频一区二区| 欧美精品videos另类日本| 波多野结衣影院| jizzyou欧美16| 亚洲一卡二卡三卡四卡无卡久久 | 久久全球大尺度高清视频| 国产人妻互换一区二区| 免费观看国产精品| 久久99日本精品| 欧美激情中文字幕乱码免费| 亚洲一区二区三区日韩 | 92看片淫黄大片欧美看国产片| 国产一区二区三区影院| 中文字幕乱码在线观看| 又骚又黄的视频| 日韩欧美不卡在线| 欧美激情在线观看视频| av动漫一区二区| 午夜影院免费在线| 国产精品果冻传媒| 在线观看日韩av| 综合精品久久| 黄色片中文字幕| 熟妇人妻一区二区三区四区 | 国内精品视频在线播放| 日本三级一区二区三区| 日韩午夜一区| 久久综合久中文字幕青草| www.久久国产| 日韩三级精品| 欧美日韩一区高清| 99精品免费在线观看| 美女黄视频在线观看| 国产日产欧美一区| 精品偷拍各种wc美女嘘嘘| 亚洲一二三av| av成人在线观看| 国产精品高潮呻吟久久| 日韩精品另类天天更新| 偷拍自拍在线| 成人av在线影院| 成人黄色免费看| 黄色av一区二区| 亚洲欧美久久久| 97国产精品视频人人做人人爱| 天天摸天天舔天天操| 国产精品成av人在线视午夜片| 亚洲一区二区三区影院| 国产在视频线精品视频www666| www香蕉视频| 特一级黄色录像| 国产免费一区二区三区视频| 久久不射热爱视频精品| 久久久国产精品午夜一区ai换脸| 欧美男男gaytwinkfreevideos| 精品国产白色丝袜高跟鞋| 精品91在线| 欧美国产亚洲精品久久久8v| 成年人网站在线观看视频| 久久国产中文字幕| 在线观看成人黄色| 免费成人深夜蜜桃视频| 日韩欧美午夜| 日韩视频免费看| 欧美激情图片小说| 欧美日本国产| 久久夜精品va视频免费观看| 在线免费看av网站| 欧美大片专区| 久久免费高清视频| 日本熟妇色xxxxx日本免费看| 激情久久一区| 热草久综合在线| 亚洲国产无线乱码在线观看| 美腿丝袜亚洲一区| 91久久精品国产91久久| 亚洲a视频在线| 不卡大黄网站免费看| 欧美三级电影在线播放| 在线视频二区| 一区二区成人在线视频 | 国产av精国产传媒| 丝袜美腿中文字幕| 国产三级在线观看视频| 国产一区二区福利视频| 97netav| 中文字幕久久熟女蜜桃| 久久久久免费| 国产自摸综合网| 国产高清免费在线观看| 26uuu国产日韩综合| 久久久久九九九| 天天在线视频色| 一区二区三区免费看视频| 久久亚洲中文字幕无码| 国产精品亚洲成在人线| 日韩三级.com| 亚洲一二三区精品| 中文在线字幕免费观看| 精品福利一区二区| 日本黄色福利视频| 国产乱人伦丫前精品视频| 亚洲色图35p| 欧美成人精品一区二区免费看片 | 午夜探花在线观看| 麻豆mv在线观看| 7777精品伊人久久久大香线蕉超级流畅 | 亚洲专区区免费| 天天综合精品| 青青久久av北条麻妃海外网| 日韩 欧美 综合| 视频一区在线视频| 粉嫩av一区二区三区免费观看| 免费av在线电影| 亚洲最大成人综合| 国产成人黄色网址| 中文字幕一区二区在线观看视频| 麻豆传媒在线完整视频| 福利二区91精品bt7086| 色18美女社区| 精品久久久久中文字幕小说| 久久久久久久爱| 一级特黄色大片| 成人爱爱电影网址| 久久免费看毛片| 成人开心激情| 日韩av影片在线观看| av激情在线观看| 美女视频一区二区三区| 欧美日韩在线观看一区二区三区| 91超碰在线免费| 欧美一区二区大片| 一区二区三区在线观看免费视频| 日韩一级大片| 成人欧美视频在线| 欧美香蕉爽爽人人爽| 亚洲电影在线播放| 在线中文字日产幕| 一区二区免费不卡在线| 国产欧美一区二区| av电影在线网| 欧美影院午夜播放| 久久久久久久久福利| 日韩福利电影在线| 日本中文不卡| 欧美hdxxxxx| 欧美精品一区二区三区一线天视频| 欧美黄片一区二区三区| 国产精品自拍三区| 毛片av在线播放| 国产精品亚洲d| 亚洲网址你懂得| 国产成人无码一区二区在线播放| a在线播放不卡| 日本a视频在线观看| 麻豆国产一区二区三区四区| 久久亚洲精品中文字幕冲田杏梨| 国产女人爽到高潮a毛片| 国产精品不卡在线观看| 国内自拍第二页| 亚洲乱码电影| 成人动漫在线视频| 乱馆动漫1~6集在线观看| 亚洲女人初尝黑人巨大| 亚洲av无码不卡| 国产精品久久三区| 91看片破解版| 极品中文字幕一区| 欧洲亚洲一区| 中文字幕日韩亚洲| 久久久免费精品| 天堂av电影在线观看| 欧美亚一区二区| 99热6这里只有精品| 国产在线精品一区在线观看麻豆| 青青草综合在线| 里番精品3d一二三区| 国产91网红主播在线观看| 一区二区三区视频网站| 日韩免费视频一区| 福利网址在线观看| 亚洲免费在线观看视频| 好吊一区二区三区视频| 久久国产人妖系列| 国产freexxxx性播放麻豆| 免费av一区| 91在线网站视频| 欧美极品videos大乳护士| www.欧美精品一二三区| 色wwwwww| 69堂成人精品免费视频| 国产性生活网站| 国产日韩欧美精品一区| 日韩欧美色视频| 欧美日韩三级| 九色综合日本| 激情五月综合婷婷| 欧洲亚洲免费在线| 日本成a人片在线观看| 精品三级av在线| 亚洲熟女乱色一区二区三区久久久 | 午夜视频在线网站| 91久久综合| 中文字幕剧情在线观看一区| 欧美freesex8一10精品| 91色在线视频| 欧美日韩女优| 久久精品国产综合| 国外av在线| 亚洲成色777777女色窝| 亚洲天堂网在线视频| 精品久久久久久久久久| 老湿机69福利| 国产欧美日韩在线看| 波多野结衣一二三区| 国内精品在线播放| 国产免费人做人爱午夜视频| 国产精品大片| 韩国黄色一级大片| 日韩一区欧美| 青青草成人激情在线| 麻豆一区一区三区四区| 亚洲影院色无极综合| 波多野结衣视频一区二区| 一区二区三区视频在线 | 成人av网址在线观看| 国产欧美日韩在线视频| 在线免费视频一区二区| 亚洲欧洲xxxx| 成人有码视频在线播放| 欧洲金发美女大战黑人| 一级日本黄色片| 欧美国产在线看| 乱精品一区字幕二区| 国产资源在线观看入口av| 精品三级av在线导航| 日本欧美一区二区三区乱码| 日韩毛片精品高清免费| 欧美成人伊人久久综合网| 欧美怡红院视频一区二区三区| 在线日韩第一页| 欧美二区三区的天堂| 亚洲午夜色婷婷在线| 97超级碰碰人国产在线观看| 神马欧美一区二区| 国模私拍在线观看| 经典三级在线| 老司机一区二区| 一区二区三区四区五区精品| 韩日一区二区三区| 欧美日韩大片一区二区三区| 亚洲成在人线免费观看| 欧美极品色图| 欧美久久综合网| 亚洲欧洲精品一区二区| 日韩欧美视频在线播放| 吴梦梦av在线| 91超碰在线播放| 亚洲午夜久久久影院| 日本福利在线| 久久精品国产免费观看| 欧美巨大xxxx做受沙滩| 久久999免费视频| 欧美野外wwwxxx| 97超级碰碰人国产在线观看| 惠美惠精品网| 91精品久久久久久久久不口人| 欧美成人黄色| 91久久精品国产91性色| 福利欧美精品在线| 精品高清视频| 欧美日韩黑人| 日本精品福利视频| av中文字幕av| 精品国内自产拍在线观看视频 | 丁香综合av| 久久久久久九九| 国产精品videosex性欧美| 激情图片qvod| 天堂久久一区二区三区| 黑人性生活视频| 2022国产精品视频| 97成人资源站| 亚洲欧美色图小说| 国产中文字幕视频| 日韩欧美高清dvd碟片| 亚洲 欧美 精品| 久久久极品av| 三上悠亚亚洲一区| 亚洲一区二区三区视频播放| 女优一区二区三区| 欧美日韩一区二区视频在线| 欧美99在线视频观看| www.色偷偷.com| youjizz国产精品| 欧美一级片在线视频| 色婷婷亚洲综合| www.国产视频| 精品精品国产国产自在线| 国产免费不卡| 亚洲综合日韩在线| 色综合蜜月久久综合网| www.日本在线播放| 国产乱子轮精品视频| 欧美一区二区三区粗大| 香蕉成人啪国产精品视频综合网| 国产露脸91国语对白| 中文字幕自拍vr一区二区三区| 9999精品成人免费毛片在线看| 91在线精品视频| 天天天综合网| 密臀av一区二区三区| 97久久精品人人做人人爽50路| 午夜写真片福利电影网| 欧美日韩一区二区欧美激情| 国产中文字幕在线观看| 欧美激情第一页xxx| 精品国产亚洲日本| 一本—道久久a久久精品蜜桃| 久久久成人网| www.中文字幕av| 日本道色综合久久| 深夜福利在线观看直播| 性欧美在线看片a免费观看| 成人爽a毛片免费啪啪红桃视频| 国产精品美女在线播放| 久久精品国产成人一区二区三区| 精品中文字幕在线播放| 亚洲国产wwwccc36天堂| 亚洲免费一级片| 美女扒开尿口让男人操亚洲视频网站| 四虎影视精品永久在线观看| 一区二区精品视频| 蜜臀91精品一区二区三区 | 午夜精品久久17c| 日韩精品一级| 韩日视频在线观看| 成人av一区二区三区| 欧美精品一区二区蜜桃| 日韩免费在线观看| www中文字幕在线观看| 国产伦精品一区二区三区照片| 亚洲美女一区| 五月天六月丁香| 亚洲国产视频直播| 五月天福利视频| 日韩美女av在线免费观看| 精品毛片免费观看| 亚洲这里只有精品| 日韩一区有码在线| 国产黄色免费大片| 国产91精品久久久| 免费成人av| 91亚洲午夜在线| 18视频在线观看网站| 91麻豆国产精品| 国产精品啊v在线| 一级片黄色免费| 亚洲一区视频在线| 极品白浆推特女神在线观看 | 国产在线一区二区综合免费视频| 69夜色精品国产69乱| 日韩欧美精品在线| 91吃瓜在线观看| 视频一区视频二区视频| 国产精品1区二区.| 免费毛片一区二区三区| 国产亚洲精品va在线观看| av在线精品| 欧美久久久久久久久久久久久久| 26uuu国产电影一区二区| 一本色道久久综合亚洲| 久久久国产视频91| 婷婷成人在线| 免费无码毛片一区二三区| 日本一区免费视频| 亚洲欧美激情在线观看| 97人洗澡人人免费公开视频碰碰碰| 狠狠综合久久av一区二区蜜桃| 丰满人妻一区二区三区53视频| 欧美日韩一区免费| 久久精品视频观看|