精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

告別數據「噪音」,UCSD大模型推理新方法DreamPRM充當「信號放大器」,登頂MathVista測評榜

人工智能 新聞
我們通過雙層優化框架,將數據域權重(Domain Weights)作為可學習參數,動態抑制低質量數據域的影響,同時強化高信息密度數據域(如需要多步跨模態推理的 M3CoT 數據集)的貢獻,實現數據質量與覆蓋率的理想平衡。

DreamPRM 由加州大學圣地亞哥分校的研究團隊開發,在數學推理權威測評榜MathVista上獲得了第一名。第一作者為博士生 Qi Cao,通訊作者為該校副教授 Pengtao Xie,團隊其他成員還包括王睿一,Ruiyi Zhang 和 Sai Ashish Somayajula。

使用過程獎勵模型(PRM)強化大語言模型的推理能力已在純文本任務中取得顯著成果,但將過程獎勵模型擴展至多模態大語言模型(MLLMs)時,面臨兩大難題:

  • 由于多模態輸入(圖像 + 文本)構成高維連續與離散信號的混合空間,訓練數據與測試數據的分布偏移(Distribution Shift)遠超純文本場景,導致一般過程獎勵模型泛化能力顯著下降。
  • 數據集質量失衡。現有開源多模態推理數據集存在大量低價值樣本,如冗余模態與低難度問題。若直接用于訓練,噪聲數據會稀釋過程獎勵模型對關鍵推理步驟(如跨模態邏輯銜接)的監督信號。

針對上述問題,我們通過雙層優化框架,將數據域權重(Domain Weights)作為可學習參數,動態抑制低質量數據域的影響,同時強化高信息密度數據域(如需要多步跨模態推理的 M3CoT 數據集)的貢獻,實現數據質量與覆蓋率的理想平衡。

圖片

  • 論文標題:DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning
  • 論文地址:https://arxiv.org/abs/2505.20241v2
  • 代碼地址:https://github.com/coder-qicao/DreamPRM

圖片

圖片

DreamPRM 方法在 MathVista 數學推理排行榜上榮登榜首。DreamPRM 以多層級優化為核心,作為一個與具體大語言模型無關的通用框架,可與任何多模態大語言模型無縫集成,顯著提升其數學推理能力。

圖片

通過解決數據質量不均衡問題,DreamPRM 大幅提升了多模態過程獎勵模型的性能。

圖片

DreamPRM 雙層優化框架

技術核心:雙層優化機制詳解

DreamPRM 的核心創新在于將過程獎勵模型的訓練過程構建為一個可微分的雙層優化問題,通過動態調整數據域權重來解決多模態推理中的分布偏移和質量失衡問題。該框架包含兩個緊密耦合的優化階段,共同驅動模型性能的提升。

在下層優化階段,系統同時在 15 個多樣化訓練域上進行 PRM 參數訓練。每個數據域(如科學問答、幾何推理等)都被賦予一個動態權重圖片以反映不同數據域對總體損失函數的貢獻程度。具體實現中,系統會計算每個域的蒙特卡洛監督信號:

對于給定的中間推理步驟,通過多次采樣補全結果并統計正確率,生成對當前步驟質量的概率估計。下層優化使用域加權的過程獎勵模型輸出與正確率監督的 MSE 損失更新過程獎勵模型的參數:

圖片

圖片

在上層優化階段,系統使用獨立于下層優化訓練資料的基于 MMMU 篩選的元數據集作為訓練數據。這個精心構建的元數據集覆蓋 30 個學科 183 個子領域,能夠真實且全面地模擬 PRM 的推理場景以評估其泛化能力。上層優化階段通過最小化聚合后的過程評價與最終答案準確與否的差異,反向傳播誤差并更新各個數據域的權重。

這個雙層架構創造了一個自適應的正反饋循環:高質量的推理數據域(如需要復雜跨模態推理的 M3CoT)會逐漸獲得更高的權重,而包含大量簡單樣本的域(如 AI2D)的權重則會下降。整個優化過程展現出良好的收斂特性,初始設為 1.0 的域權重會在訓練中自然分化,最終形成與數據域信息密度高度相關的權重分布。

圖片

實驗結果

主要性能表現

圖片

  • 領域重加權優勢顯著:DreamPRM 在所有五項基準測試中穩定超越其他 PRM 方法,相比無數據選擇的原始 PRM 提升 2-3%。其自動學習的域權重策略優于人工設計的啟發式規則(如 s1-PRM 和 CaR-PRM),證明數據驅動的優化更有效。
  • 小模型超越大模型:DreamPRM 使僅 80 億參數的 InternVL-2.5-8B-MPO 模型在多數基準上表現優于大型閉源模型(如 GPT-4v 和 Gemini-1.5),展現了強大的推理能力提升。
  • 細粒度評估帶來提升:過程監督模型通過逐步評分機制超越其他測試時優化方法(如自洽性校驗),驗證了細粒度評估的關鍵作用。

規模擴展實驗

圖片

  • DreamPRM 的性能隨著候選推理鏈(CoT)數量的增加而穩定提升。如圖所示,當 CoT 數量從 2 條增至 8 條時,DreamPRM 在全部五個基準測試上的準確率均持續提高。
  • DreamPRM 能無縫遷移到更強的多模態大模型上。如圖所示,當應用于 GPT-4.1-mini 和 o4-mini 等更強模型時,在 MathVista 基準上的準確率均有提升,充分證明了 DreamPRM 的泛化能力。

學習到的數據域權重

圖片

最終學習到的數據域權重范圍為 0.55 至 1.49,其中 M3CoT 和 FigureQA 獲得最高權重(約 1.5),而 AI2D 和 IconQA 權重較低(小于 0.8)。這種權重分配模式有效提升了 PRM 性能,同時證實了不同數據集間存在顯著的質量差異。

總結

DreamPRM 通過創新的雙層優化機制,成功解決了多模態過程獎勵模型訓練中數據質量失衡和分布偏移的難題。雙層優化框架自動學習各數據域的最優權重,使 DreamPRM 在五項基準測試中全面超越一般 PRM 方法,尤其在高難度數學推理任務上表現突出。

實驗表明,該方法不僅能提升基礎模型 4% 的平均性能,還可無縫遷移至 o4-mini 等新模型,且隨著候選推理鏈數量增加持續改善結果。DreamPRM 的細粒度過程監督和可解釋的權重分配,為多模態過程獎勵模型的高效訓練提供了新范式。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-09-19 14:53:34

2014-08-07 15:33:09

光纖放大器

2024-03-01 13:31:21

2015-08-21 09:14:40

大數據

2025-08-29 09:09:00

AI模型數據

2025-06-06 09:15:00

2019-10-09 14:47:26

人工智能AI

2009-03-20 09:58:00

WiMax功率測試

2022-07-25 10:27:06

谷歌模型

2021-09-27 10:12:42

欺騙防御rMTD網絡攻擊

2023-07-06 15:29:52

數據中心能源回收

2025-09-01 07:43:25

2010-04-01 09:30:57

2022-10-28 15:16:52

檢測數據

2021-09-08 10:55:05

云計算云存儲數據存儲

2023-04-27 13:06:46

AI手機模型

2014-06-24 15:46:24

RFaxis無線

2025-10-24 14:21:34

2023-09-25 10:04:37

模型AI

2025-06-30 09:08:00

點贊
收藏

51CTO技術棧公眾號

xxx中文字幕| 亚洲自拍三区| jizz国产在线观看| 色999国产精品| 精品欧美一区二区三区精品久久 | 快射视频在线观看| 成人综合在线观看| 国产精品美女呻吟| 国产精品111| 俺要去色综合狠狠| 精品国产乱码久久| 亚洲国产日韩欧美在线观看| 俺来俺也去www色在线观看| 国产亚洲女人久久久久毛片| 99re在线视频上| 免费av中文字幕| 狠狠综合久久av一区二区老牛| 国产一区二区三区视频| 动漫美女无遮挡免费| 亚洲成人av观看| 午夜电影久久久| 亚洲一区二区在线看| 色屁屁草草影院ccyycom| 国内精品伊人久久久久av一坑| 欧美亚洲免费电影| 精品视频久久久久| 亚洲a在线视频| 在线激情影院一区| 巨胸大乳www视频免费观看| 精品国产亚洲一区二区三区| 欧美亚洲日本国产| 激情六月丁香婷婷| 欧美xxx黑人xxx水蜜桃| 一区二区中文字幕在线| 天堂资源在线亚洲资源| 九一在线视频| 91理论电影在线观看| 不卡视频一区二区三区| 国产肥老妇视频| 另类小说一区二区三区| 国产精品高精视频免费| 久久久久久不卡| 国产精品久久久久久模特| 亚洲3p在线观看| 国产无码精品久久久| 午夜欧美理论片| 欧美老妇交乱视频| 特级片在线观看| 一本一本久久a久久综合精品| 日韩中文字幕在线视频| 一本色道久久88| 色999日韩| 久热99视频在线观看| 国产欧美一区二区三区在线观看视频| 国产成人精品999在线观看| 亚洲精品一二区| 亚洲精品成人无码| 精品日韩在线| 少妇激情综合网| 久久一级免费视频| 国产精品久久占久久| 久久精品这里热有精品| 乱h高h女3p含苞待放| 欧美黄色一级视频| 久久免费国产视频| 欧美一级特黄视频| 日韩国产在线一| 国产欧美在线看| 国产福利免费视频| 成人午夜在线免费| 鲁丝片一区二区三区| 国产主播福利在线| 中文字幕五月欧美| 国产自产在线视频| 成人亚洲欧美| 欧美三级中文字| 免费人成视频在线播放| 欧美亚视频在线中文字幕免费| 亚洲国产精品成人精品| 谁有免费的黄色网址| 国产精品久久久久蜜臀| 97国产精品久久| 国产裸体美女永久免费无遮挡| 精品影院一区二区久久久| 666精品在线| 色视频在线观看| 中文字幕不卡的av| 国产毛片久久久久久国产毛片| 高潮在线视频| 欧美日韩一区高清| 折磨小男生性器羞耻的故事| 免费成人av| 免费91在线视频| 精品人妻一区二区三区免费看| 日韩av网站免费在线| 99www免费人成精品| 十九岁完整版在线观看好看云免费| 中文av一区特黄| 欧美精品久久久久久久自慰| 美女网站视频一区| 欧美成人a∨高清免费观看| 动漫精品一区二区三区| 国产精品精品| 青青草原成人在线视频| 国产99对白在线播放| 国产亚洲欧美日韩日本| av一区二区三区免费观看| 日日夜夜天天综合| 精品国内二区三区| 国产人与禽zoz0性伦| 久久不射网站| 国产精品久久7| 免费在线午夜视频| 色老综合老女人久久久| 国产日韩视频一区| 婷婷精品进入| 国产成人亚洲综合| 亚洲 另类 春色 国产| 亚洲九九爱视频| 亚洲色图 在线视频| 希岛爱理av免费一区二区| 九九热这里只有精品免费看| 国产亚洲久一区二区| 99精品久久久久久| 国产情侣第一页| 国产情侣一区在线| 色偷偷91综合久久噜噜| 亚洲综合久久网| 97se亚洲国产综合自在线| 黄色网在线视频| 国产一区二区三区黄网站| 中文国产成人精品| 日韩欧美国产另类| 国产亚洲一区二区三区四区| 亚洲精品无码久久久久久| 农村少妇一区二区三区四区五区| 九九热这里只有在线精品视| 国产农村妇女毛片精品久久| 国产精品久久久久久久久免费樱桃 | 欧美 日韩 国产 一区| 成人疯狂猛交xxx| 午夜视频在线看| 欧美日本在线一区| 亚洲欧美卡通动漫| 美国三级日本三级久久99 | eeuss影院www在线播放| 91久久精品国产91性色tv| 亚洲综合色一区| 久久亚洲风情| 日韩精品久久一区| 亚洲精品粉嫩美女一区| 国产亚洲a∨片在线观看| 国产成人精品777777| 久久久综合精品| 亚洲人成无码www久久久| 欧美极品中文字幕| 国产美女精品免费电影| 久久日韩视频| 日韩精品一区二区三区视频| 免费一级全黄少妇性色生活片| 国产成人亚洲综合a∨婷婷图片| 在线观看17c| 91在线一区| 欧美性在线视频| 浮生影视网在线观看免费| 欧美色倩网站大全免费| 麻豆明星ai换脸视频| 国产成人在线观看| 亚洲 欧美 日韩 国产综合 在线| 免费成人av| 91精品久久久久久久久久| 影音先锋在线播放| 亚洲国内精品视频| 国产一卡二卡三卡| 亚洲女与黑人做爰| 中文字幕在线播放一区| 日韩黄色在线观看| 国产在线无码精品| 一区二区导航| 成人免费看吃奶视频网站| 国产蜜臀一区二区打屁股调教| 日韩电影大全免费观看2023年上| 免费视频网站在线观看入口| 亚洲视频在线观看三级| 亚洲天堂美女视频| 美国一区二区三区在线播放 | 精品亚洲aⅴ在线观看| 国产黄色免费视频| 亚洲一级片在线观看| 一道本在线观看| 国产麻豆9l精品三级站| 男人透女人免费视频| 午夜精品999| 欧美中日韩免费视频| 国产区一区二| 国产精品黄页免费高清在线观看| 在线免费观看污| 亚洲性视频网站| 亚洲av无码一区二区三区性色| 欧美性色19p| 欧美交换国产一区内射| 国产午夜精品久久久久久久| 性生交大片免费看l| 日本va欧美va欧美va精品| 男人天堂手机在线视频| 99国产**精品****| 日本一区二区三区免费看 | 色综合久久88色综合天天提莫| 精品国产亚洲一区二区在线观看 | av资源久久| 国产一区不卡在线观看| 9999在线精品视频| 热门国产精品亚洲第一区在线| av网站在线免费| 中文字幕亚洲欧美日韩在线不卡| 熟妇人妻av无码一区二区三区| 7777精品伊人久久久大香线蕉经典版下载 | 国产一区日韩一区| 亚洲图片都市激情| 九九综合九九| 久久亚洲免费| 国产在线播放精品| 999国产在线| 国产精品欧美一区二区三区不卡| 国产精品久久久久久久久久小说| 日韩精品极品| 97人人爽人人喊人人模波多| 在线观看男女av免费网址| 日韩在线观看成人| av中文字幕在线| 伊人精品在线观看| 岛国大片在线观看| 亚洲女人被黑人巨大进入| 欧美一区二区三区成人片在线| 宅男噜噜噜66一区二区66| 亚洲天堂免费av| 欧美伊人久久久久久久久影院| 国产精品视频免费播放| 激情懂色av一区av二区av| 豆国产97在线 | 亚洲| 亚洲精品免费在线观看| 亚洲精品电影院| 国产精品久99| www.黄色com| 亚洲男人的天堂网| 久草福利资源在线观看| 一区二区国产盗摄色噜噜| 欧美成人一二三区| 一区二区三区四区高清精品免费观看| 黄视频网站免费看| 亚洲精品国产高清久久伦理二区| 国产探花在线免费观看| 尤物视频一区二区| 黄色小视频在线免费看| 亚洲成av人片| 国产熟妇一区二区三区四区| 色婷婷狠狠综合| 中文字幕欧美人妻精品| 欧美精品免费视频| 精品毛片一区二区三区| 精品国产区一区| 视频一区二区三区国产 | av毛片在线看| 久久久久成人网| 欧美gv在线观看| 国产精品久久久久福利| 欧美啪啪网站| av蓝导航精品导航| 网红女主播少妇精品视频| 日韩高清专区| 91精品一区国产高清在线gif| 国产乱人伦精品一区二区三区| 在线播放日韩| 看欧美ab黄色大片视频免费 | 在线免费观看的av| 91av视频在线免费观看| 日韩漫画puputoon| 亚洲va欧美va在线观看| 玖玖玖免费嫩草在线影院一区| 日韩av高清在线播放| 一级毛片免费高清中文字幕久久网| 蜜臀精品一区二区| 日韩av电影天堂| 中文字幕亚洲日本| 国产三区在线成人av| 一区二区国产精品精华液| 天天综合日日夜夜精品| 成人黄色免费网| 亚洲成色777777女色窝| 91在线看黄| 韩日欧美一区二区| 欧美激情啪啪| 久久国产日韩欧美| 婷婷综合亚洲| 日韩网址在线观看| 成人综合在线网站| 美女网站视频色| 精品久久久久久久久久久久久 | 亚洲国产精品yw在线观看| 69久久久久| 2023亚洲男人天堂| 久久9999免费视频| 日韩精品欧美在线| 最新日韩欧美| 网站在线你懂的| 久久精品一区二区三区不卡| 免费一级片视频| 在线播放91灌醉迷j高跟美女| 深夜福利在线看| 欧美日韩国产第一页| 欧美一区=区三区| 欧美不卡福利| 在线欧美三区| 久久久久无码精品| 中文字幕日本乱码精品影院| 国产免费a视频| 日韩精品在线影院| 精品极品在线| 国产精品久久久久久久久婷婷 | 亚洲图片你懂的| 亚洲国产成人无码av在线| 精品粉嫩超白一线天av| av大全在线| 成人在线视频网| 色综合咪咪久久网| 国产一二三区av| 国产欧美一区二区三区网站 | 多男操一女视频| 欧美在线一二三| 精品成人一区二区三区免费视频| 性色av香蕉一区二区| 91麻豆精品国产91久久久久推荐资源 | 五月婷婷六月色| 韩国日本不卡在线| 粉嫩av一区二区| 免费特级黄色片| 成人综合激情网| 精品国产乱码久久久久久鸭王1| 在线成人av影院| 国内精品久久久久久野外| 国产在线高清精品| 国产精品伦理久久久久久| 亚洲男人天堂2021| 亚洲久草在线视频| 可以免费观看的毛片| 欧美激情在线视频二区| 6080亚洲理论片在线观看| 免费网站永久免费观看| 粉嫩13p一区二区三区| 国产在线免费视频| 亚洲国产精品网站| 中文字幕乱码中文乱码51精品| 精品欧美一区二区久久久伦| 一区二区国产精品| 中文字幕一二三四区| 在线视频你懂得一区| 中文字幕在线视频区| 成人福利在线视频| 欧美精品国产| 一本加勒比波多野结衣| 欧美性猛交xxxx富婆| gogogo高清在线观看免费完整版| 国产精品人人做人人爽| 伊人久久大香线| 中文字幕一区二区三区乱码不卡| 天天色天天操综合| 欧美扣逼视频| 国产精品尤物福利片在线观看| 91成人观看| 欧美xxxxx精品| 91国偷自产一区二区三区观看| 日本最新在线视频| 国产精品播放| 老**午夜毛片一区二区三区| 欧美视频一区二区在线| 日韩你懂的电影在线观看| 色是在线视频| 正在播放亚洲| 99久久精品免费看国产免费软件| 国产一级一级国产| 久久99亚洲热视| 啄木系列成人av电影| 亚洲免费黄色录像| 偷拍一区二区三区| 天堂地址在线www| 国产综合精品一区二区三区| 日韩经典中文字幕一区| 欧美黄色免费观看| 在线观看国产欧美| 亚洲第一二区| 五月婷婷激情久久| 亚洲成av人片在www色猫咪| 欧美69xxx| 欧美高清视频一区| 国产成人av电影| 91国偷自产中文字幕久久| 91精品国产九九九久久久亚洲| 日韩系列欧美系列| 蜜臀av一区二区三区有限公司| 欧美一区二区免费|