精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

登頂多模態推理榜MMMU!UCSD新方法超越GPT-5、Gemini

人工智能 新聞
DreamPRM由加州大學圣地亞哥分校的研究團隊開發,在數學推理權威測評榜MMMU上獲得了第一名。

近年來,大語言模型(LLM)在推理能力上的進展顯著,其中過程獎勵模型(Process Reward Model, PRM)的提出,使得模型能夠在推理鏈條的中間步驟獲得監督,從而更穩健地選擇合理的解題路徑。

這類方法在文本推理任務中已經取得了良好效果,但在擴展至多模態場景 時,仍然面臨兩個突出挑戰:

分布偏移:多模態輸入空間巨大,訓練與推理分布往往存在顯著差異;

數據質量不均:大規模訓練集不可避免地包含噪聲或低質量樣本,降低了有效監督信號。

因此,如何在多模態推理中有效利用高質量樣本,抑制噪聲樣本的負面影響,成為亟需解決的問題。

針對于此,研究人員設計了新的訓練框架,通過雙層優化框架,將數據樣本的權重(Instance Weights)作為可學習參數,動態改變數據樣本的在訓練中的影響。

論文地址:https://arxiv.org/abs/2509.05542

代碼地址:https://github.com/coder-qicao/DreamPRM-1.5

MMMU Leaderboard

論文第一作者為博士生Qi Cao,通訊作者為該校副教授Pengtao Xie。

從DreamPRM到DreamPRM-1.5

從「領域加權」到「樣本加權」

此前,研究人員提出了DreamPRM 框架,通過領域級重加權(domain reweighting)的方式,在不同數據子集之間分配權重,從而提升訓練效果。

在此基礎上,DreamPRM-1.5將加權粒度進一步細化到單個訓練樣本

  • 高質量樣本獲得更大權重;
  • 低質量或噪聲樣本權重降低。

這種實例級重加權(instance reweighting)策略,使模型能夠充分挖掘每條數據的潛在價值。

兩種方法:Instance Table和Instance Net

DreamPRM1.5的兩種模型架構

為了實現「樣本級加權」,研究人員設計了兩種互補方案:

Instance Table

給每個訓練樣本一個獨立的權重參數;

靈活度高,尤其適合小規模數據集;

缺點是參數量和樣本數掛鉤,數據一大就很難撐住。

Instance Net

不直接存表,而是用一個小型MLP網絡來預測每條數據的權重;

參數量固定,不受數據規模限制;

更適合大規模訓練,泛化能力更強。

這就像兩種「學習筆記」方式:Instance Table 像是給每道題都寫一條批注;Instance Net 則像是總結出一套「看題給分」的規則。

方法核心

雙層優化(Bi-level Optimization)

DreamPRM-1.5 的訓練流程采用 雙層優化框架

  1. 下層優化:利用樣本權重對 PRM 進行更新:

  1. 上層優化:在元數據集上評估推理表現,并基于反饋動態更新樣本權重:

這種設計確保了權重的學習不是靜態設定,而是由推理效果驅動、動態調整的,從而增強了模型在復雜任務中的適應性。

生成式獎勵模型

面向推理過程的打分機制

在DreamPRM-1.5中,研究人員采用了生成式獎勵模型(Generative Reward Model) 來對推理過程中的每一步進行評分。其核心思想是:

  • 評分方式:模型在每一步輸出「+」或「-」,分別表示該步推理是否合理;
  • 打分機制:通過softmax計算 「+」 的概率,將其作為該步驟的置信度;
  • 聚合策略:對整條推理鏈的步驟分數進行聚合(平均),再與標準答案進行對比,用于指導樣本權重的更新。

這一設計的優點在于,它不僅能逐步評估推理鏈條的合理性,還能為實例重加權 提供更細粒度的信號。

實驗設計與實現細節

  1. 模型基座:采用InternVL3-1B作為PRM的基礎模型,并在推理階段基于GPT-5-mini進行測試。設計了生成式獎勵模型的
  2. 訓練數據:從VisualPRM-400k中采樣不同規模的數據(12k、100k)分別訓練Instance Table與Instance Net
  3. 元數據集:使用MMMU-Pro的標準分割(僅使用test set數據,以避免與validation set出現重合),生成候選推理鏈作為meta set,用于權重更新
  4. 訓練流程

a.冷啟動:先進行一次有監督微調(20k樣本),使模型能夠穩定輸出「+/-」標記;

b.雙層優化:在此基礎上進行100k步迭代,采用AdamW優化器與余弦學習率調度。

  1. 計算資源:單卡NVIDIA A100,訓練約72小時完成

實驗結果

在MMMU基準上的表現

研究人員在MMMU(Massive Multi-discipline Multimodal Understanding) 基準上對方法進行了系統評測。

該基準涵蓋30個學科、183個子領域,題型覆蓋圖表、地圖、化學結構等多模態輸入,是目前最具挑戰性的推理測試之一。

主要結果

  • GPT-5-mini w/ thinking(基線):80.0%
  • DreamPRM-1.5(Instance Table):84.6% (+4.6)
  • DreamPRM-1.5(Instance Net):83.6% (+3.6)

對比分析

  • No Selection:使用相同數據但不做重加權,僅有 79.1%,驗證了實例加權的重要性;
  • VisualPRM:盡管使用完整的 400k 數據集,但僅達到 80.5%,說明數據規模并不能完全彌補質量差異;
  • Self-consistency:經典的 test-time scaling 方法為 81.4%,依然低于 DreamPRM-1.5。

整體來看,DreamPRM-1.5 不僅顯著超越了基于 GPT-5-mini 的多種強基線,還在精度上超過了GPT-5(84.2%)和Gemini 2.5 Pro Deep-Think(84.0%)等頂級閉源模型。

結論與展望

DreamPRM-1.5將實例級重加權引入多模態推理訓練中,通過雙層優化動態調整樣本權重,使模型能夠更好地識別和利用高質量數據。

主要貢獻體現在:

  • 提出實例級重加權框架,突破了僅在領域級別加權的限制;
  • 設計了Instance Table 與 Instance Net兩種互補實現,兼顧小規模與大規模訓練場景;
  • MMMU基準上取得新的SOTA結果,超過多個閉源大模型。

這一結果表明,在未來的推理模型研究中,數據質量的精細利用方式也是值得關注的重要方面。

更智能的樣本加權與過程評分方法,有望成為推動多模態推理進一步發展的關鍵方向。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-07-11 09:15:00

2025-08-15 14:53:43

2025-08-29 09:09:00

AI模型數據

2025-08-07 16:21:27

GPT-5AI模型

2023-11-09 12:41:04

AI模型

2024-08-28 13:00:42

2021-09-27 10:12:42

欺騙防御rMTD網絡攻擊

2025-06-19 09:06:00

2024-01-09 12:53:16

模型訓練

2025-08-19 08:08:05

2023-09-06 09:50:29

人工智能模型

2025-01-22 13:30:00

2010-04-01 09:30:57

2015-08-21 09:14:40

大數據

2022-10-28 15:16:52

檢測數據

2022-12-12 11:31:39

數據學習

2025-11-04 08:42:27

2023-04-25 14:00:00

GPTAI

2025-08-14 09:31:24

GPT-5AI

2025-07-25 10:35:12

點贊
收藏

51CTO技術棧公眾號

av一区二区三区免费| 国产一区二区三区欧美| 欧美大片在线播放| 欧美zozo| 精品一区二区综合| 国模gogo一区二区大胆私拍 | 久久久一区二区三区捆绑**| 国产精品国内视频| 国产这里有精品| 国产精品亚洲片在线播放| 在线不卡一区二区| 久久久久人妻精品一区三寸| www久久日com| 久久久久久**毛片大全| av一区二区三区四区电影| 五月婷婷激情五月| 99精品国产99久久久久久福利| 丝袜一区二区三区| 视频三区在线观看| 欧美成人家庭影院| 亚洲午夜日本在线观看| 亚洲国产欧美不卡在线观看| 丰满熟女一区二区三区| 精一区二区三区| 91国内免费在线视频| 免费在线黄色网| 成人高清av| 在线免费不卡视频| 2019日韩中文字幕mv| 日韩伦理在线电影| 久久婷婷综合激情| 久久99导航| 性做久久久久久久久久| 亚洲午夜一级| 俺去亚洲欧洲欧美日韩| 精品人妻无码一区| 首页亚洲中字| 亚洲国产精品成人av| 可以看的av网址| www.欧美视频| 6080国产精品一区二区| 777米奇影视第四色| caoporn视频在线| 亚洲一区精品在线| 国产一区二区片| а√天堂在线官网| 亚洲欧美一区二区三区国产精品| 尤物一区二区三区| 91caoporn在线| 国产精品青草综合久久久久99| 日本欧美色综合网站免费| 视频三区在线观看| 久久久国际精品| 农村寡妇一区二区三区| 欧美偷拍视频| 久久久青草青青国产亚洲免观| 国产日韩精品久久| 日韩一区免费视频| 91免费看片在线观看| 精品乱码一区| 三级做a全过程在线观看| 91麻豆国产在线观看| 欧美精品欧美精品| 国产美女视频一区二区三区| 国产亚洲精品久| 神马影院一区二区三区| 国产一区二区三区中文字幕| 青椒成人免费视频| 成人精品在线观看| 精品国产乱码久久久久久蜜臀网站| 国产在线日韩欧美| 国产另类自拍| 免费成人av电影| 国产精品免费丝袜| 999久久欧美人妻一区二区| 91超碰在线播放| 色综合天天综合网国产成人综合天 | 国产精品自拍电影| 国产99久久久国产精品| 久久riav二区三区| a黄色在线观看| 亚洲日穴在线视频| 欧美爱爱视频免费看| 色豆豆成人网| 欧美电影影音先锋| 久久久久亚洲AV成人无码国产| 亚洲三级网页| 久久天天躁狠狠躁夜夜躁2014| 妺妺窝人体色www在线下载| 国产精品久久久一区二区| 国产精品欧美激情在线播放| 国产高清不卡视频| 久久影院午夜论| 中国 免费 av| 成人福利视频| 欧美一级电影网站| 玖草视频在线观看| 国产大片一区| 5252色成人免费视频| 91片黄在线观看喷潮| 99re视频这里只有精品| 一级做a爰片久久| 五月天av在线| 日韩视频永久免费| 色欲狠狠躁天天躁无码中文字幕 | 久久久99久久精品欧美| 欧美 日韩 国产 在线观看| mm视频在线视频| 欧美浪妇xxxx高跟鞋交| 亚洲天堂资源在线| 女人香蕉久久**毛片精品| 日韩免费黄色av| 国产77777| 日韩美女啊v在线免费观看| 国产资源在线视频| 看亚洲a级一级毛片| 国产亚洲欧美一区| 国产微拍精品一区| 国产精品性做久久久久久| 日韩一区国产在线观看| 日韩深夜视频| 精品国产一区二区三区av性色| 国产三级aaa| 久久激情婷婷| 国产女人水真多18毛片18精品| 欧洲不卡视频| 欧洲亚洲精品在线| 巨胸大乳www视频免费观看| 你懂的一区二区| 成人网在线观看| 91精彩视频在线观看| 懂色av中文一区二区三区天美| 极品人妻一区二区| 亚洲视频在线免费| 国产欧美久久久久久| 噜噜噜噜噜在线视频| 黄色91在线观看| 少妇熟女视频一区二区三区 | 91黄色在线视频| 欧美激情一区二区三区在线| 国产免费黄色av| 欧美日韩一本| 羞羞色国产精品| 懂色av蜜臀av粉嫩av分享吧 | 九九九在线观看| av在线播放不卡| 欧美啪啪免费视频| 欧美做受69| 91chinesevideo永久地址| 99热这里只有精品1| 亚洲女女做受ⅹxx高潮| 国产人妻精品久久久久野外| 久久精品久久久| 91免费在线视频| 在线黄色网页| 精品欧美一区二区在线观看| 色综合天天综合网天天看片| 日本www高清视频| 中文字幕精品影院| 国产精品91在线| 尤物视频在线免费观看| 欧美精品一二三| 亚洲国产精品久| 99这里只有久久精品视频| 欧美 日韩 国产一区| 国产免费久久| 91精品久久久久久| 污污网站在线看| 日韩成人中文电影| 中文字幕av片| 亚洲理论在线观看| 国产一级伦理片| 肉色丝袜一区二区| 在线一区亚洲| 国产主播性色av福利精品一区| 日本成人精品在线| 国产黄色在线免费观看| 亚洲第一精品自拍| 夜夜爽妓女8888视频免费观看| 国产精品国产三级国产普通话蜜臀| 不卡的在线视频| 一区在线视频观看| 日本一区免费在线观看| 国产高清精品二区| 97热精品视频官网| 在线a免费看| 亚洲国产精品热久久| 中文字幕免费高清网站| 洋洋成人永久网站入口| 制服 丝袜 综合 日韩 欧美| 九九久久精品视频| 欧美色图色综合| 仙踪林久久久久久久999| 国产精品一区二区你懂得| 奇米777日韩| 欧美高清videos高潮hd| 番号在线播放| 亚洲电影免费观看高清| 在线观看国产一区二区三区| 亚洲一区在线观看免费观看电影高清| 加勒比一区二区| 国产精品456| 国产一区二区在线免费播放| 亚洲国产导航| 青青草免费在线视频观看| 嫩草一区二区三区| 国产精品国产一区二区 | 日韩欧美黄色动漫| 欧美三级日本三级| 中文字幕乱码日本亚洲一区二区 | 狠狠久久综合| 91精品国产91热久久久做人人 | 精品国产免费人成电影在线观... 精品国产免费久久久久久尖叫 | 国产精品久久久网站| 国产精品中文字幕在线观看| 日本免费一区二区六区| 欧美国产激情18| 日日夜夜精品一区| 国产一区二区三区视频| 亚洲 欧美 自拍偷拍| 欧美α欧美αv大片| 一卡二卡在线观看| 欧美无砖专区一中文字| 中文字幕视频网站| 婷婷丁香久久五月婷婷| av资源吧首页| 一区二区三区四区av| 欧美另类videoxo高潮| 国产精品三级视频| 国产aⅴ激情无码久久久无码| 高清在线观看日韩| 国产精品嫩草影视| 捆绑变态av一区二区三区| 国产私拍一区| 日韩区一区二| 95av在线视频| 国产精品久久免费视频| 国产精品一区二区三区免费视频| 三上悠亚国产精品一区二区三区| 7777kkkk成人观看| 黄色aa久久| 午夜精品久久久久久久99热| free性欧美| 性欧美亚洲xxxx乳在线观看| 国产拍在线视频| 91精品国产高清久久久久久久久| 波多野结依一区| 97色在线视频| 美女福利一区二区 | 99精品视频在线免费播放| 国产伦精品一区二区三区精品视频| 福利一区二区免费视频| 国产欧美精品久久久| 国产欧美视频在线| 91成人免费在线观看| **爰片久久毛片| 国产精品一区二区不卡视频| 欧美日韩一本| 日本黑人久久| 四季av一区二区凹凸精品| 五月天综合婷婷| 精品96久久久久久中文字幕无| 少妇人妻大乳在线视频| 香蕉亚洲视频| 日本中文字幕高清| 国产美女一区二区三区| 午夜性福利视频| 91亚洲男人天堂| 中文字幕伦理片| 亚洲另类在线制服丝袜| 国产精品成人久久| 色婷婷av一区| 国产日韩欧美一区二区东京热 | 欧美日韩一本到| 亚洲中文无码av在线| 欧美视频一区二| www.久久成人| 亚洲欧美国产日韩天堂区| 91精品大全| 国内伊人久久久久久网站视频| 亚洲最大成人| 亚洲一区二区在线播放| 麻豆一区二区| 在线视频不卡一区二区三区| 亚洲电影成人| 天天综合网日韩| 国产91精品一区二区| av网站免费在线看| 亚洲精选一二三| 国产免费一级视频| 日韩精品专区在线影院重磅| 肉丝一区二区| 九九热精品视频国产| 国产精品专区免费| aa成人免费视频| 狠狠综合久久av一区二区蜜桃| 看全色黄大色大片| 日韩精品乱码免费| 久久精品aⅴ无码中文字字幕重口| 久久久99精品免费观看不卡| 国产亚洲精品一区二555| 精品欧美在线观看| 国产亚洲福利一区| wwww在线观看免费视频| 国产美女久久精品| 免费一区二区三区视频导航| 久久www视频| 欧美aⅴ一区二区三区视频| 99国产精品白浆在线观看免费| 奶水喷射视频一区| 91精品国产高清91久久久久久 | 91久久青草| 欧美日韩亚洲一区二区三区在线观看 | 国产乱子轮精品视频| 国产精品久久久久久久无码| 18成人在线观看| 69视频免费看| 日韩成人在线观看| 91九色在线播放| 亚洲最大福利视频| 国产韩日影视精品| 日本va中文字幕| 26uuu国产日韩综合| 欧美人与禽zozzo禽性配| 欧美日韩亚洲高清一区二区| 蜜桃视频在线观看网站| 97久久精品国产| 好吊妞视频这里有精品| 成年丰满熟妇午夜免费视频| 麻豆国产91在线播放| av网站免费在线看| 91久久精品一区二区二区| 午夜性色福利影院| 91福利视频在线观看| 日韩伦理一区二区三区| 久久久久久人妻一区二区三区| 国产成人免费在线| 午夜激情福利网| 欧美一区二区大片| √天堂8在线网| 91久久精品www人人做人人爽 | 婷婷精品视频| 日韩精品一区二区三区久久| av一二三不卡影片| 久久久午夜影院| 亚洲精品日韩在线| 日韩精品专区| 日韩电影免费观看高清完整| 日韩专区欧美专区| 国产三级短视频| 欧美日韩综合在线免费观看| 在线观看a视频| 91九色单男在线观看| 91成人超碰| 欧美午夜精品一区二区| 五月激情六月综合| 人人九九精品| 国产精品视频永久免费播放| 久久中文亚洲字幕| 婷婷激情小说网| 亚洲成人一二三| 神马精品久久| 国产精品久久久久久久久久免费 | 国产一区二区亚洲| 三上悠亚av一区二区三区| 亚洲欧洲国产日本综合| 精品国产乱码一区二区三| 国模吧一区二区三区| 中文字幕精品影院| 污污网站在线观看视频| 一区二区三区在线视频免费| 欧美熟妇交换久久久久久分类| 555www成人网| 四季av一区二区凹凸精品| 国产老头和老头xxxx×| 午夜久久久久久| av电影在线观看一区二区三区| 91情侣偷在线精品国产| 亚洲美女91| 卡一卡二卡三在线观看| 欧美一区二区播放| 成人性生活av| 91精品国产吴梦梦| 91亚洲大成网污www| 国产精品高潮呻吟久久久| 国内偷自视频区视频综合| 欧美日韩一二三四| 亚洲一级Av无码毛片久久精品| 色综合久久66| 亚洲羞羞网站| 日韩国产精品一区二区| 国v精品久久久网| 中文字幕日本人妻久久久免费 | 老熟妇仑乱一区二区av| 久久精品电影网| 自拍亚洲一区| 亚洲AV无码久久精品国产一区| 色中色一区二区| 乱插在线www| 91精品免费看|