精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

首個多模態統一CoT獎勵模型來了,模型、數據集、訓練腳本全開源

人工智能 新聞
UnifiedReward-Think 展示了獎勵模型的未來方向 —— 不僅僅是一個 “打分器”,而是一個具備認知理解、邏輯推理與可解釋輸出能力的智能評估系統。

在多模態大模型快速發展的當下,如何精準評估其生成內容的質量,正成為多模態大模型與人類偏好對齊的核心挑戰。然而,當前主流多模態獎勵模型往往只能直接給出評分決策,或僅具備淺層推理能力,缺乏對復雜獎勵任務的深入理解與解釋能力,在高復雜度場景中常出現 “失真失準”。

那么,獎勵模型是否也能具備像人類一樣的深度思考能力?

近日,騰訊混元與上海 AI Lab、復旦大學、上海創智學院聯合提出全新研究工作 UnifiedReward-Think,構建出首個具備長鏈式推理能力的統一多模態獎勵模型,首次讓獎勵模型在各視覺任務上真正 “學會思考”,實現對復雜視覺生成與理解任務的準確評估、跨任務泛化與推理可解釋性的大幅提升。

圖片


  • 論文題目: Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning
  • 項目主頁:https://codegoat24.github.io/UnifiedReward/think
  • 論文鏈接:https://arxiv.org/pdf/2505.03318
  • GitHub:https://github.com/CodeGoat24/UnifiedReward
  • 模型:https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a
  • 數據集:https://huggingface.co/collections/CodeGoat24/unifiedreward-training-data-67c300d4fd5eff00fa7f1ede

一、背景與動機:獎勵模型也需要 “思考”

當前的多模態獎勵模型大多只能對結果進行 “表面判斷”,缺乏深度推理與可解釋的決策依據,難以支撐對復雜視覺任務的精準評估。

該工作研究團隊提出關鍵問題:是否可以引入 “長鏈式思考”(Chain-of-Thought, CoT)機制,賦予獎勵模型更強的推理能力?

挑戰在于,當前缺乏高質量的多模態 CoT 獎勵推理數據,傳統 SFT 等訓練范式難以直接教會模型掌握推理過程。

他們認為,多模態大模型本身具備深層、多維度的推理潛力,關鍵在于設計一套高效訓練范式去激發并強化獎勵模型的 “思考能力”。

圖片

二、解決方案:三階段訓練范式,逐步進化獎勵模型推理能力

該研究提出一套新穎的 “三階段” 訓練框架,分為 “激發 → 鞏固 → 強化”,層層推進模型的推理進化:

階段一:冷啟動激發(Cold Start)

使用僅 5K 圖像生成任務的高質量 CoT 獎勵推理數據,讓模型學會基本的推理格式與結構。實驗表明,這一階段就能激發模型在多個視覺任務中的推理能力。

階段二:拒絕采樣鞏固(Rejection Sampling)

利用冷啟動后的模型在各視覺任務的泛化能力,對大規模多模態偏好數據進行推理,通過拒絕采樣剔除邏輯錯誤樣本,強化模型對正確思維鏈的推理模式。

階段三:GRPO 強化(Group Relative Policy Optimization)

針對推理錯誤樣本,引入 GRPO 強化學習機制,引導模型探索多樣化推理路徑,從錯誤中學習,逐步收斂到正確邏輯思考。

三、實驗亮點:獎勵模型不僅能 “顯示長鏈推理”,還能 “隱式邏輯思考”

UnifiedReward-Think 在多個圖像生成與理解任務中進行了系統評估,結果表明該模型具備多項突破性能力:

  • 更強可解釋性:能夠生成清晰、結構化的獎勵推理過程;
  • 更高可靠性與泛化能力:各視覺任務均表現出顯著性能提升;
  • 出現隱式推理能力:即使不顯式輸出思維鏈,模型也能作出高質量判斷,表明推理邏輯已 “內化” 為模型能力的一部分。

定量實驗:長鏈推理帶來全面性能飛躍

圖片

定量結果表明

  • 在圖像與視頻生成獎勵任務中,全面優于現有方法;
  • 在圖像理解類獎勵任務上,長鏈思維鏈推理帶來顯著性能提升,驗證了復雜視覺理解對深度推理能力的高度依賴;
  • 即便在不顯式輸出思維鏈的情況下,模型仍能通過隱式邏輯推理保持領先表現,相比顯式 CoT 推理僅有輕微下降,展現出強大的 “內化邏輯” 能力;
  • 與基礎版本 UnifiedReward 相比,加入多維度、多步驟推理帶來了多任務的全面性能躍升,驗證了 “獎勵模型也能深度思考” 的價值。

消融實驗:三階段訓練策略缺一不可

該工作進行了系統的消融實驗,驗證三階段訓練范式中每一步的獨立貢獻:

  • 冷啟動階段:模型學會了 CoT 推理的結構,但對獎勵預測的準確性仍較有限;
  • 拒絕采樣階段:通過篩除推理錯誤樣本,顯著提升了模型對 “正確思維鏈” 的偏好,有效增強了模型的穩定性與泛化性;
  • GRPO 階段:提升幅度最大,模型聚焦于錯誤推理樣本,通過多路徑推理探索,逐步收斂至更精確的推理過程,體現出該階段對 “推理糾錯” 的關鍵作用。
  • 無推理路徑的 GRPO 版本效果顯著下降。我們進一步驗證:若去除 CoT 推理、讓獎勵模型僅對最終答案進行 GRPO 強化,雖然略優于 baseline,但提升比較有限。說明僅優化結果遠不足以驅動深層推理能力的形成。

結論:顯式建模思維鏈推理路徑,是強化獎勵模型泛化與魯棒性的關鍵。GRPO 訓練階段之所以有效,根源在于 “強化正確推理過程”,而非僅僅是 “強化正確答案”。

圖片

圖片

定性效果展示

該工作在多種視覺任務中對模型進行了案例測試,展現出其按任務定制評估維度的能力。通過對圖像、視頻或答案進行細粒度、多維度打分,并基于各維度總分進行整體判斷。此設計有效緩解了多模態模型中常見的 “推理過程與最終評分語義脫節” 問題,顯著提升了評估的一致性與可信度。

圖片

圖片

圖片

圖片

圖片

圖片

四:總結

UnifiedReward-Think 展示了獎勵模型的未來方向 —— 不僅僅是一個 “打分器”,而是一個具備認知理解、邏輯推理與可解釋輸出能力的智能評估系統。

目前,該項目已全面開源:包括模型、數據集、訓練腳本與評測工具,歡迎社區研究者探索、復現與應用。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-06-06 14:09:32

模型開源

2025-06-13 08:45:00

數據模型可視化

2024-04-08 12:19:19

AI數據

2025-04-07 00:00:00

多模態大模型

2023-12-10 15:21:39

2024-03-25 12:30:18

AI訓練開源

2024-07-22 07:10:00

小模型機器學習蘋果

2024-12-18 18:57:58

2023-09-13 13:21:52

模型數據

2025-01-06 10:00:00

模型視覺生成

2025-07-31 08:45:00

模型AI開源

2025-09-19 09:05:18

AI模型訓練

2022-01-21 15:33:56

架構模型AI

2024-07-04 10:13:18

2024-09-23 08:20:00

模型訓練

2022-08-08 09:47:09

AI算法模型

2025-07-24 11:38:40

2025-04-10 09:15:00

模型AI數據

2025-06-09 09:41:25

2025-07-09 08:57:55

點贊
收藏

51CTO技術棧公眾號

神马久久精品综合| 亚洲污视频在线观看| 午夜在线视频免费| 日韩精品1区2区3区| 日韩视频中文字幕| 性色av蜜臀av浪潮av老女人| 欧美大片高清| 亚洲精品久久嫩草网站秘色| 精品一区久久久| 91午夜交换视频| 国产模特精品视频久久久久| 日韩视频欧美视频| 成人h动漫精品一区| 国产高清精品二区| 欧美性猛交xxxxx水多| 影音先锋男人的网站| 水莓100在线视频| 国产综合色视频| 国产成人在线亚洲欧美| 久久国产精品二区| 欧美顶级大胆免费视频| 亚洲精品动漫久久久久| 中文字幕第三区| 成人看片在线观看| 亚洲成av人片一区二区三区| 综合视频在线观看| 国产一级免费在线观看| 成人av动漫在线| 亚洲在线免费观看| 伊人网免费视频| 亚洲欧美成人综合| 久久久久久噜噜噜久久久精品| 亚洲毛片在线免费观看| 亚洲一区三区| 欧洲成人av| 国产**成人网毛片九色| 国产综合色香蕉精品| 国产精品视频免费播放| 极品av少妇一区二区| 日韩视频在线免费| 亚欧精品视频一区二区三区| 中文字幕av一区二区三区人| 亚洲国产天堂久久国产91 | 国产97免费视频| 成人羞羞网站入口| 一本色道久久综合亚洲精品小说| 波多野结衣先锋影音| baoyu135国产精品免费| 欧美mv日韩mv国产网站| 少妇熟女视频一区二区三区| 国产精品毛片无码| 欧美一区二区视频观看视频| 成年人三级黄色片| 国产精品国产三级在线观看| 欧美妇女性影城| 婷婷中文字幕在线观看| 国产一精品一av一免费爽爽| 777a∨成人精品桃花网| 男人午夜视频在线观看| av日韩一区| 欧美一区二区视频观看视频| 特级特黄刘亦菲aaa级| 澳门成人av| 亚洲高清免费观看高清完整版| 亚洲熟女一区二区| 亚洲区小说区图片区qvod按摩| 精品视频www| 丰满的亚洲女人毛茸茸| 99精品美女| 久久91亚洲精品中文字幕奶水| 激情综合五月网| 国产情侣一区| 国产精品国产三级国产专播精品人| 波多野结衣不卡| 狠狠色丁香婷婷综合| 99精品国产一区二区| 日本高清视频网站| 国产偷v国产偷v亚洲高清| 亚洲精品美女久久7777777| 黄网页免费在线观看| 一区二区日韩av| 日韩免费一级视频| 日韩精品一区二区三区av| 4438成人网| 天天躁日日躁狠狠躁av麻豆男男| 国产99久久精品一区二区300| 色吧影院999| 精品少妇theporn| 老牛嫩草一区二区三区日本| 成人美女免费网站视频| 欧美一区二不卡视频| 国产欧美视频一区二区| 欧洲精品视频在线| 成人免费网站视频| 91精品福利在线一区二区三区 | 一区二区三区**美女毛片| 亚洲不卡中文字幕无码| 久久夜夜久久| 亚洲精品黄网在线观看| 国精产品久拍自产在线网站| 亚洲美女少妇无套啪啪呻吟| 国产精品一区久久| 神马午夜精品95| 亚洲丝袜另类动漫二区| 北条麻妃在线观看| 美女国产精品久久久| 亚洲日本aⅴ片在线观看香蕉| 成熟的女同志hd| 日韩专区在线视频| 国产乱码精品一区二区三区不卡| 一本一道波多野毛片中文在线 | 欧洲午夜精品久久久| 亚洲图片小说视频| 91片在线免费观看| av动漫在线播放| xxxxx.日韩| 亚洲男人天堂手机在线| 久久久久久久久久久久国产| 日本不卡视频在线| 久久精品日产第一区二区三区| 国产福利视频在线观看| 欧美性一区二区| 朝桐光av一区二区三区| 欧美在线亚洲| 91久久久国产精品| 日本中文在线观看| 色视频成人在线观看免| 久久久久久久无码| 黄色成人精品网站| 亚洲在线观看视频网站| 成人在线免费看黄| 欧美日韩国产经典色站一区二区三区| japanese中文字幕| 亚洲尤物在线| 国产精品乱码视频| 人人澡人人添人人爽一区二区| 欧美日韩亚洲综合在线 | 欧美在线不卡一区| 亚洲做受高潮无遮挡| 亚洲深夜福利| 久久涩涩网站| 黄毛片在线观看| 日韩精品极品在线观看播放免费视频| 精品无码人妻一区二区三区品| 国产一区二区精品久久99| 在线成人av电影| 国产精品亚洲四区在线观看| 久久视频在线看| 国产视频手机在线| 一区二区在线电影| 国产精品19p| 国模 一区 二区 三区| www日韩av| xxxx视频在线| 日韩av在线电影网| 国产午夜免费福利| 久久久久久麻豆| 中文字幕第88页| 99热精品久久| 99re6在线| 黄色在线观看www| 日韩电影大片中文字幕| youjizz在线视频| 国产精品色婷婷久久58| www午夜视频| 欧美精品日本| 九九久久99| 欧美国产日韩电影| 美女撒尿一区二区三区| 丰满人妻熟女aⅴ一区| 婷婷综合久久一区二区三区| 国产精品无码一区二区三区| 日本不卡视频在线观看| 91传媒免费视频| 亚洲国产最新| 国产一区欧美二区三区| 国产盗摄一区二区| 亚洲天堂久久av| 国产欧美一区二区三区视频在线观看| 一区二区成人在线| 实拍女处破www免费看| 精品一区二区在线视频| 久久艹国产精品| 精品成人影院| y111111国产精品久久婷婷| 高潮一区二区| 欧美成年人视频网站欧美| 亚洲av电影一区| 在线播放亚洲一区| 久久不卡免费视频| ...中文天堂在线一区| 亚洲乱妇老熟女爽到高潮的片| 久久精品女人天堂| 久久观看最新视频| 综合色就爱涩涩涩综合婷婷| 成人在线视频福利| 在线观看网站免费入口在线观看国内 | 日韩人妻无码一区二区三区| 久久精品国产久精国产| 国产综合中文字幕| 欧美成人milf| 久久精品日产第一区二区三区精品版 | av片哪里在线观看| 精品调教chinesegay| 国产精品无码在线播放| 欧美午夜宅男影院在线观看| 无码黑人精品一区二区| 国产三级三级三级精品8ⅰ区| 欧美日韩一区二区区| 蜜乳av一区二区| 无码人妻精品一区二区三区在线| 91精品福利| 日韩欧美一区二区三区四区| xxxx日韩| 99视频网站| 亚洲免费看片| 国产精品成人av在线| 精品捆绑调教一区二区三区| 美女视频久久黄| 欧美精品日韩少妇| 亚洲性生活视频在线观看| 污视频在线免费观看| 日韩一区二区三区视频在线| 91女人18毛片水多国产| 日本高清不卡在线观看| 日韩av大片在线观看| 亚洲第一成人在线| 妺妺窝人体色www婷婷| 一区精品在线播放| 国产精品久久久久久久av| 91视频xxxx| 午夜一区二区三区免费| 国产不卡在线视频| 亚洲国产日韩在线一区| 激情综合一区二区三区| 天天干天天草天天| 奇米777欧美一区二区| 欧美国产日韩在线播放| 久久久国产精品一区二区中文| 国产免费黄色av| 亚洲女同同性videoxma| 人妻精品无码一区二区三区 | 成人高清电影网站| 秋霞久久久久久一区二区| 久草成人在线| 欧美日韩一区二区三区在线观看免| 麻豆视频一区| 久久精品五月婷婷| 亚洲高清极品| 日韩av电影免费在线观看| 残酷重口调教一区二区| 亚洲精品电影在线一区| 日韩免费特黄一二三区| 做爰高潮hd色即是空| 亚洲精品2区| 久久久久福利视频| 一区视频在线| 91视频 -- 69xx| 男女视频一区二区| 涩多多在线观看| 成人免费av网站| 一区二区三区少妇| 国产视频视频一区| 三级黄色在线观看| 亚洲免费在线电影| 久久精品久久精品久久| 色综合久久综合| 亚洲综合网av| 欧美mv日韩mv| 九色视频在线观看免费播放| 色哟哟网站入口亚洲精品| 精产国品自在线www| 97视频免费在线看| 成人精品三级| 99久久综合狠狠综合久久止| 鲁大师精品99久久久| 天天综合狠狠精品| 欧美激情第二页| 内射国产内射夫妻免费频道| 日本不卡的三区四区五区| 91丝袜超薄交口足| www.性欧美| 青青草华人在线视频| 亚洲永久免费av| 无码任你躁久久久久久久| 51精品久久久久久久蜜臀| 午夜视频福利在线观看| 中文字幕久久亚洲| 国产天堂在线播放视频| 国产精品久久久久久av| 中文无码日韩欧| 图片区小说区区亚洲五月| 黄色一区二区三区四区| 中文字幕网av| 99久久er热在这里只有精品66| 9.1片黄在线观看| 亚洲va国产天堂va久久en| 在线播放成人av| 亚洲精品福利在线| 成人影欧美片| 日本午夜在线亚洲.国产| 麻豆国产一区| 一区二区三区在线观看www| 国产精品久久777777毛茸茸| 五月天丁香花婷婷| 国产欧美日韩视频在线观看| 久久精品国产亚洲av无码娇色 | 国产精品99蜜臀久久不卡二区| 日韩欧美高清一区二区三区| 欧美日韩电影一区二区三区| 黄色在线成人| 污免费在线观看| 日本一区二区成人在线| 日韩精品久久久久久久酒店| 91精品国产综合久久婷婷香蕉| 黄上黄在线观看| 97超视频免费观看| ccyy激情综合| 老司机午夜网站| 精品一区在线看| 久久精品色妇熟妇丰满人妻| 色综合婷婷久久| 日日夜夜精品免费| 色在人av网站天堂精品| **国产精品| 伊人久久大香线蕉精品| 老牛国产精品一区的观看方式| 国产精品成人99一区无码| 亚洲最新视频在线观看| 国产乱淫av片免费| 日韩在线观看免费高清| 国产伊人久久| 亚洲精品9999| 日韩电影免费在线看| 美女脱光内衣内裤| 欧美丝袜一区二区| 国产精品国产高清国产| 91成人福利在线| 人人香蕉久久| 精品国产免费av| 91视视频在线观看入口直接观看www | 国产美女主播一区| 成人影院在线| 在线看的黄色网址| 国产精品每日更新| 96日本xxxxxⅹxxx17| www.亚洲人.com| 国产精品igao视频网网址不卡日韩| 国产奶头好大揉着好爽视频| 国内外成人在线视频| 日日噜噜夜夜狠狠久久波多野| 欧美一区二区三区四区视频| 91精品久久| 成人91免费视频| 亚洲欧洲一级| 亚洲黄色在线网站| 在线免费亚洲电影| 欧美日本高清| 成人在线资源网址| 国产日韩一区二区三区在线播放| 久久精品一区二区免费播放| 色综合久久久久综合体| 99免在线观看免费视频高清| 成人免费自拍视频| 欧美视频官网| 国产中文字幕一区二区| 91成人国产精品| 毛片在线看网站| 国产精品播放| 美日韩精品视频| 成人一级黄色大片| 日韩免费电影一区| 深夜在线视频| 一区二区精品国产| 高清av一区二区| 成人毛片在线播放| 丝袜情趣国产精品| 国产无遮挡裸体免费久久| 日韩a在线播放| 中文字幕一区二区三区视频| 亚洲xxxx天美| 国产精品久久久久久久久| 欧美在线播放| 亚洲第一页av| 欧美高清视频一二三区 | 99久久人妻无码中文字幕系列| 一本大道av伊人久久综合| 国产传媒在线播放| 欧美日韩一区二 | 国产伦精品一区二区三区高清| 天堂成人免费av电影一区| 日本妇女毛茸茸| 日韩精品免费看| 国产成人免费视频网站视频社区 | 欧美××××黑人××性爽| 做爰高潮hd色即是空| 久久久精品国产99久久精品芒果| av中文字幕在线免费观看| 国产成人精品国内自产拍免费看| 亚洲欧洲美洲一区二区三区|