精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

RewardMap: 通過多階段強化學習解決細粒度視覺推理的Sparse Reward

人工智能 新聞
一個圍繞真實 map reasoning 任務場景設計的多階段強化學習框架,用難度感知的細粒度獎勵與從易到難的課程式訓練,系統提升 MLLMs 的細粒度視覺理解與空間推理能力。

本研究由西湖大學 ENCODE Lab 牽頭,聯合同濟大學、浙江大學和新加坡國立大學共同完成。團隊在大模型強化學習與多模態推理方向具有深厚研究基礎。

近年來,大語言模型(LLMs)以及多模態大模型(MLLMs)在多種場景理解和復雜推理任務中取得突破性進展。

但一個樸素而尖銳的問題始終橫在面前:當視覺信息變得極其繁復、結構密集,模型究竟能不能「看懂圖」?比如以高分辨率地鐵圖為代表的真實場景,既要求精細的視覺感知,又要求跨線路、跨站點的空間推理。

來自該團隊的前向工作 ReasonMap 首次系統揭示了這一問題:在高分辨率地鐵圖等真實場景下,即使最先進的 MLLMs 也頻繁在跨線路、跨站點的路徑規劃中出現「看錯線」「漏站」「重復路線」等推理幻覺。

團隊進一步發現,在高分辨率、信息極其密集的地鐵圖上,僅依靠最終答案給出成敗信號的強化學習,很容易陷入獎勵極度稀疏的困境:多數輸出幾乎得不到任何正反饋,少數「偶然對」的樣本又會造成高方差梯度,訓練既慢又不穩,這使得模型在長鏈路路徑規劃中頻繁出現看錯線、漏站、甚至重復路線的「幻覺」。

為此,該團隊進一步提出 RewardMap:一個圍繞真實 map reasoning 任務場景設計的多階段強化學習框架,用難度感知的細粒度獎勵與從易到難的課程式訓練,系統提升 MLLMs 的細粒度視覺理解與空間推理能力。


  • 論文標題:RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning
  • 論文鏈接:https://arxiv.org/abs/2510.02240
  • 項目主頁:https://fscdc.github.io/RewardMap/
  • 代碼:https://github.com/fscdc/RewardMap
  • 數據集:https://huggingface.co/collections/FSCCS/reasonmap-688517b57d771707a5d64656

ReasonMap-Plus:

為「冷啟動」準備的密集監督

團隊首先在 ReasonMap 的基礎上構建 ReasonMap-Plus,它與 ReasonMap 一致采用高分辨率的地鐵/軌交地圖,覆蓋 30 座城市,共計 4018 個問題樣本,并在設計上明確區分了五類更偏感知的細粒度題型(兩類 Local Counting、Global Counting、兩類 True/False),以便為強化學習階段提供更細密的監督與可拆解的目標。數據集還給出了易/中/難的難度標簽,并在訓練/測試劃分上保持城市與難度分布的多樣性與均衡性。

 我們提出了什么:

RewardMap 框架

RewardMap 的核心思想并不復雜,卻緊扣痛點。第一步,用「細節可分解」的獎勵把一項路線規劃題拆成若干可評估的子目標,讓模型不再只有「對/錯」兩級的冰冷信號;第二步,以「從易到難」的課程式訓練組織數據分布,先讓模型在更密集、噪聲更小的子任務上「熱身」,再穩步遷移到真實的路線規劃上。

具體而言,RewardMap 包含兩大組件:其一是「難度感知的細節獎勵」;其二是「多階段強化學習」,后者顯式利用 ReasonMap-Plus 中更易獲得稠密信號的問題類型進行冷啟動,從一開始就提升訓練信噪比并降低不穩定性。

在難度感知上,團隊對訓練樣本的獎勵總和施加難度感知權重,綜合考慮地圖難度以及問題難度兩個維度:前者針對 ReasonMap 與 ReasonMap-Plus 的全部地圖統一劃分為三檔;后者在 ReasonMap 的規劃題中可由換乘次數來度量,換乘越多、難度越高,權重也越大。

RewardMap 的獎勵函數同樣體現了「把復雜問題拆成可學信號」的思路。總獎勵由三部分組成:格式合規(format)、最終正確性(correctness)與細節項(detail),并由難度權重進行縮放以體現題目的真實復雜度;其中細節項以 α=0.5 的系數參與總分,確保它既能提供穩定梯度,又不會喧賓奪主。

在細節項的具體計算里,我們對「起點/終點是否正確、線路名稱是否匹配、換乘站點是否合理、路線分段數是否正確」等要素分別給出加/扣分,形成一個「部分正確即可得分」的連續型信號,而不是過去那種「一票否決」的全或無。

關鍵結果

那么,RewardMap 在多基準上的綜合表現如何?除了在 ReasonMap/ReasonMap-Plus 上帶來持續且可復現實驗增益之外,我們還將其推廣到覆蓋「空間推理、細粒度視覺、通用視覺問答」三大類別的六項外部評測。

結果顯示,RewardMap 在所有基準上均取得一致提升,其中在 SpatialEval 上的增幅最高,達到 +13.51%;相較之下,傳統的 SFT → RL 雖然也有穩定提升,但整體仍弱于 RewardMap。這些結果表明,「細粒度獎勵 + 多階段課程」這一策略不僅在地鐵圖路徑規劃上奏效,也能遷移到更寬泛的高分辨率與空間理解任務上。

質化對比同樣直觀地揭示了改進點。以多城多圖的真實樣例為參照,配合 RewardMap 訓練后的模型更少出現「把線路看錯」的視覺混淆,更少出現「把同一路線在答案中重復多次」的幻覺現象,能夠更穩健地給出正確的首末站與換乘點,并在路線分段上匹配真實地圖結構。

未來展望

站在更宏觀的角度,RewardMap 帶來的價值不止于「刷榜」。它為高分辨率、強結構的視覺任務提供了一套可復用的強化學習范式:把復雜問題拆解為可度量的細節子目標,用難度建模去矯正樣本分布的「偏與稀」,再以多階段課程銜接「感知優先」的子任務與「推理密集」的規劃任務。這樣一來,模型從「看清楚」到「想明白」的路徑被系統化了,訓練過程的信噪比與穩定性也隨之可控。

同時,基于地圖數據的后訓練對多模態大模型通用能力的提升也得到了驗證,未來地圖這類真實數據還將在多模態大模型不同的階段發揮更大的作用。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-03-04 14:51:13

Golang鏡像二進制文件

2024-06-27 08:00:00

存儲數據庫細粒度

2017-11-13 17:17:11

Docker鏡像Go

2010-04-19 09:35:58

Oracle細粒度

2009-04-16 17:59:25

細粒度權限

2010-04-14 11:04:53

Oracle細粒度

2025-09-01 08:10:09

細粒度圖像分類細粒度視覺分類FGVC

2024-03-15 15:26:00

AI數據

2023-02-08 13:08:31

2009-10-27 09:31:24

Windows Ser口令策略

2024-04-26 12:13:45

NameNodeHDFS核心

2010-04-16 16:39:25

Oracle細粒度

2023-07-03 08:52:31

容器Golang

2023-06-16 09:49:11

人工智能研究

2010-04-22 13:39:31

Oracle細粒度訪問

2024-08-06 12:00:00

監督學習視覺

2018-02-25 04:05:16

2025-03-20 10:07:55

2020-03-30 21:32:50

物聯網IOT多階段驗證

2022-11-07 12:15:13

開源深度學習
點贊
收藏

51CTO技術棧公眾號

天堂影院一区二区| 日韩激情电影免费看| 久久精品99国产国产精| 久热精品视频在线观看| 亚洲国产精品狼友在线观看| 精品精品导航| 99精品1区2区| 91精品视频免费| 国产成人无码精品| 日韩在线综合| 亚洲成人网在线| 手机在线成人免费视频| 超碰在线网站| 国产精品久久久久婷婷| 国产精品伊人日日| 亚洲一区中文字幕永久在线| 一区二区亚洲| 久久精品视频在线播放| 免费在线观看你懂的| 精品国产三区在线| 欧美亚洲精品一区| 人妻无码久久一区二区三区免费| 国产大片在线免费观看| 成人综合婷婷国产精品久久| 国产精品久久久久久久久男| 国产日韩第一页| 亚洲 欧美 自拍偷拍| 精品一区二区三区在线播放视频 | 一区二区三区精品视频在线观看| 国产亚洲视频在线观看| 在线观看免费视频黄| 激情久久一区二区| 色综合久久中文综合久久97| 欧美日韩不卡在线视频| 顶级网黄在线播放| 中文字幕二三区不卡| 久久99热只有频精品91密拍| 国产1区在线观看| 激情图片小说一区| 国产精品人成电影| 天干夜夜爽爽日日日日| 国产深夜精品| 91精品国产91久久久久久久久| 欧美成人精品欧美一级私黄| 中文无码久久精品| 久久精品青青大伊人av| 成人在线观看高清| 亚欧美无遮挡hd高清在线视频| 深夜精品寂寞黄网站在线观看| 久久午夜福利电影| 教室别恋欧美无删减版| 国产一区二区三区毛片| 国产7777777| 欧美hd在线| 久久精品视频在线观看| 国产97免费视频| 女人天堂亚洲aⅴ在线观看| 欧美成人激情视频免费观看| 免费看特级毛片| 伊人青青综合网| 欧美日韩成人在线视频| 久热精品在线观看| 日韩视频免费| 欧美又大又硬又粗bbbbb| 国产成人精品片| 久久精品1区| 国产精品久久久久999| 在线观看国产成人| 国产伦精品一区二区三区视频青涩 | 秋霞影院一区| 亚洲成人国产精品| 人妻少妇一区二区| 欧美mv日韩| 欧美巨大黑人极品精男| 日韩熟女精品一区二区三区| 美女黄色成人网| 国产精品永久免费在线| 国产三级自拍视频| 不卡的av网站| 先锋影音亚洲资源| 在线观看电影av| 狠狠干狠狠久久| 国产精品自拍视频在线| 青草影视电视剧免费播放在线观看| 亚洲美女淫视频| 人妻少妇精品无码专区二区| 日日夜夜天天综合| 欧美一区二区在线免费播放| 这里只有精品在线观看视频| 欧美在线观看视频一区| 欧美成年人在线观看| 五月天婷婷激情| 久久99国产精品免费| 国精产品一区二区| 免费人成在线观看播放视频| 午夜久久久影院| 亚洲一区二区三区四区五区| 日韩高清在线免费观看| 日韩中文字幕在线播放| 国产成人精品a视频一区| 麻豆精品视频在线观看免费| 激情小说综合区| 国产在线二区| 色偷偷久久人人79超碰人人澡| 拔插拔插华人永久免费| 亚洲日产av中文字幕| 欧美成人亚洲成人| 国产精品自拍第一页| 波多野结衣亚洲一区| 在线不卡日本| 午夜精品久久久久久久久久蜜桃| 日韩欧美亚洲一区二区| 免费黄色在线网址| 国产精品久久久久久久免费软件 | 成人影视亚洲图片在线| 欧美极品少妇xxxxⅹ裸体艺术 | 日韩精品一区二区三区在线| 欧美日韩生活片| 国产精品一二| 国产高清自拍一区| 国产视频中文字幕在线观看| 在线亚洲免费视频| jizz日本免费| 精品1区2区3区4区| 亚洲一区二区三区777| av免费在线一区二区三区| 欧美日韩中文字幕综合视频| 久久久久亚洲AV成人网人人小说| 99九九热只有国产精品| 国产精品jvid在线观看蜜臀| 日本福利片在线| 午夜影视日本亚洲欧洲精品| 人妻少妇偷人精品久久久任期| 欧美大黑bbbbbbbbb在线| 国产成人综合一区二区三区| 天堂在线中文| 欧美日韩精品在线播放| 精品人妻一区二区三区日产| 影音先锋中文字幕一区| 福利视频一区二区三区| 香蕉成人app免费看片| 国产精品欧美一级免费| 热久久精品国产| 亚洲另类av| 青青久久av北条麻妃黑人| 三级黄视频在线观看| 岛国精品视频在线播放| 五级黄高潮片90分钟视频| 一本色道精品久久一区二区三区 | 国产mv久久久| 成人在线观看免费| 欧美亚洲一区二区在线| 任我爽在线视频| 国产在线国偷精品产拍免费yy| 三级网在线观看| 日本免费精品| 国内精品久久久久久| 亚州视频一区二区三区| 欧美性少妇18aaaa视频| 精品欧美一区二区久久久| 日本欧美在线观看| 宅男在线精品国产免费观看| 看亚洲a级一级毛片| 欧美国产日本高清在线| 三级网站在线看| 日韩欧美极品在线观看| 日本爱爱爱视频| 韩国三级电影一区二区| 成人手机在线播放| 欧美交a欧美精品喷水| 日韩av免费看网站| 色网站在线看| 精品久久99ma| 欧美日韩一级黄色片| 国产精品久99| 蜜桃视频无码区在线观看| 亚洲免费观看| 亚洲高清不卡一区| 97成人在线| 国产精品福利网站| 在线观看三级视频| 亚洲日本成人女熟在线观看| 91在线观看喷潮| 五月激情六月综合| 波多野结衣欲乱| 成人av在线资源网| 91制片厂毛片| 亚洲手机视频| 亚洲激情图片| 国产精品17p| 国产精品美女久久久久久免费| av网站网址在线观看| 亚洲美女视频网| 国产喷水吹潮视频www| 黑人精品xxx一区| 精品国产精品国产精品| 26uuu亚洲| 日本中文字幕精品| 蜜臀精品一区二区三区在线观看| 日韩久久久久久久久久久久| 国产在视频线精品视频www666| 91久久精品一区| 人人鲁人人莫人人爱精品| 欧美极品少妇xxxxⅹ裸体艺术| av色图一区| 亚洲欧美另类人妖| 亚洲免费成人网| 欧美精品亚洲一区二区在线播放| 久久久久久久久久久久久久av| 一区二区中文视频| 日韩在线免费观看av| 国产69精品久久99不卡| 欧美特黄aaa| 日韩精品一级中文字幕精品视频免费观看| 五月天激情图片| 日韩中文首页| 日韩性感在线| 日韩在线黄色| 国产日韩亚洲精品| 日韩三级av高清片| 国产欧美久久久久久| 性欧美1819sex性高清| 97香蕉超级碰碰久久免费软件 | 天堂av在线免费观看| 欧美刺激午夜性久久久久久久| 亚洲永久精品视频| 欧美撒尿777hd撒尿| www.色国产| 精品久久久久久久久久| 国产在线综合网| 亚洲精品成人少妇| 顶臀精品视频www| 国产精品国产精品国产专区不蜜| 欧美做受高潮6| 久久久不卡影院| 人人人妻人人澡人人爽欧美一区| 92国产精品观看| 亚洲主播在线播放| 久久久久久久久福利| 久久久精品国产免费观看同学| 亚洲色图14p| 2020国产精品自拍| 亚洲最大成人网站| 国产日产欧产精品推荐色 | 私拍精品福利视频在线一区| 国产在线精品一区二区三区| 成人自拍在线| 国产一区二区三区免费不卡| 国产精品乱战久久久| 国产伦精品一区| 私拍精品福利视频在线一区| 日本不卡久久| 青草国产精品| 中文字幕在线观看一区二区三区| 久久久久久久久丰满| 麻豆一区二区三区在线观看| 韩国亚洲精品| 大陆极品少妇内射aaaaa| 免费一区视频| 狠狠躁狠狠躁视频专区| 极品少妇一区二区三区精品视频| 欧美丝袜在线观看| 丁香六月综合激情| 亚洲欧美色图视频| 中文字幕免费一区| 久久精品一区二区三区四区五区| 一区二区三区四区不卡在线| 国产乡下妇女做爰| 一本大道综合伊人精品热热| 中文字幕乱码视频| 欧美一级爆毛片| 四虎影视精品成人| 中文在线不卡视频| 七七成人影院| 人人做人人澡人人爽欧美| 激情小说亚洲| 国产精品入口免费| 欧美日韩一区二区综合| 日本丰满少妇黄大片在线观看| 欧美在线亚洲综合一区| 青青青免费在线| 美女视频黄免费的久久| 熟女人妻一区二区三区免费看| 99精品视频一区二区| 国内精品卡一卡二卡三| 亚洲黄色录像片| 免费观看成人毛片| 91精品国产免费| 欧美zzoo| 欧美激情综合亚洲一二区| 免费高清视频在线一区| 成人午夜在线视频一区| 丝袜久久网站| 国产精品videossex国产高清| 久久精品一区二区国产| 毛片毛片毛片毛| 91免费国产在线| 欧美风情第一页| 色欧美乱欧美15图片| 亚洲乱码精品久久久久..| 在线观看不卡av| 日韩精品极品| 翡翠波斯猫1977年美国| 四季av在线一区二区三区| 草草久久久无码国产专区| 国产一区二区影院| 欧美丰满老妇熟乱xxxxyyy| 亚洲国产另类av| 国产精品久久久久久69| 亚洲片av在线| 97在线超碰| 亚洲free性xxxx护士白浆| 成人羞羞在线观看网站| 久久久久久久久久久久久国产精品| 国产成人精品三级麻豆| 亚洲区一区二区三| 欧美亚洲高清一区| 欧美日韩伦理片| 91成人在线播放| 波多野结衣在线一区二区| 国产精品一区在线免费观看| 美女视频网站黄色亚洲| аⅴ天堂中文在线网| 欧美午夜片欧美片在线观看| 欧美一区,二区| 欧美国产日韩精品| 欧美日本三级| 2021国产视频| 精品在线亚洲视频| 俄罗斯毛片基地| 欧美性大战久久| 成年人在线视频| 国产精品久久久久久久美男| 久久爱www成人| 日韩精品无码一区二区三区免费 | 国产极品视频在线观看| 在线精品视频一区二区| 精品无吗乱吗av国产爱色| 日本国产欧美一区二区三区| 最新精品国偷自产在线| 日韩精品一区二区三区色欲av| www.亚洲激情.com| 日本五十路女优| 日韩精品一区二区视频| 免费观看亚洲| 日韩欧美一区二区视频在线播放 | 黄色片免费在线观看| 成人午夜黄色影院| 欧美久久久久| 艳妇乳肉豪妇荡乳xxx| 午夜激情一区二区| 欧美日韩免费做爰大片| 国产精品视频一区国模私拍 | 黄色国产一级视频| 91小视频在线| 国产精品欧美综合| 中文字幕久热精品在线视频| 亚洲成人毛片| www.18av.com| 99久久精品情趣| 无码人妻精品一区二区三区蜜桃91| 国产亚洲精品激情久久| 国产精品诱惑| 97久久国产亚洲精品超碰热| youjizz久久| 欧美一级做a爰片免费视频| 久久精品国产v日韩v亚洲| av动漫精品一区二区| 日本在线观看a| 亚洲婷婷综合色高清在线| 午夜精品久久久久久久第一页按摩 | 涩涩涩在线视频| 亚洲高清视频一区二区| 国产精品亚洲视频| 日韩一区二区视频在线| 久久精品青青大伊人av| 女同另类激情重口| 亚洲 激情 在线| 亚洲国产综合色| 国产视频二区在线观看| 亚洲www在线| 亚洲一区自拍| 国产精品99久久久久久成人| 亚洲精品福利免费在线观看| 99久久er| 水蜜桃色314在线观看| 国产精品天天摸av网| 亚洲免费国产视频| 国产剧情日韩欧美| 日韩午夜精品| 国产激情无码一区二区三区| 日韩精品视频免费在线观看| 亚洲青青一区| 亚洲熟妇av一区二区三区 | 男人天堂2024| 欧美激情18p| 日韩黄色大片网站| 在线观看亚洲免费视频| 欧美日韩一区二区电影| 高清在线视频不卡|