精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

一次可輸入多張圖像,還能多輪對話!最新開源數據集,讓AI聊天更接近現實

發布于 2024-7-1 09:41
瀏覽
0收藏

大模型對話能更接近現實了!


不僅可以最多輸入20張圖像,還能支持多達27輪對話。可處理文本+圖像tokens最多18k。

這就是最新開源的超長多圖多輪對話理解數據集MMDU(Multi-Turn Multi-Image Dialog Understanding)。

一次可輸入多張圖像,還能多輪對話!最新開源數據集,讓AI聊天更接近現實-AI.x社區

大型視覺語言模型(LVLMs)的核心能力之一是生成自然且有意義的回答,從而能夠與人類進行流暢的圖文對話。


盡管目前開源的LVLMs在如單輪單圖輸入等簡化場景中展示出了不錯的潛力,但在具有長上下文長度,且需要多輪對話和多圖輸入的真實對話場景中,表現則相對不足。


此外,現有的LVLM Benchmarks主要采用單項選擇題或簡短回答的形式,難以全面評估LVLMs在真實世界人機互動應用中的表現。


為此,研究團隊在論文A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs中提出了全新多圖多輪評測基準MMDU及大規模指令微調數據集MMDU-45k,旨在評估和提升LVLMs在多輪及多圖像對話中的性能。


目前,該研究在HuggingFace的6月18日Daily Papers中位居榜首,VQA dataset trending榜排名Top3,得到了國內外的廣泛關注。

一次可輸入多張圖像,還能多輪對話!最新開源數據集,讓AI聊天更接近現實-AI.x社區

可縮小開閉源模型差距

MMDU基準測試具有以下優勢:


(1)多輪對話與多圖像輸入:MMDU基準測試最多包括20幅圖像和27輪問答對話,從而超越了先前的多種benchmark,并真實地復制了復現了現實世界中的聊天互動情景。

(2)長上下文:MMDU基準測試通過最多18k文本+圖像tokens,評估LVLMs處理和理解帶有長上下文歷史的情況下理解上下文信息的能力。

(3)開放式評估:MMDU擺脫傳統基準測試依賴的close-ended問題和短輸出(例如,多項選擇題或簡短的答案),采用了更貼合現實和精細評估的方法,通過自由形式的多輪輸出評估LVLM的性能,強調了評估結果的可擴展性和可解釋性。


在構建MMDU的過程中,研究者們從開源的維基百科中選取具有較高相關程度的圖像及文本信息,并在GPT-4o模型的輔助下,由人工標注員構建問題和答案對。


具體而言,研究者將wikipedia詞條通過聚類的方法進行合并,劃分為多個不同的類別,并在同一個類別中使用不同的詞條(包含圖文)進行組合。經過InternLM-Chat-20B清洗并去除無用信息之后,交給GPT-4o進行對話生成。生成的基于單詞條和多詞條的對話進行組合,從而構建具有長上下文的多圖多輪對話。


生成的對話以的格式標記圖像位置,使用者可以將不同的多圖多輪對話進一步組合,從而構建所需長度的對話。

一次可輸入多張圖像,還能多輪對話!最新開源數據集,讓AI聊天更接近現實-AI.x社區

△MMDU和MMDU-45k數據生成pipeline

MMDU Benchmark包含的問答最長擁有18k的圖像+文本tokens、20幅圖像及27輪對話,其規模是以往同類型benchmark的至少五倍,為當前的LVLMs提出了新的挑戰。MMDU-45k包含的最長對話數據擁有超17k的圖像+文本tokens。


45k的多輪對話共包含超過410k的問答,能夠顯著提升LVLMs在長上下文理解,多圖多輪對話等方面的能力。

一次可輸入多張圖像,還能多輪對話!最新開源數據集,讓AI聊天更接近現實-AI.x社區

受到利用強大的LLMs作為評判的NLP研究的啟發,MMDU的研究員們開發了一個使用GPT-4o進行模型性能評估的評估流程。


具體來說,模型在MMDU Benchmark上生成輸出后,GPT-4o將根據多個維度評估這些輸出結果,并將它們與參考答案進行比較。


為確保全面和細致的評估,MMDU確定了六個評估維度:創造力、豐富度、視覺感知、邏輯連貫性、答案準確性和圖像關系理解。為了引導GPT-4o提供平衡和公正的評估,每個維度都有精心制定的評估提示。


每個維度的評分范圍為10分,分為五個區間(0-2、2-4…8-10),每個區間都設定了相應的評判標準。GPT-4o遵循這些標準進行評判過程,并為每個維度提供最終分數。

一次可輸入多張圖像,還能多輪對話!最新開源數據集,讓AI聊天更接近現實-AI.x社區

MMDU的評估流程中,使用GPT-4o作為評判,根據參考答案給出總體分數。在每次評估中,GPT-4o將同時參考模型的答案和參考答案。它將為每個評估標準(用藍色表示)提供相應的分數(用綠色表示),并最終以淺橙色總結結果。


通過對15個具有代表性的開源和閉源LVLMs進行深入分析,研究人員發現開源LVLMs(如LLaVa)由于缺乏足夠的對話指令微調數據,相比閉源系統(如GPT-4V)存在較大差距。研究表明,通過對開源LVLMs在MMDU-45k數據集上進行finetune,則可以顯著縮小這一差距,finetune后的模型能夠生成更長、更精確的對話,同時對于圖文交錯的多圖理解能力有了顯著的提升。

一次可輸入多張圖像,還能多輪對話!最新開源數據集,讓AI聊天更接近現實-AI.x社區

△評估不同LVLMs在MMDU上的表現

團隊報告了以下指標:創造力(C)、豐富度(R)、視覺感知(VP)、邏輯連貫性(LC)、答案準確性(AA)、圖像關系理解(IRU),以及平均(Avg.)結果。


此外,經過MMDU-45k微調之后的模型,在現有基準測試上表現也有所提升(MMStar: +1.1%,MathVista: +1.5%,ChartQA: +1.2%)。這一結果說明,MMDU-45k能夠在各種圖像文本相關的任務上提升LVLMs的能力。

一次可輸入多張圖像,還能多輪對話!最新開源數據集,讓AI聊天更接近現實-AI.x社區

△在LVLM監督微調(SFT)階段添加MMDU-45k數據的優勢。

表中報告了LLaVa和InternLM-XC2在MMDU和現有的代表性基準測試上的表現,包括M?MB(MMBench-Dev-EN)、MMMU(MMMU-Val)、MMStar 、MathVista、AI2D、HallBench(HallusionBench)、MMVet 以及ChartQA。每個部分中的最佳和次佳結果分別用綠色和紅色標記。


在多圖多輪問答及普通單圖問答情境下,經過MMDU-45k微調的模型都有顯著的性能提升。這一性能提升首先表現在對圖像內容的識別上,相比微調前的LVLMs,微調之后的模型能夠更加準確的同時理解多張圖像的主要內容,圖像的順序,以及圖像之間的關系。此外,微調之后的模型能夠生成更為詳實和豐富的輸出,并能夠輕松應對具有超長上下文長度的圖文對話情景。

一次可輸入多張圖像,還能多輪對話!最新開源數據集,讓AI聊天更接近現實-AI.x社區

InternLM-Xcomposer2在MMDU-45k數據集上finetune前后的表現。錯誤或幻覺描述在展示中用紅色標記,詳細且準確的描述則用綠色標記。


本文轉自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/bFKBvKNEYYu_yNqPGH0ZwA??

收藏
回復
舉報
回復
相關推薦
国产精品巨作av| xvideos国产在线视频| 久久裸体视频| 色婷婷综合成人| 久久久久99人妻一区二区三区| 99在线视频影院| 久久精品亚洲精品国产欧美| 成人免费网站在线观看| 国产精品黄色网| 青青草国产免费一区二区下载| 欧美变态口味重另类| 日日碰狠狠丁香久燥| av电影免费在线观看| 久久久久久久久久久久久夜| 444亚洲人体| 日韩精品一区二区亚洲av| 亚洲精品电影| 亚洲美女免费精品视频在线观看| 做a视频在线观看| 日本蜜桃在线观看视频| 亚洲日本va在线观看| 久久精彩视频| www.激情五月.com| 美女视频一区二区| 日本中文字幕久久看| 国产一级做a爱免费视频| 欧美丝袜激情| 国产视频精品免费播放| 日本xxxx免费| 日韩午夜电影免费看| 色哟哟亚洲精品| 9久久9毛片又大又硬又粗| 伊人影院在线视频| 中文字幕色av一区二区三区| 蜜桃av噜噜一区二区三| 理论片中文字幕| 国产福利一区在线观看| 成人黄色av网站| 国产午夜麻豆影院在线观看| 亚洲深夜福利| 91国在线精品国内播放| 久久久久成人网站| 国产精品久久| 久久最新资源网| 三级黄色录像视频| 欧美国产偷国产精品三区| 亚洲人成在线免费观看| 欧美狂猛xxxxx乱大交3| 亚洲婷婷丁香| 亚洲欧美变态国产另类| www在线观看免费视频| 免费成人网www| 亚洲美女av黄| 欧美日韩高清丝袜| 狠狠综合久久av一区二区蜜桃| 亚洲免费精彩视频| 国产精品815.cc红桃| 国产免费久久| 色综久久综合桃花网| 国产中文字幕久久| 91精品天堂福利在线观看| 久久精品国产精品| 日韩欧美综合视频| 国产精品mv在线观看| 欧美黑人巨大xxx极品| 国产一级片免费| 国产精品视区| 国产精品久久久久久超碰| 中文字幕一区二区三区人妻四季| 精品一区二区三区免费| 91精品视频一区| www.国产三级| 91麻豆高清视频| 日本公妇乱淫免费视频一区三区| wwwxxx在线观看| 国产精品白丝在线| 99在线观看视频免费| 鲁鲁在线中文| 欧美怡红院视频| 国产一区二区在线免费播放| 伊人久久大香线蕉综合影院首页| 91精品国产综合久久小美女| 欧美日韩亚洲另类| 国产九色精品| 色就是色亚洲色图| 91一区在线观看| 视频一区不卡| 亚洲区欧洲区| 狠狠躁夜夜躁人人爽超碰91| 五月天亚洲视频| 综合中文字幕| 亚洲小视频在线| 久久99久久久| 玖玖玖国产精品| 亚洲free性xxxx护士hd| 色视频免费在线观看| 中文字幕亚洲综合久久菠萝蜜| 亚洲激情免费视频| 老司机2019福利精品视频导航| 欧美久久久久免费| 老熟妇精品一区二区三区| 日韩在线观看电影完整版高清免费悬疑悬疑 | 成人精品国产亚洲| 精品乱人伦小说| 美国美女黄色片| 亚洲韩日在线| 91青草视频久久| 国产三级在线免费| 亚洲国产精品麻豆| 在线观看免费污视频| 欧美午夜寂寞| 色综合久综合久久综合久鬼88| 精品一区二区无码| 91亚洲精品久久久蜜桃网站| 在线观看18视频网站| 亚洲日本在线观看视频| 亚洲精品久久7777777| 农村黄色一级片| 免费日本视频一区| 欧美伦理一区二区| 91超碰免费在线| 欧美一区二区成人| а天堂中文在线资源| 久久午夜视频| 久久精品一二三区| heyzo在线播放| 日韩欧美另类在线| 农村妇女精品一区二区| 久久se这里有精品| 日韩一二三区不卡在线视频| 蜜桃视频在线观看播放| 精品国产sm最大网站免费看| 艳妇荡乳欲伦69影片| 美国一区二区三区在线播放| 欧美性天天影院| 澳门成人av网| 亚洲精品视频免费| 中文字幕在线观看视频网站| 成人av资源站| 黄色成人在线看| 国偷自产av一区二区三区| 欧美第一淫aaasss性| 91麻豆成人精品国产| 国产精品久久久一本精品| 亚洲精品乱码久久久久久自慰| 欧美激情15p| 69视频在线播放| 亚洲 国产 欧美 日韩| 精品国产乱码久久久久久天美 | 亚洲91精品在线| 免费观看a视频| 亚洲第一福利视频在线| www国产视频| 国产精品综合| 区一区二区三区中文字幕| 波多野结衣亚洲| 亚洲日本中文字幕免费在线不卡| 天天操夜夜操视频| 国产网红主播福利一区二区| 簧片在线免费看| 欧美oldwomenvideos| 亚洲va欧美va在线观看| 在线观看a级片| 亚洲第一视频在线观看| 亚洲国产成人精品女人久久| 国产精品欧美久久久久一区二区| www.污污视频| 午夜视频一区| 久久99久久精品国产| 欧美一区国产| 久久久精品久久久| 国 产 黄 色 大 片| 欧美丝袜第一区| 亚洲色图100p| 播五月开心婷婷综合| 国产亚洲天堂网| 四虎成人精品永久免费av九九| 91热福利电影| 国产伦久视频在线观看| 亚洲午夜精品视频| 国产女主播福利| 精品国产乱码久久久久久天美| 中文字幕人妻一区二区三区在线视频| 久久99深爱久久99精品| 91免费黄视频| 久久视频在线| 国产精品久久九九| 亚洲不卡系列| 久久久久国产精品一区| 风间由美一区| 精品国产91乱码一区二区三区| 日本免费精品视频| 亚洲一区二区三区四区在线观看 | 色先锋aa成人| 久草网站在线观看| 久久精品无码一区二区三区| 91视频免费入口| 日韩av电影天堂| 隔壁人妻偷人bd中字| 青青草成人影院| 精品久久蜜桃| 国产在线一区不卡| 国产精品jizz在线观看麻豆| 欧美理论电影| www国产亚洲精品久久网站| 色网站免费观看| 欧美久久久久久久久久| 69成人免费视频| 一二三四社区欧美黄| 国产精品美女高潮无套| av电影天堂一区二区在线| 精品亚洲视频在线| 日本欧美韩国一区三区| 国产精品一区二区免费在线观看| 91精品秘密在线观看| 日韩国产伦理| 婷婷精品在线| 国产日韩三区| 一区二区三区视频播放| 成人黄色免费网站在线观看| 欧美影视资讯| 国产精品99久久久久久人| 日本不良网站在线观看| 韩剧1988免费观看全集| 精品国产99久久久久久| 中文字幕精品久久| 浮生影视网在线观看免费| 亚洲欧美国内爽妇网| 色婷婷av一区二区三| 日韩精品在线一区二区| 国产深喉视频一区二区| 欧美丰满少妇xxxxx高潮对白 | 久久99精品国产麻豆婷婷洗澡| 成人三级视频在线播放| 亚洲自拍另类| 欧美在线观看www| 99国产精品视频免费观看一公开| 无码av天堂一区二区三区| 欧美片第1页综合| 国产一区二区四区| 999在线观看精品免费不卡网站| 欧美这里只有精品| 亚洲人成免费| 国产视频九色蝌蚪| 嫩草成人www欧美| 国产精品69页| 免费精品视频在线| 欧美视频国产视频| 国产91在线观看丝袜| 人妻激情偷乱频一区二区三区| 成人深夜在线观看| 波多野结衣视频播放| 91色综合久久久久婷婷| 丝袜美腿中文字幕| 国产网站一区二区| 亚洲综合图片一区| 亚洲日本护士毛茸茸| 免费毛片在线播放免费| 亚洲1区2区3区4区| 亚洲欧美另类在线视频| 欧美色图天堂网| 国产剧情精品在线| 精品国产精品网麻豆系列| 天天色天天操天天射| 国产一区二区三区免费视频| 欧洲美女少妇精品| 欧美黄色三级网站| 少妇一区视频| 成人激情视频网| 国产+成+人+亚洲欧洲在线| 久久艹中文字幕| 欧美一区二区三区激情视频 | 1024在线播放| 性欧美暴力猛交69hd| 户外露出一区二区三区| 91免费精品国偷自产在线| 国产精品国产| 神马影院我不卡| 国内一区二区三区| 久久人妻精品白浆国产| 国内久久婷婷综合| av黄色一级片| 国产精品卡一卡二| 黄色片视频网站| 欧美三级乱人伦电影| 乱色精品无码一区二区国产盗| 亚洲欧美国产一区二区三区| 成人影欧美片| 国产精品69久久| 一区二区视频| 亚洲7777| 中日韩视频在线观看| 手机av在线免费| 97aⅴ精品视频一二三区| 午夜爱爱毛片xxxx视频免费看| 欧美视频第一页| 亚洲黄色在线免费观看| 最近更新的2019中文字幕| av日韩国产| 91麻豆国产精品| 少妇精品久久久一区二区| 国产青草视频在线观看| 免费观看在线色综合| 亚洲国产果冻传媒av在线观看| 亚洲视频在线一区| 日批视频免费观看| 亚洲激情自拍图| 超碰在线无需免费| 国产精品久久久久久久久久东京 | 伊人久久一区| 秋霞在线观看一区二区三区| 亚洲高清电影| 无人码人妻一区二区三区免费| 国产午夜精品理论片a级大结局| 久久久久无码精品国产| 欧美美女直播网站| 高清毛片在线看| 亲子乱一区二区三区电影| 999国产精品一区| 国产日本欧美在线| 美腿丝袜亚洲一区| 少妇一级黄色片| 色综合久久久久综合体| 污污网站免费在线观看| 久久久久成人网| 88久久精品| 国产又粗又猛又爽又黄的网站| 久久国产夜色精品鲁鲁99| 蜜桃av乱码一区二区三区| 欧美性色xo影院| 天堂中文在线资源| 992tv成人免费影院| 精品女人视频| 久久久亚洲精品无码| 成人a区在线观看| 日本三级中文字幕| 精品国产91九色蝌蚪| wwww亚洲| 国产日韩欧美综合精品| 亚洲精选91| 手机av免费看| 色综合久久久久久久久久久| 日本韩国一区| 国产成人一区二区三区| 国产精品手机在线播放| 538在线视频观看| 国产精品无遮挡| 一级特黄色大片| 不卡av在线网站| 99ri日韩精品视频| 欧美一级欧美一级| 91老师国产黑色丝袜在线| 国产农村妇女aaaaa视频| 亚洲人成在线播放| 久久精品国产福利| 热久久最新网址| 成人h动漫精品一区二区 | 欧美日韩精品一二三区| 日本不卡视频| 亚洲综合色av| 一区二区高清| 极品人妻videosss人妻| 欧美男生操女生| caopen在线视频| 国产一区二区在线观看免费播放| 国产亚洲精品久久久久婷婷瑜伽| av小说在线观看| 欧美日韩国产美| 欧美亚洲系列| 欧洲亚洲一区二区三区四区五区| 美女性感视频久久| 免费在线一级片| 亚洲欧洲日产国产网站| 欧洲午夜精品| 精品久久久久久无码中文野结衣| 91一区在线观看| 国产欧美第一页| 国产91|九色| 国产精品久久久久无码av| 在线精品视频播放| 91成人看片片| 麻豆福利在线观看| 欧美视频小说| 福利一区二区在线| 337p粉嫩色噜噜噜大肥臀| 欧美大成色www永久网站婷| 日韩欧美影院| 丰满少妇中文字幕| 色一区在线观看| 亚洲第一图区| 日本午夜精品一区二区三区| 国产成人一级电影| 激情五月婷婷网| 欧美精品一区二区免费| 国产尤物久久久| 中国xxxx性xxxx产国| 欧美日韩精品一区二区在线播放| 欧美激情网站| 男人草女人视频| 欧美国产精品一区|