精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4o弱點(diǎn)暴露了,PDF長(zhǎng)文檔閱讀理解僅45分

人工智能 新聞
為了評(píng)測(cè)多模態(tài)大模型在PDF長(zhǎng)文檔上的閱讀理解能力,由上海AI Lab領(lǐng)銜提出的MMLongBench-Doc評(píng)估基準(zhǔn)測(cè)試了14個(gè)LVLMs(視覺(jué)語(yǔ)言大模型)。

圖文并茂的PDF長(zhǎng)文檔在日常生活中無(wú)處不在。過(guò)去人們通常使用OCR,layout detection等方法對(duì)PDF長(zhǎng)文檔進(jìn)行解析。但隨著多模態(tài)大模型的發(fā)展,PDF長(zhǎng)文檔的端到端閱讀理解成為了可能。

為了評(píng)測(cè)多模態(tài)大模型在PDF長(zhǎng)文檔上的閱讀理解能力,由上海AI Lab領(lǐng)銜提出的MMLongBench-Doc評(píng)估基準(zhǔn)測(cè)試了14個(gè)LVLMs(視覺(jué)語(yǔ)言大模型)。

評(píng)估結(jié)果表明:表現(xiàn)最好的GPT-4o在整體F1分?jǐn)?shù)上也只達(dá)到了 44.9%。

GPT-4V排名第二,得分30.5%。

除了這兩個(gè)模型,其他被評(píng)測(cè)LVLMs的表現(xiàn)更是要弱于OCR+LLMs形式。

圖片

這些結(jié)果表明,目前的LVLMs在端到端PDF長(zhǎng)文檔閱讀任務(wù)上雖然表現(xiàn)出了一定的潛力,但仍然還有很大的提升空間。

135個(gè)PDF、1091個(gè)問(wèn)題

LVLMs的出現(xiàn)有效促進(jìn)了文檔理解任務(wù)的解決。針對(duì)單頁(yè)文檔,常見(jiàn)的閉源和開(kāi)源模型都展示出了相當(dāng)不錯(cuò)的表現(xiàn)(DocVQA > 90%;ChartQA > 80%)。然而,日常生活中閱讀的文檔,如論文、財(cái)報(bào)、宣傳資料,往往有更多的頁(yè)數(shù),許多文檔長(zhǎng)度可以達(dá)到數(shù)十頁(yè)甚至上百頁(yè)。面對(duì)長(zhǎng)文檔,無(wú)論是單頁(yè)信息的查詢還是跨頁(yè)信息的理解都極具挑戰(zhàn)性,因此對(duì)LVLMs的能力提出了更高的要求。

因此研究團(tuán)隊(duì)提出了《MMLONGBENCH-DOC: Benchmarking Long-context Document Understanding with Visualizations》,以進(jìn)一步評(píng)估LVLMs在超長(zhǎng)文檔解析方面的能力。

圖片

MMLongBench-Doc的數(shù)據(jù)統(tǒng)計(jì)量、文檔格式和問(wèn)題類型示例如圖1所示。

與之前的文檔理解數(shù)據(jù)集相比,MMLongBench-Doc在文檔側(cè)和問(wèn)題側(cè)都具有顯著優(yōu)勢(shì):

圖片

△MMLongBench-Doc的數(shù)據(jù)統(tǒng)計(jì)量

文檔側(cè):研究團(tuán)隊(duì)手動(dòng)選取了135篇PDF格式的文檔,涵蓋學(xué)術(shù)論文、財(cái)務(wù)報(bào)告、教程、宣傳手冊(cè)等7個(gè)不同領(lǐng)域。絕大多數(shù)文檔都具有復(fù)雜的版式結(jié)構(gòu),并且包含多種模態(tài)(文字、表格、圖片等)的內(nèi)容。文檔的平均長(zhǎng)度為47.5頁(yè),文本信息超過(guò)兩萬(wàn)個(gè)單詞,篇幅和信息量遠(yuǎn)遠(yuǎn)超過(guò)其他數(shù)據(jù)集中的文檔。

圖片

△文檔的分布(左)。文檔的頁(yè)數(shù)與字符數(shù)統(tǒng)計(jì)(右;包含和之前數(shù)據(jù)集的比較)

問(wèn)題側(cè):由10名phd-level的標(biāo)注者人工標(biāo)注了1091個(gè)問(wèn)題:

這些問(wèn)題可以分為三類:single-page、cross-page和unanswerable。

Single-page question:44.5%的問(wèn)題是針對(duì)某一頁(yè)內(nèi)容設(shè)計(jì)的,重點(diǎn)考察大模型從長(zhǎng)文本中查找信息的能力(類似于大海撈針);

Cross-page question: 33%的問(wèn)題需要綜合兩頁(yè)甚至更多頁(yè)內(nèi)容的信息來(lái)回答,重點(diǎn)考察大模型面對(duì)多跳問(wèn)題的綜合推理能力;

Unanswerable question: 為了防止模型利用文檔中的捷徑回答問(wèn)題,22.5%的問(wèn)題被設(shè)計(jì)為沒(méi)有答案,即無(wú)法根據(jù)文檔中提供的信息進(jìn)行回答。

這些問(wèn)題均勻分布在文檔的不同位置(page index)和不同模態(tài)(分為text, layout, table, chart, image五種)的內(nèi)容中。

圖片

△問(wèn)題均勻分布在文章的不同位置

其他被評(píng)測(cè)LVLMs整體表現(xiàn)弱于OCR+LLMs

研究評(píng)測(cè)了14個(gè)LVLMs(4個(gè)閉源模型,10個(gè)開(kāi)源模型)在MMLongBench-Doc上的表現(xiàn)。

通過(guò)給定一篇文檔和一個(gè)基于該文檔的問(wèn)題,研究人員將PDF格式的文檔轉(zhuǎn)化成多張PNG格式的頁(yè)面截圖,并將這些截圖輸入給LVLMs。作為比較,還使用OCR工具將PDF文檔轉(zhuǎn)化為T(mén)XT文本,并使用這些TXT文本評(píng)測(cè)了10個(gè)LLMs的表現(xiàn)。評(píng)測(cè)的具體結(jié)果如下所示。

圖片

△LVLMs與LLMs在MMLongBench-Doc上的實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)發(fā)現(xiàn):

GPT-4o在所有LVLMs中表現(xiàn)最佳,F(xiàn)1分?jǐn)?shù)達(dá)到了約45%;排名第二的GPT-4V的F1分?jǐn)?shù)則為約31%。其余LVLMs的表現(xiàn)則在20%左右甚至更低。這說(shuō)明,目前的LVLMs尚不足以勝任端到端的長(zhǎng)文檔閱讀理解。

通過(guò)對(duì)比LVLMs和OCR+LLMs的表現(xiàn)。盡管OCR解析會(huì)對(duì)PDF文本帶來(lái)?yè)p耗(尤其是對(duì)圖表類信息),除了GPT-4o和GPT-4V這兩個(gè)模型外,其他被評(píng)測(cè)的LVLMs整體表現(xiàn)弱于OCR+LLMs。這進(jìn)一步說(shuō)明目前的LVLMs在長(zhǎng)文檔閱讀理解上還有很大的潛力。

圖片
△LVLMs與LLMs的實(shí)驗(yàn)結(jié)果對(duì)比

對(duì)于能力更強(qiáng)的LVLM模型,比如GPT-4o,其直接讀取PDF圖片的表現(xiàn)則優(yōu)于其讀取OCR版本的文檔,這說(shuō)明了多模態(tài)大語(yǔ)言模型在端到端的長(zhǎng)文檔閱讀理解任務(wù)上具有更高的上限。

此外,研究團(tuán)隊(duì)還對(duì)六個(gè)不同模型進(jìn)行了定性分析。

如下圖所示,這個(gè)問(wèn)題來(lái)自于一個(gè)40頁(yè)長(zhǎng)的文檔,需要綜合第9,10頁(yè)中的兩個(gè)表格和第16頁(yè)中的一個(gè)圖表進(jìn)行多步推理才能夠回答。

可以看到除了GPT-4o回答正確外,GPT-4V也給出了正確的分析思路(但因?yàn)樵诔槿〉?0頁(yè)的信息時(shí)出錯(cuò)導(dǎo)致最終的答案不正確),而其他模型的回答則明顯存在很大的問(wèn)題。

圖片
△案例分析

更多定量和定性的分析討論可閱讀論文原文。

論文地址:https://arxiv.org/pdf/2407.01523
項(xiàng)目頁(yè):https://mayubo2333.github.io/MMLongBench-Doc/
數(shù)據(jù)集:https://huggingface.co/datasets/yubo2333/MMLongBench-Doc
GitHub:https://github.com/mayubo2333/MMLongBench-Doc

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-01-02 11:01:45

2023-05-06 12:17:44

GPT-4自然語(yǔ)言人類語(yǔ)言

2024-06-28 18:13:05

2024-05-21 12:23:17

2024-06-05 08:29:35

2025-05-26 08:33:00

2024-11-28 15:51:19

GPT-4o微軟

2025-04-01 09:25:00

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2025-04-15 08:01:12

2024-05-24 14:04:04

2025-04-08 02:26:00

2025-06-04 13:53:22

代碼模型AI

2025-08-11 08:42:00

GPT-5AI模型

2025-05-26 09:05:00

2024-06-21 09:51:17

2024-05-14 08:23:27

GPT-4oAI技術(shù)

2025-08-07 14:05:40

OpenAI大模型開(kāi)源

2024-06-27 12:45:30

2024-05-17 09:35:55

GPT-4o模型OpenAI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

午夜激情福利网| 黄色高清无遮挡| 国产三级午夜理伦三级| 欧美日韩国产亚洲一区| 亚洲高清久久久久久| 熟妇人妻va精品中文字幕| 免费在线视频欧美| va亚洲va日韩不卡在线观看| 国产精品久久久一区| 乱h高h女3p含苞待放| 伊人久久大香线蕉综合网蜜芽| 欧美中文一区二区三区| 久久艹国产精品| 在线观看免费版| 成人性生交大片免费看视频在线| 国产精品ⅴa在线观看h| 激情综合网五月天| 日韩88av| 亚洲乱亚洲乱妇无码| 丰满少妇中文字幕| 国产精成人品2018| 欧美视频在线看| 国风产精品一区二区| 欧美另类自拍| 不卡一二三区首页| 成人情趣片在线观看免费| 欧美brazzers| 国产农村妇女精品一二区| 久久国产精品99国产精| 亚洲第一综合网| 欧美18xxxx| 欧美电影精品一区二区| 99热一区二区| 欧洲亚洲两性| 天天操天天色综合| 欧美中文字幕在线观看视频| 免费成人黄色| 中文字幕精品一区二区三区精品| 久久青青草原| 日本免费网站在线观看| 国产精品99精品久久免费| 国产日韩在线精品av| 最近中文字幕在线免费观看 | 国产成人一区在线| 国产精品一区二区女厕厕| 国产又大又黄又粗| 免费亚洲一区| 热99精品里视频精品| 日本中文字幕免费观看| 欧美日韩一区二区三区四区在线观看| 日韩三级影视基地| 国产精品视频看看| 色综合色综合| www.国产一区| 成熟的女同志hd| 日韩电影在线视频| 国产一区二区av| 色欲狠狠躁天天躁无码中文字幕| 激情婷婷综合| 一个色综合导航| 国产午夜福利一区| 欧美成人直播| 欧美成人免费大片| 美女视频黄免费| 精品91视频| 欧美性受xxxx黑人猛交| 免费黄色片视频| 美女性感视频久久| 92看片淫黄大片看国产片| 国产成人精品a视频| 国产二区国产一区在线观看| 国产精品二区二区三区| 亚州男人的天堂| 国产日韩欧美麻豆| 一区二区在线观| 中文字幕有码在线视频| 亚洲国产日产av| 国产成人精品无码播放| 欧美黄色成人| 欧美成人精品二区三区99精品| 毛茸茸free性熟hd| 狠狠色丁香婷婷综合影院| 日韩一区在线视频| 久久久国产精品人人片| 欧美亚洲网站| 91九色视频导航| 欧美特黄一级视频| 日本一区二区三区在线观看| 国产免费一区二区三区四在线播放| 四虎影院观看视频在线观看 | 中文字幕视频二区| 国内精品在线播放| 精品国产乱码久久久久久丨区2区| 你懂得网站在线| 亚洲精品自拍动漫在线| 国产美女三级视频| 精品国产亚洲一区二区在线观看| 亚洲第一偷拍网| 成人18视频免费69| 99国产一区| 成人免费网视频| 日韩欧美亚洲系列| 亚洲精品日韩专区silk| 国产日产欧美视频| 深夜福利一区| 一区二区欧美日韩视频| 激情综合网五月婷婷| 美女在线视频一区| 欧美成人在线免费观看| 羞羞视频在线观看免费| 欧美性色aⅴ视频一区日韩精品| 伊人成人免费视频| 精品产国自在拍| 91精品国产91久久久久久久久| 88av在线视频| 26uuu精品一区二区三区四区在线| a级网站在线观看| 伊人久久高清| 亚洲高清久久久久久| 激情无码人妻又粗又大| 久久高清免费观看| 国产精品一区二区三区在线| 久久精品视频免费看| 色呦呦日韩精品| 中文视频在线观看| 欧美在线亚洲综合一区| 国产日韩在线视频| 国产黄在线看| 色乱码一区二区三区88| av黄色一级片| 激情国产一区| aaa级精品久久久国产片| 蜜桃视频在线观看免费视频网站www| 日韩欧美国产网站| 91黄色免费视频| 海角社区69精品视频| 成人羞羞国产免费| 色的视频在线免费看| 在线日韩av片| 国产欧美小视频| 日韩精品欧美成人高清一区二区| 欧美日韩国产免费一区二区三区 | 亚洲大全视频| 91精品美女在线| 日韩精品毛片| 欧美日韩成人综合| 手机免费观看av| 日本午夜精品一区二区三区电影 | 国产在线播放91| 91xxx在线观看| 欧美日韩一区二区三区视频| 日本一卡二卡在线播放| 免费高清在线视频一区·| 四虎一区二区| 欧洲一级精品| 日韩在线免费av| 夜夜爽8888| 亚洲免费在线播放| 91传媒理伦片在线观看| 亚洲精品美女| 欧洲精品久久| 欧美91在线|欧美| 日韩有码在线观看| 精品久久人妻av中文字幕| 一区二区三区在线视频播放| 精品久久久久久无码人妻| 亚洲黄色av| 久久国产精品-国产精品| 日韩成人高清| 久久人人爽人人爽爽久久| 精品久久久无码中文字幕| 亚洲成人资源网| 日本性高潮视频| 九九视频精品免费| 国产一级大片免费看| 国内自拍欧美| 国产精品伦子伦免费视频| 精品国产丝袜高跟鞋| 亚洲国产精品网站| 中文字幕永久在线| 亚洲精品美腿丝袜| 给我看免费高清在线观看| 日本系列欧美系列| 黄色三级中文字幕| 成人看的羞羞网站| 91丝袜脚交足在线播放| 中文av在线全新| 久久精品国产v日韩v亚洲| 丰满人妻av一区二区三区| 一本色道**综合亚洲精品蜜桃冫| 99热99这里只有精品| 成人黄色av电影| 老司机午夜性大片| 一区二区三区高清视频在线观看| 亚洲精品在线视频观看| 91麻豆精品国产91久久久久推荐资源| 日本成人激情视频| 自由的xxxx在线视频| 国产性猛交xxxx免费看久久| 精品人妻一区二区三区四区不卡 | 日本伊人精品一区二区三区介绍| 天天影视久久综合| 国产视频在线观看一区二区| 国产普通话bbwbbwbbw| 欧美性猛交xxxx免费看漫画| 欧美卡一卡二卡三| 中文字幕欧美三区| 日b视频在线观看| 国精产品一区一区三区mba桃花| 精品视频免费在线播放| 亚洲第一天堂| 色女人综合av| 色狼人综合干| 国产99午夜精品一区二区三区| 123成人网| 97成人超碰免| 欧美性爽视频| 精品国产欧美成人夜夜嗨| 久久久久久女乱国产| 亚洲成人黄色在线观看| 97超碰资源站| 欧美在线免费观看亚洲| 久久久久久久极品| 亚洲综合av网| 欧美成人三级视频| 中文字幕五月欧美| 五月婷婷欧美激情| 国产日韩欧美麻豆| 欧美做受xxxxxⅹ性视频| 粉嫩av一区二区三区在线播放 | 成人小视频免费观看| 国产免费中文字幕| 奇米在线7777在线精品| chinese少妇国语对白| 亚洲欧美日本日韩| 免费无码毛片一区二三区| 好吊日精品视频| 成年在线观看视频| 亚洲91久久| 免费看啪啪网站| 99久久久久国产精品| 一区二区三区的久久的视频| 人人狠狠综合久久亚洲婷婷| 日韩精品久久久| 精品一区二区三区的国产在线观看| 蜜桃精品久久久久久久免费影院| 欧美日韩精品一区二区三区在线观看| 国产日韩久久| 欧美天堂社区| 欧美一区1区三区3区公司 | 400部精品国偷自产在线观看| 欧美激情偷拍自拍| 在线免费观看成人| 久久久久久久久久久久久久久久久久 | 国产不卡av一区二区| 久久综合给合久久狠狠色| 日本亚洲不卡| 视频一区二区在线观看| 成人情趣视频| 国产精品无码乱伦| 牛牛国产精品| 少妇av一区二区三区无码| 亚洲一区不卡| 国产原创精品在线| 黄页视频在线91| 亚洲美女高潮久久久| 99久久婷婷国产综合精品电影 | 欧美视频网址| 一级特黄录像免费播放全99| 欧美激情aⅴ一区二区三区| 亚洲国产精品无码av| 国产亚洲成人一区| 超碰在线97免费| 极品美女销魂一区二区三区 | 欧美劲爆第一页| 免费毛片b在线观看| 国产精品久久久久久久电影| www.久久爱.com| 精品国产乱码久久久久久蜜柚| 国产一区二区三区四区五区| 精品一区二区成人免费视频| 狠久久av成人天堂| 午夜激情在线观看视频| 国产剧情在线观看一区二区| 亚洲精品视频大全| 国产精品麻豆网站| 五月天婷婷丁香| 欧美中文字幕不卡| 日韩一级片免费在线观看| 夜夜嗨av一区二区三区免费区| 18av在线播放| 日本在线观看天堂男亚洲| 精品中文字幕一区二区三区四区| 精品无码久久久久久久动漫| 国产精品国产一区| 91视频最新入口| 国产又黄又大久久| 高潮毛片无遮挡| 夜夜亚洲天天久久| 日韩xxx视频| 亚洲国产黄色片| 久久综合网导航| 热99久久精品| 农村少妇一区二区三区四区五区| 国产日韩视频在线播放| 校园春色综合网| 亚洲性图第一页| 国产精品嫩草影院av蜜臀| 中日韩黄色大片| 欧美一区二区三区不卡| 国产精品ⅴa有声小说| 97国产精品视频| 午夜久久av| 在线免费观看成人网| 老司机久久99久久精品播放免费| 国产免费a级片| 亚洲色图在线看| 一区二区三区精彩视频| 亚洲欧美制服丝袜| 狼人综合视频| 国产精品一国产精品最新章节| 欧美在线首页| 日韩精品视频网址| 国产精品青草综合久久久久99| 香蕉影院在线观看| 亚洲第一精品夜夜躁人人爽| 中文字幕中文字幕在线中高清免费版 | 久久这里只有精品18| 国产在线乱码一区二区三区| 夫妇露脸对白88av| 色综合久久66| 日本成人一区| 欧美一区二区视频97| 欧美男人操女人视频| 天天夜碰日日摸日日澡性色av| 福利一区在线观看| 特级片在线观看| 日韩女同互慰一区二区| av免费在线免费| 91pron在线| 亚洲电影在线一区二区三区| 五月激情婷婷在线| 国产精品久久精品日日| 曰批又黄又爽免费视频| 中文字幕亚洲精品| 国产亚洲欧美日韩精品一区二区三区 | 久久久久国产精品无码免费看| 亚洲一区在线观看免费 | 成人午夜碰碰视频| 国产精品第九页| 亚洲国产97在线精品一区| f2c人成在线观看免费视频| 国产美女99p| 香蕉久久国产| 日本午夜精品视频| 欧美高清一级片在线| 日韩少妇视频| 国产伦精品一区二区三区照片| 亚洲人成久久| 美女100%无挡| 欧美女孩性生活视频| av网站免费在线观看| 国产三区二区一区久久| 午夜在线视频观看日韩17c| 男女做爰猛烈刺激| 欧美挠脚心视频网站| 亚洲精品白浆| 精品999在线观看| 日韩高清不卡一区二区三区| 日韩成人短视频| 亚洲国产小视频| 日韩一区二区三区免费视频| 亚洲第一综合网站| 成人a区在线观看| 免费污污视频在线观看| xxxx性欧美| 欧美有码在线| 欧美女同在线观看| 亚洲国产另类av| 国产对白叫床清晰在线播放| 亚洲va久久久噜噜噜| 亚洲最黄网站| 国产成人在线网址| 亚洲国产日韩精品在线| 国产经典一区| avav在线播放| 日本一区二区三区视频视频| 精品久久国产视频| 国产精品av电影| 国产伊人精品| 国产精品国产三级国产专业不| 日韩亚洲欧美一区二区三区| 韩漫成人漫画| 日本a级片在线播放| 国产欧美日韩卡一| 男人天堂av网| 国产日韩欧美91| 亚洲一区二区网站| 亚洲av鲁丝一区二区三区| 亚洲欧美色婷婷|