精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

讓GPT-4o準(zhǔn)確率大降,這個(gè)文檔理解新基準(zhǔn)揭秘大模型短板

人工智能 新聞
字節(jié)跳動(dòng) OCR 團(tuán)隊(duì)聯(lián)合華中科技大學(xué)打造了?WildDoc——?首個(gè)真實(shí)世界場景文檔理解的基準(zhǔn)數(shù)據(jù)集。

本文的共同第一作者為字節(jié)跳動(dòng)算法工程師王安瀾和廖蕾,本文的通訊作者為字節(jié)跳動(dòng)算法工程師唐景群。 

在文檔理解領(lǐng)域,多模態(tài)大模型(MLLMs)正以驚人的速度進(jìn)化。從基礎(chǔ)文檔圖像識(shí)別到復(fù)雜文檔理解,它們在掃描或數(shù)字文檔基準(zhǔn)測試(如 DocVQA、ChartQA)中表現(xiàn)出色,這似乎表明 MLLMs 已很好地解決了文檔理解問題。然而,現(xiàn)有的文檔理解基準(zhǔn)存在兩大核心缺陷:

  • 脫離真實(shí)場景:現(xiàn)實(shí)中文檔多為手機(jī) / 相機(jī)拍攝的紙質(zhì)文件或屏幕截圖,面臨光照不均、物理扭曲(褶皺 / 彎曲)、拍攝視角多變、模糊 / 陰影、對(duì)焦不準(zhǔn)等復(fù)雜干擾;
  • 無法評(píng)估魯棒性:現(xiàn)有基準(zhǔn)未模擬真實(shí)環(huán)境的復(fù)雜性和多樣性,導(dǎo)致模型在實(shí)際應(yīng)用中表現(xiàn)存疑;

圖片

這些缺陷引出了一個(gè)關(guān)鍵疑問:當(dāng)前 MLLMs 模型距離在自然環(huán)境中實(shí)現(xiàn)全面且魯棒的文檔理解能力到底還有多遠(yuǎn)?

為了揭開這個(gè)謎底,字節(jié)跳動(dòng) OCR 團(tuán)隊(duì)聯(lián)合華中科技大學(xué)打造了 WildDoc—— 首個(gè)真實(shí)世界場景文檔理解的基準(zhǔn)數(shù)據(jù)集。

WildDoc 選取了 3 個(gè)常用的具有代表性的文檔場景作為基準(zhǔn)(Document/Chart/Table), 包含超過 12,000 張手動(dòng)拍攝的圖片,覆蓋了環(huán)境、光照、視角、扭曲和拍攝效果等五個(gè)影響真實(shí)世界文檔理解效果的因素,且可與現(xiàn)有的電子基準(zhǔn)數(shù)據(jù)集表現(xiàn)進(jìn)行對(duì)比。

為了嚴(yán)格評(píng)估模型的魯棒性,WildDoc 構(gòu)建了一致性評(píng)估指標(biāo)(Consistency Score)。實(shí)驗(yàn)發(fā)現(xiàn)主流 MLLMs 在 WildDoc 上性能顯著下降,揭示了現(xiàn)有模型在真實(shí)場景文檔理解的性能瓶頸,并為技術(shù)改進(jìn)提供可驗(yàn)證的方向。本工作不僅填補(bǔ)了真實(shí)場景基準(zhǔn)的空白,更推動(dòng)文檔理解研究向「實(shí)用化、泛化性」邁出關(guān)鍵一步。

圖片

  • 論文鏈接:https://arxiv.org/abs/2505.11015
  • 項(xiàng)目主頁:https://bytedance.github.io/WildDoc/
  • Github:https://github.com/bytedance/WildDoc

WildDoc 數(shù)據(jù)構(gòu)造與組成

WildDoc 數(shù)據(jù)包含超 1.2 萬張手動(dòng)采集的真實(shí)文檔圖像,模擬自然環(huán)境中的復(fù)雜挑戰(zhàn),并引入一致性分?jǐn)?shù)指標(biāo),量化評(píng)估模型在跨場景下的魯棒性。WildDoc 目前已開源全部 12K + 圖像與 48K + 問答對(duì),其構(gòu)造過程如下:

1、數(shù)據(jù)采集:

  • 場景多樣化:在自然環(huán)境(如戶外、室內(nèi)不同光照條件)中手動(dòng)拍攝文檔,確保覆蓋環(huán)境、光照、視角等多維度干擾因素。
  • 基準(zhǔn)對(duì)齊:復(fù)用現(xiàn)有基準(zhǔn)的電子文檔,通過物理打印后拍攝,保證與傳統(tǒng)基準(zhǔn)的可比性。

2、多條件拍攝:

  • 對(duì)同一文檔進(jìn)行四次拍攝,每次改變環(huán)境參數(shù)(如光照強(qiáng)度、拍攝角度、紙張扭曲程度),獲取各種不同效果的對(duì)比樣本。

3、標(biāo)注與驗(yàn)證:

  • 對(duì)圖像中的文本、布局等關(guān)鍵信息以及對(duì)于問題的可回答性進(jìn)行人工驗(yàn)證,確保準(zhǔn)確性。
  • 通過一致性分?jǐn)?shù)計(jì)算,評(píng)估模型在不同條件下的穩(wěn)定性,輔助篩選高質(zhì)量數(shù)據(jù)。

圖片

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)對(duì)眾多具有代表性的 MLLMs 進(jìn)行了測試,包括通用 MLLMs(如 Qwen2.5-VL、InternVL2.5)、專注文檔理解的 MLLMs(如 Monkey、TextHarmony)和領(lǐng)先的閉源 MLLMs(如 GPT4o、Doubao-1.5-pro)。實(shí)驗(yàn)結(jié)果揭示了當(dāng)前多模態(tài)大模型在真實(shí)場景下的諸多不足。

圖片

首先,現(xiàn)有 MLLMs 在 WildDoc 上的性能相比傳統(tǒng)文檔基準(zhǔn)(如 DocVQA)測試大幅下降。例如,GPT-4o 平均準(zhǔn)確率下降 35.3,ChartQA 子集下降達(dá) 56.4;開源模型 Qwen2.5-VL-72B 平均準(zhǔn)確率 70.6,為開源最佳,但仍低于原始基準(zhǔn)約 15%。目前最優(yōu)的閉源模型為 Doubao-1.5-pro 表現(xiàn)最優(yōu)(平均準(zhǔn)確率 73.7%),但其一致性分?jǐn)?shù)僅 55.0,這也意味著它在一半多的情況下都不能在不同條件下保持準(zhǔn)確回答。這表明,當(dāng)前 MLLMs 模型在面對(duì)真實(shí)場景的變化時(shí),缺乏足夠的穩(wěn)定性和適應(yīng)性。

實(shí)驗(yàn)結(jié)果揭示了在真實(shí)世界文檔理解中 MLLMs 模型的表現(xiàn),有以下幾點(diǎn)發(fā)現(xiàn):

  • 物理扭曲最具挑戰(zhàn)性:皺紋、褶皺、彎曲等物理變形導(dǎo)致模型性能下降最顯著(如 GPT-4o 下降 34.1-34.7),遠(yuǎn)超光照(-25.9)或視角(-26.2)變化的影響。
  • 非正面視角與圖像質(zhì)量:非正面拍攝(如傾斜視角)因文本形變和模糊導(dǎo)致性能下降(Qwen2.5-VL-72B 下降 17.6),但屏幕捕獲圖像因數(shù)據(jù)增強(qiáng)算法成熟,性能下降較小(-8.3 至 - 9.1)。
  • 語言模型規(guī)模影響有限:大參數(shù)量模型(如 72B 參數(shù)的 Qwen2.5-VL)在 WildDoc 上表現(xiàn)略優(yōu),但未完全克服真實(shí)場景挑戰(zhàn),表明模型架構(gòu)需針對(duì)性優(yōu)化。

圖片

圖片

圖片

另外,一些模型在原始基準(zhǔn)測試上表現(xiàn)差異不大,甚至已經(jīng)接近飽和,但在 WildDoc 上卻出現(xiàn)了顯著的性能差異。這說明傳統(tǒng)基準(zhǔn)測試已經(jīng)難以區(qū)分模型的真實(shí)能力,而 WildDoc 則能更敏銳地捕捉到模型在真實(shí)場景下的不足。

未來之路:如何讓 MLLMs 更好地理解真實(shí)世界的文檔?

面對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)提出了幾點(diǎn)改進(jìn)策略,為未來的研究指明了方向。

  • 一是數(shù)據(jù)增強(qiáng)。通過更多的增強(qiáng)技術(shù)來模擬真實(shí)世界的條件,如變化的光照、陰影等,讓模型在訓(xùn)練中接觸到更多樣化的場景,從而提高其適應(yīng)能力。
  • 二是魯棒特征學(xué)習(xí)。讓模型學(xué)會(huì)提取對(duì)真實(shí)世界變化不敏感的特征,這樣即使文檔圖像發(fā)生了一些變化,模型也能準(zhǔn)確理解其內(nèi)容。
  • 三是真實(shí)數(shù)據(jù)引入。收集更多的真實(shí)世界文檔圖像,豐富訓(xùn)練數(shù)據(jù)集,讓模型在更多的「實(shí)戰(zhàn)」中積累經(jīng)驗(yàn),提升性能。

WildDoc 數(shù)據(jù)集有效揭示了 MLLMs 在真實(shí)文檔理解中的不足,為后續(xù)研究提供了關(guān)鍵基準(zhǔn)和優(yōu)化方向,更推動(dòng)文檔理解研究向「實(shí)用化、泛化性」邁出關(guān)鍵一步。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-06-12 11:50:23

2025-05-06 15:32:23

模型AI測試

2024-08-02 13:14:51

2023-10-14 17:24:49

2023-10-14 13:09:53

谷歌模型

2025-11-14 13:40:55

GPT-4oAI模型

2024-06-27 12:45:30

2024-06-20 10:43:15

2025-02-13 09:40:00

2024-06-18 12:54:39

2025-08-07 14:05:40

OpenAI大模型開源

2024-09-06 13:00:29

2024-06-05 13:09:26

2024-12-06 14:19:50

2025-02-18 12:30:00

2025-01-02 11:01:45

2025-07-25 09:31:34

2024-08-14 12:54:46

2024-04-01 08:00:00

AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

а√天堂中文资源在线bt| 国产精品无码久久久久成人app| 97视频一区| 一区二区三区.www| 国产美女精品在线观看| 国产精品黄色网| 国产99精品一区| 91精品国产综合久久精品麻豆| 中国黄色录像片| 黄片毛片在线看| 亚洲制服av| 俺也去精品视频在线观看| 免费看的av网站| 国产精品蜜芽在线观看| 国产午夜精品在线观看| 亚洲一区二区三区四区在线播放| 免费看一级一片| 欧美女优在线视频| 91精品国产91久久久久久一区二区 | 在线国产情侣| 成人中文字幕电影| 国产精品女人久久久久久| 日韩黄色免费观看| 思热99re视热频这里只精品| 精品视频在线免费观看| 欧美在线一区视频| 日本www在线观看视频| 国产大陆精品国产| 国产精品国产三级国产aⅴ9色| 久久精品亚洲a| 欧美sss在线视频| 欧美一区二区性放荡片| 又色又爽又高潮免费视频国产| av网站网址在线观看| 91麻豆精东视频| 91久久伊人青青碰碰婷婷| 欧美一区免费看| 红桃视频欧美| 日韩在线播放av| 国产精品无码午夜福利| 日本伊人久久| 欧美人牲a欧美精品| 男人操女人免费软件| 超碰在线网址| 亚洲欧美怡红院| 日本一区二区在线视频| 好吊色在线观看| 国产原创一区二区| 国产欧美日韩免费看aⅴ视频| 日本熟女一区二区| 欧美三区不卡| 久久亚洲精品小早川怜子66| 91资源在线播放| 天美av一区二区三区久久| 精品奇米国产一区二区三区| 色91精品久久久久久久久| 成人免费看黄| 日韩欧美在线视频观看| 黄色一级在线视频| 成人爽a毛片免费啪啪动漫 | 日本黄色小视频在线观看| 欧美freesex8一10精品| 精品国产乱码久久久久久闺蜜| 精品国产一区久久| 九九热在线免费| 无码小电影在线观看网站免费| 久久久亚洲精品石原莉奈| www.久久久| 亚洲免费视频网| 成人在线视频一区二区| 国产精品sss| 亚洲av无码乱码在线观看性色| 国内一区二区视频| 91超碰在线免费观看| a天堂在线观看视频| 国产福利精品导航| 国产另类自拍| 天天干天天草天天射| 成人免费黄色在线| 国产一区免费在线| 飘雪影视在线观看免费观看| 久久午夜色播影院免费高清| 欧美凹凸一区二区三区视频| 日本黄在线观看| 国产亚洲精久久久久久| 亚洲欧美日韩国产yyy| 超碰在线caoporen| 亚洲aaa精品| 日本精品一区在线观看| 免费在线观看一区| 51精品视频一区二区三区| 美女在线视频一区二区| 精品视频在线观看免费观看 | 精品国产一区二区三区四| 久久精品一区| 日韩av高清不卡| 中文字幕丰满人伦在线| 国产伦精品一区二区三区免费迷| 91精品天堂| 五月婷婷深深爱| 亚洲国产激情av| 中文字幕一区二区三区最新| 污污的视频在线观看| 亚洲va欧美va人人爽午夜| 欧美特级aaa| 加勒比视频一区| 久久精品视频免费播放| www.毛片.com| 成人午夜免费视频| 亚洲成人自拍| 成人免费网站视频| 精品欧美乱码久久久久久1区2区| 国产主播av在线| 国产亚洲亚洲| 不卡视频一区二区| 午夜免费播放观看在线视频| 第一福利永久视频精品| 色婷婷综合在线观看| 成人系列视频| 欧美影院在线播放| 亚洲精品一级片| 亚洲欧美一区二区三区久本道91 | 韩国视频一区二区| 日本不卡一二三区| av最新在线| 日韩一区二区影院| 日韩精品123区| 手机精品视频在线观看| 国新精品乱码一区二区三区18| 久久国产精品一区| 欧美日韩高清一区二区不卡| 欧美激情aaa| 久久大逼视频| 免费观看成人在线| 毛片电影在线| 亚洲国产另类久久精品| 久久久久久久久久久网| 国产曰批免费观看久久久| 亚洲高清123| 成人mm视频在线观看| 亚洲欧美一区二区三区久久 | 欧美天天综合网| 熟女少妇一区二区三区| 久久国产高清| 久久综合狠狠综合久久综青草| 99thz桃花论族在线播放| 精品国内片67194| 精品无码免费视频| 成人精品鲁一区一区二区| 成人国产一区二区三区| 日韩最新av| 欧美国产日产韩国视频| 亚洲欧美激情另类| 亚洲一线二线三线视频| 漂亮人妻被黑人久久精品| 国产精品久久777777毛茸茸 | 色综合久久综合网97色综合| 国精产品一区一区三区免费视频| 久久青草久久| 亚洲一区二区高清视频| 国产精品免费精品自在线观看| 久久视频国产精品免费视频在线| a天堂视频在线| 亚洲一区二区三区自拍| 中文在线永久免费观看| 久久中文在线| 亚洲欧洲一区二区福利| 日本免费一区二区视频| 性欧美办公室18xxxxhd| 国内av一区二区三区| 欧美日韩免费在线视频| 久久久久久久久久久久久久免费看| 成人黄色在线看| 九色porny91| 91精品综合| 国产一区在线免费| 91精品美女| 欧美激情日韩图片| 九色在线观看| 91精品国产一区二区三区香蕉| 欧美成人三级视频| 久久久精品免费免费| 午夜精品久久久久久久99热影院| 欧美国产综合| 欧美日韩国产高清视频| 六九午夜精品视频| 97在线视频一区| 在线免费观看黄| 亚洲精品成人av| 伊人亚洲综合网| 午夜精品久久久久久久久| 国产真人做爰视频免费| 成人一区二区三区视频 | 日韩精品视频免费播放| 国产精品毛片无遮挡高清| 国产精品日日摸夜夜爽| 日韩国产高清影视| 日韩在线视频在线| 国内精品久久久久久99蜜桃| 97久久夜色精品国产九色| 奇米777日韩| 欧美肥婆姓交大片| 在线观看麻豆| 日韩国产精品一区| www五月婷婷| 欧美三级视频在线观看| 日本一区二区三区免费视频| 日韩一区在线播放| 中文字幕网站在线观看| 国产成人无遮挡在线视频| 久久午夜夜伦鲁鲁一区二区| 伊人精品在线| 黄色影视在线观看| 日韩av密桃| 欧洲亚洲一区二区| 久久精品色综合| 99se婷婷在线视频观看| 日本电影久久久| 国产精品第1页| 成人av三级| 97超级碰碰人国产在线观看| 欧美1—12sexvideos| 久久精品视频在线播放| 在线免费看a| 中文日韩在线视频| 精品视频一二三| 日韩av在线不卡| 欧美一级视频免费| 日韩女优制服丝袜电影| av在线资源观看| 欧美精品久久一区二区三区| 波多野结衣高清视频| 日韩欧美成人精品| wwwxxx亚洲| 午夜精品一区在线观看| 精品无码久久久久| 亚洲午夜久久久久久久久电影网| 国产1区2区3区4区| 亚洲激情成人在线| 久久成人国产精品入口| 一区二区三区资源| 九九视频免费观看| 一区二区三区四区在线免费观看| 午夜剧场免费在线观看| 国产精品久久久久久久岛一牛影视 | 中文字幕在线观看不卡| 欧美另类69xxxx| 中文欧美字幕免费| 久久精品色妇熟妇丰满人妻| 国产精品久久久久久久久图文区| 国产传媒在线看| 国产精品久久久久久久久果冻传媒 | 7m第一福利500精品视频| 蜜桃麻豆影像在线观看| 欧美一区二区三区……| a一区二区三区| 国产精品福利在线| 日韩综合久久| 91精品国产91久久久久青草| av成人男女| 蜜桃av噜噜一区二区三| 精品一区欧美| 亚洲在线播放电影| 欧美激情综合色综合啪啪| 亚洲精品无码国产| 激情婷婷欧美| av五月天在线| 国产原创一区二区| xxxx黄色片| 欧美国产精品一区二区三区| 三级全黄做爰视频| 性久久久久久久| 国产一级精品毛片| 欧美一区二区三区四区五区| 男人天堂综合网| 怡红院精品视频| 制服丝袜在线播放| 人妖精品videosex性欧美| 韩国理伦片久久电影网| 亚洲最大的成人网| 日本国产精品| 黄色免费高清视频| 99精品视频免费观看视频| av网站在线不卡| 夫妻av一区二区| 一级特黄曰皮片视频| 亚洲黄色小视频| 精品人妻一区二区三区潮喷在线 | 国产精品亚洲аv天堂网| 国产一区二区三区| 精品日本一区二区三区| 色爱综合网欧美| 成年人观看网站| 黑人精品欧美一区二区蜜桃| 大又大又粗又硬又爽少妇毛片 | 在线丨暗呦小u女国产精品| av免费网站在线| 国产z一区二区三区| 亚洲一二三区视频| 亚洲在线色站| 狂野欧美性猛交xxxx巴西| 超碰91在线播放| 国产精品午夜在线| 国产精品自拍99| 欧美mv日韩mv国产网站| 欧美性猛交xxx乱大交3蜜桃| 欧美一区亚洲一区| 成人性生交大片免费看96| 懂色av一区二区三区四区五区| 久久精品导航| 国产福利在线观看视频| 一区二区三区四区不卡在线 | 中文字幕 亚洲视频| 日韩av在线不卡| 大香伊人中文字幕精品| 亚洲一区中文字幕| 日韩毛片视频| 免费看污污网站| 日本一区二区三区国色天香| 国产又色又爽又黄的| 日韩精品一区二区三区视频 | heyzo久久| 丰满人妻中伦妇伦精品app| 成人av在线一区二区| 欧美日韩在线观看免费| 欧美精品在线一区二区| 成人福利在线| 国产精品劲爆视频| 红桃成人av在线播放| 无码无遮挡又大又爽又黄的视频| 99久久精品免费观看| 久久中文字幕无码| 精品电影一区二区| 懂色av一区| 超碰97网站| 激情久久久久| 欧洲熟妇的性久久久久久| 亚洲国产三级在线| 亚洲第一天堂影院| 久久免费视频在线| 韩国精品福利一区二区三区| www.亚洲视频.com| 成人激情免费网站| 免费日韩一级片| 日韩电影中文字幕一区| 中文字幕资源网在线观看免费| 精品视频高清无人区区二区三区| 日韩一区二区久久| 一本色道久久综合亚洲精品图片| 欧美午夜视频一区二区| 精品亚洲综合| 91精品久久久久久久久久| 一本一道久久a久久精品蜜桃| 97超碰人人看| 香蕉av福利精品导航| 日本大片在线观看| 国产精品免费一区豆花| 97精品国产福利一区二区三区| 精品国产乱码久久久久久1区二区| |精品福利一区二区三区| 亚洲国产成人一区二区| 97国产真实伦对白精彩视频8| 私拍精品福利视频在线一区| 欧美一级片中文字幕| 国产精品视频一二| 999久久久久久| 性色av一区二区咪爱| 精品国内自产拍在线观看视频| av中文字幕网址| 亚洲一区视频在线| 九九在线视频| 91九色国产在线| 一本久道久久综合狠狠爱| 欧美三级视频网站| 日韩精品一区二区三区四区 | 最近中文字幕在线mv视频在线| 欧美日韩在线播放一区| 色呦呦呦在线观看| 欧美二区在线| 国产麻豆成人传媒免费观看| 日产亚洲一区二区三区| 在线观看欧美www| 伊人久久影院| 青青青在线视频免费观看| 一区二区三区精品在线| 国内av一区二区三区| av成人观看| 蜜臀久久99精品久久久久宅男 | 欧美午夜视频一区二区| 欧洲不卡av| 久久精品日产第一区二区三区乱码| 蜜臀久久99精品久久久画质超高清| 久草资源在线视频| 在线观看国产成人av片| 国产精品15p| 中文 日韩 欧美| 欧美性极品少妇精品网站| 成人免费视屏| 亚洲a∨一区二区三区| 91在线视频在线|