精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

十大PDF解析工具在不同文檔類別中的比較研究 原創

發布于 2025-4-7 06:31
瀏覽
0收藏

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區十大PDF解析工具總結

PDF解析對于包括文檔分類、信息提取和檢索在內的多種自然語言處理任務至關重要,尤其是RAG的背景下。盡管存在各種PDF解析工具,但它們在不同文檔類型中的有效性仍缺乏充分研究,尤其是超出學術文檔范疇。通過使用DocLayNet數據集,比較10款流行的PDF解析工具在6種文檔類別中的表現,以填補這一空白。這些工具包括PyPDF、pdfminer.six、PyMuPDF、pdfplumber、pypdflum2、Unstructured、Tabula、Camelot以及基于深度學習的工具Nougat和Table Transformer(TATR)。

對于基于深度學習的相關技術方法,筆者在前期介紹了完整的技術鏈路,可以參考《??文檔智能專欄(點擊跳轉)??》

對于對pdf解析質量要求不高并且要求速度比較快的場景,基于規則引擎的相關pdf parser工具可以依舊滿足相關業務場景,那么該如何選擇pdf解析工具呢?

pdf解析的挑戰

  • 復雜性:PDF解析面臨多個挑戰,包括單詞識別、詞序保持、段落完整性以及表格提取等。這些挑戰要求解析工具能夠準確地識別和處理文檔中的各種元素。
  • 技術需求:PDF解析方法可以分為基于規則的方法和基于深度學習的方法。基于規則的方法通常在計算效率和部署速度上具有優勢,而基于學習的方法在處理復雜文檔時表現出色。

本文通過比較10種流行的PDF解析工具在6種不同文檔類別上的表現,提供對工具性能的全面評估。供參考。

評估方法

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

常見公開評測數據集

評測數據集

DocLayNet 是一個包含約80,000個文檔頁面的大型數據集,文檔被標注為11種不同的元素(如腳注、公式、列表項、頁腳、頁眉、圖片、節頭、表格、文本和標題)。這些文檔分為六個不同的類別:財務報告、手冊、科學文章、法律法規、專利和政府招標。

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

類別分布情況

文檔主要用英語標注(95%),少量用德語(2.5%)、法語(1%)和日語(1%)。為了確保標注的高質量和可靠性,大約7,059個文檔進行了雙重標注,1,591個文檔進行了三重標注。

評估指標

并使用多種評估指標進行比較,包括F1分數、BLEU分數和局部對齊分數。

在文檔中,評估策略特別關注于文本提取的質量,尤其是當涉及到復雜的文檔結構和內容時。以下是如何結合具體的公式和評估指標來詳細講解評估策略:

文本提取的評估策略

1.Levenshtein 相似性

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

2.F1 分數

3.BLEU 分數

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

4.局部對齊分數

局部對齊分數用于評估文本提取的整體質量,特別是在處理復雜布局和段落結構時。局部對齊通過尋找兩個字符串中最相似的子串來實現,使用匹配得分、不匹配和間隙懲罰來計算相似性。

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

表格檢測評價指標

使用交并比(IoU)來比較解析器提取的表格與GT表格的相似性。如果解析器不提供邊界框信息,則使用Jaccard系數計算檢測的精確度和召回率。

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

評測工具

工具名稱

功能

技術

輸出格式

特點

PyPDF

提取文本、圖像和元數據

基于規則 (RB)

TXT

成熟的純 Python 庫,處理多種 PDF 操作

pdfminer.six

提取文本、圖像、目錄、字體大小

基于規則

TXT、HTML、hOCR、JPG

多功能,支持 CJK 語言和垂直書寫

PDFPlumber

提取文本和表格

基于規則 (基于 pdfminer)

TXT、HTML、hOCR、JPG

提供可視化調試工具,提取過程便捷

PyMuPDF

提取文本、表格和圖像

基于規則 (MuPDF),可選 OCR

TXT、HTML、SVG、JSON

Python 綁定,處理復雜文檔布局

pypdfium2

提取文本

基于規則

TXT

輕量級庫,專注文本提取

Unstructured

預處理和攝取圖像及文本文檔

基于規則,支持 OCR

TXT

支持元素級文本和表格提取

Tabula

提取表格

基于規則

DataFrame、CSV、JSON

Python 包裝器,使用 tabula-java

Camelot

提取表格

基于規則

DataFrame、CSV、JSON、HTML

靈活配置,支持流模式和格子模式

Nougat

提取文本

基于 Transformer

Markdown

深度學習模型,專為學術文檔訓練

Table Transformer (TATR)

檢測表格

基于 Transformer

圖像

對象檢測模型,訓練于 PubTables-1M 等

評測結論

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

6中文檔類別中對PDF解析庫進行了全面比較

  • 文本提取結論 在財務、招標、法律法規和手冊類別中,大多數工具表現較好,PyMuPDF和pypdfium在這些類別中表現尤為突出。在科學和專利類別中,所有工具的表現均有所下降。PyMuPDF和pypdfium在專利類別中表現相對較好,但科學類別仍然是一個挑戰。Nougat作為一個基于視覺變換器的模型,在科學文檔的文本提取中表現出色。Nougat在科學文檔中表現優于所有基于規則的工具。

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區


  • 表格檢測結論 評估了四種基于規則的PDF表格提取工具(Camelot、pdfplumber、PyMuPDF、Tabula)和一個基于Transformer的模型(TATR)在表格檢測任務中的表現。規則工具在特定文檔類型中表現良好,但在其他類別中表現不佳。Camelot在政府招標類別中表現最佳,Tabula在手冊、科學和專利類別中表現較好。TATR在所有類別中表現出較高的召回率和一致性。在科學、財務和招標類別中,TATR的召回率較高,顯示出其在處理復雜表格結構時的優勢。
  • 十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

總結

其實,全文看下來,這個評測的粒度還是比較粗的,但是其中的對于基于規則的pdf parser工具結論還是值得看一看的。在具體的業務場景中,選擇合適的解析工具需要考慮文檔類型和具體任務的需求。

參考文獻:A Comparative Study of PDF Parsing Tools Across Diverse Document Categories,https://arxiv.org/pdf/2410.09871v2


公眾號大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/5mItOr1bBD7CIb-5k2kB6A??


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-4-7 06:31:37修改
收藏
回復
舉報
回復
相關推薦
国产一二在线播放| 天天爱天天干天天操| 在线精品国产| 亚洲第一网站男人都懂| 粗暴91大变态调教| 直接在线观看的三级网址| 99r精品视频| 成人欧美一区二区三区在线湿哒哒 | 亚洲精品国产精品国产自| 黑森林精品导航| 91九色porn在线资源| 国产精品电影一区二区三区| 久久精品国产理论片免费| 国产精品亚洲lv粉色| 香蕉久久夜色精品国产| 九九热在线精品视频| 极品蜜桃臀肥臀-x88av| 国产区精品视频在线观看豆花| 欧美三级电影一区| 18岁网站在线观看| 国模雨婷捆绑高清在线| 国产精品福利一区二区三区| 久久一区二区三区av| 亚洲产国偷v产偷v自拍涩爱| 久久精品国产精品亚洲红杏| 国产91精品久久久久| 免费在线观看一级片| 久久亚洲国产| 亚洲香蕉成人av网站在线观看| 欧美图片自拍偷拍| 国产精品视频首页| 欧美日韩黄色影视| 国产视频一区二区三区在线播放| 视频在线这里都是精品| 日韩美女精品在线| 亚洲一区二区免费视频软件合集| 日本中文字幕一区二区有码在线 | 欧美成人综合一区| 欧美一区,二区| 国产老肥熟一区二区三区| 国产女同一区二区| 中文在线a天堂| 奇米精品一区二区三区在线观看一 | 欧美日韩在线精品一区二区三区| 五月婷婷激情在线| 99久久99久久精品国产片果冻| 91精品国产高清久久久久久91裸体| 亚洲永久精品视频| 日本成人中文字幕| 国产区精品在线观看| 中文字幕日韩三级| 日韩av电影一区| 国产精品男人爽免费视频1| 久久精品偷拍视频| 麻豆极品一区二区三区| 成人激情视频网| 99国产精品久久久久久久成人| 久久99精品久久久久| 91精品美女在线| 99草在线视频| 成人黄色777网| 九9re精品视频在线观看re6| 五月婷婷六月色| 久久亚洲综合色| 日韩中文一区| 超碰免费在线播放| 午夜影院在线观看欧美| 久久久久久久激情| 国产精品亲子伦av一区二区三区| 欧美精品xxxxbbbb| 韩国一区二区三区四区| 超碰在线亚洲| 亚洲精品一区久久久久久| 日韩毛片无码永久免费看| 日韩国产专区| 欧美大成色www永久网站婷| 国产小视频在线看| 久久久国产精品一区二区中文| 国产精品自产拍在线观| www黄色网址| 91蜜桃视频在线| 欧美日韩综合网| 久草中文在线| 午夜精品久久久久久久久| 99草草国产熟女视频在线| 欧美美女被草| 亚洲激情在线视频| 2014亚洲天堂| 日韩午夜在线| 成人福利网站在线观看| 欧美特黄一级视频| 国产精品网站在线| 成人小视频在线观看免费| 校园春色亚洲色图| 日韩一区二区三区在线视频| 精品久久久久久中文字幕人妻最新| 日韩精品四区| 9.1国产丝袜在线观看| 亚洲综合精品视频| 2020日本不卡一区二区视频| 国产又粗又硬又长| 欧亚一区二区| 亚洲国产古装精品网站| 任我爽在线视频| 国产农村妇女精品一区二区| 91在线视频免费| 欧美偷拍视频| 亚洲精品日韩综合观看成人91| 中国丰满人妻videoshd| 久久视频社区| 中文字幕成人精品久久不卡| 精品国产免费观看| 国产99精品在线观看| 亚洲欧美日本国产有色 | 国产精品成av人在线视午夜片| www.97av| 自拍偷拍欧美精品| 欧美婷婷精品激情| 欧美猛男同性videos| 欧美激情手机在线视频| 国产乱人乱偷精品视频a人人澡| 国产色婷婷亚洲99精品小说| 尤物av无码色av无码| 99a精品视频在线观看| 北条麻妃99精品青青久久| 黄色片中文字幕| 成人av综合在线| h无码动漫在线观看| 亚洲精品69| 中文字幕亚洲欧美| 在线视频 中文字幕| 国产亚洲精品久| 97视频在线免费播放| 精品精品精品| 久久久久久久999| 韩国av电影在线观看| 亚洲美女在线国产| 成人av毛片在线观看| 日本女优一区| 国产欧美亚洲精品| 视频一区二区三区不卡| 欧美性大战xxxxx久久久| 久久成人激情视频| 玖玖玖国产精品| 视频一区视频二区视频三区视频四区国产 | 成年人性生活视频| 欧美在线三区| av在线亚洲男人的天堂| 日韩伦理av| 亚洲成人黄色在线| 在线观看国产亚洲| 91久色porny| 国产性生交xxxxx免费| 欧美手机视频| 成人国内精品久久久久一区| 50度灰在线| 欧美xxxx老人做受| 永久免费看片在线播放| 久久久高清一区二区三区| 成年人在线观看视频免费| 97视频热人人精品免费| 91色在线视频| av成人福利| 亚洲欧洲黄色网| 中文资源在线播放| 亚洲色欲色欲www| 国产精品19p| 亚洲欧美网站| 亚洲一卡二卡三卡| 岛国av一区| 日韩av片永久免费网站| 毛片av在线| 亚洲国产91色在线| 在线观看你懂的网站| 亚洲欧美日韩国产手机在线| av在线播放网址| 久久在线精品| 穿情趣内衣被c到高潮视频| 久久久久观看| 国产免费一区二区三区在线观看| 国产探花在线观看| 一个色综合导航| а√中文在线资源库| 一本久久精品一区二区| www青青草原| 久久女同互慰一区二区三区| 性生生活大片免费看视频| 精品动漫3d一区二区三区免费| 日本免费一区二区三区| 日本精品在线观看| 国产成人精品av| 人交獸av完整版在线观看| 一区二区三区www| 亚洲高清精品视频| 欧美欧美午夜aⅴ在线观看| 日本一区二区免费在线观看| 国产精品久久夜| av黄色一级片| 国产在线国偷精品免费看| 97国产精东麻豆人妻电影| 国产精品久久久久久久久久10秀| 蜜桃免费一区二区三区| 精品国产亚洲一区二区在线观看| 国产精品18久久久久久麻辣| 美洲精品一卡2卡三卡4卡四卡| 尤物九九久久国产精品的分类| 乱色精品无码一区二区国产盗| 欧美喷水一区二区| 国产成人麻豆免费观看| 亚洲电影一区二区| www.99re7| 国产精品国产三级国产专播品爱网| 变态另类丨国产精品| 成人一区二区在线观看| 日韩欧美亚洲另类| 日韩精品一区第一页| 欧美日本视频在线观看| 亚洲视频久久| 欧美xxxx吸乳| 久久一本综合| 日韩av一区二区三区美女毛片| 久久久久观看| 国产亚洲欧美一区二区| 一区二区日韩| 亚洲综合成人婷婷小说| 日韩黄色在线| 国产欧美日韩综合精品| 成人日韩av| 国产精品久久久久久久久久久不卡 | 女生裸体视频一区二区三区| 伊人av成人| 久久日文中文字幕乱码| 亚洲午夜在线观看| 成人3d动漫在线观看| 欧美综合77777色婷婷| 国产精品免费不| 日本一区视频在线| 国产欧美日韩| 污视频在线免费观看一区二区三区| 欧美男同视频网| 日韩精品久久久| 日韩精品dvd| 中文字幕av日韩精品| 亚洲草久电影| 欧洲xxxxx| 国产综合网站| 男人日女人视频网站| 午夜在线播放视频欧美| 日韩黄色片视频| 免费精品视频最新在线| 91女神在线观看| 国产原创一区二区| 成年人小视频在线观看| av网站一区二区三区| 精品人妻无码一区二区三区换脸| 国产亚洲视频系列| 亚洲AV成人无码精电影在线| 一区二区三区精品久久久| 国产亚洲成人精品| 大桥未久av一区二区三区| 337p粉嫩色噜噜噜大肥臀| 欧美性做爰猛烈叫床潮| 97精品人妻一区二区三区在线 | 国产欧美日韩精品在线观看| 亚洲视频资源| 国产精品一区二区三区四区五区| 少妇一区二区三区| 亚洲欧洲日夜超级视频| 午夜精彩国产免费不卡不顿大片| 欧美午夜性视频| 老司机午夜精品视频| 911av视频| jlzzjlzz国产精品久久| 中文字幕黄色网址| 亚洲黄色小视频| www.国产com| 欧美日韩在线观看一区二区 | 中文字幕人妻熟女人妻洋洋| 一区二区动漫| 伊人色在线观看| 成人av电影在线播放| 日本爱爱爱视频| 一区二区三区高清不卡| 欧美亚洲另类小说| 91精品国产91久久综合桃花| 亚洲 欧美 激情 另类| 神马久久桃色视频| 漫画在线观看av| 亚洲一区二区三区sesese| 日韩三级毛片| 中文字幕99| 久久久精品性| 18禁一区二区三区| 国产视频一区二区在线观看| 青娱乐91视频| 欧美在线高清视频| 天天摸天天碰天天爽天天弄| 亚洲色图18p| 高端美女服务在线视频播放| 91精品久久久久久久久久久| 日韩高清影视在线观看| 日本道在线视频| 蓝色福利精品导航| www.超碰97| 亚洲综合久久av| 亚洲无码精品在线播放| 亚洲乱码av中文一区二区| 日本精品600av| 国产日韩av高清| 综合伊思人在钱三区| 免费在线黄网站| 精品一区二区在线看| 加勒比综合在线| 激情久久av一区av二区av三区| 99精品在线看| www.日韩不卡电影av| 日韩在线短视频| 鲁丝片一区二区三区| 一区二区三区导航| 精品国产aⅴ一区二区三区东京热| 中文字幕中文乱码欧美一区二区| 加勒比在线一区| 亚洲免费视频观看| √天堂8资源中文在线| 成人在线看片| 国产精品豆花视频| 久久aaaa片一区二区| 综合久久久久久| 国产又粗又黄又爽的视频| 日韩在线观看你懂的| 九九热这里有精品| 在线观看欧美一区| 久久国产三级精品| 中文字幕乱码av| 欧美精品v国产精品v日韩精品| 欧美三级电影一区二区三区| 国产精品流白浆视频| 四季av一区二区凹凸精品| 在线免费观看视频黄| 国产精品久久三| 国产精品sm调教免费专区| 国产香蕉97碰碰久久人人| 久久xxx视频| 亚洲不卡一卡2卡三卡4卡5卡精品| 欧美亚洲视频| 国产精成人品免费观看| 欧美日韩免费不卡视频一区二区三区 | 欧美在线 | 亚洲| 国模gogo一区二区大胆私拍 | 男人的天堂视频在线| 国产成+人+日韩+欧美+亚洲| 欧美日韩偷拍视频| 精品国产乱码久久久久久1区2区| 678在线观看视频| 久中文字幕一区| 日韩精品成人一区二区三区| 天天爽天天爽天天爽| 欧美一区二区三区的| 蜜臀av国内免费精品久久久夜夜| 狠狠久久综合婷婷不卡| 久久蜜桃精品| 永久免费看片直接| 亚洲第一国产精品| 自拍偷拍欧美视频| 一区二区三区不卡在线| 成人免费看的视频| 精品人妻一区二区色欲产成人| 色偷偷av亚洲男人的天堂| 成人a在线观看高清电影| www亚洲国产| 99久久久久久| 波多野结衣绝顶大高潮| 久久影院在线观看| 亚洲第一论坛sis| 午夜精品久久久久久久99热影院| 亚洲一区二区三区四区在线 | 一区二区不卡在线视频 午夜欧美不卡在| 色网站免费观看| 国产精品女主播| 亚洲二区免费| 欧美日韩生活片| 日韩成人av在线| 亚洲伦理一区二区| 国产午夜伦鲁鲁| 一区二区三区在线视频观看58 | 精品精品精品| 伊人色在线观看| 精品日韩中文字幕| 成人免费网址| 日本不卡一区| 成人黄色av电影| 国产伦精品一区二区三区四区| 午夜精品一区二区三区在线播放| 日韩av免费大片| 亚洲图片综合网| 欧美一区二区三区免费大片| 经典三级一区二区| 久操网在线观看| 亚洲欧美色一区| se在线电影|