精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

神經網絡提取PDF表格工具來了,支持圖片,還能白嫖谷歌GPU資源

新聞 深度學習
百度一下,網上有大量提取PDF表格的工具,但是,它們都只支持文本格式PDF。一種使用深度神經網絡識別提取表格的開源工具可以幫助你。

 [[335375]]

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

“表哥表姐”們還在為大量PDF文件中的表格發愁嗎?

百度一下,網上有大量提取PDF表格的工具,但是,它們都只支持文本格式PDF。

但掃描生成的圖片表格怎么辦?

別著急,一種使用深度神經網絡識別提取表格的開源工具可以幫助你。

兼容圖片、高準確率、還不占用本地運算資源,如此實用的工具值得你擁有。

測試實例

如果在輸入的PDF文件中檢測的表格,模型會在邊界框(bounding box)標出表格邊框:

神經網絡提取PDF表格工具來了,支持圖片,還能白嫖谷歌GPU資源

然后,表格數據會被轉化為Panda數據框架,方便后續處理:

神經網絡提取PDF表格工具來了,支持圖片,還能白嫖谷歌GPU資源

怎么樣,是不是很實用?那這個工具如何使用呢?

使用姿勢詳解

神經網絡算法,還不占用本地運算資源?

對,你沒聽錯,這個工具的所有代碼都可以在谷歌Colab上運行。也就是說你可以利用Colab云端資源完成訓練和推理,無需本地安裝。

這個工具使用到的深度神經網絡是Keras-RetinaNet,首先要在Colab上安裝Keras-RetinaNet,通過一下一行代碼就可以完成:

  1. git clone https://github.com/fizyr/keras-retinanet 

同時需要安裝必要的庫:

  1. pip install .python setup.py build_ext — inplace 

訓練Keras-RetinaNet識別表格

首先要構建或一個訓練使用的數據庫。

這里要用到Colab工具PDF2Img,將PDF文件轉為JPG格式供算法學習。

神經網絡提取PDF表格工具來了,支持圖片,還能白嫖谷歌GPU資源

然后將轉好的圖片保存在Images文件夾中。接下來需要手動給這些訓練數據打標簽,這里推薦使用在線標記工具makesense.ai。

神經網絡提取PDF表格工具來了,支持圖片,還能白嫖谷歌GPU資源

將XML注釋文件保存在注釋文件夾中,并創建用于培訓和測試的PDF文件列表,將該列表導入train.txt和test.txt中。

神經網絡提取PDF表格工具來了,支持圖片,還能白嫖谷歌GPU資源

接下來,克隆Github項目https://github.com/ferrygun/PDFTableExtract,并安裝beautifulsoup。

運行以下命令以將PASCALVOC格式轉換為Keras-RetinaNet所需的格式:

  1. python build_logos.py 
神經網絡提取PDF表格工具來了,支持圖片,還能白嫖谷歌GPU資源

運行上述命令后,會得到retinanet_classes.csv,retinanet_test.csv和retinanet_train.csv。

在retinanet_classses.csv中,由于只識別PDF文檔中的表,所以只有到一個class,即class 0。

如果你在打標簽的過程中加入頁眉頁腳等標簽,相應能得到多個class。

完整的文件和文件夾結構的列表:

神經網絡提取PDF表格工具來了,支持圖片,還能白嫖谷歌GPU資源

然后,將retinanet_classes.csv,retinanet_test.csv,retinanet_train.csv,train.txt和test.txt 導入keras-retinanet的根文件夾中:

神經網絡提取PDF表格工具來了,支持圖片,還能白嫖谷歌GPU資源

接下來,運行Colab TrainOCR,可以根據要訓練的JPG文件數量來調整訓練的epoch數量。

訓練完成后,就會得到權重文件output.h5,下載此文件并將其保存到本地主機。后面將使用該文件來運行測試。

神經網絡提取PDF表格工具來了,支持圖片,還能白嫖谷歌GPU資源

這里需要注意的一點是,在Colab中,已將文件上傳到Git并進行了Git克隆。

運行測試

運行測試前,還需要安裝處理PDF文件必要的庫。

PyPDF2是一個python工具庫,能夠提取文檔信息,裁剪頁面等。

使用以下命令安裝此庫:

  1. pip install PyPDF2 

Camelot是專門用于解析PDF頁面表格的python庫。

使用以下命令安裝此庫:

  1. pip install camelot-py[cv] 

PDF2IMG是將Python轉換為PIL Image對象的python庫。

使用以下命令安裝此庫:

  1. pip install pdf2imag 

在運行預測之前,需要使用從訓練中獲得的權重文件output.h5加載模型,并從retinanet_classes.csv定義標簽class 0。

  1. model_path = ‘output.h5’model = models.load_model(model_path, backbone_name=’resnet50’)labels = ‘retinanet_classes.csv’LABELS = open(labels).read().strip().split(‘\n’)LABELS = {int(L.split(‘,’)[1]): L.split(‘,’)[0for L in LABELS}print(LABELS){0: ‘tabel’} 

接下來運行測試

  1. import numpy as npimport cv2import matplotlib.pyplot as pltimage_path = imgfname#image = cv2.imread(image_path)image = read_image_bgr(image_path)image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)output = image.copy()output = cv2.cvtColor(output, cv2.COLOR_BGR2RGB)print(output.shape) # row (height) x column (width) x color (3)image = preprocess_image(image)(image, scale) = resize_image(image)image = np.expand_dims(image, axis=0)# detect objects in the input image and correct for the image scale(boxes, scores, labels) = model.predict_on_batch(image)boxes /= scaleconfidence =  0.2from google.colab.patches import cv2_imshowimport matplotlib.pyplot as pltlabel_out = []result = ""# loop over the detectionsfor (box, score, label) in zip(boxes[0], scores[0], labels[0]):  # filter out weak detections  if score < confidence:    continue  # convert the bounding box coordinates from floats to integers  box = box.astype("int")  # build the label and draw the label + bounding box on the output  # image  labeli = label  label = "{}: {:.2f}".format(LABELS[label], score)  print(label)  if LABELS[labeli] not in label_out:      label_out.append(LABELS[labeli])      cv2.rectangle(output, (box[0], box[1]), (box[2], box[3]), (25500), 12)      print(box[0])      print(box[1])      print(box[2])      print(box[3])      #result            cv2.putText(output, label, (box[0], box[1] - 10), cv2.FONT_HERSHEY_SIMPLEX, 4.5, (25511), 12)plt.figure(figsize=(2020))plt.imshow(output)plt.show() 

如果檢測的表格,模型會在邊界框(bounding box)標出表格邊框:

神經網絡提取PDF表格工具來了,支持圖片,還能白嫖谷歌GPU資源

邊界框坐標(x1,y1,x2,y2),將table_area輸入到Camelot read_pdf函數中,table_area是已標準化的邊界框。

  1. interesting_areas=[]output = [[x1, y1, x2, y2]]for x in output:  [x1, y1, x2, y2] = bboxes_pdf(img, pdf_page, x)  bbox_camelot = [            ",".join([str(x1), str(y1), str(x2), str(y2)])        ][0]  # x1,y1,x2,y2 where (x1, y1) -> left-top and (x2, y2) -> right-bottom in PDF coordinate space        #print(bbox_camelot)  interesting_areas.append(bbox_camelot)print(interesting_areas)output_camelot = camelot.read_pdf(    filepath=pdf_file, pages=str(pg), flavor="stream", table_areas=interesting_areas)output_camelot[0].df 
  2. 這樣就可以將表格數據轉化為Panda數據框架,方便后續處理: 
神經網絡提取PDF表格工具來了,支持圖片,還能白嫖谷歌GPU資源

圖片怎么辦

針對掃描圖片格式的PDF表格,可以使用Ocrmypdf包來將圖片格式PDF轉為文本格式。

Ocrmypdf是一個python軟件包,可將基于圖像的pdf轉換為基于文本的PDF。

安裝ocrmypdf,可以通過以下命令行將其用于macOS和Linux:

  1. brew install ocrmypdf 

通過以下命令調用:

  1. ocrmypdf input_file.pdf output_file.pdf 

之后就可以按照上面的方法進行表格提取了。

怎么樣,這款兼容圖片,又能白嫖谷歌GPU的PDF表格工具對你有幫助嗎?

傳送門

項目地址:
https://github.com/ferrygun/PDFTableExtract

在線打標簽工具:
https://www.makesense.ai/

 

責任編輯:張燕妮 來源: 量子位
相關推薦

2019-07-02 13:37:23

神經網絡運算Python

2023-10-29 18:08:33

GPU神經網絡CPU

2017-06-20 14:41:12

google神經網絡

2017-03-22 11:59:40

深度神經網絡

2023-05-12 09:59:51

人工智能谷歌

2018-07-03 16:10:04

神經網絡生物神經網絡人工神經網絡

2018-06-18 14:19:47

IBM神經網絡GPU

2020-09-07 06:30:00

神經網絡數據圖形

2018-03-21 10:14:38

JavaScript交叉GPU

2019-10-09 15:51:45

Python 開發編程語言

2023-06-13 23:13:40

ChatGPT人工智能語言模型

2022-01-22 08:53:37

瀏覽器端Windows 端Java開發

2019-07-18 08:54:42

谷歌Android開發者

2017-09-10 07:07:32

神經網絡數據集可視化

2025-02-25 14:13:31

2023-05-24 09:56:40

谷歌AI編程神器

2020-08-06 10:11:13

神經網絡機器學習算法

2019-05-07 19:12:28

機器學習神經網絡Python

2022-04-07 09:01:52

神經網絡人工智能

2017-05-04 18:30:34

大數據卷積神經網絡
點贊
收藏

51CTO技術棧公眾號

国产精品一区二区性色av| 7777精品伊人久久久大香线蕉最新版| 国产精品初高中精品久久| 日韩激情一区二区三区| 99久热这里只有精品视频免费观看| 一区二区三区在线播| 精品国产乱码久久久久软件| 亚洲精品美女在线观看播放| 欧洲精品一区二区三区久久| 二人午夜免费观看在线视频| 国产麻豆欧美日韩一区| 国语自产精品视频在线看| 亚洲av成人无码久久精品| 日本免费精品| 欧美亚洲综合一区| 国产精品成人久久电影| www.亚洲免费| av网站免费线看精品| 国产精品中文字幕在线| 好吊操这里只有精品| 国产精品日韩精品中文字幕| 91精品国产欧美一区二区18| 国产精品亚洲a| 亚洲制服国产| 国产精品免费av| 狠狠色综合色区| jizz国产在线观看| 韩国亚洲精品| 久久久国产精品一区| 国产在线观看无码免费视频| 精品成人18| 欧美丝袜自拍制服另类| 欧美 日韩精品| 牛牛在线精品视频| 一区在线观看视频| 日韩欧美亚洲日产国产| 西西人体44www大胆无码| 国产一区二区伦理片| 国产精品久久久久久久久久久久久久| 日本系列第一页| 欧美国产精品| 精品国产一区二区三区久久| 亚洲AV无码成人精品区明星换面| 欧美jizz19性欧美| 日韩欧美国产一区在线观看| 成人av毛片在线观看| 国产成人精品一区二区三区视频| 黑人巨大精品欧美一区免费视频 | 精品一区二区三区四| 欧州一区二区| 国产亚洲欧美另类中文| 亚洲天堂网一区二区| 激情亚洲另类图片区小说区| 欧美精品一区二区久久婷婷| 一二三区视频在线观看| 精品999日本久久久影院| 666欧美在线视频| 久久久精品高清| 四虎国产精品永久在线国在线| 欧美伊人久久久久久久久影院 | 免费看污久久久| 欧美 日韩 人妻 高清 中文| 国产黄色91视频| 成人欧美一区二区三区在线湿哒哒| 国产又粗又猛又爽又| 日韩精品国产精品| 国产精品高潮在线| 在线观看毛片网站| 久久se精品一区二区| 91久久久久久久一区二区| 国产情侣激情自拍| 国产宾馆实践打屁股91| 国产一区二区高清不卡| 日韩资源在线| 国产日韩精品一区二区三区| 翔田千里亚洲一二三区| 国产黄色在线观看| 一区二区三区精品视频| 成人午夜精品久久久久久久蜜臀| 免费一二一二在线视频| 欧美在线免费观看视频| av免费一区二区| 亚洲三区欧美一区国产二区| 亚洲第一男人天堂| 国产精品无码一区二区三区免费 | 亚洲美女av网站| 怡红院一区二区三区| 三级电影一区| 欧美国产欧美亚洲国产日韩mv天天看完整| 国产亚洲福利社区| 久草资源在线视频| 性8sex亚洲区入口| 国产精品一区二区电影| 国产日韩在线观看一区| 成人久久久精品乱码一区二区三区| 国产精品夜夜夜一区二区三区尤| 青青久在线视频| 国产精品女人毛片| 9色porny| 草民电影神马电影一区二区| 日韩一级免费一区| 国产又爽又黄无码无遮挡在线观看| 日韩在线欧美| 久久久视频在线| 国产91av在线播放| 国产福利精品导航| 日韩偷拍一区二区| 超碰在线资源| 欧美日韩精品系列| 少妇一级淫免费观看| 一区二区三区日本久久久| 久久久精品一区二区| 综合网在线观看| 精品一区二区三区在线视频| 久久波多野结衣| av免费在线网站| 欧美亚洲国产bt| 亚洲观看黄色网| 欧美在线91| 国产精品视频一区二区三区四| 欧洲精品久久一区二区| 国产精品白丝在线| 国产福利视频在线播放| 99re热精品视频| 久久久www成人免费精品| 精品国产乱子伦| 99久久久久免费精品国产| 国产卡一卡二在线| 四虎4545www精品视频| 精品99999| 国产一区二区播放| 麻豆一区二区三| 免费看国产精品一二区视频| 福利写真视频网站在线| 日韩一区二区免费高清| 国产传媒视频在线| 日韩精品成人一区二区在线| 久久婷婷人人澡人人喊人人爽| 秋霞在线午夜| 日韩欧美的一区| 日韩精品免费在线| 91狠狠综合久久久久久| 久久激情婷婷| 蜜桃网站成人| 日本美女一区| 精品一区二区三区电影| 久久国产精品系列| 99精品偷自拍| 18岁网站在线观看| 西野翔中文久久精品字幕| 午夜精品久久17c| 色窝窝无码一区二区三区成人网站 | 日韩av免费看| 九九九伊在人线综合| 色8久久人人97超碰香蕉987| 中文字幕在线看高清电影| 免费在线观看成人av| 精品久久一区二区三区蜜桃| 性xxxxfreexxxxx欧美丶| 亚洲精品成人久久久| 国产精品99精品无码视| 99re成人精品视频| 欧洲黄色一级视频| 欧美男gay| 国产精品免费在线免费| 天天综合视频在线观看| 欧美日韩亚洲综合| 国产成人免费观看网站| 日韩福利视频导航| 一区二区三区的久久的视频| 精品国产乱码久久久久久樱花| 久久影院资源网| 性欧美videos另类hd| 亚洲成av人在线观看| 亚洲国产第一区| 秋霞影院一区二区| 黄色免费高清视频| 国产精品对白久久久久粗| 日本一欧美一欧美一亚洲视频| 国产鲁鲁视频在线观看免费| 欧美日韩精品欧美日韩精品一综合| 一级黄色录像视频| av在线免费不卡| 亚洲精品高清无码视频| 亚洲国产一成人久久精品| 成人在线视频电影| 久九九久频精品短视频| 精品国产一区二区三区久久| 好男人在线视频www| 在线免费观看一区| 黄色一级片中国| 风间由美一区| 亚洲免费电影在线| 日本一级片在线播放| 老鸭窝毛片一区二区三区| 中文字幕一区二区三区有限公司| 超碰成人福利| 国产精品久久久久久久久久新婚 | 丁香婷婷激情网| 亚洲电影影音先锋| 明星裸体视频一区二区| 国产专区精品| 国产精品91久久| 在线观看小视频| 国产一区二区三区18| 亚洲a视频在线观看| 91久久久免费一区二区| 校园春色 亚洲| 国产亚洲综合在线| 亚洲成人福利视频| 日韩精品色哟哟| 欧美一级视频在线播放| 五月开心六月丁香综合色啪| 欧美日韩精品综合| 午夜日韩影院| 成人欧美一区二区三区在线| 天天免费亚洲黑人免费| 久久久久久久久久国产精品| av在线电影网| 亚洲欧美精品一区| 亚洲欧美另类日韩| 欧美一区二区三区男人的天堂| 中文字幕精品无码一区二区| 亚洲一区中文在线| 亚洲综合视频网站| 欧美国产欧美综合| 黄色在线观看av| www.亚洲精品| wwwxxx色| 国产精品一卡二| 奇米视频7777| 日韩成人伦理电影在线观看| 激情综合在线观看| 亚洲麻豆视频| 性生活免费观看视频| 97精品国产| 日韩电影免费观看高清完整| 欧洲亚洲视频| 久久国产精品精品国产色婷婷| 国产亚洲成av人片在线观黄桃| 91精品国产99久久久久久红楼| 亚洲精品tv| 国产男女猛烈无遮挡91| 成人福利片在线| 国产精品免费福利| 99riav视频一区二区| 国产国产精品人在线视| 成人性生交大片免费观看网站| 欧美一级在线亚洲天堂| 国产伦理精品| 色婷婷久久久久swag精品| 亚洲成人a**址| 国产欧美日韩精品高清二区综合区| 精品视频导航| 亚洲区小说区图片区qvod按摩| 精品一区二区不卡| 同性恋视频一区| 欧美日韩国产精品一卡| 欧美猛男男男激情videos| 欧美精品一区二区视频| 欧洲杯半决赛直播| 亚洲国产欧洲综合997久久| 久久高清精品| 超碰在线免费观看97| 欧美va天堂在线| 男人日女人视频网站| 亚洲日本国产| 欧美牲交a欧美牲交aⅴ免费下载| 日韩专区在线视频| 手机版av在线| 国产成人久久精品77777最新版本| 久久久久久久久久影视| 99国产精品国产精品久久| 亚洲国产无码精品| 国产精品天天看| 成人免费视频网站入口::| 夜夜嗨av一区二区三区中文字幕| 天天操天天摸天天舔| 亚洲精品视频在线观看网站| 日韩精品乱码久久久久久| 91成人在线免费观看| 亚洲图片欧美在线| 欧美成人精精品一区二区频| 亚洲人视频在线观看| 最新国产成人av网站网址麻豆| h片在线免费| 4438全国亚洲精品在线观看视频| 久久xxx视频| 风间由美久久久| 欧美猛男同性videos| 黄色高清视频网站| 夜夜爽av福利精品导航| 国产精品久久久毛片| 国产成人综合网| 人妻精品久久久久中文| 亚洲宅男天堂在线观看无病毒| 国产第一页在线观看| 欧美大片一区二区三区| 国产高清视频在线播放| 欧美乱妇高清无乱码| 亚洲成人短视频| 国产精品久久久久免费| 日本精品黄色| 又粗又黑又大的吊av| 国产专区综合网| 亚洲精品国产91| 亚洲午夜视频在线| 伊人色综合久久久| 日韩国产精品一区| av在线免费观看网址| 国产精品高潮呻吟久久av野狼| 国产成人福利av| 中文字幕第50页| 日韩中文字幕91| aaaaa一级片| 外国电影一区二区| 国产精品一 二 三| 正在播放日韩欧美一页| 欧美一级黄色影院| 不卡一卡二卡三乱码免费网站| 亚洲色图100p| 在线一区二区三区四区五区| 国产 日韩 欧美 精品| 日韩视频永久免费观看| 欧美xxxx做受欧美护士| 国产高清精品一区二区| 色135综合网| 男女无套免费视频网站动漫| 91亚洲国产成人精品一区二区三| 欧美人妻精品一区二区三区| 欧美视频完全免费看| 欧美性孕妇孕交| 97热在线精品视频在线观看| japanese色系久久精品| 国产香蕉一区二区三区| 美腿丝袜亚洲一区| 永久免费av无码网站性色av| 欧美性猛交xxxx免费看漫画| 三级视频在线看| 久久久久久午夜| 91综合久久爱com| 大片在线观看网站免费收看| 久久99国产精品免费网站| 国产精品麻豆一区| 国产精品伦一区二区| 97超碰最新| 最新精品国产| 香蕉视频xxxx| 一区二区三区精品视频在线| 亚洲黄色在线播放| 欧美极品少妇全裸体| 在线播放一区二区精品视频| 成人一级生活片| av男人天堂一区| 天天做天天爱夜夜爽| 日韩激情视频在线| 忘忧草在线影院两性视频| 鲁丝一区鲁丝二区鲁丝三区| 夜夜嗨一区二区| 国产女主播喷水高潮网红在线| 色婷婷综合久久久中文一区二区 | 国产一区二区三区四区福利| 高清电影一区| 亚洲五月六月| 国产一区二区三区四区五区入口| 欧洲猛交xxxx乱大交3| 精品少妇一区二区三区日产乱码| 国内高清免费在线视频| 国产精品视频在线免费观看 | 福利片一区二区三区| 亚洲欧洲av在线| 精品人妻久久久久一区二区三区| 久久久久久91| 国产aⅴ精品一区二区三区久久| 999在线免费视频| 自拍av一区二区三区| 亚洲毛片欧洲毛片国产一品色| 午夜精品久久17c| 视频一区中文| 日本特黄在线观看| 亚洲va欧美va国产va天堂影院| 欧美巨乳在线| 成人免费网站在线观看| 亚洲一本视频| 亚洲av无码一区二区三区人| 欧美日本一区二区在线观看| 日韩精品亚洲人成在线观看| 欧美精品亚洲精品| 精品一区二区三区蜜桃| 日韩成人免费在线视频| 永久免费精品影视网站| 日韩视频在线直播| 91av在线免费播放| 一区二区三区日韩在线观看| 色网站在线免费观看| 川上优av一区二区线观看| 亚洲一区欧美二区| 久久福利免费视频| 日韩经典中文字幕| 日韩中文字幕视频网|