精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

告別「復制+粘貼」,基于深度學習的OCR,實現PDF轉文本

新聞 深度學習
最近,來自 K1 Digital 的高級機器學習工程師 Lucas Soares 一直在嘗試通過使用 OCR(光學字符識別)自動轉錄 pdf 幻燈片,以便直接在 markdown 文件中操作它們的內容,從而避免手動復制和粘貼 pdf 內容,實現這一過程的自動化。

[[403226]]

傳統的講座通常伴隨著一組 pdf 幻燈片。一般來說,想要對此類講座做筆記,需要從 pdf 復制、粘貼很多內容。

最近,來自 K1 Digital 的高級機器學習工程師 Lucas Soares 一直在嘗試通過使用 OCR(光學字符識別)自動轉錄 pdf 幻燈片,以便直接在 markdown 文件中操作它們的內容,從而避免手動復制和粘貼 pdf 內容,實現這一過程的自動化。

告別「復制+粘貼」,基于深度學習的OCR,實現PDF轉文本

左為項目作者 Lucas Soares。

項目地址:https://github.com/EnkrateiaLucca/ocr_for_transcribing_pdf_slides

為什么不使用傳統的 pdf 轉文本工具呢?

Lucas Soares 發現傳統工具往往會帶來更多的問題,需要花時間解決。他曾經嘗試使用傳統的 Python 軟件包,但是遇到了很多問題(例如必須使用復雜的正則表達式模式解析最終輸出等),因此決定嘗試使用目標檢測和 OCR 來解決。

基本過程可分為以下步驟:

  • 將 pdf 轉換為圖片;
  • 檢測和識別圖像中的文本;
  • 展示示例輸出。

基于深度學習的 OCR 將 pdf 轉錄為文本

將 pdf 轉換為圖像

Soares 使用的 pdf 幻燈片來自于 David Silver 的增強學習(參見以下 pdf 幻燈片地址)。使用「pdf2image」包將每張幻燈片轉換為 png 圖像格式。

告別「復制+粘貼」,基于深度學習的OCR,實現PDF轉文本

pdf 幻燈片示例。

地址:https://www.davidsilver.uk/wp-content/uploads/2020/03/intro_RL.pdf

代碼如下: 

  1. from pdf2image import convert_from_path 
  2. from pdf2image.exceptions import ( 
  3.  PDFInfoNotInstalledError, 
  4.  PDFPageCountError, 
  5.  PDFSyntaxError 
  6.  
  7. pdf_path = "path/to/file/intro_RL_Lecture1.pdf" 
  8. images = convert_from_path(pdf_path) 
  9. for i, image in enumerate(images): 
  10.     fname = "image" + str(i) + ".png" 
  11.     image.save(fname, "PNG"

經過處理后,所有的 pdf 幻燈片都轉換成 png 格式的圖像:

告別「復制+粘貼」,基于深度學習的OCR,實現PDF轉文本

檢測和識別圖像中的文本

為了檢測和識別 png 圖像中的文本,Soares 使用 ocr.pytorch 庫中的文本檢測器。按照說明下載模型并將模型保存在 checkpoints 文件夾中。

ocr.pytorch 庫地址:https://github.com/courao/ocr.pytorch

代碼如下: 

  1. # adapted from this source: https://github.com/courao/ocr.pytorch 
  2. %load_ext autoreload 
  3. %autoreload 2 
  4. import os 
  5. from ocr import ocr 
  6. import time 
  7. import shutil 
  8. import numpy as np 
  9. import pathlib 
  10. from PIL import Image 
  11. from glob import glob 
  12. import matplotlib.pyplot as plt 
  13. import seaborn as sns 
  14. sns.set() 
  15. import pytesseract 
  16.  
  17. def single_pic_proc(image_file): 
  18.     image = np.array(Image.open(image_file).convert('RGB')) 
  19.     result, image_framed = ocr(image) 
  20.     return result,image_framed 
  21.  
  22. image_files = glob('./input_images/*.*'
  23. result_dir = './output_images_with_boxes/' 
  24.  
  25. # If the output folder exists we will remove it and redo it. 
  26. if os.path.exists(result_dir): 
  27.     shutil.rmtree(result_dir) 
  28. os.mkdir(result_dir) 
  29.  
  30. for image_file in sorted(image_files): 
  31.     result, image_framed = single_pic_proc(image_file) # detecting and recognizing the text 
  32.     filename = pathlib.Path(image_file).name 
  33.     output_file = os.path.join(result_dir, image_file.split('/')[-1]) 
  34.     txt_file = os.path.join(result_dir, image_file.split('/')[-1].split('.')[0]+'.txt'
  35.     txt_f = open(txt_file, 'w'
  36.     Image.fromarray(image_framed).save(output_file) 
  37.     for key in result: 
  38.         txt_f.write(result[key][1]+'\n'
  39.     txt_f.close() 

設置輸入和輸出文件夾,接著遍歷所有輸入圖像(轉換后的 pdf 幻燈片),然后通過 single_pic_proc() 函數運行 OCR 模塊中的檢測和識別模型,最后將輸出保存到輸出文件夾。

其中檢測繼承(inherit)了 Pytorch CTPN 模型,識別繼承了 Pytorch CRNN 模型,兩者都存在于 OCR 模塊中。

示例輸出

代碼如下: 

  1. import cv2 as cv 
  2.  
  3. output_dir = pathlib.Path("./output_images_with_boxes"
  4.  
  5. # image = cv.imread(str(np.random.choice(list(output_dir.iterdir()),1)[0])) 
  6. image = cv.imread(f"{output_dir}/image7.png"
  7. size_reshaped = (int(image.shape[1]),int(image.shape[0])) 
  8. image = cv.resize(image, size_reshaped) 
  9. cv.imshow("image", image) 
  10. cv.waitKey(0
  11. cv.destroyAllWindows() 

下圖左為原始 pdf 幻燈片,圖右為轉錄后的輸出文本,轉錄后的準確率非常高。

告別「復制+粘貼」,基于深度學習的OCR,實現PDF轉文本

文本識別輸出如下: 

  1. filename = f"{output_dir}/image7.txt" 
  2. with open(filename, "r") as text: 
  3.     for line in text.readlines(): 
  4.         print(line.strip("\n")) 

通過上述方法,最終你可以得到一個非常強大的工具來轉錄各種文檔,從檢測和識別手寫筆記到檢測和識別照片中的隨機文本。擁有自己的 OCR 工具來處理一些文本內容,這比依賴外部軟件來轉錄文檔要好的多。

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2021-09-24 09:59:59

復制粘貼PythonPDF

2020-09-14 17:10:16

微信搜索移動應用

2024-10-25 11:56:33

OCRVisRAGRAG

2017-05-22 13:15:45

TensorFlow深度學習

2024-08-29 08:23:22

EasyOCRSpring文字識別

2018-07-19 15:13:15

深度學習圖像

2017-05-12 16:25:44

深度學習圖像補全tensorflow

2023-05-22 08:00:00

深度學習機器學習人工智能

2023-09-26 07:39:21

2018-08-03 09:42:01

人工智能深度學習人臉識別

2019-05-22 14:28:08

AI人工智能深度學習

2021-11-03 09:00:00

深度學習自然語言機器學習

2025-11-11 09:39:40

2022-10-26 15:41:38

深度學習Deepfake機器學習

2024-12-03 09:59:00

2024-11-04 08:14:48

2017-09-21 15:43:02

深度序列學習

2017-08-03 16:20:42

深度學習文本摘要遞歸神經網絡

2023-11-12 23:01:44

PaddleOCR深度學習

2020-10-17 09:03:06

使用JS創建復制&粘貼
點贊
收藏

51CTO技術棧公眾號

欧美zzoo| 免费一级片在线观看| 日韩免费va| 中文无字幕一区二区三区| 成人午夜激情免费视频| 久草成人在线视频| 国产不卡一区| 日韩在线观看一区二区三区| 韩国精品在线观看| 久久久久久久999精品视频| 51调教丨国产调教视频| 欧美大片1688网站| 亚洲国产日韩精品| 亚洲日本无吗高清不卡| 丰满人妻一区二区三区免费| 人妖欧美一区二区| 国模极品一区二区三区| 日韩av毛片在线观看| 老汉色老汉首页av亚洲| 欧美疯狂性受xxxxx喷水图片| 毛片在线视频播放| 国产超级va在线视频| 91麻豆国产自产在线观看| 91亚洲精品一区| 久久久久久久久黄色| 欧美高清日韩| 在线观看日韩www视频免费| 亚洲一二三四五| 成人亚洲精品| 欧美性三三影院| 黄色动漫网站入口| 国模私拍视频在线播放| 中文字幕五月欧美| 日产中文字幕在线精品一区| 男人天堂综合网| 国产一区二区三区综合| 国产精品电影在线观看| 四虎精品永久在线| 亚洲午夜精品久久久久久app| 日韩在线精品视频| 久久久久久国产免费a片| 加勒比久久高清| 91精品国产手机| 午夜视频在线网站| 日本欧美一区| 91久久精品一区二区三区| 欧美精品一区免费| 少妇愉情理伦片bd| 国产在线小视频| 久久综合丝袜日本网| 精品国产一区二区三区日日嗨| 国产丰满果冻videossex| 狠狠色伊人亚洲综合成人| 国产精品爽黄69天堂a| 91视频久久久| 视频一区二区中文字幕| 全球成人中文在线| 久久久久久久久久久影院| 中文精品视频| 78色国产精品| www毛片com| 日韩在线一二三区| 日韩av电影在线免费播放| 中文字幕黄色片| 秋霞午夜鲁丝一区二区老狼| 国产精品一区二区久久精品 | 色综合天天综合网国产成人综合天| 日韩在线视频在线| 精精国产xxxx视频在线中文版| 亚洲一级二级在线| 成人免费在线网| 亚洲色图官网| 在线一区二区三区四区五区 | 成人h动漫精品一区二| 国产精品国产精品| 天天操天天操天天操| 久久一二三国产| 色女孩综合网| av毛片在线播放| 亚洲国产一区二区a毛片| 黄色网页免费在线观看| 日韩欧美精品电影| 91精品国产手机| 呦呦视频在线观看| 日韩a一区二区| 欧美精品午夜视频| 男人的天堂一区二区| 国产色a在线| 麻豆九一精品爱看视频在线观看免费| 国产精品va在线播放| 一级黄色免费看| 国产成人精品一区二区三区网站观看| 国产亚洲精品久久飘花| www黄在线观看| 亚洲综合视频在线观看| 日本成年人网址| 亚洲免费一区| 日韩电影大全免费观看2023年上| 三区四区在线观看| 激情久久一区| 国产精品自拍偷拍| 韩国av永久免费| 国产精品初高中害羞小美女文| 日韩av中文字幕第一页| 国产成人免费9x9x人网站视频| 欧美一区二区三区不卡| 国产精品无码一区二区三区免费| 第一会所亚洲原创| 97在线免费观看| 国产精品国产精品国产专区| 91亚洲男人天堂| www.-级毛片线天内射视视| 国产福利电影在线播放| 欧美日韩精品一区二区三区蜜桃 | 国语自产精品视频在线看| 无码视频在线观看| 成人午夜精品一区二区三区| 一本一道久久a久久综合精品| 国产无遮挡裸体视频在线观看| 在线不卡免费欧美| 午夜理伦三级做爰电影| 在线观看一区视频| 91亚洲精品久久久| 日本网站在线免费观看视频| 一本色道亚洲精品aⅴ| 蜜桃色一区二区三区| 97视频热人人精品免费| 青青草原一区二区| 三级视频在线看| 另类视频在线| 1000部国产精品成人观看| 免费无码av片在线观看| 成人激情自拍| 色综合久久悠悠| 国产特级黄色片| 国产精品久久夜| 亚洲 欧美 日韩系列| 性欧美lx╳lx╳| 欧美精品福利视频| 欧美又粗又大又爽| 欧美特级黄色录像| 亚洲一区二区三区免费在线观看| 国产精品一区二区欧美| 欧美黑人猛交的在线视频| 日韩一区二区免费高清| 欧美日韩黄色网| 激情久久五月天| 欧美xxxx吸乳| 国产激情综合| 久久国产精品久久精品| 99热这里只有精品66| 成人欧美一区二区三区视频网页| 亚洲视频一二三四| 久久一本综合| 91精品国产综合久久香蕉最新版| 亚洲精品承认| 欧美老人xxxx18| 永久av免费网站| 久久精品国产亚洲一区二区三区| 亚洲精品中文字幕在线| 久久精品超碰| 久久天天躁狠狠躁夜夜躁| 国产精品久久久久久久免费看| 国产精品欧美极品| theporn国产精品| 中文乱码免费一区二区三区下载| 91久久精品一区二区别| 青春草在线免费视频| 亚洲成人动漫在线播放| 91蜜桃视频在线观看| 久久综合色综合88| 国产视频在线视频| 成人国产精品一级毛片视频| 国产精品专区一| 日本在线观看大片免费视频| 亚洲成年人在线播放| 国产精品自拍99| 亚洲国产成人一区二区三区| 911av视频| 亚洲黄色免费| 日产精品久久久一区二区| 粉嫩av一区二区三区四区五区 | 性生交大片免费全黄| 精品一区二区三区av| 国产午夜精品视频一区二区三区| 9l亚洲国产成人精品一区二三| 欧美在线免费视频| 色开心亚洲综合| 日韩免费电影网站| 91porny在线| 中文字幕一区不卡| 日本少妇xxxx| 日本视频中文字幕一区二区三区| 超级碰在线观看| 亚洲高清极品| 亚洲专区国产精品| 免费亚洲电影| 欧美尺度大的性做爰视频| 久热av在线| 日韩欧美亚洲另类制服综合在线| 4438国产精品一区二区| 亚洲视频精选在线| 中文字幕一二三四区| 美女羞羞视频在线观看| 中文字幕制服丝袜成人av| youjizz.com国产| 蜜桃av一区二区三区| 国产69精品久久久久999小说| 日韩av密桃| 久久精品日产第一区二区三区乱码| 四虎国产精品免费久久5151| 91av视频导航| 青草影视电视剧免费播放在线观看| 国产亚洲精品高潮| 天堂在线视频网站| 日韩小视频在线观看专区| 九九热精品视频在线| 亚洲毛片av在线| av无码av天天av天天爽| 国产大陆a不卡| 日韩av一卡二卡三卡| 久久久久久久波多野高潮日日| 免费人成自慰网站| 国产精品久久观看| 婷婷久久伊人| 欧美色图在线播放| 欧美日韩电影一区二区三区| 豆花视频一区二区| 亚洲一区二区三区视频| 黑人一区二区三区| 国产精品成人免费电影| 色戒汤唯在线| 麻豆久久精品| 精品久久久三级| 这里视频有精品| 亚洲精品欧美日韩专区| 亚洲精品毛片| 国产噜噜噜噜噜久久久久久久久| 性欧美videohd高精| 欧美一区二区三区图| 精品丝袜在线| 69av成年福利视频| 91高清视频在线观看| 久久久久久久久国产| 欧美bbbxxxxx| 久久久久久久999精品视频| 伊人春色在线观看| 久久99精品视频一区97 | 91国语精品自产拍在线观看性色| av免费在线观| 欧美激情在线有限公司| 欧美激情成人动漫| 国产+人+亚洲| 国产高清中文字幕在线| 国产91对白在线播放| 亚洲人体视频| 国产精品久久久久久久电影| 成人深夜福利| 亚洲www视频| 久久久久久亚洲精品美女| 国产91免费视频| 欧美福利在线播放网址导航| 久久久久久久有限公司| 国产欧美日韩视频在线| 亚洲精品白虎| 欧美日韩国产高清| 国产玉足脚交久久欧美| 妖精视频成人观看www| 日韩久久一级片| 日韩和的一区二区| 肉色超薄丝袜脚交| 国产精品午夜一区二区三区| 欧美一区二区三区爱爱| 国产三级小视频| 精品国产1区二区| 色播色播色播色播色播在线| 中文字幕在线观看日韩| 日本中文字幕在线播放| 欧美国产日本高清在线 | 国产清纯白嫩初高中在线观看性色| 国产成人av电影在线播放| 日本五十肥熟交尾| 久久久久久一级片| 亚洲 欧美 国产 另类| 亚洲综合在线五月| 亚洲熟妇无码乱子av电影| 欧美日韩一区二区三区在线看| 亚洲爱情岛论坛永久| 日韩精品有码在线观看| freemovies性欧美| 国内外成人免费激情在线视频网站| 在线观看欧美日韩电影| 成人黄色中文字幕| 日本中文字幕在线一区| 亚洲精品视频一二三| 国模 一区 二区 三区| 男女视频一区二区三区| 国产在线精品不卡| 中文在线永久免费观看| 中文字幕一区二区三区不卡 | 91成人看片片| 草草视频在线播放| 国产亚洲成精品久久| a视频在线播放| 国产成人精品一区二区| 日韩视频一区二区三区四区| 欧美h视频在线| 欧美二区不卡| 色国产在线视频| 99久久99久久精品免费观看| 看免费黄色录像| 欧美性猛交xxxx免费看漫画| 国产喷水吹潮视频www| 亚洲视频综合网| 免费看电影在线| 国产欧美亚洲精品| 免费电影一区二区三区| www.69av| 精品系列免费在线观看| x88av在线| 欧美色视频日本高清在线观看| 国产白浆在线观看| 日韩一区av在线| 在线男人天堂| 国产欧美欧洲| 欧美日韩国产亚洲一区| 怡红院亚洲色图| 四虎成人av| 一本色道久久综合亚洲精品小说| 午夜影院免费在线| 91久久国产婷婷一区二区| 日本午夜一区| 8x8x最新地址| 国产偷国产偷亚洲高清人白洁| 西西44rtwww国产精品| 精品久久一区二区三区| 香蕉久久aⅴ一区二区三区| 成人黄色片网站| 五月天久久久| 亚洲另类第一页| 国产精品福利一区二区三区| 免费无码国产精品| 亚洲一区二区久久| 欧美色网一区| 热re99久久精品国产99热| 久久国产精品亚洲77777| 亚洲av网址在线| 精品国产精品自拍| 无码国产精品一区二区色情男同 | 欧美成人精品三级网站| 蜜桃精品久久久久久久免费影院| 国产精品美女久久久| 国产精品无码网站| 狠狠躁夜夜躁久久躁别揉| 天堂中文资源在线| 日本精品一区二区三区在线| 国产欧美日韩精品一区二区免费| 国产a视频免费观看| 国产三级一区二区| 亚洲精品一区二区二区| 色婷婷**av毛片一区| 91成人app| 欧美性猛交内射兽交老熟妇| 国产91精品在线观看| 国产亚洲欧美久久久久| 日韩精品在线视频观看| 日韩精品一区二区三区| 亚洲精品欧洲精品| 国产精品99久| 国产对白videos麻豆高潮| 麻豆精品国产传媒mv男同| www日韩视频| 中文字幕一区三区| 亚洲国产精品久久久久久6q| 久久久在线观看| 一区二区美女| 国产一伦一伦一伦| 一区二区三区欧美亚洲| 午夜视频在线播放| 国产精品精品久久久久久| 一区二区三区毛片免费| 美女久久久久久久久| 色av成人天堂桃色av| а√天堂8资源在线官网| 国产精品综合久久久久久| 亚久久调教视频| 26uuu成人网| 国产视频久久久| av在线精品| 自拍日韩亚洲一区在线| 欧美国产欧美综合| www.亚洲欧美| 日本精品视频在线观看| 亚洲精品极品少妇16p| 日本japanese极品少妇| 精品视频资源站| 123区在线| 一区二区三区久久网| 91在线国产福利| 国产精品视频久久久久久|