精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

學術黨狂喜,Meta推出OCR神器,PDF、數學公式都能轉

人工智能 新聞
現在,Meta AI 推出了一個 OCR 神器,可以很好的解決這個難題,該神器被命名為 Nougat。Nougat 基于 Transformer 模型構建而成,可以輕松的將 PDF 文檔轉換為 MultiMarkdown,掃描版的 PDF 也能轉換,讓人頭疼的數學公式也不在話下。

我們平時在閱讀論文或者科學文獻時,見到的文件格式基本上是 PDF(Portable Document Format)。據了解,PDF 成為互聯網上第二重要的數據格式,占總訪問量的 2.4%。

然而,存儲在 PDF 等文件中的信息很難轉成其他格式,尤其對數學公式更是顯得無能為力,因為轉換過程中很大程度上會丟失信息。就像下圖所展示的,帶有數學公式的 PDF,轉換起來就比較麻煩。

現在,Meta AI 推出了一個 OCR 神器,可以很好的解決這個難題,該神器被命名為 Nougat。Nougat 基于 Transformer 模型構建而成,可以輕松的將 PDF 文檔轉換為 MultiMarkdown,掃描版的 PDF 也能轉換,讓人頭疼的數學公式也不在話下。

  • 論文地址:https://arxiv.org/pdf/2308.13418v1.pdf
  • 項目主頁:https://facebookresearch.github.io/nougat/

Nougat 不但可以識別文本中出現的簡單公式,還能較為準確地轉換復雜的數學公式。

公式中出現的上標、下標等各種數學格式也分的清清楚楚:

Nougat 還能識別表格:

圖片

掃描產生畸變的文本也能處理:

不過,Nougat 生成的文檔中不包含圖片,如下面的柱狀圖:

看到這,網友紛紛表示:(轉換)效果真是絕了。

方法概述

本文架構是一個編碼器 - 解碼器 Transformer 架構,允許端到端的訓練,并以 Donut 架構為基礎。該模型不需要任何 OCR 相關輸入或模塊,文本由網絡隱式識別。該方法的概述見下圖 1。

該研究用到了 2 個 Swin Transformer ,一個參數量為 350M,可處理的序列長度為 4096,另一參數量為 250M,序列長度為 3584。在推理過程中,使用貪婪解碼生成文本。

在圖像識別任務中,使用數據增強技術來提高泛化能力往往是有益的。由于本文只研究數字化的學術研究論文,因此需要使用一些變換來模擬掃描文件的不完美和多變性。這些變換包括侵蝕、擴張、高斯噪聲、高斯模糊、位圖轉換、圖像壓縮、網格變形和彈性變換 。每種變換都有固定的概率應用于給定的圖像。這些變換在 Albumentations 庫中實現。在訓練過程中,研究團隊也會通過隨機替換 token 的方式,對實際文本添加擾動。

每種變換的效果概覽  

數據集構建與處理

據研究團隊所知,目前還沒有 PDF 頁面和相應源代碼的配對數據集,因此他們從 arXiv 上開放獲取的文章中創建了自己的數據集。為了數據多樣性,數據集中還包括 PubMed Central  (PMC) 開放訪問非商業數據集的一個子集。預訓練期間,還加入了部分行業文檔庫  (IDL)。

表 1 數據集構成

在處理數據集的過程中,研究團隊也將不同來源的數據進行了合適的處理,下圖展示了他們對 arXiv 文章進行源代碼收集并編譯 PDF 的過程。詳細內容請閱讀全文。

源文件被轉換成 HTML,然后再轉換成 Markdown。

研究團隊根據 PDF 文件中的分頁符分割 markdown 文件,并將每個頁面柵格化為圖像以創建最終配對的數據集。在編譯過程中,LaTeX 編譯器自動確定 PDF 文件的分頁符。由于他們不會為每篇論文重新編譯 LaTeX 源文件,因此必須將源文件分割成若干部分,分別對應不同的頁面。為此,他們使用 PDF 頁面上的嵌入文本,并將其與源文本進行匹配。

但是,PDF 中的圖形和表可能并不對應于它們在源代碼中的位置。為了解決這個問題,研究團隊使用 pdffigures2 在預處理步驟中刪除這些元素。將識別出的字幕與 XML 文件中的字幕進行比較,根據它們的 Levenshtein 距離進行匹配。一旦源文檔被拆分為單獨的頁面,刪除的圖形和表就會重新插入到每一頁的末尾。為了更好地匹配,他們還使用 pylatexence -library 將 PDF 文本中的 unicode 字符替換為相應的 LaTeX 命令。

詞袋匹配:首先,研究團隊使用 MuPDF 從 PDF 中提取文本行,并對其進行預處理,刪除頁碼和頁眉 / 頁腳。然后使用詞袋模型與 TF-IDF 向量化器和線性支持向量機分類器。將模型擬合到以頁碼為標簽的 PDF 行。然后,他們將 LaTeX 源代碼分成段落,并預測每個段落的頁碼。理想情況下,預測將形成階梯函數,但在實踐中,信號將有噪音。為了找到最佳邊界點,他們采用類似于決策樹的邏輯,并最小化基于 Gini 不純度的度量:

其中圖片是在區間 [a,b] 中選擇具有預測頁碼 i 的元素的概率,該區間描述了哪些段落 (元素) 被考慮用于分割。

區間 [a, b] 的最佳拆分位置 t 為:

搜索過程從所有段落開始,對于后續的每個分頁,搜索區間的下界設置為前一個分頁位置。

模糊匹配:在第一次粗略的文檔分割之后,研究團隊嘗試找到段落中的準確位置。通過使用 fuzzysearch 庫,將預測分割位置附近的源文本與嵌入的 PDF 文本的前一頁的最后一個句子和下一頁的第一個句子進行比較,就可以達到這個目的。如果兩個分隔點在源文本中的相同位置,則認為換頁是準確的,得分為 1。另一方面,如果分割位置不同,則選擇具有最小歸一化 Levenshtein 距離的分割位置,并給出 1 減距離的分數。要包含在數據集中,PDF 頁面的兩個分頁符的平均得分必須至少為 0.9。如此一來,所有頁面的接受率約為 47%。

實驗

實驗中用到的文本包含三種類別:純文本、數學表達式以及表格。

結果如表 1 所示。Nougat 優于其他方法,在所有指標中取得最高分,并且具有 250M 參數模型的性能與 350M 參數模型相當。

下圖為 Nougat 優對一篇論文的轉換結果:

Meta 表示,Nougat 在配備 NVIDIA A10G 顯卡和 24GB VRAM 機器上可并行處理 6 個頁面,生成速度在很大程度上取決于給定頁面上的文本量。在不進行任何推理優化的情況下,基礎模型每批次平均生成時間為 19.5s(token 數≈1400),與經典方法(GROBID 10.6 PDF/s )相比速度還是非常慢的,但 Nougat 可以正確解析數學表達式。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2017-04-27 08:19:56

Markdown數學公式

2009-04-16 08:19:40

Windows 7微軟操作系統

2024-08-27 00:01:00

LaTeX語言符號

2021-06-26 07:54:21

Python字體分辨率

2025-10-20 09:30:34

2017-09-06 08:49:33

機器學習數學公式代數

2020-06-24 08:07:32

5G網絡智慧城市

2025-04-09 12:48:13

模型AI數據

2025-09-12 09:04:20

2023-05-24 09:56:40

谷歌AI編程神器

2025-01-27 09:00:00

2023-04-23 12:36:00

必應聊天人工智能

2013-06-03 09:45:53

R語言

2022-02-22 15:17:24

GitHub做飯項目HowToCook

2019-04-08 08:25:48

代碼開發工具

2022-02-18 08:25:46

微軟Windows 11任務管理器

2025-11-10 17:11:35

谷歌AI圖像生成

2024-02-05 13:40:00

Mathlive開源庫Web 組件

2021-06-21 05:28:54

谷歌 Chrome 瀏覽器
點贊
收藏

51CTO技術棧公眾號

亚洲**毛片| 日韩欧美99| 福利视频一二区| 国产毛片欧美毛片久久久| 18av在线播放| 成人毛片免费看| 亚洲国产精品久久久久秋霞影院| 国产欧美在线播放| 鲁丝一区二区三区| 国产一区二区三区亚洲综合| 国产精品护士白丝一区av| 欧美最近摘花xxxx摘花| 国产午夜在线一区二区三区| av软件在线观看| 99精品国产视频| 国自产精品手机在线观看视频| 男人操女人下面视频| 免费**毛片在线| 久久国产欧美日韩精品| 中文字幕日韩欧美在线视频| 国产天堂在线播放| 成人一区二区不卡免费| 日韩av一二三| 中文字幕亚洲欧美日韩在线不卡| 91精品又粗又猛又爽| 欧美日韩视频免费看| 国产精品成人免费在线| 久久久久久国产精品mv| 亚洲熟妇无码乱子av电影| 日本国产精品| 色综合久久中文字幕综合网| 欧美日韩一区二区三区免费| 亚洲大尺度在线观看| 国产一区二区三区电影在线观看 | 亚洲精品一区二区三区av| 国产精品免费精品一区| 国内精品久久久久久久影视麻豆 | 手机看片福利在线观看| 国产精品美女| 亚洲人成电影网| 少妇一级淫免费播放| av超碰免费在线| 欧美国产成人在线| 95av在线视频| 日韩乱码一区二区| 欧美精品中文| 精品欧美久久久| 亚洲自偷自拍熟女另类| 东热在线免费视频| 久久国产视频网| 国产精品一二三在线| 乱h高h女3p含苞待放| 国产精品x8x8一区二区| 欧美亚日韩国产aⅴ精品中极品| 亚洲一区二区不卡视频| 丰满人妻一区二区三区免费视频| 香蕉亚洲视频| www.亚洲成人| 插我舔内射18免费视频| 四虎4545www精品视频| 亚洲精品美国一| 欧美精品七区| 欧美一区二区少妇| 激情成人午夜视频| 国产91精品久久久| 午夜激情福利网| 九九精品在线| 日韩精品一区二区三区在线观看| www.com毛片| 625成人欧美午夜电影| 中文字幕日韩精品一区| 蜜桃av久久久亚洲精品| www.97超碰| 免费的成人av| 欧美亚洲第一区| 免费无码国产精品| 在线免费高清一区二区三区| 色吧影院999| av直播在线观看| 欧美影院视频| 亚洲国产精品va在线看黑人| 五月天婷婷影视| 日韩在线短视频| 亚洲va国产天堂va久久en| 一区二区三区偷拍| 男女污污视频在线观看| 大尺度一区二区| 国产欧美日韩视频| 99视频在线观看免费| 美女免费视频一区| 亚洲一区二区在线| 五月婷婷六月丁香| 国产aⅴ精品一区二区三区色成熟| 国产精品中文字幕在线| 精品乱子伦一区二区| 91色婷婷久久久久合中文| 成人av蜜桃| 国产又黄又大又爽| 蜜桃传媒麻豆第一区在线观看| 91网站在线看| 国产又黄又粗又长| 99精品欧美一区二区三区小说 | 男人女人拔萝卜视频| 色成人免费网站| 91精品国产综合久久国产大片| 亚洲无吗一区二区三区| 电影一区二区三| 777xxx欧美| 57pao国产成永久免费视频| 99精品国自产在线| 在线国产亚洲欧美| 日本在线视频www| 欧美黑人粗大| 性色av蜜臀av色欲av| 日韩精品福利| 亚洲美女屁股眼交3| 国产精品国产三级国产专区53| 一级全黄裸体免费视频| 另类小说欧美激情| 精品999在线观看| 无码精品黑人一区二区三区| 国产精品视频第一区| 先锋影音欧美| 日韩伦理在线观看| 成人免费在线视频| 日韩av资源在线| 蜜桃成人精品| 日韩国产欧美精品一区二区三区| www.久久国产| 日本午夜一区| 中文字幕免费精品一区高清| 欧美一级视频免费观看| 亚洲尤物在线| 国产在线精品一区二区中文| 男人的天堂在线免费视频| 亚洲国产精品一区二区www在线 | 精品三级av在线| 中文字幕美女视频| 91成人精品视频| 欧美激情精品在线| 中文字幕在线观看免费视频| 国产91丝袜在线播放0| 国产盗摄视频在线观看| 欧美黄色视屏| 色综合久久中文综合久久97 | 国产欧美日韩三区| 在线观看福利一区| 亚洲高清影院| 女海盗2成人h版中文字幕| 亚洲精品18| 日韩女同互慰一区二区| 国产午夜精品理论片| 全国精品久久少妇| 日本精品一区二区三区高清 久久 日本精品一区二区三区不卡无字幕 | 国产美女免费看| 国产高清成人在线| 欧美日韩精品一区| 忘忧草在线影院两性视频| 欧美日韩一本到| 黄色性视频网站| 亚洲天堂男人| 久久riav| se01亚洲视频| 久久精品成人欧美大片| 日本熟女一区二区| av毛片久久久久**hd| 中文字幕中文字幕99| 91丨精品丨国产| 亚洲欧美色婷婷| 久久99久久久| 免费观看成人av| 中文字幕中文字幕99| 日本在线一区二区三区| 77777少妇光屁股久久一区| 一区二区日韩在线观看| 亚洲狠狠丁香婷婷综合久久久| 亚洲美女高潮久久久| 成人在线视频免费观看| 成人福利免费观看| 国产免费永久在线观看| 欧美日韩视频在线一区二区| tube国产麻豆| 99精品久久免费看蜜臀剧情介绍| 国产成人手机视频| 在线观看国产精品入口| 国产精品亚发布| 伊人手机在线| 亚洲精品色婷婷福利天堂| 免费人成视频在线| 91丨九色丨黑人外教| 污污网站免费看| 亚洲午夜极品| 亚洲韩国在线| www.亚洲一二| 欧美成人在线免费| 中文字幕欧美色图| 国产午夜亚洲精品理论片色戒| 日韩国产欧美亚洲| 久久亚州av| 性色av一区二区三区免费| www.看毛片| 日本韩国一区二区| 精品人妻互换一区二区三区| 亚洲在线成人| 国产精品久久成人免费观看| 欧美三级午夜理伦三级小说| 成人黄色午夜影院| 欧美黑人疯狂性受xxxxx野外| 欧美精品在线免费| av小片在线| 欧美日韩另类一区| 免费看一级黄色| 日韩vs国产vs欧美| 日本在线一区| 大伊香蕉精品在线品播放| 国产精品久久久久久搜索| lutube成人福利在线观看| 亚洲精品国精品久久99热| 亚洲国产成人精品激情在线| 综合在线观看色| 国产综合精品在线| 麻豆国产欧美日韩综合精品二区 | 高h视频在线播放| 日韩欧美在线1卡| 少妇又紧又色又爽又刺激视频| 欧美激情一区二区| 给我看免费高清在线观看| 成人一区二区三区| 国产又黄又猛的视频| 日韩电影一区二区三区四区| 免费无遮挡无码永久视频| 韩日一区二区三区| 久久国产精品 国产精品| 亚洲2区在线| 91久久大香伊蕉在人线| 国产网红女主播精品视频| 久久天堂av综合合色| 韩国av免费在线| 欧美一区二区美女| 国产免费的av| 91精品国产综合久久国产大片| 91亚洲视频在线观看| 欧美电影影音先锋| 麻豆视频在线观看| 亚洲欧美另类小说| 美女的奶胸大爽爽大片| 久久综合久久综合久久| 亚洲精品www.| 毛片一区二区三区| 国模私拍视频在线观看| 国产一区二区三区在线观看精品| 国产在线精品91| 99国产精品| 影音先锋男人的网站| 99久久影视| 免费久久99精品国产自| 亚洲美女15p| 91久久大香伊蕉在人线| 91成人短视频| 精品日韩欧美| 国产一区二区电影在线观看| 午夜老司机精品| 91九色精品国产一区二区| 久久久久久久免费视频| 在线观看视频日韩| 成人在线观看a| 美女视频网站久久| 在线观看网站黄| 成人av午夜电影| 911av视频| 国产精品一品视频| 日韩精品你懂的| 国产亚洲精品自拍| 日本在线观看a| 久久精品国产网站| 成人啪啪18免费游戏链接| 日韩电影免费一区| 亚洲妇熟xx妇色黄蜜桃| 波多野结衣一区二区三区| 国产sm调教视频| 亚洲激情成人在线| 六月丁香激情综合| 亚洲成人av中文| 欧美日韩一级黄色片| 69堂成人精品免费视频| 日本激情一区二区| 日韩女优电影在线观看| 色天堂在线视频| 日韩网站免费观看| 成人黄色动漫| 国内揄拍国内精品少妇国语| 亚洲精品一区三区三区在线观看| 亚洲影院高清在线| 美女久久久久| 99re6这里有精品热视频| 999精品视频| 亚洲一区二区自拍偷拍| 在线日韩视频| 欧美午夜小视频| 日韩成人免费电影| 日本一区二区在线免费观看| 国产精品的网站| 欧美日韩一二三四区| 日韩欧美在线影院| 国产黄色美女视频| 亚洲欧美精品中文字幕在线| 香蕉久久aⅴ一区二区三区| 久久亚洲精品一区| 毛片无码国产| 国产欧美一区二区视频| 51精产品一区一区三区| 黄色国产小视频| 99精品1区2区| 久久午夜无码鲁丝片| 亚洲国产精品影院| 国产人妻精品一区二区三区| 一区二区亚洲精品国产| 91在线直播| 4438全国亚洲精品在线观看视频| 国产精选久久| 伊人婷婷久久| 男人的j进女人的j一区| 巨胸大乳www视频免费观看| 亚洲永久精品国产| 成年人视频软件| 一本色道综合亚洲| 午夜激情在线视频| 久久久久久久久久国产| 亚洲伊人av| 精品人伦一区二区三区| 精品不卡视频| 久久无码专区国产精品s| 亚洲精品中文在线影院| 国产巨乳在线观看| 日日狠狠久久偷偷四色综合免费 | 中文字幕第4页| 精品色蜜蜜精品视频在线观看| 日日噜噜噜噜人人爽亚洲精品| 精品88久久久久88久久久 | 日韩中文在线中文网在线观看| 涩涩视频网站在线观看| 久久99精品久久久久久水蜜桃| 99精品国产在热久久| 你懂的在线观看网站| 精品人伦一区二区三区蜜桃网站| 色窝窝无码一区二区三区成人网站 | av在线网站免费观看| 18欧美乱大交hd1984| 国产精品怡红院| 九九热视频这里只有精品| 免费毛片b在线观看| 久久偷窥视频| 日韩精品一卡二卡三卡四卡无卡| 天天操天天干天天操天天干| 亚洲综合久久av| 天天干天天爱天天操| 奇米影视亚洲狠狠色| 成人激情诱惑| av在线免费看片| 亚洲一区二区在线视频| 污污的视频网站在线观看| 国产黑人绿帽在线第一区| 国产精品zjzjzj在线观看| 成年人午夜视频在线观看| 久久久久久久久蜜桃| 国产无遮挡又黄又爽| 欧美裸体一区二区三区| 2020国产在线视频| 国产综合av一区二区三区| a视频在线播放| 国产精品无码永久免费888| www成人在线| 欧美一二区视频| a天堂资源在线| 666精品在线| 一本色道88久久加勒比精品| 欧美成人另类视频| 日韩视频一区二区三区| 午夜伦理福利在线| 亚洲一区二区精品在线观看| 国产高清久久久久| 国产精品一区无码| 欧美成人免费观看| 日韩精品福利一区二区三区| 99久久久精品视频| 国产精品一区在线| 国产午夜性春猛交ⅹxxx| 中文字幕亚洲欧美日韩在线不卡| 一本色道69色精品综合久久| 密臀av一区二区三区| 亚洲激情五月婷婷| 精品视频二区| 欧美在线免费视频| 99久久亚洲精品蜜臀| 黄色a一级视频| 欧美一卡二卡三卡四卡| 电影久久久久久| 日本免费不卡一区二区| 亚洲欧洲av色图| 免费在线一级视频|