精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

深度解析與精準評估：OmniDocBench的創新之旅

作者：肆零柒 2025-07-23 03:00:00

文檔解析技術正成為AI領域的重要場景。今天，我們將一起了解一下 OmniDocBench。

大家好，我是肆〇柒，今天咱們來聊聊 OmniDocBench，一個在文檔解析領域的 Benchmark。它不僅重新定義了文檔內容提取的標準，還為研究人員和開發者提供了豐富的資源和支持。接下來，我將帶大家深入了解這個工具的方方面面。

文檔內容提取技術在計算機視覺領域扮演著至關重要的角色。它不僅是大型語言模型（LLMs）和檢索增強生成（RAG）技術的基石，更為知識密集型應用提供了高質量的數據支持。然而，現有的文檔解析方法在多樣性和綜合評估方面存在顯著局限。OmniDocBench 的出現，正是為了應對這些挑戰，它是一個精心設計的多源基準測試，旨在推動自動化文檔內容提取技術的發展。

OmniDocBench 數據集構建：精雕細琢的歷程

在構建 OmniDocBench 數據集的過程中，研究團隊采用了系統化的方法，以確保數據的多樣性和高質量。以下是詳細的步驟和說明：

數據收集

初始階段，研究團隊從網絡資源和內部數據中收集了 200,000 個 PDF 文檔。這一龐大的數據池涵蓋了多種類型的文檔，包括學術論文、教科書、幻燈片等。為了確保數據的多樣性，團隊使用了 ResNet-50 提取文檔頁面的視覺特征，并通過 Faiss 聚類算法對這些特征進行分析。最終，從 10 個聚類中心中采樣得到了 6,000 個視覺多樣化的頁面。這一過程可以參考下圖，它詳細展示了 OmniDocBench 數據集的構建流程，包括數據獲取、智能預標注和人工細化的完整路徑。

OmniDocBench數據集構建概述

接下來，標注者對這些頁面進行了細致的屬性標注，包括頁面類型、布局類型和語言類型等。通過人工平衡選擇，團隊從 6,000 個頁面中進一步篩選出 981 個樣本，這些樣本最終構成了 OmniDocBench 數據集的核心。

數據標注

OmniDocBench 的標注框架包括三個關鍵階段：數據獲取、智能預標注和人工細化。在數據獲取階段，團隊確保了文檔頁面的多樣性和代表性。智能預標注階段則利用最先進的檢測和識別模型對布局和內容進行初步標注。例如，使用 LayoutLMv3 進行布局檢測標注，PaddleOCR 進行文本標注，UniMERNet 進行公式標注，GPT-4o 進行表格標注。

人工細化階段是對智能預標注結果的進一步完善。標注者對檢測框進行精修，并添加閱讀順序和歸屬信息。對于文本、公式和表格的標注，標注者使用專業工具（如 Tables Generator 和 latexlive）進行驗證和修正，確保了標注的準確性和一致性。

為了確保標注的準確性，團隊還引入了專家質量檢查環節。通過 CDM 的渲染技術，專家們能夠識別并修正標注中的問題，從而確保了最終標注的高質量。下圖直觀地展示了 OmniDocBench 數據集的多樣性，包括 9 種不同的 PDF 文檔類型以及豐富的標注類型，如布局標注（標題、表格、圖形等）和識別標注（文本行、公式、表格等）。

全文檔基準測試數據多樣性的概述

OmniDocBench 評估方法：多維度的精準考量

OmniDocBench 提供了一個靈活且全面的評估框架，能夠從多個維度對文檔解析技術進行評估。以下是詳細的評估方法和步驟：

提取與匹配算法

在評估過程中，模型生成的 markdown 文本需要經過一系列的預處理步驟。這些步驟包括去除圖片、消除文檔開頭的 markdown 標簽以及標準化重復字符數量。這些操作旨在確保評估的公平性和準確性。

特殊組件提取是評估中的關鍵環節。提取順序如下：首先是 LaTeX 表格，其次是 HTML 表格，然后是顯示公式、markdown 表格（轉換為 HTML 格式）和代碼塊。這種順序安排有助于避免不同內容之間的干擾，確保提取的準確性。

閱讀順序提取則通過記錄提取內容在原始 markdown 中的起始和結束位置來實現。這一方法能夠有效地還原文檔的邏輯結構，為后續的評估提供基礎。

匹配算法采用了鄰近搜索匹配的方法，旨在合并和拆分 GTs 和 Preds 的段落，以達到最佳匹配效果。具體來說，該算法首先計算 GTs 和 Preds 之間的歸一化編輯距離。如果 Pred 和 GT 之間的相似度超過特定閾值，則認為匹配成功。對于其他情況，則應用模糊匹配，以確定一個字符串是否是另一個字符串的子集。如果成立，將進一步應用截斷和合并算法，直到歸一化編輯距離開始下降，從而找到 GTs 和 Preds 之間的最佳匹配。下圖概述了 OmniDocBench 的評估流程，包括提取、匹配算法和度量計算等關鍵步驟。

OmniDocBench評估流程

度量計算

在評估過程中，OmniDocBench 實施了對 PDF 頁面內容中某些組件的忽略邏輯。這一策略主要針對頁眉、頁腳、頁碼和頁面注釋等部分，因為不同模型在處理這些內容時存在輸出標準不一致的問題。通過忽略這些部分，評估能夠更加專注于文檔的核心內容，從而確保評估結果的公正性和準確性。

OmniDocBench 基準測試結果：數字背后的真相

OmniDocBench 對主流文檔解析方法進行了全面的評估，揭示了不同技術路徑的優勢和局限性。

組件特定評估結果

通過對文本、公式、表格和閱讀順序提取任務的評估，OmniDocBench 提供了詳細的性能指標。例如，在文本提取方面，Pipeline 工具 MinerU 和 Mathpix 分別在英文和中文頁面上取得了最佳性能。而在公式提取方面，GOT-OCR 和 Mathpix 表現突出。表格提取的評估結果顯示，OCR-based Models 在語言多樣性和不同框架類型上均表現出色。閱讀順序提取的評估則顯示，MinerU 和 Mathpix 在各種列布局類型上均具有強大的性能。Table 2 展示了文檔解析算法在 OmniDocBench 上的綜合評估結果，包括文本、公式、表格和閱讀順序提取的性能指標。

在 OmniDocBench 上對文檔解析算法的綜合評估

端到端評估結果

OmniDocBench 的端到端評估結果為我們呈現了不同模型在各種文檔類型上的性能表現。下圖展示了不同模型在 9 種 PDF 頁面類型上的端到端文本識別結果，直觀地反映了各模型在不同類型文檔上的適應性和魯棒性。

端到端文本識別在 OmniDocBench 上針對 9 種 PDF 頁面類型的測試結果此外，評估還發現，在面對模糊掃描、水印和彩色背景等特定屬性的文檔時，VLMs InternVL2 和 Qwen2-VL 顯示出了較強的抗干擾能力。Table 4 提供了在不同頁面屬性下（如模糊掃描、水印、彩色背景）的端到端文本識別評估結果，展示了各模型在面對復雜文檔屬性時的表現。

端到端文本識別在 OmniDocBench 上的評估：在不同頁面屬性下的表現

單一算法評估結果：專項測評的深度洞察

布局檢測結果

在布局檢測方面，DocLayout-YOLO 方法展現出了顯著的優勢。該方法在多種文檔類型上均表現優異，尤其在書籍和學術文獻等復雜文檔上的表現尤為突出。Table 6 展示了不同布局檢測模型在各種 PDF 頁面類型上的 mAP 結果，突出了 DocLayout-YOLO 的卓越性能。

在 OmniDocBench 布局子集上的組件級布局檢測評估

表格識別結果

基于樹編輯距離相似性（TEDS）指標的評估顯示，OCR-based Models 在表格識別任務上占據領先地位。Table 7 提供了不同表格識別模型在多種屬性下的表現，包括語言類型、表格框架類型和特殊情形等。

在 OmniDocBench 表格子集上的組件級表格識別評估

文本識別結果

在傳統 OCR 任務中，PaddleOCR 憑借其卓越的性能，顯著領先于其他模型。Table 8 則從文本屬性的角度對 OCR 模型進行了評估，展示了不同模型在語言、背景顏色和文本旋轉等情況下的表現。

在 OmniDocBench OCR 子集上的組件級評估

公式識別結果

根據 CDM 指標的評估，GPT-4o、Mathpix 和 UniMERNet 在公式識別任務上均取得了優異的成績。Table 9 展示了不同模型在公式識別任務上的表現，包括 CDM 指標、公式完整率和歸一化編輯距離等。

在 OmniDocBench 公式子集上的組件級公式識別評估

總結

OmniDocBench 在文檔解析研究領域，不僅提供了一個多樣化且標注詳盡的評估數據集，還建立了一個靈活且可靠的評估框架。通過支持從整個數據集、單個模塊到特定數據類型的多層次評估，OmniDocBench 為研究人員和開發者提供了深入分析和比較不同文檔解析方法的能力。

OmniDocBench 的貢獻在于它不僅揭示了現有文檔解析方法的局限性，還為未來的技術發展提供了方向。其詳盡的標注和多維度的評估體系使得針對特定任務和屬性的模型優化成為可能，從而推動文檔解析技術向更健壯、更高效的方向發展。

不過，我其實是來看有哪些 OCR 工具比較好用的，然后在 Github 上發現了這個 Benchmark 。注意文內的圖表，它指明了那些高性能的 OCR 組件。

責任編輯：龐桂玉來源：覺察流

AI 人工智能文檔解析

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

国产乱人伦精品一区| 蜜桃视频污在线观看| 九一成人免费视频| 欧美午夜精品一区二区三区| 亚洲欧美精品| 精品国自产拍在线观看| 国产亚洲精品bv在线观看| 在线观看国产精品91| www.久久com| 亚洲国产福利| 亚洲男人的天堂网| 久久综合给合久久狠狠色| 亚洲熟妇无码久久精品| 99这里有精品| 欧美精品在线视频观看| 自拍视频一区二区| 国产亚洲高清在线观看| 色999日韩国产欧美一区二区| 中文字幕制服丝袜在线| 偷拍25位美女撒尿视频在线观看| 麻豆精品新av中文字幕| 国内精品伊人久久| 亚洲二区在线播放| 精品国产乱码久久久久久1区2匹| 日韩欧美中文字幕一区| 亚洲精品怡红院| 91九色美女在线视频| 国产女人aaa级久久久级| 国产精品免费区二区三区观看| 中文文字幕一区二区三三| 99综合精品| 欧美激情中文字幕在线| 日韩高清dvd碟片| av亚洲免费| 亚洲欧美国产精品va在线观看| 2018国产精品| 不卡的国产精品| 欧美性一级生活| 男人揉女人奶房视频60分| 亚洲大胆人体大胆做受1| 久久精品人人做人人爽人人| 国外成人在线视频网站| 国产三级自拍视频| 麻豆国产欧美日韩综合精品二区| 欧美一区亚洲一区| 久久精品99国产精| 欧美理论在线| 欧美xxxx综合视频| 日本一级特级毛片视频| 日韩夫妻性生活xx| 中文字幕欧美视频在线| 李宗瑞91在线正在播放| 欧美精品密入口播放| 欧美精品一区二| 国产成人av免费观看| 91精品视频一区二区| 欧美精品日韩精品| 五月六月丁香婷婷| 日本一区二区三区播放| 日韩一区二区三区高清免费看看| 久久婷婷中文字幕| 久久9999免费视频| 日韩美女视频在线| 9.1在线观看免费| 加勒比视频一区| 亚洲国产成人精品一区二区| 日韩精品人妻中文字幕有码 | 久久国产亚洲| 色偷偷噜噜噜亚洲男人| 天堂网avav| 亚洲天堂久久| 欧洲成人免费视频| 日本免费精品视频| 精品一区二区在线视频| 91av免费看| 三级网站在线看| 久久青草欧美一区二区三区| 亚洲精品乱码视频| www免费视频观看在线| 亚洲一级在线观看| 免费不卡av在线| 性欧美videohd高精| 欧美欧美午夜aⅴ在线观看| 色姑娘综合天天| 日韩精品欧美大片| 最近2019年中文视频免费在线观看| 欧美爱爱免费视频| 99pao成人国产永久免费视频| 日韩免费观看视频| 国产一区二区三区三州| 成人h动漫精品一区二区| 欧美精品久久久| 黄网站app在线观看| 亚洲福利国产精品| 自拍偷拍国产| 亚洲一区二区三区中文字幕在线观看| а√天堂8资源中文在线| 久久久三级国产网站| 亚洲自拍偷拍一区二区三区| 51精品在线| 欧美日韩视频在线第一区| caopor在线| 久久免费av| 26uuu另类亚洲欧美日本老年| 亚洲一级黄色大片| 成人免费av在线| 一区二区三区四区免费视频| 国产精品一区二区日韩| 91精品久久久久久蜜臀| 日本黄色网址大全| 欧美激情日韩| 国产日韩欧美91| 天天干天天色天天| 亚洲伦理在线精品| 少妇激情一区二区三区| 欧亚精品一区| 色综合天天狠天天透天天伊人| 亚洲天堂视频在线播放| 不卡高清视频专区| 女女同性女同一区二区三区按摩| 免费日韩电影| 亚洲第一福利视频| 亚洲色图综合区| 久久se这里有精品| 欧洲亚洲一区二区| 免费在线小视频| 精品日韩一区二区三区免费视频| 久草手机视频在线观看| 日韩精品福利网| 久久99精品久久久久久青青日本| 四虎av在线| 在线成人小视频| 美女网站视频色| 日韩激情av在线| 欧美日韩一区二区视频在线| 欧美性video| 宅男在线国产精品| 国产一区二区三区四区在线| 久久午夜精品一区二区| 久久久久久欧美精品色一二三四| 91九色美女在线视频| 欧美videos中文字幕| 国产精品九九九九九九| 国产另类ts人妖一区二区| 亚洲精品中文字幕乱码三区不卡| 99久久伊人| 永久555www成人免费| 特级西西444www高清大视频| 久久精品视频网| 国产精品无码av无码| 深爱激情综合网| 国产精品电影网| 国产精品久久久久久久龚玥菲 | 国产污视频网站| 久久久综合九色合综国产精品| 成人在线免费观看av| 日韩aaa久久蜜桃av| 2019最新中文字幕| 人成在线免费视频| 在线免费一区三区| 特黄一区二区三区| 韩国视频一区二区| 国产在线xxxx| 亚洲人亚洲人色久| 国产精品白嫩美女在线观看| 在线观看av黄网站永久| 欧美情侣在线播放| 久久久久久久福利| 97精品国产露脸对白| 四虎永久在线精品无码视频| 国产成人三级| 91网站在线看| 91黄页在线观看| 一区二区三区天堂av| 91亚洲欧美激情| 亚洲国产欧美日韩另类综合 | 自拍偷拍国产亚洲| 免费看91视频| 久久久久国产精品一区三寸| 亚洲高清视频一区二区| 日本在线一区二区三区| 91成人在线观看国产| 成年人在线看| 欧美本精品男人aⅴ天堂| 国产欧美一区二区三区在线看蜜臂| 久久精品在线免费观看| 亚洲怡红院在线| 99成人在线| 中文字幕在线观看一区二区三区| 国产精品色在线网站| 国产成人综合一区二区三区| 在线看女人毛片| 亚洲欧美精品伊人久久| 国产99999| 色域天天综合网| 五月婷婷一区二区| 国产午夜精品美女毛片视频| 亚洲妇女无套内射精| 日韩成人免费在线| 日韩精品免费一区| 日本久久精品| 国产一区自拍视频| 91精品国产自产观看在线| 国产91精品久久久久久| 国产激情视频在线| 一区国产精品视频| 中文字幕一二三四区| 欧美人xxx| 欧美大片一区二区三区| 69av视频在线观看| 亚洲成人免费观看| 97成人资源站| 国产嫩草影院久久久久| 亚洲成a人无码| 九色综合国产一区二区三区| 日本wwww视频| 亚洲精品乱码| 天堂а√在线中文在线| 久久亚洲在线| 日本一区网站| 亚洲精品国产精品粉嫩| 99久re热视频这里只有精品6| 福利一区二区三区视频在线观看| 91成人在线观看国产| 成人影院在线视频| 欧美老肥婆性猛交视频| 免费观看成人高潮| 国产视频久久久久| 天堂v视频永久在线播放| 欧美成人精精品一区二区频| 国产露脸无套对白在线播放| 欧美中文字幕久久| 一级片免费在线播放| 婷婷开心激情综合| 国产成年人免费视频| 一区二区三区四区在线免费观看| 熟女av一区二区| 国产精品人成在线观看免费 | 另类小说第一页| 久久婷婷激情| 久久九九国产视频| 久久伊人亚洲| 一本久道中文无码字幕av| 免费中文字幕日韩欧美| 91黄色小网站| 手机精品视频在线观看| 国产天堂在线播放| 丝袜诱惑制服诱惑色一区在线观看 | 风间由美一二三区av片| 成人av网址在线| 欧美肉大捧一进一出免费视频| 成人精品gif动图一区| 亚洲自拍偷拍精品| 久cao在线| 欧美日本一区二区三区四区| 色婷婷久久综合中文久久蜜桃av| 在线观看视频一区二区欧美日韩| 中文字幕手机在线视频| 色94色欧美sute亚洲线路一久| 无码人妻丰满熟妇精品| 在线观看日韩精品| 亚洲网站免费观看| 日韩一区二区麻豆国产| xxxx18国产| 亚洲精品av在线播放| 欧洲天堂在线观看| 中文字幕不卡av| 麻豆网在线观看| 久久99精品久久久久久青青91| 激情图片在线观看高清国产| 91精品国产高清久久久久久久久| 免费亚洲电影| 91久久在线播放| 国产成人aa在线观看网站站| 欧美激情论坛| 99久久婷婷| 阿v天堂2018| 视频一区视频二区中文| 亚洲精品成人在线播放| 粉嫩13p一区二区三区| 37p粉嫩大胆色噜噜噜| 2021久久国产精品不只是精品| 日本人亚洲人jjzzjjz| 一区二区三区日韩| 久久亚洲精品国产| 欧美亚洲动漫另类| 亚洲av无码乱码国产麻豆 | 福利片在线观看| 欧美另类交人妖| 都市激情亚洲综合| 92看片淫黄大片看国产片| 欧美成人基地| 最新国产精品久久| 国产精品日韩欧美一区| 视频免费1区二区三区| 99久久99久久精品国产片果冻| 国产精品www爽爽爽| 亚洲香肠在线观看| 在线播放一级片| 日韩av中文字幕在线免费观看 | 性欧美xxxx交| 精品69视频一区二区三区| 国产精品对白刺激久久久| 国产一区二区在线| 久久精品xxx| 美女免费视频一区二区| 中文字幕一区二区久久人妻网站 | 国产成人免费在线视频| xxxx日本黄色| 偷拍日韩校园综合在线| 97av免费视频| 亚洲色图13p| av福利导福航大全在线| 91久久久久久久久久久| 成人av资源电影网站| 男人和女人啪啪网站| 国产精品综合一区二区三区| 无码少妇一区二区| 无码av中文一区二区三区桃花岛| www.国产欧美| 日韩网站在线观看| 成人在线黄色| 欧美最大成人综合网| 亚洲综合99| 日本69式三人交| 亚洲国产精品尤物yw在线观看| 亚洲网站在线免费观看| 中文字幕9999| 欧美性片在线观看| 欧美xxxx黑人又粗又长精品| a91a精品视频在线观看| www.四虎精品| 亚洲综合图片区| www.国产欧美| 欧美日本黄视频| 精品视频在线观看免费观看| 国产精品美女在线播放| 精品一区二区三区免费| 日本女人性生活视频| 欧美性大战xxxxx久久久| 国家队第一季免费高清在线观看| 97在线视频免费播放| 国产精品一线| 久久视频这里有精品| 成人精品在线视频观看| 国产乱码久久久久久| 欧美精品一区二区久久久| 91丝袜在线| 蜜桃麻豆www久久国产精品| 亚洲一区二区成人| 国产精品jizz| 日本精品一级二级| 国产资源在线播放| 国产精品男人的天堂| 久久综合国产| 亚洲成人av免费观看| 亚洲久草在线视频| 色吧亚洲视频| 日韩电影在线视频| 亚洲成人手机在线观看| 亚洲老司机在线| 人妻视频一区二区三区| 91精品国产91久久久久久| 精品一区毛片| www.日本一区| 亚洲女同ⅹxx女同tv| 国精产品乱码一区一区三区四区| 91精品国产成人| 日本一区二区在线看| 日日夜夜精品视频免费观看| 亚洲一区二区3| 精品资源在线看| 成人午夜两性视频| 欧美三级黄美女| 日本丰满少妇裸体自慰| 欧美三区免费完整视频在线观看| 国产一二区在线| 精品国产一区二区三| 天堂一区二区在线| 国产探花在线免费观看| 亚洲国产日韩欧美在线99| 欧美与亚洲与日本直播| 在线观看18视频网站| 99视频精品免费视频| 伊人影院中文字幕| 欧美激情女人20p| 国产成人三级| 久久久久国产免费| 在线观看区一区二| 日本电影在线观看| 色一情一乱一伦一区二区三欧美| 国产裸体歌舞团一区二区| 国产无人区码熟妇毛片多| 日韩中文字幕免费看| 牛牛影视久久网| 亚洲天堂伊人网| 色哟哟欧美精品| 丝袜在线观看| 亚洲午夜精品久久久久久浪潮| 不卡av在线网|