深度解析與精準評估:OmniDocBench的創新之旅

大家好,我是肆〇柒,今天咱們來聊聊 OmniDocBench,一個在文檔解析領域的 Benchmark。它不僅重新定義了文檔內容提取的標準,還為研究人員和開發者提供了 豐富的資源和支持。接下來,我將帶大家深入了解這個工具的方方面面。
文檔內容提取技術在計算機視覺領域扮演著至關重要的角色。它不僅是大型語言模型(LLMs)和檢索增強生成(RAG)技術的基石,更為知識密集型應用提供了高質量的數據支持。然而,現有的文檔解析方法在多樣性和綜合評估方面存在顯著局限。OmniDocBench 的出現,正是為了應對這些挑戰,它是一個精心設計的多源基準測試,旨在推動自動化文檔內容提取技術的發展。
OmniDocBench 數據集構建:精雕細琢的歷程
在構建 OmniDocBench 數據集的過程中,研究團隊采用了系統化的方法,以確保數據的多樣性和高質量。以下是詳細的步驟和說明:
數據收集
初始階段,研究團隊從網絡資源和內部數據中收集了 200,000 個 PDF 文檔。這一龐大的數據池涵蓋了多種類型的文檔,包括學術論文、教科書、幻燈片等。為了確保數據的多樣性,團隊使用了 ResNet-50 提取文檔頁面的視覺特征,并通過 Faiss 聚類算法對這些特征進行分析。最終,從 10 個聚類中心中采樣得到了 6,000 個視覺多樣化的頁面。這一過程可以參考下圖,它詳細展示了 OmniDocBench 數據集的構建流程,包括數據獲取、智能預標注和人工細化的完整路徑。

OmniDocBench數據集構建概述
接下來,標注者對這些頁面進行了細致的屬性標注,包括頁面類型、布局類型和語言類型等。通過人工平衡選擇,團隊從 6,000 個頁面中進一步篩選出 981 個樣本,這些樣本最終構成了 OmniDocBench 數據集的核心。
數據標注
OmniDocBench 的標注框架包括三個關鍵階段:數據獲取、智能預標注和人工細化。在數據獲取階段,團隊確保了文檔頁面的多樣性和代表性。智能預標注階段則利用最先進的檢測和識別模型對布局和內容進行初步標注。例如,使用 LayoutLMv3 進行布局檢測標注,PaddleOCR 進行文本標注,UniMERNet 進行公式標注,GPT-4o 進行表格標注。
人工細化階段是對智能預標注結果的進一步完善。標注者對檢測框進行精修,并添加閱讀順序和歸屬信息。對于文本、公式和表格的標注,標注者使用專業工具(如 Tables Generator 和 latexlive)進行驗證和修正,確保了標注的準確性和一致性。
為了確保標注的準確性,團隊還引入了專家質量檢查環節。通過 CDM 的渲染技術,專家們能夠識別并修正標注中的問題,從而確保了最終標注的高質量。下圖直觀地展示了 OmniDocBench 數據集的多樣性,包括 9 種不同的 PDF 文檔類型以及豐富的標注類型,如布局標注(標題、表格、圖形等)和識別標注(文本行、公式、表格等)。

全文檔基準測試數據多樣性的概述
OmniDocBench 評估方法:多維度的精準考量
OmniDocBench 提供了一個靈活且全面的評估框架,能夠從多個維度對文檔解析技術進行評估。以下是詳細的評估方法和步驟:
提取與匹配算法
在評估過程中,模型生成的 markdown 文本需要經過一系列的預處理步驟。這些步驟包括去除圖片、消除文檔開頭的 markdown 標簽以及標準化重復字符數量。這些操作旨在確保評估的公平性和準確性。
特殊組件提取是評估中的關鍵環節。提取順序如下:首先是 LaTeX 表格,其次是 HTML 表格,然后是顯示公式、markdown 表格(轉換為 HTML 格式)和代碼塊。這種順序安排有助于避免不同內容之間的干擾,確保提取的準確性。
閱讀順序提取則通過記錄提取內容在原始 markdown 中的起始和結束位置來實現。這一方法能夠有效地還原文檔的邏輯結構,為后續的評估提供基礎。
匹配算法采用了鄰近搜索匹配的方法,旨在合并和拆分 GTs 和 Preds 的段落,以達到最佳匹配效果。具體來說,該算法首先計算 GTs 和 Preds 之間的歸一化編輯距離。如果 Pred 和 GT 之間的相似度超過特定閾值,則認為匹配成功。對于其他情況,則應用模糊匹配,以確定一個字符串是否是另一個字符串的子集。如果成立,將進一步應用截斷和合并算法,直到歸一化編輯距離開始下降,從而找到 GTs 和 Preds 之間的最佳匹配。下圖概述了 OmniDocBench 的評估流程,包括提取、匹配算法和度量計算等關鍵步驟。

OmniDocBench評估流程
度量計算
在評估過程中,OmniDocBench 實施了對 PDF 頁面內容中某些組件的忽略邏輯。這一策略主要針對頁眉、頁腳、頁碼和頁面注釋等部分,因為不同模型在處理這些內容時存在輸出標準不一致的問題。通過忽略這些部分,評估能夠更加專注于文檔的核心內容,從而確保評估結果的公正性和準確性。
OmniDocBench 基準測試結果:數字背后的真相
OmniDocBench 對主流文檔解析方法進行了全面的評估,揭示了不同技術路徑的優勢和局限性。
組件特定評估結果
通過對文本、公式、表格和閱讀順序提取任務的評估,OmniDocBench 提供了詳細的性能指標。例如,在文本提取方面,Pipeline 工具 MinerU 和 Mathpix 分別在英文和中文頁面上取得了最佳性能。而在公式提取方面,GOT-OCR 和 Mathpix 表現突出。表格提取的評估結果顯示,OCR-based Models 在語言多樣性和不同框架類型上均表現出色。閱讀順序提取的評估則顯示,MinerU 和 Mathpix 在各種列布局類型上均具有強大的性能。Table 2 展示了文檔解析算法在 OmniDocBench 上的綜合評估結果,包括文本、公式、表格和閱讀順序提取的性能指標。

在 OmniDocBench 上對文檔解析算法的綜合評估
端到端評估結果
OmniDocBench 的端到端評估結果為我們呈現了不同模型在各種文檔類型上的性能表現。下圖展示了不同模型在 9 種 PDF 頁面類型上的端到端文本識別結果,直觀地反映了各模型在不同類型文檔上的適應性和魯棒性。

端到端文本識別在 OmniDocBench 上針對 9 種 PDF 頁面類型的測試結果此外,評估還發現,在面對模糊掃描、水印和彩色背景等特定屬性的文檔時,VLMs InternVL2 和 Qwen2-VL 顯示出了較強的抗干擾能力。Table 4 提供了在不同頁面屬性下(如模糊掃描、水印、彩色背景)的端到端文本識別評估結果,展示了各模型在面對復雜文檔屬性時的表現。

端到端文本識別在 OmniDocBench 上的評估:在不同頁面屬性下的表現
單一算法評估結果:專項測評的深度洞察
布局檢測結果
在布局檢測方面,DocLayout-YOLO 方法展現出了顯著的優勢。該方法在多種文檔類型上均表現優異,尤其在書籍和學術文獻等復雜文檔上的表現尤為突出。Table 6 展示了不同布局檢測模型在各種 PDF 頁面類型上的 mAP 結果,突出了 DocLayout-YOLO 的卓越性能。

在 OmniDocBench 布局子集上的組件級布局檢測評估
表格識別結果
基于樹編輯距離相似性(TEDS)指標的評估顯示,OCR-based Models 在表格識別任務上占據領先地位。Table 7 提供了不同表格識別模型在多種屬性下的表現,包括語言類型、表格框架類型和特殊情形等。

在 OmniDocBench 表格子集上的組件級表格識別評估
文本識別結果
在傳統 OCR 任務中,PaddleOCR 憑借其卓越的性能,顯著領先于其他模型。Table 8 則從文本屬性的角度對 OCR 模型進行了評估,展示了不同模型在語言、背景顏色和文本旋轉等情況下的表現。

在 OmniDocBench OCR 子集上的組件級評估
公式識別結果
根據 CDM 指標的評估,GPT-4o、Mathpix 和 UniMERNet 在公式識別任務上均取得了優異的成績。Table 9 展示了不同模型在公式識別任務上的表現,包括 CDM 指標、公式完整率和歸一化編輯距離等。

在 OmniDocBench 公式子集上的組件級公式識別評估
總結
OmniDocBench 在文檔解析研究領域,不僅提供了一個多樣化且標注詳盡的評估數據集,還建立了一個靈活且可靠的評估框架。通過支持從整個數據集、單個模塊到特定數據類型的多層次評估,OmniDocBench 為研究人員和開發者提供了深入分析和比較不同文檔解析方法的能力。
OmniDocBench 的貢獻在于它不僅揭示了現有文檔解析方法的局限性,還為未來的技術發展提供了方向。其詳盡的標注和多維度的評估體系使得針對特定任務和屬性的模型優化成為可能,從而推動文檔解析技術向更健壯、更高效的方向發展。
不過,我其實是來看有哪些 OCR 工具比較好用的,然后在 Github 上發現了這個 Benchmark 。注意文內的圖表,它指明了那些高性能的 OCR 組件。




























