字節(jié)開(kāi)源Dolphin,高精度文檔圖像解析大模型,創(chuàng)新先分析后解析新范式

在數(shù)字時(shí)代,從掃描文檔、圖片等非結(jié)構(gòu)化數(shù)據(jù)中高效、準(zhǔn)確地提取結(jié)構(gòu)化信息,是人工智能領(lǐng)域長(zhǎng)期面臨的挑戰(zhàn)。無(wú)論是復(fù)雜的表格、交織的文本段落,還是難以識(shí)別的數(shù)學(xué)公式,都對(duì)文檔解析技術(shù)提出了嚴(yán)苛要求。傳統(tǒng)的解決方案往往依賴于多個(gè)專業(yè)模型的串聯(lián),不僅集成成本高昂,還容易在處理過(guò)程中累積誤差 。而一些通用多模態(tài)大模型在直接自回歸生成頁(yè)面內(nèi)容時(shí),也常遭遇效率瓶頸和關(guān)鍵布局信息丟失的問(wèn)題 。
正是在這樣的背景下,一個(gè)名為 Dolphin(全稱:Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting)的創(chuàng)新多模態(tài)文檔圖像解析模型應(yīng)運(yùn)而生。這項(xiàng)研究成果已獲得學(xué)術(shù)界認(rèn)可,其相關(guān)論文被計(jì)算語(yǔ)言學(xué)協(xié)會(huì)(ACL 2025)正式接收 ,并且其預(yù)訓(xùn)練模型和推理代碼也已向全球社區(qū)開(kāi)放 。
模擬人類理解的先分析后解析范式
Dolphin 的核心創(chuàng)新在于其獨(dú)特的先分析后解析兩階段范式,這一設(shè)計(jì)巧妙地模擬了人類閱讀和理解復(fù)雜文檔的認(rèn)知過(guò)程 。

第一階段,全面的頁(yè)面級(jí)布局分析。在這一初始階段,Dolphin 對(duì)整個(gè)輸入文檔圖像進(jìn)行全局性分析。其主要目標(biāo)是精準(zhǔn)識(shí)別頁(yè)面上的所有異構(gòu)布局元素(例如,文本段落、圖表、公式和表格),并按照自然的閱讀順序進(jìn)行排列。對(duì)于每個(gè)識(shí)別出的元素,模型會(huì)確定其精確的類型和邊界框(使用標(biāo)準(zhǔn)化坐標(biāo))。
這一階段的關(guān)鍵在于建立對(duì)文檔整體布局結(jié)構(gòu)及其組成部分之間空間和邏輯關(guān)系的全面理解,為后續(xù)的內(nèi)容提取奠定基礎(chǔ) 。
第二階段:高效的文檔元素并行解析。第一階段識(shí)別并排序的布局元素,在Dolphin中被視為異構(gòu)錨點(diǎn)。這些代表不同內(nèi)容塊的錨點(diǎn),隨后被用于指導(dǎo)其各自內(nèi)容的并行解析。
Dolphin 利用這些元素的特定類型和相關(guān)的任務(wù)特定提示(task-specific prompts)并發(fā)處理它們 。
例如,對(duì)于表格,模型會(huì)使用Parse the table in the image.這樣的提示來(lái)生成HTML格式的結(jié)構(gòu)化數(shù)據(jù);而對(duì)于文本段落和公式,則可能使用Read text in the image.這樣的統(tǒng)一提示來(lái)生成純文本或LaTeX標(biāo)記 。
這種跨多個(gè)元素的并行處理機(jī)制是 Dolphin 實(shí)現(xiàn)卓越效率的關(guān)鍵設(shè)計(jì)選擇,相較于傳統(tǒng)的順序解析方法,其效率顯著提升 。

技術(shù)架構(gòu):輕量級(jí)與多模態(tài)的融合
Dolphin 的技術(shù)架構(gòu)建立在強(qiáng)大的視覺(jué)編碼器-解碼器模型之上,充分利用了 Transformer 網(wǎng)絡(luò)的強(qiáng)大能力,并針對(duì)文檔圖像解析任務(wù)進(jìn)行了優(yōu)化 。
視覺(jué)編碼器,負(fù)責(zé)從輸入文檔圖像中提取豐富、層次化的視覺(jué)特征。
該組件基于 Swin Transformer 實(shí)現(xiàn),能夠有效地捕捉文本的形狀、布局、顏色,以及表格中的線條和圖像中的輪廓等關(guān)鍵視覺(jué)信息。輸入圖像通常會(huì)調(diào)整大小至 896x896 的固定尺寸,同時(shí)保持縱橫比 。
文本解碼器,負(fù)責(zé)將編碼器提供的視覺(jué)特征轉(zhuǎn)換為可讀文本。
該解碼器基于 MBart 模型,通過(guò)交叉注意力機(jī)制,在準(zhǔn)確解碼各種文本格式方面表現(xiàn)出色,包括連續(xù)文本段落、嵌入在表格中的內(nèi)容以及數(shù)學(xué)公式中的符號(hào) 。
基于提示的接口,Dolphin 架構(gòu)的一個(gè)顯著特點(diǎn)是其基于提示(prompt-based interface)的交互方式。
這允許用戶通過(guò)自然語(yǔ)言提示直觀地控制和引導(dǎo)特定的解析任務(wù),有效地充當(dāng)模型的靈活指揮官,極大地增強(qiáng)了模型的適應(yīng)性和可擴(kuò)展性 。
為了更廣泛的可訪問(wèn)性和易于集成,該模型與廣泛的Hugging Face Transformers生態(tài)系統(tǒng)兼容 。同時(shí)Dolphin 的開(kāi)發(fā)也借鑒了多個(gè)成熟的開(kāi)源項(xiàng)目,如 Donut、Nougat、GOT、MinerU、Swin 和 Hugging Face Transformers 。
解決行業(yè)痛點(diǎn),推動(dòng)文檔智能發(fā)展
Dolphin 的出現(xiàn),旨在解決當(dāng)前文檔圖像解析領(lǐng)域存在的諸多痛點(diǎn),并展現(xiàn)出超越現(xiàn)有方案的潛力。
首先是克服傳統(tǒng)方法的局限性。 傳統(tǒng)方法常將多個(gè)OCR專家模型串聯(lián)使用,導(dǎo)致集成開(kāi)銷大、錯(cuò)誤累積等問(wèn)題 。Dolphin 的兩階段統(tǒng)一模型設(shè)計(jì),有效避免了這些問(wèn)題,提供了一個(gè)更集成、更準(zhǔn)確的解決方案 。
彌補(bǔ)通用大模型的不足。 盡管通用多模態(tài)大型模型(VLM)功能強(qiáng)大,但在處理文檔圖像時(shí),往往面臨效率瓶頸,且在解碼過(guò)程中容易丟失關(guān)鍵的布局結(jié)構(gòu)信息 。Dolphin 的先分析后解析范式和并行處理機(jī)制,顯著提升了效率,并更好地保留了文檔的結(jié)構(gòu)信息 。
卓越的性能與效率。盡管 Dolphin 架構(gòu)輕量(僅 322M 參數(shù)),但其在多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)出色 。在處理純文本文檔和包含混合元素(表格、公式、圖形)的復(fù)雜文檔時(shí),Dolphin 在中英文測(cè)試集上均展現(xiàn)出卓越的解析能力 。其解析效率甚至比現(xiàn)有最快的基線模型 Mathpix 提升了近 2 倍,達(dá)到 0.1729 FPS 。
廣泛的應(yīng)用潛力。Dolphin 能夠?qū)⒄麄€(gè)文檔圖像解析為結(jié)構(gòu)化的 JSON 和 Markdown 格式,也能針對(duì)單個(gè)元素(如文本段落、表格、公式)進(jìn)行精準(zhǔn)解析,這使其在多個(gè)行業(yè)具有廣闊的應(yīng)用前景。
寫在最后
Dolphin 的開(kāi)源,為文檔智能領(lǐng)域帶來(lái)了新的活力,為更復(fù)雜文檔理解以及模型性能和效率優(yōu)化方面提供了支持。也為構(gòu)建個(gè)人知識(shí)庫(kù)的文檔解析提供了一種新的思路。
2025年的今天,AI創(chuàng)新已經(jīng)噴井,幾乎每天都有新的技術(shù)出現(xiàn)。作為親歷三次AI浪潮的技術(shù)人,我堅(jiān)信AI不是替代人類,而是讓我們從重復(fù)工作中解放出來(lái),專注于更有創(chuàng)造性的事情,關(guān)注我們公眾號(hào)口袋大數(shù)據(jù),一起探索大模型落地的無(wú)限可能!



































