字節(jié)跳動(dòng)Dolphin多模態(tài)文檔解析神器開源,16G顯存就能流暢運(yùn)行,效果不輸GPT4.1! 原創(chuàng)
大家好,我是九歌。
最近字節(jié)跳動(dòng)開源了一款創(chuàng)新多模態(tài)文檔圖像解析模型——Dolphin,基于先解析結(jié)構(gòu)后解析內(nèi)容的兩階段方法,參數(shù)只有322M,16G顯存就能流暢運(yùn)行,而且效果比不輸GPT-4.1!

目前支持Pdf和圖片直接解析成Markdown和Json格式。官網(wǎng)直接給出了Demo在線地址,真的太良心了!直接上手體驗(yàn)!
http://115.190.42.15:8888/dolphin/(1)15秒識(shí)別表格圖片

(2)30秒識(shí)別公式

是不是很酷的感覺,我看了一下github項(xiàng)目文檔,安裝也非常簡(jiǎn)便,我們按照教程一步步來。
1.根據(jù)Dolphin項(xiàng)目requirements.txt要求,準(zhǔn)備安裝環(huán)境,安裝torch2.1.0版本環(huán)境。我這里準(zhǔn)備了一個(gè)干凈的docker容器。

2.下載 Dolphin Github 項(xiàng)目倉庫
git clone https://github.com/ByteDance/Dolphin.git
#下載慢的,直接下載zip文件,上傳到服務(wù)器
3.下載安裝所有依賴(Long time!!),這里浪費(fèi)了我一個(gè)小時(shí)時(shí)間。
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
4.接下來我們需要安裝Git LFS,方便下一步下載模型大文件。、
apt update
apt install git-lfs5.下載預(yù)訓(xùn)練模型文件,這個(gè)模型文件托管在HuggingFace網(wǎng)站上,國(guó)內(nèi)是無法直接訪問的。還好我之前吃過虧,這里直接使用了HuggingFace的國(guó)內(nèi)鏡像站
#切換到終端到項(xiàng)目文件夾,執(zhí)行下方命令
git clone https://hf-mirror.com/ByteDance/Dolphin ./hf_model
6.激動(dòng)的時(shí)刻來了,運(yùn)行測(cè)試命令
python demo_page_hf.py --model_path ./hf_model --input_path ./demo/page_imgs/page_1.jpeg --save_dir ./results
整體比較順利。下面我們把這個(gè)服務(wù)做成API,這樣就可以用在我們的智能體工作流中了!
在Google Gemini中輸入一下提示詞,就可以使用FastAPI創(chuàng)建接口了。
# Process a single document image
python demo_page_hf.py --model_path ./hf_model --input_path ./demo/page_imgs/page_1.jpeg --save_dir ./results 將這個(gè)代碼 改寫成fastapi 接口 ,接收在線的pdf或者圖片路徑,將其保存在服務(wù)器中,然后替換參數(shù)中的input_path 執(zhí)行后,如果接口參數(shù)指定獲取markdown接口,將結(jié)果result中的對(duì)應(yīng)文件的md內(nèi)容 直接返回,如果指定輸出json 將result recognition中的同名json文件內(nèi)容輸出。
我們?cè)侔惭bfastapi、uvcorn、httpx 等Python庫,然后運(yùn)行生成的代碼,就可以擁有Dolphin的接口了!

本文轉(zhuǎn)載自??九歌AI大模型?? 作者:九歌AI

















