字節(jié)跳動(dòng)Dolphin多模態(tài)文檔解析神器開源，16G顯存就能流暢運(yùn)行，效果不輸GPT4.1! 原創(chuàng)

發(fā)布于 2025-8-1 06:51

瀏覽

0收藏

大家好，我是九歌。

最近字節(jié)跳動(dòng)開源了一款創(chuàng)新多模態(tài)文檔圖像解析模型——Dolphin，基于先解析結(jié)構(gòu)后解析內(nèi)容的兩階段方法，參數(shù)只有322M，16G顯存就能流暢運(yùn)行，而且效果比不輸GPT-4.1！

字節(jié)跳動(dòng)Dolphin多模態(tài)文檔解析神器開源，16G顯存就能流暢運(yùn)行，效果不輸GPT4.1!-AI.x社區(qū)

目前支持Pdf和圖片直接解析成Markdown和Json格式。官網(wǎng)直接給出了Demo在線地址，真的太良心了！直接上手體驗(yàn)！

http://115.190.42.15:8888/dolphin/

（1）15秒識(shí)別表格圖片

字節(jié)跳動(dòng)Dolphin多模態(tài)文檔解析神器開源，16G顯存就能流暢運(yùn)行，效果不輸GPT4.1!-AI.x社區(qū)

（2）30秒識(shí)別公式

字節(jié)跳動(dòng)Dolphin多模態(tài)文檔解析神器開源，16G顯存就能流暢運(yùn)行，效果不輸GPT4.1!-AI.x社區(qū)

是不是很酷的感覺，我看了一下github項(xiàng)目文檔，安裝也非常簡(jiǎn)便，我們按照教程一步步來。

1.根據(jù)Dolphin項(xiàng)目requirements.txt要求，準(zhǔn)備安裝環(huán)境，安裝torch2.1.0版本環(huán)境。我這里準(zhǔn)備了一個(gè)干凈的docker容器。

字節(jié)跳動(dòng)Dolphin多模態(tài)文檔解析神器開源，16G顯存就能流暢運(yùn)行，效果不輸GPT4.1!-AI.x社區(qū)

2.下載 Dolphin Github 項(xiàng)目倉庫

git clone https://github.com/ByteDance/Dolphin.git
#下載慢的，直接下載zip文件，上傳到服務(wù)器

字節(jié)跳動(dòng)Dolphin多模態(tài)文檔解析神器開源，16G顯存就能流暢運(yùn)行，效果不輸GPT4.1!-AI.x社區(qū)

3.下載安裝所有依賴（Long time！！），這里浪費(fèi)了我一個(gè)小時(shí)時(shí)間。

pip install -r requirements.txt  -i https://pypi.tuna.tsinghua.edu.cn/simple

字節(jié)跳動(dòng)Dolphin多模態(tài)文檔解析神器開源，16G顯存就能流暢運(yùn)行，效果不輸GPT4.1!-AI.x社區(qū)

4.接下來我們需要安裝Git LFS，方便下一步下載模型大文件。、

apt update
apt install git-lfs

5.下載預(yù)訓(xùn)練模型文件，這個(gè)模型文件托管在HuggingFace網(wǎng)站上，國(guó)內(nèi)是無法直接訪問的。還好我之前吃過虧，這里直接使用了HuggingFace的國(guó)內(nèi)鏡像站

#切換到終端到項(xiàng)目文件夾，執(zhí)行下方命令
git clone https://hf-mirror.com/ByteDance/Dolphin  ./hf_model

字節(jié)跳動(dòng)Dolphin多模態(tài)文檔解析神器開源，16G顯存就能流暢運(yùn)行，效果不輸GPT4.1!-AI.x社區(qū)

6.激動(dòng)的時(shí)刻來了，運(yùn)行測(cè)試命令

python demo_page_hf.py --model_path ./hf_model --input_path ./demo/page_imgs/page_1.jpeg --save_dir ./results

字節(jié)跳動(dòng)Dolphin多模態(tài)文檔解析神器開源，16G顯存就能流暢運(yùn)行，效果不輸GPT4.1!-AI.x社區(qū)

整體比較順利。下面我們把這個(gè)服務(wù)做成API，這樣就可以用在我們的智能體工作流中了！

在Google Gemini中輸入一下提示詞，就可以使用FastAPI創(chuàng)建接口了。

# Process a single document image 
 python demo_page_hf.py --model_path ./hf_model --input_path ./demo/page_imgs/page_1.jpeg --save_dir ./results   將這個(gè)代碼 改寫成fastapi 接口 ，接收在線的pdf或者圖片路徑，將其保存在服務(wù)器中，然后替換參數(shù)中的input_path 執(zhí)行后，如果接口參數(shù)指定獲取markdown接口，將結(jié)果result中的對(duì)應(yīng)文件的md內(nèi)容 直接返回，如果指定輸出json 將result recognition中的同名json文件內(nèi)容輸出。

字節(jié)跳動(dòng)Dolphin多模態(tài)文檔解析神器開源，16G顯存就能流暢運(yùn)行，效果不輸GPT4.1!-AI.x社區(qū)