精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

復雜文檔也能一鍵讀懂?PaddleOCR VL + RAG 給出新答案

發布于 2025-11-6 07:28
瀏覽
0收藏

當文檔包含復雜表格、數學公式或多欄排版時,傳統 OCR 工具往往會產出雜亂內容,需要手動整理。

就在上周,我逛 GitHub 時看到了百度新近開源的 PaddleOCR-VL-0.9B。

老實講,看到它只有 9 億參數時,我第一反應是:“哦,又一個小模型來湊熱鬧?”但出于職業好奇,我還是要問一句:它能打嗎?結果完全把我震住了。

這不只是 OCR,這是文檔理解的一次量子飛躍

PaddleOCR-VL 遠超我的預期。它在全球權威評測榜 OmniDocBench v1.5 的綜合性能中拿到 92.6 的分數,位列全球第一;推理速度相較 MinerU2.5 提升 14.2%,相較 dots.ocr 提升 253.01%。

我最直觀的感受是:它非常準,甚至“準得過分”!不愧是能登頂的第一名模型。

今天我會圍繞四個關鍵挑戰來測試 PaddleOCR-VL:公式識別、表格識別、閱讀順序與結構、手寫體識別。

先看公式識別。我上傳了一張包含復雜數學公式的圖片。可以看到,模型處理得非常好——對上標、下標以及冗長復雜的表達式都能精準解析。

接著是表格識別。這是出了名的難題,表格樣式多,有的帶邊框,有的不帶,且包含大量數字,模型非常容易誤判。我用 PaddleOCR-VL 處理了多種表格樣例,準確率真的很能打。

另一個大難點是文檔結構與閱讀順序的理解。現代文檔不僅內容更復雜,而且版式變化很大:多欄設計、圖文混排、折頁、彩色印刷、傾斜掃描、手寫批注……這些都會讓 OCR 更困難。正確的閱讀順序并不總是簡單的自上而下、從左到右。

PaddleOCR-VL 的技術報告展示了它幾乎“像人一樣”理解復雜結構。無論是學術論文、多欄報刊,還是技術報告,它都能智能分析版面,并恢復符合人類直覺的閱讀順序。

最后,即使面對更復雜的版式,PaddleOCR-VL 依然非常穩定。比如這張手寫便簽:它混合了文本、數字、段落與圖片,左右、上下都有分欄,這類版面通常只有人才能理清頭緒。

PaddleOCR VL 有何獨特之處?

PaddleOCR VL 不再只是簡單的文本識別,而是能夠真正“理解”文檔結構。無論是學術論文、多欄報刊還是技術報告,PaddleOCR-VL 都能智能理解版面布局,并自動按正確的順序組織內容。

同時,它還能準確抽取復雜內容,例如文檔中的表格、數學公式、手寫筆記、圖表數據,并將其轉換成可直接使用的結構化數據。

此外,PaddleOCR-VL 支持 109 種語言的識別,覆蓋中文、英文、法語、日語、俄語、阿拉伯語、西班牙語等多語種場景,極大提升了模型在多語文檔中的識別與處理能力。

PaddleOCR VL 是如何訓練的

PaddleOCR-VL 由兩部分組成:PP-DocLayoutV2 和 PaddleOCR-VL-0.9B。

其中核心是 PaddleOCR-VL-0.9B,它將一個預訓練視覺編碼器(visual encoder)與動態分辨率預處理器(dynamic resolution preprocessor)、兩層 MLP projector,以及一個預訓練大語言模型(LLM)集成到一起。

其預處理技術使用原生動態高分辨率(native dynamic high resolution)。視覺編碼器采用 NaViT 風格編碼器(NaViT style encoder),支持原生分辨率輸入。

這一設計減少了幻覺(hallucinations),并提升了多模態視覺語言模型 PaddleOCR-VL-0.9B 的表現。

Projector 高效地把視覺編碼器的特征對接到語言模型的 embedding 空間。

在自回歸語言模型(autoregressive language model)中,序列是按 token 逐個生成的。這意味著解碼器的規模會直接影響整體推理時延,模型越小,解碼越快。

Let's start coding

現在我們一步步來,拆解如何搭建一個強大的推理應用。先安裝模型所需的依賴庫。我們用 pip 安裝:

!pip uninstall -y torch paddlepaddle paddlepaddle-gpu
!pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
!pip install paddleocr paddlepaddle
!pip install langchain langchain-community langchain-openai faiss-cpu sentence-transformers openai python-dotenv

下一步照例是導入相關庫,隨著我們繼續,你會逐漸理解它們的作用,并進行一些基礎配置。

PaddleOCR:以業界領先的準確率,將文檔和圖像轉換為結構化、對 AI 友好的數據(如 JSON 與 Markdown),為 AI 應用提供支撐。

import torch
from paddleocr importPaddleOCR
from langchain.text_splitterimportRecursiveCharacterTextSplitter
from langchain_community.vectorstoresimportFAISS
from langchain_community.embeddingsimportHuggingFaceEmbeddings
from langchain_openai importChatOpenAI
from langchain.chainsimportRetrievalQA
from langchain.docstore.documentimportDocument

于是我構建了這個 SimpleRAG 系統:用 PaddleOCR-VL 做文本抽取,用 OpenAI 生成回答。下面我來講講我是怎么做的。

在初始化階段,我配置了核心組件——使用 HuggingFace 的 BGE embeddings 做向量表示,使用 GPT-4o 作為對話模型,temperature 設為 0 以獲得穩定回復。我還初始化了稍后會構建的 vectorstore 和 QA chain。

在抽取方法上,一開始我嘗試了 HuggingFace transformers 版本的 PaddleOCR,結果報了一個關于 image tokens 不匹配的詭異錯誤;隨后安裝 PaddlePaddle 又把 PyTorch 搞壞了(不得不重啟環境,按正確順序重裝);接著我還得一路猜 API,因為有的方法已經棄用,新的參數也不一樣。

真正的突破來自我直接打印了返回結果對象的結構——原來它就是一個列表,列表里只有一個字典,而那個字典里有個鍵叫 rec_texts,里面就是識別到的所有文本字符串列表。

所以,與其去訪問什么復雜的嵌套結構比如 .boxes.text,我只需要判斷結果是不是字典,拿 rec_texts 這個鍵,把其中的字符串擴展進我的列表就好了。

class SimpleRAG:
    def__init__(self):
        self.embeddings = HuggingFaceEmbeddings(model_name="BAAI/bge-small-en-v1.5")
        self.llm = ChatOpenAI(model="gpt-4o", temperature=0)
        self.vectorstore = None
        self.qa_chain = None
        self.ocr = PaddleOCR(use_textline_orientation=True, lang='en')
    
    defextract_text_from_images(self, image_paths: list):
        docs = []
        for path in image_paths:
            result = self.ocr.predict(input=path)
            
            text_lines = []
            for res in result:
                ifisinstance(res, dict) and'rec_texts'in res:
                    text_lines.extend(res['rec_texts'])
            
            text = "\n".join(text_lines) if text_lines else"No text found"
            docs.append(Document(page_content=text, metadata={'source': path}))
        
        return docs

在 build_index 中,我會先從所有圖片中抽取文本,再用 RecursiveCharacterTextSplitter 將文檔切分為 1000 字符、重疊 200 字符的塊,用 BGE embeddings 構建 FAISS vectorstore,并搭建一個基于 GPT-4o 的 RetrievalQA chain,每次檢索 top-3 的相關片段。

對于 query,我只需把問題傳給 QA chain,它會完成檢索與生成,并返回答案。

def build_index(self, image_paths: list):
        docs = self.extract_text_from_images(image_paths)
        
        text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
        splits = text_splitter.split_documents(docs)
        
        self.vectorstore = FAISS.from_documents(splits, self.embeddings)
        self.qa_chain = RetrievalQA.from_chain_type(
            llm=self.llm,
            retriever=self.vectorstore.as_retriever(search_kwargs={"k": 3})
        )
defquery(self, question: str):
        returnself.qa_chain.invoke(question)

# Usage
rag = SimpleRAG()
rag.build_index(["Your pic"])
answer = rag.query("extract all the table?")
print(answer)

結語:

在這個 AI 技術飛速演進的時代,我們經常被“史上最強”“顛覆性”之類的宣傳包圍。然而真正有價值的突破,往往來自那些解決了具體問題、讓技術更易用的創新。

PaddleOCR-VL 也許不會登上大眾科技頭條,但對于每天都要處理文檔的開發者而言,它可能正是久等的答案。

畢竟,最好的技術,是能靜靜融入日常工作、讓你幾乎察覺不到它的存在。PaddleOCR-VL 正在扎實地朝這個方向邁進。

Reference:

本文轉載自??PyTorch研習社??,作者:AI研究生

已于2025-11-6 07:28:38修改
收藏
回復
舉報
回復
相關推薦
88在线观看91蜜桃国自产| wwww国产精品欧美| 欧美成人精品h版在线观看| 亚洲综合123| 男女免费观看在线爽爽爽视频| 国产一区在线不卡| 国语自产精品视频在线看一大j8 | 成人97人人超碰人人99| 欧美在线亚洲在线| 亚洲熟女毛茸茸| 果冻天美麻豆一区二区国产| 色94色欧美sute亚洲线路一ni| 亚洲国产日韩综合一区| 懂色av蜜臀av粉嫩av分享吧| 久久在线精品| 欧美激情亚洲自拍| 国产午夜福利一区| 国产精品极品国产中出| 欧美三级三级三级| 日韩免费视频播放| 91蜜桃在线视频| 久久久精品国产99久久精品芒果| 亚洲一区二区中文字幕| www.国产毛片| 极品日韩av| 久久精品国亚洲| 久久久久久国产精品无码| 亚洲精品不卡在线观看| 欧美日韩中文国产| 日韩精品一区中文字幕| 国产精品69xx| 自拍偷拍亚洲激情| 亚洲欧美日韩国产yyy| 日韩一二三四| 97精品国产露脸对白| 91蜜桃网站免费观看| 在线观看日韩一区二区| 久久久久国产精品一区二区| 欧美精品第一页在线播放| 成年人视频软件| 国产精品免费99久久久| 日韩电影中文字幕av| 在线观看中文av| www欧美在线观看| 欧美视频精品在线| 国产一级不卡毛片| 我爱我色成人网| 色菇凉天天综合网| av片中文字幕| 蜜桃精品在线| 在线观看三级视频欧美| www.日日操| 97成人超碰| 欧美日本韩国一区二区三区视频| 性欧美极品xxxx欧美一区二区| 欧美精品video| 欧美一级淫片播放口| 欧日韩不卡视频| 亚洲69av| 欧美三区在线观看| 国产原创精品在线| 久久夜夜操妹子| 狠狠色噜噜狠狠狠狠97| www.男人天堂网| 超碰电影在线播放| 中文字幕av资源一区| 日本免费高清一区| 青青操视频在线| 91蝌蚪porny| 精品无码久久久久国产| 成人久久精品人妻一区二区三区| 国产一区欧美二区| 91日本在线视频| 97人妻精品一区二区三区| 日本不卡的三区四区五区| 日本精品性网站在线观看| 欧美一级特黄视频| 久久性天堂网| 日本欧美黄网站| 一二三四区视频| 狠狠色综合日日| 亚洲一区亚洲二区| www.亚洲天堂.com| jlzzjlzz亚洲日本少妇| 国产日韩欧美一区二区三区四区 | 欧美日韩一区视频| 自拍偷拍 国产| 精品九九久久| 欧美福利一区二区| 下面一进一出好爽视频| 欧美日韩黄色| 亚洲成人精品视频在线观看| 香港三日本8a三级少妇三级99| 国产 日韩 欧美 综合 一区| 亚洲福利小视频| 国产av自拍一区| 91视频综合| 欧美成人在线免费| 日本一区二区网站| 99国产精品久久久久久久成人热| 97精品视频在线观看| 国产成人无码专区| 韩国欧美国产一区| 国产欧美亚洲日本| 黄色在线观看网| 自拍偷自拍亚洲精品播放| 香港三级日本三级a视频| 免费成人在线电影| 一本一本大道香蕉久在线精品 | 国产福利片在线观看| 在线看日本不卡| 激情成人在线观看| 另类尿喷潮videofree| 日韩中文综合网| 日本一区二区不卡在线| 全国精品久久少妇| 不卡一区二区三区四区五区| 青青草免费观看免费视频在线| 中日韩av电影| av日韩一区二区三区| 亚洲成人激情社区| 欧美一级二级三级蜜桃| 日本少妇色视频| 五月精品视频| 日韩av不卡在线| 精品久久久免费视频| 久久久久久久电影| 欧美这里只有精品| 日本欧美一区| 欧美成人一区二区三区片免费| 精品人妻一区二区三区视频| 亚洲xxx拳头交| 国产69精品久久久久久| 国产免费一区二区三区最新不卡 | 3d动漫精品啪啪一区二区三区免费| 亚洲av成人无码久久精品老人 | 一级特黄a大片免费| 韩日一区二区三区| 午夜精品一区二区三区在线播放 | 久草免费在线| 色狠狠一区二区| 亚洲天堂网站在线| 国产精品久久久久久久久久10秀| 欧美亚洲第一页| 日本精品一区二区在线观看| 亚洲欧洲性图库| caoporn超碰97| 伊人久久综合影院| 国内精品久久久久久影视8| av手机免费看| 亚洲欧洲日产国码二区| 浓精h攵女乱爱av| 国产一区二区三区日韩精品| 性视频1819p久久| 性生活视频软件| 亚洲精品国产无天堂网2021| 在线观看免费的av| 一道在线中文一区二区三区| 性色av一区二区三区| 黄色美女一级片| 亚洲色图在线视频| 91精品999| 999视频精品| 国产精品视频自拍| 在线激情免费视频| 欧美日韩成人一区| 福利视频第一页| 久久国产免费看| 欧美一级二级三级九九九| 影视一区二区三区| 在线观看久久av| 黄色av网站免费观看| 国产亚洲精品超碰| 妓院一钑片免看黄大片| 日韩在线观看| 国产欧美va欧美va香蕉在线| 日本在线天堂| 欧美日韩在线播放三区四区| 欧美激情亚洲色图| 蜜臀av一区二区| 一区二区三区四区视频在线 | 成人香蕉社区| 海角国产乱辈乱精品视频| 成人乱码一区二区三区| 精品日韩美女的视频高清| 蜜桃传媒一区二区亚洲| 蜜臀av一区二区三区| 桥本有菜av在线| 日韩中文字幕| 8x拔播拔播x8国产精品| 免费人成在线观看网站| 欧美日韩黄色影视| 四虎免费在线视频| aaa国产一区| 91人人澡人人爽人人精品| 久久久久久久久99精品大| 97在线电影| 日本在线啊啊| 神马国产精品影院av| www.五月激情| 色综合激情五月| 久久精品亚洲a| 99在线精品视频| 第四色婷婷基地| 欧美午夜不卡影院在线观看完整版免费| 国产精品夜夜夜一区二区三区尤| 亚洲天堂av影院| www.亚洲天堂| 色偷偷在线观看| 欧美精品一卡二卡| 久久露脸国语精品国产91| 国产香蕉久久精品综合网| 国产精品久久久久久久99| 一本色道精品久久一区二区三区| 亚洲五月六月| 日韩在线黄色| 国产精品免费一区二区三区四区| 电影天堂国产精品| 68精品久久久久久欧美| 日本电影在线观看网站| 精品一区二区电影| 国产黄a三级三级三级| 色88888久久久久久影院按摩| 久久国产精品波多野结衣av| 国产日韩影视精品| 青娱乐精品在线| 精品一二三四区| 国产精品免费观看久久| 欧美久久一区| 亚洲国产精品一区在线观看不卡 | 俺来俺也去www色在线观看| 最近2019中文字幕大全第二页| 四虎免费在线观看| 3d成人h动漫网站入口| 日本熟妇一区二区三区| 夜色激情一区二区| 大胸美女被爆操| 久久亚洲春色中文字幕久久久| 又黄又爽又色的视频| 免费高清在线视频一区·| 国产中文字幕二区| 国产一在线精品一区在线观看| 一区二区三区不卡在线| 青青草原综合久久大伊人精品| 国模一区二区三区私拍视频| 国产一精品一av一免费爽爽| 国产精品白嫩美女在线观看 | 欧美精品激情视频| 欧美一卡二卡| 久久在精品线影院精品国产| 伦理片一区二区三区| 亚洲激情国产精品| 国产 欧美 精品| 日韩欧美一区电影| 国产免费一区二区三区最新不卡| 狠狠色狠色综合曰曰| 一级片免费在线播放| 色香色香欲天天天影视综合网| www.av麻豆| 亚洲电影在线免费观看| 久久久夜色精品| 亚洲永久精品大片| 亚洲欧美一区二区三区四区五区| 中文字幕av免费专区久久| 免费黄在线观看| 国产精品久久久久一区| 中文字幕91视频| 亚洲欧洲制服丝袜| 少妇被躁爽到高潮无码文| **欧美大码日韩| 国产免费一区二区三区四区| 中文字幕制服丝袜成人av| 中文字幕无码日韩专区免费| 综合激情成人伊人| 欧美精品久久久久性色| 亚洲宅男天堂在线观看无病毒| 久久精品这里有| 精品久久久久久中文字幕一区奶水 | 亚洲精品日韩丝袜精品| 欧美美女色图| 亚洲精品国产福利| 98在线视频| 久久久精品视频成人| 亚洲91av| 96精品视频在线| 国产一区二区三区影视| 成人www视频在线观看| 亚洲成a人片777777久久| 风间由美久久久| 日本一道高清一区二区三区| 欧美色欧美亚洲另类七区| 精品国产午夜| 日本三日本三级少妇三级66| 激情欧美国产欧美| 国产99久久九九精品无码| 奇米色一区二区三区四区| 一级做a爱视频| av亚洲产国偷v产偷v自拍| 色综合99久久久无码国产精品| 18成人在线观看| 狠狠躁夜夜躁人人爽天天高潮| 粉嫩老牛aⅴ一区二区三区| 免费黄色av片| 欧美一级生活片| 五月婷婷在线观看视频| x99av成人免费| 国产h片在线观看| 91视频婷婷| 国精一区二区| 人妻少妇精品久久| 男女男精品视频| 日韩成人av一区二区| 久久精品亚洲国产奇米99| 国产午夜视频在线| 欧美亚男人的天堂| 亚洲奶汁xxxx哺乳期| 尤物yw午夜国产精品视频明星| 欧洲精品二区| 国产日韩精品入口| 久久97精品| 日韩精品第1页| 日本午夜一区二区| 午夜视频在线观看国产| 一区在线观看免费| 日韩手机在线视频| 日韩一二三四区| 成人免费视屏| 国产精品免费网站| 日韩理论电影中文字幕| 国产又大又长又粗又黄| 久久人人超碰| 日本一级大毛片a一| 亚洲欧美福利一区二区| 国产精品尤物视频| 日韩av在线网址| 天堂电影一区| 国产精品我不卡| 在线综合视频| 色悠悠在线视频| 亚洲黄网站在线观看| 国产ts变态重口人妖hd| 中日韩美女免费视频网站在线观看 | 欧美日韩精品在线观看视频 | 精品一区二区在线观看视频| 一本一本大道香蕉久在线精品| 日韩在线视频第一页| 九九久久久久久久久激情| 视频亚洲一区二区| 亚洲欧美日本国产有色| 日韩精品三区四区| av黄色免费网站| 色综合天天综合网国产成人综合天 | 亚洲精品国产成人影院| 午夜免费福利在线| 国产欧美日产一区| 无码人妻黑人中文字幕| 亚洲精品日韩丝袜精品| 成人影院av| 欧美激情视频一区二区三区| 一本一本久久| 欧美做受喷浆在线观看| 欧美日韩亚洲一区二区三区| 性一交一乱一乱一视频| 97色在线播放视频| 日本精品影院| 大肉大捧一进一出好爽视频| 99精品视频一区| 天天干天天干天天干天天| 日韩成人在线视频网站| 日韩在线影院| 亚洲午夜精品一区二区三区| 青青草原综合久久大伊人精品优势| 六月婷婷七月丁香| 色噜噜狠狠色综合中国| 国产精品一二三区视频| 国产精品大陆在线观看| 五月天久久久| 国产老头和老头xxxx×| 亚洲一二三四区| 四虎影院在线域名免费观看| 清纯唯美亚洲激情| 欧美猛男男男激情videos| 亚洲视频第二页| 亚洲精品中文在线观看| 刘亦菲久久免费一区二区| 欧美夜福利tv在线| 精品视频免费| 永久免费的av网站| 婷婷丁香激情综合| 国产青青草在线| 亚洲字幕在线观看| 99成人在线| 日韩一级片在线免费观看| 欧美丰满美乳xxx高潮www| 黑人极品ⅴideos精品欧美棵| 激情视频一区二区| 久久一区亚洲| 国产人妻精品一区二区三区不卡| 亚洲国产三级网| jizzyou欧美16|