精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

RAG文檔解析器,核心技術(shù)剖析

發(fā)布于 2024-9-20 11:08
瀏覽
0收藏

最近,RAG技術(shù)逐漸走紅,但文檔解析這一重要環(huán)節(jié)卻鮮為人知。說到底,無論使用多么高級的檢索和生成技術(shù),最終效果都取決于文檔本身的質(zhì)量。如果文檔信息不全或格式混亂,那么再怎么優(yōu)化檢索策略、嵌入模型或大型語言模型(LLMs)也無濟于事。

本文介紹三種流行的文檔提取策略,并以亞馬遜2024年第一季度報告中的表格解析為例,展示這些策略的實際應(yīng)用。

1 文本解析器:基礎(chǔ)工具

文本解析器已經(jīng)發(fā)展多年,這些工具能夠讀取文檔并從中提取文本。常見的工具有PyPDF、PyMUPDF和PDFMiner。接下來,重點介紹PyMUPDF,并通過LlamaIndex集成的PyMUPDF來解析特定頁面。以下是相應(yīng)的代碼示例:

from llama_index.core.schema import TextNode
from llama_index.core.node_parser import SentenceSplitter
import fitz

file_path = "/content/AMZN-Q1-2024-Earnings-Release.pdf"
doc = fitz.open(file_path) 
text_parser = SentenceSplitter(
    chunk_size=2048,
)
text_chunks = [] #C
for doc_idx, page in enumerate(doc):
    page_text = page.get_text("text")
    cur_text_chunks = text_parser.split_text(page_text)
    text_chunks.extend(cur_text_chunks)
nodes = [] #D
for idx, text_chunk in enumerate(text_chunks):
    node = TextNode(
        text=text_chunk,
    )
    nodes.append(node)
print(nodes[10].text)

PyMUPDF在提取文本方面表現(xiàn)優(yōu)秀,但文本的格式處理并不理想。這在后續(xù)的生成過程中可能會造成問題,尤其是當(dāng)大型語言模型難以識別文檔結(jié)構(gòu)時。

以下是亞馬遜公司的財務(wù)報表摘要:

AMAZON.COM, INC.
Consolidated Statements of Comprehensive Income
(in millions)
(unaudited)
  
Three Months Ended
March 31,
 
2023
2024
Net income
$ 
3,172 $ 
10,431 
Other comprehensive income (loss):
Foreign currency translation adjustments, net of tax of $(10) and $30
 
386  
(1,096) 
Available-for-sale debt securities:
Change in net unrealized gains (losses), net of tax of $(29) and $(158)
 
95  
536 
Less: reclassification adjustment for losses (gains) included in “Other income 
(expense), net,” net of tax of $(10) and $0
 
33  
1 
Net change
 
128  
537 
Other, net of tax of $0 and $(1)
 
—  
1 
Total other comprehensive income (loss)
 
514  
(558) 
Comprehensive income
$ 
3,686 $ 
9,873

接下來,讓我們看看OCR在文檔解析中的表現(xiàn)。

2 OCR技術(shù):圖像識別

from PIL import Image
import pytesseract
import sys
from pdf2image import convert_from_path
import os
pages = convert_from_path(file_path)
i=10
filename = "page"+str(i)+".jpg"
pages[i].save(filename, 'JPEG')
outfile =  "page"+str(i)+"_text.txt"
f = open(outfile, "a")
text= str(((pytesseract.image_to_string(Image.open(filename)))))
text = text.replace('-\n', '')    
f.write(text)
f.close()

print(text)

OCR(如下所示)能更好地捕捉文檔文本和結(jié)構(gòu)。

AMAZON.COM, INC.
Consolidated Statements of Comprehensive Income
(in millions)

(unaudited)
Three Months Ended
March 31,
2023 2024
Net income $ 3,172 §$ 10,431
Other comprehensive income (loss):
Foreign currency translation adjustments, net of tax of $(10) and $30 386 (1,096)
Available-for-sale debt securities:
Change in net unrealized gains (losses), net of tax of $(29) and $(158) 95 536
Less: reclassification adjustment for losses (gains) included in “Other income
(expense), net,” net of tax of $(10) and $0 33 1
Net change 128 231
Other, net of tax of $0 and $(1) _— 1
Total other comprehensive income (loss) 514 (558)

Comprehensive income $ 3,686 $ 9,873

最后,來看看智能文檔解析。

3 智能文檔解析(IDP):結(jié)構(gòu)化提取

智能文檔解析(IDP)是一項新興技術(shù),旨在從文檔中提取所有相關(guān)信息,并以結(jié)構(gòu)化格式呈現(xiàn)。市面上有多種IDP工具,如LlamaParse、DocSumo、Unstructured.io以及Azure Doc Intelligence等。

這些工具的共同點在于,它們都融合了OCR(光學(xué)字符識別)、文本提取技術(shù)、多模態(tài)大型語言模型(LLMs),以及將內(nèi)容轉(zhuǎn)換為markdown格式的能力,以實現(xiàn)文本的高效提取。以LlamaIndex推出的LlamaParse為例,使用前需要先獲取API密鑰,然后便可以通過API接口來解析文檔。

import getpass
import os
from copy import deepcopy

os.environ["LLAMA_CLOUD_API_KEY"] = getpass.getpass()
from llama_parse import LlamaParse
import nest_asyncio
nest_asyncio.apply()
documents = LlamaParse(result_type="markdown").load_data(file_path)
def get_page_nodes(docs, separator="\n---\n"):
    """Split each document into page node, by separator."""
    nodes = [] #C
    for doc in docs:
        doc_chunks = doc.text.split(separator)
        for doc_chunk in doc_chunks:
            node = TextNode(
                text=doc_chunk,
                metadata=deepcopy(doc.metadata),
            )
            nodes.append(node)

    return nodes


nodes_lp = get_page_nodes(documents)
print(nodes_lp[10].text)

下面的內(nèi)容以markdown格式結(jié)構(gòu)化,應(yīng)該是目前結(jié)構(gòu)最好的表示。

# 亞馬遜公司

# 綜合收益表

| |Three Months Ended March 31, 2023|Three Months Ended March 31, 2024|
|---|---|---|
|Net income|$3,172|$10,431|
|Other comprehensive income (loss):| | |
|Foreign currency translation adjustments, net of tax of $(10) and $30|386|(1,096)|
|Available-for-sale debt securities:| | |
|Change in net unrealized gains (losses), net of tax of $(29) and $(158)|95|536|
|Less: reclassification adjustment for losses (gains) included in “Other income (expense), net,” net of tax of $(10) and $0|33|1|
|Net change|128|537|
|Other, net of tax of $0 and $(1)|—|1|
|Total other comprehensive income (loss)|514|(558)|
|Comprehensive income|$3,686|$9,873|

不過,有一點需要注意,上述內(nèi)容忽略了一些關(guān)鍵的上下文信息。特別是,解析后的文檔中不再包含“millions”(百萬)這樣的單位標(biāo)識,這可能會導(dǎo)致生成器LLM在理解時產(chǎn)生誤解。

4 結(jié)論

要提升你的RAG應(yīng)用性能,重點在于選擇合適的文檔解析器。各種解析策略各有千秋,也各有局限:

  • 文本解析器:使用PyPDF或PyMUPDF等工具,可以高效提取文本,但可能會丟失文檔結(jié)構(gòu),這在生成內(nèi)容時可能會讓你的語言模型感到困惑。
  • OCR技術(shù):選擇Pytesseract等OCR工具,能更精準(zhǔn)地捕捉文本及其結(jié)構(gòu),更好地保留原始文檔的格式和上下文。但OCR處理通常耗時較長,且效果很大程度上取決于具體應(yīng)用場景。你需要權(quán)衡準(zhǔn)確性提升是否值得增加的處理時間。
  • 智能文檔解析(IDP):采用LlamaParse等高級IDP工具,可以整合OCR、文本提取和多模態(tài)語言模型,將文檔轉(zhuǎn)換為結(jié)構(gòu)化的markdown格式。但要注意,這種方法有時會丟失關(guān)鍵的上下文信息,如度量單位。此外,IDP技術(shù)尚在成熟過程中,可能面臨可擴展性和延遲問題。在部署IDP時,要充分考慮這些限制,并為可能的系統(tǒng)瓶頸做好準(zhǔn)備。

最終,選擇哪種解析器,需要根據(jù)你的具體應(yīng)用場景來決定。最佳做法是嘗試不同的解析器,評估它們在你的應(yīng)用中的表現(xiàn),然后選擇最滿足你需求的那一個。有時候,結(jié)合多種方法可能會更有效。不斷試驗和調(diào)整,以期達到最佳的RAG應(yīng)用效果。

本文轉(zhuǎn)載自 ??AI科技論談??,作者: AI科技論談

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
91av视频在线观看| 欧美变态凌虐bdsm| 日韩中文字幕一区| 国产内射老熟女aaaa∵| 欧美成人精品| 在线视频精品| 亚洲欧美日韩中文播放| 国产激情一区二区三区在线观看| 黑人一级大毛片| 日韩一区自拍| 亚洲精品国产综合久久| 国产喷水theporn| 毛片在线导航| 国产精品蜜臀av| 国内精品一区二区| 国产一区二区三区在线观看| 国产精品久久777777毛茸茸| 久久精品久久精品亚洲人| 亚洲一区二区三区无码久久| 国产色99精品9i| 日韩欧亚中文在线| 黄色一级大片免费| eeuss影院www在线观看| 9色porny自拍视频一区二区| 91香蕉国产在线观看| 国产成人无码一区二区在线播放| 欧美日韩理论| 日韩在线观看视频免费| 三级电影在线看| a级日韩大片| 制服.丝袜.亚洲.另类.中文| 午夜免费高清视频| 三妻四妾的电影电视剧在线观看| 一区二区三区久久| 99re8这里只有精品| se在线电影| 久久久精品tv| 奇米视频888战线精品播放| 刘玥91精选国产在线观看| 国产在线视视频有精品| 国产精品视频永久免费播放| 亚洲黄网在线观看| 国产一区二区你懂的| 欧美激情第三页| 清纯粉嫩极品夜夜嗨av| 999视频精品| 中国china体内裑精亚洲片| 香蕉网在线播放| 少妇高潮一区二区三区| 日韩电影中文字幕一区| 日韩在线中文视频| 欧美一级黄色片视频| 神马久久午夜| 精品日韩中文字幕| 女人和拘做爰正片视频| 午夜影院在线播放| 色婷婷精品久久二区二区蜜臂av | 精品福利视频导航大全| 91色porny在线视频| 欧美成人一区二区在线| 免费动漫网站在线观看| 国产亚洲女人久久久久毛片| 日韩欧美三级一区二区| 成人动漫在线播放| 国产精品久久三区| 免费看污污视频| 青春草视频在线观看| 樱花影视一区二区| 18禁网站免费无遮挡无码中文| av在线理伦电影| 黑人极品videos精品欧美裸| 免费观看成人在线视频| 视频91a欧美| 日韩欧美视频一区| 黄色录像a级片| 国内成人自拍| 久久精品国产综合| 日韩av免费网址| 日韩中文欧美在线| 亚洲最大福利视频网站| 少妇高潮一区二区三区69| xfplay精品久久| 一区二区精品国产| 成人在线高清免费| 在线观看国产一区二区| 青娱乐精品在线| 日韩av不卡一区| 精品国产欧美一区二区三区成人| 男女免费视频网站| 日日摸夜夜添夜夜添精品视频| 91在线中文字幕| 日本在线一二三| 国产精品视频一区二区三区不卡| 国产精品久久久影院| 韩国成人动漫| 91精品国产全国免费观看 | 中文字幕一区二区中文字幕| 成人av黄色| 欧美日韩精品在线播放| 欧美一级视频在线| 天天操综合520| 久久激情视频免费观看| 欧美一级片免费在线观看| 黄页视频在线91| 日本一区二区在线视频| 在线观看中文| 欧美写真视频网站| 国产一级黄色录像| 先锋资源久久| 国产精品999| 手机看片福利永久| 亚洲三级在线观看| 玩弄japan白嫩少妇hd| 一区二区三区在线资源| 久久国内精品一国内精品| 久久久久99精品成人片我成大片| 国产福利一区在线观看| 亚洲精品中文字幕乱码三区不卡| 鲁鲁在线中文| 日韩视频永久免费| 日本黄色录像视频| 日韩**一区毛片| 久久综合中文色婷婷| 日本在线观看高清完整版| 678五月天丁香亚洲综合网| 手机免费看av| 亚洲在线网站| 国产精品一区二区在线观看| 成人在线视频亚洲| 欧美日本韩国一区二区三区视频| 人妻少妇一区二区| 国产日韩免费| 国产乱码精品一区二区三区日韩精品 | 成人在线爆射| 亚洲欧洲高清在线| 久久久精品福利| 91年精品国产| 黄色影院一级片| 色婷婷久久久| 2021国产精品视频| 在线观看xxx| 欧美日韩精品在线视频| 色婷婷免费视频| 亚洲国产高清一区| 国产精品久久777777毛茸茸| 国产99久久久欧美黑人| 三级理论午夜在线观看| 婷婷中文字幕综合| 久久午夜夜伦鲁鲁片| 亚洲人人精品| 久久久久久久免费| 在线手机中文字幕| 亚洲毛片在线看| 少妇久久久久久久| 国产精品视频看| xxww在线观看| 久久久久美女| 91在线观看免费高清完整版在线观看| 国产在线1区| 日韩你懂的在线播放| 国产精品30p| 99久久综合狠狠综合久久| 动漫av网站免费观看| 欧美日韩爱爱| 国产日韩专区在线| 天堂8中文在线| 亚洲国产精品久久久| caoporn国产| 国产精品美日韩| 97免费公开视频| 亚洲黑丝一区二区| 日本黑人久久| vam成人资源在线观看| 欧美激情精品久久久久久免费印度 | 激情小说综合网| 吉吉日韩欧美| 北条麻妃在线一区二区| 亚洲老妇色熟女老太| 欧美性极品xxxx娇小| 最新日韩免费视频| 成人丝袜高跟foot| 韩国日本在线视频| 国产精品久久久久蜜臀| 国产日韩精品一区观看| 日韩欧美少妇| 欧美高清自拍一区| 黄色国产在线| 日韩欧美在线不卡| 国产超碰人人爽人人做人人爱| 国产精品久久久久久亚洲伦 | 波多野结衣50连登视频| 久久婷婷蜜乳一本欲蜜臀| 国产精品9999久久久久仙踪林| 久久精品视频1| 欧美国产大片| 在线视频欧美日韩精品| 国产黄频在线观看| 色狠狠av一区二区三区| 欧美丰满熟妇bbbbbb| 26uuu亚洲综合色| 日日夜夜精品视频免费观看| 久久在线精品| 男女日批视频在线观看| 成人羞羞视频播放网站| 国产三区精品| 精品一区二区三区中文字幕在线 | 韩国理伦片久久电影网| 久久久亚洲精品视频| 在线中文资源天堂| 亚洲精品丝袜日韩| 亚洲免费成人在线| 777午夜精品视频在线播放| 无码人妻一区二区三区免费| 亚洲一区二区三区免费视频| 国内毛片毛片毛片毛片毛片| 26uuu国产在线精品一区二区| 精品国产乱码久久久久夜深人妻| 麻豆一区二区在线| 奇米精品一区二区三区| 欧美视频官网| 91成人在线视频观看| 日本不卡电影| 欧洲在线视频一区| 天堂网av成人| 精品一区二区久久久久久久网站| 中文久久电影小说| 91精品在线影院| 精品国产美女a久久9999| 欧洲日韩成人av| 狼人综合视频| 97精品国产97久久久久久免费| 国产精品一品| 欧美极品xxxx| 欧美黑人猛交的在线视频| 久久精品国产69国产精品亚洲 | 国产日韩欧美一区二区东京热| 欧美性感一区二区三区| 久久久久久久久黄色| 激情av一区二区| 国产成人亚洲欧洲在线| 亚洲妇熟xx妇色黄| 久久精品视频久久| 亚洲一级不卡视频| 国产在线综合网| 一区二区不卡在线播放 | 国产乱码精品一区二区三区日韩精品 | 69久久精品无码一区二区| 看片网站欧美日韩| 五月婷婷六月丁香激情| 蜜桃一区二区三区在线| 天堂网在线免费观看| 毛片一区二区三区| 涩多多在线观看| 高清不卡在线观看| 亚洲av永久无码精品| 99国产精品99久久久久久| 男男做爰猛烈叫床爽爽小说| 97精品电影院| 精品欧美一区二区久久久| 国产欧美精品一区| 久久久久久久麻豆| 亚洲激情中文1区| 香蕉免费毛片视频| 欧美日韩在线影院| 少妇无套内谢久久久久| 欧美日韩精品一区二区三区| 99久久久久久久| 亚洲丁香久久久| 久久电影视频| 久久久精品美女| √最新版天堂资源网在线| 欧美中文在线观看国产| www.一区| 国产高清自拍一区| 国产精品免费99久久久| 中文字幕精品在线播放| 99视频精品免费观看| 三级在线视频观看| 国产美女精品人人做人人爽| 先锋资源av在线| 日本一区二区三级电影在线观看 | 亚洲丝袜精品| 欧美在线免费视频| 亚洲狼人综合| 久久99精品久久久久久青青日本 | 成人在线亚洲| 97在线免费视频观看| 免费在线日韩av| 亚洲第一成肉网| 久久久久久久电影| 538任你躁在线精品视频网站| 岛国av在线不卡| 国产女人高潮的av毛片| 日韩精品极品视频| 麻豆影视在线观看_| 91av免费观看91av精品在线| 96视频在线观看欧美| 久久精品99久久| 午夜国产精品视频免费体验区| 国产aaa一级片| 国产suv一区二区三区88区| 欧洲成人午夜免费大片| 国产精品福利电影| 精品亚洲aⅴ在线观看| av毛片在线| 国产精品久久久久久av福利| 黄色成人美女网站| 中国成人亚色综合网站| 久久国产高清| 性久久久久久久久久久| 亚洲欧美区自拍先锋| jizz国产在线| 亚洲精品国产拍免费91在线| 四虎影院观看视频在线观看 | 精品无码一区二区三区爱欲| 免费在线观看精品| 久久国产精品影院| 亚洲自拍另类综合| 国产精品毛片久久久久久久av | 日本综合在线观看| 狠狠做深爱婷婷久久综合一区 | 亚洲人成网站777色婷婷| 欧美高清另类hdvideosexjaⅴ| 91免费精品视频| 欧美a级片视频| 三上悠亚在线一区| 欧美国产一区二区| 中文字幕免费高清网站| 国产午夜精品理论片a级探花| 国产美女一区视频| 亚洲一区二区免费| 亚洲精品成人影院| caoporm在线视频| 国产精品国产三级国产普通话三级| 亚洲 欧美 中文字幕| 日韩电视剧免费观看网站| 成人免费高清观看| 国产综合 伊人色| 在线日本成人| 国产精品久久AV无码| 午夜不卡在线视频| 天天干天天摸天天操| 97色在线观看| 欧美成人专区| 无码精品a∨在线观看中文| 91在线精品一区二区三区| 五月婷婷开心网| 亚洲精品小视频| 国产私拍福利精品视频二区| 亚洲精品一卡二卡三卡四卡| 免费成人在线观看视频| a级黄色免费视频| 91精品国产91久久综合桃花| 影音先锋在线视频| 国产精品一区二区三区免费观看| 日韩视频一区| 日韩中文字幕电影| 色婷婷av一区二区| 最新av网站在线观看| 亚洲a级在线观看| 欧美精品午夜| 加勒比精品视频| 欧美亚洲禁片免费| 九七久久人人| 国产精品区一区二区三含羞草| 香蕉久久国产| 美国一级黄色录像| 日韩丝袜情趣美女图片| 交100部在线观看| 激情六月婷婷综合| 黄色aaa视频| 欧美另类久久久品| 蜜桃传媒在线观看免费进入| 免费电影一区| 精彩视频一区二区三区| 青青草精品在线视频| 日韩av最新在线| 一区在线不卡| 婷婷无套内射影院| 欧美国产视频在线| 午夜精品久久久久久久99老熟妇| 91av在线免费观看视频| 日韩电影免费网址| 日本少妇xxxx软件| 色视频一区二区| 亚洲丝袜精品| 色一情一乱一伦一区二区三区丨| 国产一本一道久久香蕉| 六月丁香婷婷综合| 欧美床上激情在线观看| 亚洲美女15p| 九色91porny| 91国偷自产一区二区开放时间 | 一区二区三区午夜视频| 国模私拍在线观看| 欧美日韩高清在线| 久热在线观看视频| 日韩精品手机在线观看| 国产亚洲精品7777| 丰满人妻一区二区三区免费视频|