精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

不止能切文本:多向量檢索如何讓RAG搞定復雜PDF 原創

發布于 2025-10-10 06:46
瀏覽
0收藏

在日常工作里,我們經常會接觸到各種文檔:研究論文、財報、產品手冊……它們往往不是“純文本”,而是夾雜了段落、表格、標題、甚至圖片。這類“半結構化數據”,對于傳統的 RAG(Retrieval-Augmented Generation,檢索增強生成) 來說,是一個相當棘手的問題。

為什么?想象一下,如果一個普通的文本切分工具把表格切開一半,或者直接把一張大表格當成純文本去嵌入,結果就是語義檢索時一團糊,模型很可能拿不到真正需要的上下文。最終生成的答案,自然也就“答非所問”。

這篇文章就帶你深入理解:如何用 智能解析 + 多向量檢索器(multi-vector retriever),在 LangChain 框架里構建一個更聰明、更可靠的 半結構化數據 RAG 管道

1、為什么半結構化數據會成為RAG的難點?

傳統的RAG流水線主要面向“純文本”,它在半結構化文檔上常常翻車,原因主要有兩個:

1)切分失真普通的文本切分器可能在錯誤的位置把表格一分為二,這等于直接破壞了表格中的關鍵數據。

2)語義噪聲如果直接把整張大表嵌入向量空間,得到的語義表示往往模糊不清。這樣一來,檢索環節可能根本找不到關鍵上下文,模型回答自然就不準。

現實場景中,這種問題比你想象得更普遍:

  • 在金融行業,財報中的表格決定了核心答案;
  • 在科研場景,實驗數據幾乎都放在表格里;
  • 在企業產品手冊中,參數對照表同樣是核心信息。

這意味著,如果不能妥善處理表格、段落并存的復雜文檔,RAG系統的價值將大打折扣。

2、解決方案:智能解析 + 多向量檢索

面對這一挑戰,核心思路其實很簡單:不要一刀切,而是分類處理。

我們可以把解決方案分為兩個關鍵步驟:

  • 智能解析(Unstructured庫)使用??partition_pdf?? 等方法,不僅能識別出段落,還能準確區分出表格,并保留它們的原始結構。這樣就避免了盲目切分導致的信息丟失。
  • 多向量檢索器(Multi-Vector Retriever)每個元素既存儲一份“摘要”向量(用于檢索),也保留原始完整內容(用于答案生成)。檢索階段靠摘要高效定位,生成階段再調取完整表格或段落。這樣既保證檢索速度,又能讓模型真正“看見全貌”。

可以把它想象成查書目錄 vs 翻正文:先靠目錄找到相關章節,再翻到完整內容細讀。

3、構建RAG管道的五個步驟

不止能切文本:多向量檢索如何讓RAG搞定復雜PDF-AI.x社區

下面結合 LLaMA2 研究論文 的 PDF,走一遍完整的實現流程。

Step 1:環境準備

安裝必要的依賴,包括 LangChain 框架、Unstructured 解析庫、Chroma 向量存儲等:

! pip install langchain langchain-chroma "unstructured[all-docs]" pydantic lxml langchainhub langchain_openai -q
! apt-get install -y tesseract-ocr poppler-utils

這里的 ??tesseract-ocr??? 和 ??poppler-utils?? 用于OCR和PDF處理。

Step 2:文檔解析

使用 ??partition_pdf?? 對PDF進行智能解析。它會自動識別 段落(CompositeElement) 和 表格(Table)

from unstructured.partition.pdf import partition_pdf

raw_pdf_elements = partition_pdf(
   filename="/content/LLaMA2.pdf",
   extract_images_in_pdf=False,
   infer_table_structure=True,
   chunking_strategy="by_title",
   max_characters=4000,
   new_after_n_chars=3800,
   combine_text_under_n_chars=2000,
)

輸出結果顯示:解析出了 85個文本塊 和 2張表格。這為后續處理打下了干凈的基礎。

Step 3:生成摘要

長表格和長段落不適合直接嵌入,因此我們用LangChain構建一個 摘要生成鏈

from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI
from langchain_core.output_parsers import StrOutputParser

prompt = ChatPromptTemplate.from_template(
   "Summarize the following element concisely:\n\n{element}"
)

model = ChatOpenAI(temperature=0, model="gpt-4.1-mini")
summarize_chain = {"element": lambda x: x} | prompt | model | StrOutputParser()

這樣就能得到更輕量、清晰的語義摘要,提升檢索精度。

Step 4:構建多向量檢索器

使用 Chroma 保存摘要向量,InMemoryStore 保存原文,并通過ID進行關聯:

from langchain.retrievers.multi_vector import MultiVectorRetriever
from langchain_chroma import Chroma
from langchain.storage import InMemoryStore

retriever = MultiVectorRetriever(
   vectorstore=Chroma(collection_name="summaries"),
   docstore=InMemoryStore(),
   id_key="doc_id",
)

這樣檢索時先命中摘要,再回溯到原文。

Step 5:運行完整RAG鏈

構建問答鏈,輸入問題時:

  • 檢索摘要 →
  • 找到對應原文 →
  • 提交給LLM生成答案。

from langchain_core.runnables import RunnablePassthrough

prompt = ChatPromptTemplate.from_template(
   "Answer the question based on context:\n\n{context}\n\nQuestion: {question}\n"
)

chain = (
   {"context": retriever, "question": RunnablePassthrough()}
   | prompt
   | ChatOpenAI(temperature=0, model="gpt-4")
   | StrOutputParser()
)

chain.invoke("What is the number of training tokens for LLaMA2?")

結果:系統準確定位到了論文中的表格,并提取了訓練數據規模這一關鍵信息。

4、這種方法的價值在哪里?

相比“簡單切分 + 直接嵌入”,這種 半結構化數據 RAG 的方法帶來三大優勢:

  • 上下文完整模型在生成答案時真正“看見”了完整表格或段落,不會因為缺失而答錯。
  • 檢索精準摘要比原始長文塊更適合做向量搜索,大幅降低噪聲。
  • 通用性強適用于財報、學術論文、專利、技術手冊等各類混合文檔場景。

未來,如果結合多模態(比如圖片里的圖表)、更智能的布局解析,這種方法的潛力將更大。

5、展望與思考

隨著企業數字化的深入,復雜文檔數據 將越來越常見。財務、法律、醫療、科研等行業尤其如此。傳統RAG如果停留在“純文本思維”,很快會遇到天花板。

這篇文章展示的“智能解析 + 多向量檢索”方案,不僅提升了RAG的精度,也讓復雜文檔真正可用。可以預見,在未來的知識管理和智能問答系統里,這類方案會成為標配。

那么,問題來了:如果讓你在公司里落地這樣的方案,你覺得最先適合的場景會是什么?是財報分析、科研文檔,還是內部技術文檔?


本文轉載自??Halo咯咯??    作者:基咯咯

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-10-15 14:30:31修改
收藏
回復
舉報
回復
相關推薦
久久精品国产69国产精品亚洲| 色综合久久久久| 成人动漫在线视频| 亚洲精品男人的天堂| 日韩精品一区二区久久| 日韩一级视频免费观看在线| 国产深夜男女无套内射| 97视频精彩视频在线观看| 国产精品亚洲а∨天堂免在线| 欧美激情第一页xxx| 国产精品久久久久久久av| 日本一区精品视频| 日本高清视频一区二区| 狠狠干视频网站| 你懂的在线看| 国产91在线观看丝袜| 国产精品成人一区二区| 国产亚洲精品码| 久久免费av| 精品无人区太爽高潮在线播放| 伊人免费视频二| 日本免费久久| 五月天中文字幕一区二区| 亚洲永久一区二区三区在线| 天天干天天爽天天操| 国产一区美女在线| 国产成人精品国内自产拍免费看 | 欧美精品色婷婷五月综合| www久久日com| 欧美国产丝袜视频| 久久一区免费| 天天操天天操天天| 国产成a人无v码亚洲福利| 91精品久久久久久久久| 中国a一片一级一片| 久久精品日产第一区二区| 午夜精品久久久久久久男人的天堂 | 亚洲一区 二区| 91精品国产综合久久精品性色| 黄色三级视频在线| 天天综合网站| 色婷婷综合久色| 日日碰狠狠丁香久燥| 日韩在线伦理| 欧美午夜精品伦理| 日韩欧美视频网站| 周于希免费高清在线观看| 午夜日韩在线观看| 97超碰在线人人| 久久亚洲资源| 亚洲国产成人porn| 国产h视频在线播放| av在线私库| 精品久久久久久中文字幕一区奶水| 国产一二三区在线播放| 51精品在线| 色综合天天综合网天天看片| 亚洲国产精品久久久久爰色欲| 日本乱码一区二区三区不卡| 欧美日韩亚洲天堂| 丰满人妻中伦妇伦精品app| 欧美成人性网| 欧美性色综合网| 色91精品久久久久久久久| 999精品视频在线观看| 在线成人免费观看| 性生活一级大片| 高清精品xnxxcom| 日韩av在线影院| 波多野结衣 在线| 日韩精品一区二区三区免费观看| 俺也去精品视频在线观看| 美女福利视频在线观看| 悠悠资源网久久精品| 7m第一福利500精品视频| 亚洲精品男人的天堂| 视频一区国产视频| 91精品视频一区| 成人乱码一区二区三区| 久久综合色一综合色88| 亚洲一区二区三区欧美| 日韩精品分区| 欧美视频在线视频| 国产喷水theporn| 美女久久精品| 亚洲美女动态图120秒| 亚洲精品国产一区黑色丝袜| 亚洲成人三区| 18性欧美xxxⅹ性满足| 国产寡妇亲子伦一区二区三区四区| 免费不卡在线观看| 国产精品亚洲综合| 午夜视频在线观看网站| 亚洲综合丝袜美腿| 日韩av片网站| eeuss国产一区二区三区四区| 亚洲欧洲午夜一线一品| 国产中文av在线| 亚洲一区日韩| 91高跟黑色丝袜呻吟在线观看| 天天操天天干天天| 成人免费在线播放视频| 黄色片久久久久| 欧美片网站免费| 亚洲欧美制服综合另类| 欧美日韩成人免费观看| 日本不卡视频在线观看| 国产精品制服诱惑| 免费大片黄在线观看视频网站| 精品久久久视频| 国产老头和老头xxxx×| 成人影视亚洲图片在线| 国内精品小视频在线观看| 一二三四区在线| 久久久久久一二三区| 欧美视频在线第一页| 色婷婷成人网| 亚洲网站视频福利| 亚洲男人第一av| 国产精品一区二区三区99| 先锋在线资源一区二区三区| 看黄在线观看| 欧美成人一区二区| 日本午夜在线观看| 久久精品国产77777蜜臀| 欧美精品一区在线| 涩涩视频网站在线观看| 日韩免费福利电影在线观看| 黄色录像一级片| 麻豆91精品视频| 亚洲v欧美v另类v综合v日韩v| 人人草在线视频| 亚洲国产成人精品久久| 久久精品女人毛片国产| 国产传媒一区在线| 91xxx视频| 国产视频一区二| 精品国产一区av| 91久久精品国产91性色69| 欧美极品另类videosde| 免费裸体美女网站| 亚洲宅男一区| 国产精品6699| 成在在线免费视频| 欧美日韩日日骚| 亚洲av无一区二区三区| 麻豆精品一二三| 制服丝袜综合日韩欧美| 日韩黄色碟片| 超碰精品一区二区三区乱码| 国产伦理一区二区| 一区二区三区小说| 久久久久国产免费| 亚洲精品综合| 欧美日韩三区四区| 99riav视频一区二区| 中文字幕在线看视频国产欧美在线看完整 | 欧美日免费三级在线| 极品尤物一区二区| 狠狠色丁香婷婷综合| 亚洲第一综合网站| 操欧美女人视频| 欧美中文在线视频| 触手亚洲一区二区三区| 欧美久久一二三四区| 国产农村妇女精品一区| 国产精品一区三区| 日韩国产欧美亚洲| 成人午夜av| 91网站在线免费观看| 俺来俺也去www色在线观看| 日韩av最新在线观看| 国产一级精品毛片| 亚洲免费观看在线视频| 2一3sex性hd| 青青国产91久久久久久| 二级片在线观看| 精品三级av在线导航| 日本不卡高字幕在线2019| 日韩av中文| 精品国产网站在线观看| 欧美一区二区三区久久久| 中文字幕中文字幕在线一区| 精品人妻二区中文字幕| 毛片一区二区| 成人在线观看www| 色先锋久久影院av| 成人性教育视频在线观看| hd国产人妖ts另类视频| 中文字幕亚洲激情| 日本高清视频www| 欧美日韩免费高清一区色橹橹| 国产污视频在线观看| 欧美激情一区二区| 久久久久久久久久久久国产精品| 久久久人人人| 国产精品无码电影在线观看| 竹菊久久久久久久| 999国产在线| 亚洲天堂1区| 97国产精品免费视频| 亚洲s色大片| 日韩精品在线第一页| 国产熟女一区二区丰满| 日本韩国欧美在线| 日本在线视频免费| 亚洲老司机在线| 阿v天堂2014| 91亚洲精品一区二区乱码| 亚洲一区二区偷拍| 久久久久久久欧美精品| 久久国产精品视频在线观看| 五月天久久网站| 日本一区二区三区四区在线观看| 97青娱国产盛宴精品视频| 成人夜晚看av| 99九九久久| 欧美在线日韩在线| av在线中出| 欧美大片在线影院| a级毛片免费观看在线| 最好看的2019年中文视频| 日韩精品视频无播放器在线看 | 久久精品日产第一区二区| 91黄色在线看| 欧美1区2区3区| 免费在线观看污污视频| 成人综合久久| 欧洲成人一区二区| 一区二区美女| 蜜桃传媒视频麻豆一区| 五月激激激综合网色播| 精品一区二区视频| 欧美三级自拍| 精品无人乱码一区二区三区的优势| 亚洲一区二区电影| 超碰97国产在线| av成人资源| 粉嫩av免费一区二区三区| 亚洲1区在线| 99久热re在线精品996热视频| 欧美专区一区| 亚洲jizzjizz日本少妇| 久久69av| 国产精品加勒比| 精品少妇3p| 久久久久久九九| 国产成人黄色| 日韩欧美精品在线不卡| 欧洲杯足球赛直播| 亚洲精品中文字幕在线| 99精品视频在线观看播放| 亚洲一区不卡在线| 一区二区电影在线观看| 欧美日韩午夜爽爽| 亚洲小说欧美另类婷婷| 久久久久久久中文| 日韩精品一二三四| 超碰人人草人人| 国产成人福利片| 日本japanese极品少妇| 国产婷婷色一区二区三区四区| 亚洲理论片在线观看| 国产精品欧美一区二区三区| 一区二区国产精品精华液| 亚洲激情自拍偷拍| 日韩欧美激情视频| 欧美伊人精品成人久久综合97 | 精品亚洲va在线va天堂资源站| 日本电影一区二区在线观看| 在线a欧美视频| 调教一区二区| 97视频在线观看免费高清完整版在线观看 | av在线不卡顿| 成人在线免费观看网址| 中文精品在线| 日本黄色福利视频| 成人aa视频在线观看| 日本人亚洲人jjzzjjz| 亚洲欧美视频在线观看| 日本道在线观看| 欧美日韩一区久久| 亚洲精品.www| 亚洲最大中文字幕| av影视在线| 国产精品视频精品视频| 91欧美极品| 亚洲精品第一区二区三区| 好看的日韩av电影| 浓精h攵女乱爱av| 成人禁用看黄a在线| 潮喷失禁大喷水aⅴ无码| 亚洲成av人片在线| 伊人久久成人网| 亚洲精品福利资源站| 国产成人亚洲精品| 成人爽a毛片免费啪啪红桃视频| 日韩wuma| 99精品久久久| 午夜一区二区视频| 久久人人超碰精品| 午夜偷拍福利视频| 欧美精品日韩一区| 国产资源在线看| 97国产精品视频| 经典三级久久| 亚洲国产精品www| 亚洲欧美高清| 大尺度在线观看| 亚洲婷婷综合色高清在线| 成人免费毛片男人用品| 亚洲成av人乱码色午夜| 国产三区视频在线观看| 国产98色在线| 国产精品对白| www.激情网| 国产综合色视频| 青青草自拍偷拍| 91福利社在线观看| 天天在线女人的天堂视频| 欧美激情videos| 亚洲精品午夜| 国产一二三四五| 久久国产夜色精品鲁鲁99| caopeng视频| 欧美小视频在线| 色吊丝在线永久观看最新版本| 欧美黑人一级爽快片淫片高清| 精品视频国内| 麻豆md0077饥渴少妇| 另类小说欧美激情| 在线观看免费黄色网址| 欧美午夜不卡在线观看免费| 国产精品一二三区视频| 日本一区二区三区四区视频| 伊人成综合网伊人222| 欧美 日韩 国产 高清| 成人国产在线观看| 日韩三级一区二区三区| 欧美精品一区二区三区在线播放| 最新黄网在线观看| aa成人免费视频| 激情久久综合| 亚洲激情 欧美| 欧美日韩一区二区精品| 日韩资源在线| 国产精品高清网站| 精品视频网站| 国产日韩欧美久久| 136国产福利精品导航| av网站在线观看免费| 色综合色综合久久综合频道88| 亚洲三级av| 国产精品999视频| 91色porny蝌蚪| 五月天中文字幕| 深夜成人在线观看| 久久丁香四色| av免费看网址| 久久精品一区二区三区四区 | 日韩欧美中文一区| 黄色羞羞视频在线观看| 精品视频第一区| 日韩高清一区二区| 老司机成人免费视频| 欧美成人伊人久久综合网| 国产高清自产拍av在线| 欧美在线一区二区三区四区| 久久精品国产久精国产| 激情四射综合网| 日韩精品免费在线视频观看| av在线日韩| 亚洲国产一二三精品无码| 99re在线视频这里只有精品| 中文字幕精品一区二| 久久亚洲精品一区| 欧美1区二区| 中文字幕亚洲欧洲| 亚洲第一搞黄网站| av在线天堂播放| 国产精品久久九九| 免费视频最近日韩| 九色一区二区| 成人av资源网址| 青青草av网站| 一区二区三区免费看视频| 青青草在线免费视频| 成人黄在线观看| 亚洲一区国产| 久久高清内射无套| 亚洲女成人图区| 一区三区自拍| 9久久婷婷国产综合精品性色 | 日韩精品中文字幕吗一区二区| 男人和女人啪啪网站| 亚洲人成小说网站色在线| 欧美偷拍视频| 成人免费91在线看| 老鸭窝一区二区久久精品| 日本一级一片免费视频|