在RAG中文檔處理質量參差不齊的情況下——提升召回精度的企業級解決方案原創

AI探索時代

發布于 2025-7-31 06:42

瀏覽

0收藏

“ RAG做起來很簡單，但想把RAG做好就需要想盡辦法去提升數據的召回質量。”

在RAG中文檔處理可以說是一個重難點，特別是復雜文檔的處理更是一言難盡；因此，面對這種現實問題，總不能直接擺爛，因此怎么在文檔質量處理參差不齊的情況下，提升RAG的召回精度就是一個需要解決的問題。

文檔處理的質量直接影響到RAG的召回效率，但目前文檔處理是一個難點；因此怎么基于現有條件，提升RAG的召回精度？既然文檔處理質量控制不了，那么就只能想別的辦法，盡量彌補文檔質量的不足。

提升RAG召回精度

關于RAG中的文檔處理，目前主流的方式還是以人工介入為主，比如說對文檔格式進行轉換(word,pdf,ppt等轉換成markdown)，對文檔進行人工分段；設置文檔拆分長度等等。

雖然說人工已經盡可能的考慮文檔完整性的情況下，其處理效果還是差強人意；因此，面對這種問題其實最好的解決方式讓大模型自己去給文檔做拆分，注意這里說的是大模型，而不是小模型。

在RAG中文檔處理質量參差不齊的情況下——提升召回精度的企業級解決方案-AI.x社區

為什么這么說？

原因在于隨著大模型技術的發展，大模型的能力也變得越來越強，因此在某些情況下人工做的并一定比模型做的好，特別是這種對文檔進行處理的場景，模型根據語義對文檔進行拆分或處理，或許比人工做的要更好。

人工在對文檔處理的情況下，一般是按照標題，段落或長度對文檔進行拆分；而如果把文檔直接丟給模型，讓模型根據自己的理解對文檔進行拆分，或許能更好地保證文檔的語義完整性；而這種情況下，大模型的表現肯定會比小模型要好，這也是為什么在前面強調說是大模型，而不是小模型的原因。

在RAG中文檔處理質量參差不齊的情況下——提升召回精度的企業級解決方案-AI.x社區

當然，畢竟模型的上下文窗口有限，而且大模型對長文本處理存的效果并不是特別好；因此，面對較長的文檔，還是需要人工進行初步的處理，才能交給模型去拆分。

OK，前面說了文檔的一種處理方式，那么下面我們進入正題，怎么在文檔質量參差不齊的情況下，來提升召回精度？

其實這個問題說簡單也簡單，說復雜也復雜；說簡單是因為我們的目的很明確，那就是提升模型的召回精度；復雜是怎么提升這個召回精度？

下面我們就來介紹幾種提升召回精度的方式：

1. 同時使用稠密向量和稀疏向量

2. 對分段的文檔進行關鍵字提取

3. 對分段文檔進行總結提煉

4. 同時使用標量檢索和向量檢索

同時使用稠密向量和稀疏向量

這種方式是基于向量數據庫本身的一種特性，部分向量數據庫比如說milvus支持稠密向量和稀疏向量，簡單來說就是對分段內容進行兩次向量化，一次是稠密向量，一次是稀疏向量。

在milvus向量數據庫的官方文檔中介紹，密集向量是捕捉語義關系的絕佳方法，而稀疏向量則是精確匹配關鍵詞的高效方法。

在RAG中文檔處理質量參差不齊的情況下——提升召回精度的企業級解決方案-AI.x社區

因此，同時使用稠密向量和稀疏向量，能夠從更多的維度對數據進行召回，當然也能夠提升文檔的召回質量。

對分段的文檔進行關鍵字或主要內容提取

既然文檔處理的質量參差不齊，并且用戶問題可能比較簡短的情況下，這時很難進行語義檢索，甚至很多時候根據檢索不到數據。

因此，在文檔入庫之前，我們可以使用模型先對已分段文檔進行關鍵字提取，這樣把提取的關鍵字作為標簽，因此就可以在檢索時就可以進行關鍵字匹配，當然也可以把標簽向量化，進行標簽語義匹配；這樣在用戶提問時，也對用戶問題進行同樣的操作，這樣就可以使用更準確的關鍵字進行數據召回，提升召回質量。

對分段文檔進行總結提煉

既然文檔處理質量不齊，而且即使文檔處理質量還行，但由于用戶的問題較簡短；那么我們就對文檔內容進行總結提煉，然后再對總結之后的內容進行向量化，之后進行語義檢索；這樣也可以提升數據的召回質量。

在RAG中文檔處理質量參差不齊的情況下——提升召回精度的企業級解決方案-AI.x社區

同時使用標量檢索和向量檢索

在向量數據庫中，一般情況下把文檔內容進行向量化，但同時文檔也存在一些元數據，這個元數據可以是文檔本身的(文檔名稱，簡要說明等)，也可以是我們人為提取的(關鍵字標簽)。

這時我們在檢索時，就可以先根據這些元數據進行初步篩選，然后再進行語義篩選；這時通過多種召回方式的配合，就能更好地對數據進行召回。

當然，上面介紹的都是文檔的召回策略問題；而且上面的幾種召回策略并不是非此即彼的，很多時候可以多種聯合使用；因此，通過以上召回策略召回數據之后，我們需要對召回的數據進行統一的處理，比如說去重，排序，重排序等多種操作，最后才是我們需要的數據。

本文轉載自??AI探索時代?? 作者：DFires

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

RAG

已于2025-7-31 06:42:19修改

贊

回復

舉報

回復

相關推薦

RAG技術性能提升之文檔分塊策略方案

AIGC觀察者 ? 7153瀏覽 ? 0回復
打造智能私有知識庫：開源工具AnythingLLM全解析及實操指南，RAG企業級解決方案

AIGC觀察者 ? 2.6w瀏覽 ? 1回復
RAG 企業級應用落地框架細節差異對比

玄姐聊AGI ? 7978瀏覽 ? 0回復
RAG 開發四大痛點及解決方案

玄姐聊AGI ? 4570瀏覽 ? 0回復
微軟：RAG并不是你唯一的解決方案！

PaperAgent ? 4279瀏覽 ? 0回復
關于大模型在企業級應用中的選擇問題疑問回復

AI探索時代 ? 3072瀏覽 ? 0回復
TAG：定義自然語言查詢的高效解決方案

51CTO內容精選 ? 5293瀏覽 ? 0回復
大模型面經：RAG與Long context“相愛相殺”背景下，如何設計最優解決方案？

shizhi02 ? 3099瀏覽 ? 0回復
大模型數據預處理——關于復雜文檔在大模型應用中的解決方案

AI探索時代 ? 3744瀏覽 ? 0回復
關于基于RAG技術的智能客服系統解決方案

AI探索時代 ? 3497瀏覽 ? 0回復
關于在RAG檢索增強中文檔處理的解決方案——針對中小企業

AI探索時代 ? 1680瀏覽 ? 0回復
企業級智能體開發中所遇到的問題以及解決方案

AI探索時代 ? 1887瀏覽 ? 0回復
關于RAG檢索增強的右側優化方案——企業級應用中怎么提升RAG的檢索準確度

AI探索時代 ? 1648瀏覽 ? 0回復
降本增效新思路：七牛云“邊轉邊播”的企業級解決方案

七牛云行業應用 ? 1814瀏覽 ? 0回復
在企業開發中——RAG技術常見的問題以及解決方案

AI探索時代 ? 1718瀏覽 ? 0回復
在RAG文檔處理中——怎么處理噪音問題

AI探索時代 ? 1326瀏覽 ? 0回復
在企業級RAG系統中需要關注和優化的點

AI探索時代 ? 1045瀏覽 ? 0回復
RAG數據召回詳細技術解決方案

AI探索時代 ? 1689瀏覽 ? 0回復
基于大模型的智能問答場景解決方案——RAG提升召回率的關鍵

AI探索時代 ? 1280瀏覽 ? 0回復

AI探索時代

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

51CTO

51CTO博客

51CTO學堂

在RAG中文檔處理質量參差不齊的情況下——提升召回精度的企業級解決方案原創

提升RAG召回精度

為什么這么說？

同時使用稠密向量和稀疏向量

對分段的文檔進行關鍵字或主要內容提取

對分段文檔進行總結提煉

同時使用標量檢索和向量檢索

目錄

51CTO

51CTO博客

51CTO學堂

在RAG中文檔處理質量參差不齊的情況下——提升召回精度的企業級解決方案 原創

提升RAG召回精度

為什么這么說？

同時使用稠密向量和稀疏向量

對分段的文檔進行關鍵字或主要內容提取

對分段文檔進行總結提煉

同時使用標量檢索和向量檢索

目錄

在RAG中文檔處理質量參差不齊的情況下——提升召回精度的企業級解決方案原創