RAG搭建個(gè)人LLM知識(shí)庫(kù)助手,很多人第一步就走錯(cuò)了...
基于RAG技術(shù)搭建本地知識(shí)庫(kù)問答助手,已經(jīng)是相當(dāng)普遍的應(yīng)用方案了。前一陣我在公司實(shí)踐過,用我們過往積累的、對(duì)業(yè)務(wù)重要的內(nèi)部知識(shí)構(gòu)建知識(shí)庫(kù),開發(fā)了一個(gè)智能問答Agent,能減少團(tuán)隊(duì)一部分的答疑時(shí)間。
構(gòu)建知識(shí)庫(kù)時(shí),我們將內(nèi)部知識(shí)整理成了 MarkDown 格式。至于為什么用MarkDown 格式,我簡(jiǎn)單總結(jié)了幾個(gè)原因。
首先,一個(gè)文件最終要分塊Embedding,而 MarkDown 格式天然支持標(biāo)題分級(jí),便于按章節(jié)分塊(chunking),保證分塊語(yǔ)義的完整性,提高后續(xù)內(nèi)容召回的準(zhǔn)確率。
圖片
其次,知識(shí)庫(kù)的內(nèi)容需要讓大模型理解,而大模型對(duì) MarkDown 這種結(jié)構(gòu)化的內(nèi)容理解更好。這也是用 MarkDown 編寫 prompt 成為主流的原因。
對(duì)我們個(gè)人來說,工作、學(xué)習(xí)中有很多場(chǎng)景,需要搭建個(gè)人知識(shí)庫(kù)助手。比如,閱讀新論文、閱讀技術(shù)文檔做分享等等。
在這些場(chǎng)景中,我們拿到的原始文檔格式大都是 PDF 格式的,比如,下面的這個(gè)。
圖片
我們面臨的第一個(gè)問題是,如何準(zhǔn)確地提取這些內(nèi)容。
最容易想到的方案是找個(gè) Python 庫(kù)解析,如:PyPDF2。下面是我解析的結(jié)果。
圖片
明顯發(fā)現(xiàn)有三個(gè)問題,1、所有文本堆在一起沒有格式, 2、文本識(shí)別不準(zhǔn),多個(gè)單詞連在一起, 3、圖片丟了。
這樣的內(nèi)容,如果直接作為 RAG 知識(shí)庫(kù),準(zhǔn)確率會(huì)非常差。
幸好,最近發(fā)現(xiàn)一個(gè)能準(zhǔn)確提取PDF內(nèi)容的工具——Doc2X。
圖片
可以說是我用過的工具中最準(zhǔn)確的了,還是上面那個(gè)PDF文檔,來看下 Doc2X 識(shí)別的結(jié)果。
圖片
左邊是原始PDF文檔,右邊是 Doc2X 提取的 MarkDown 格式文檔。有標(biāo)題結(jié)構(gòu),內(nèi)容準(zhǔn)確,有配圖,可以說兩邊一模一樣。
這樣的內(nèi)容,你才敢放心地導(dǎo)出,去構(gòu)建RAG知識(shí)庫(kù)。
Doc2X 支持多種格式導(dǎo)出,包括 Markdown、LaTeX、HTML、Word 等。
圖片
下面是我導(dǎo)出的 MarkDown 格式文件。
圖片
我們平時(shí)閱讀論文、技術(shù)文檔,難免遇到大量的表格、數(shù)學(xué)公式,Doc2X 對(duì)這部分做了深度優(yōu)化,能實(shí)現(xiàn)?精度的識(shí)別與結(jié)構(gòu)化轉(zhuǎn)換。
圖片
甚至如果你下載了一些來路不明的文檔,比如,里面都是掃描件,根本沒辦法直接從PDF文件中直接復(fù)制文本,Doc2X 依然可以準(zhǔn)確提取。
圖片
對(duì)于我們搞技術(shù)的來說,有這么好用的工具,能寫程序自動(dòng)調(diào)用才是正道,Doc2X 也提供了開放平臺(tái)。
圖片
有了 API 就能調(diào)用接口自動(dòng)提取PDF內(nèi)容,然后構(gòu)建知識(shí)庫(kù),開發(fā)智能體。
不想寫代碼也沒關(guān)系,Doc2X 接?了 FastGPT、CherryStudio、扣?等平臺(tái),可以零代碼創(chuàng)建智能體。
在扣子上使用 Doc2x 搭建文檔閱讀Agent,僅僅只需1步,添加 Doc2X 插件,填入開放平臺(tái)創(chuàng)建的 API Key 即可。
圖片
圖片
當(dāng)然,現(xiàn)在很多AI大模型產(chǎn)品也支持上傳PDF文件進(jìn)行問答。但 Doc2X 的優(yōu)勢(shì)在于,是專業(yè)做文檔提取的,準(zhǔn)確度更高。
并且不像其他產(chǎn)品上傳文件后,解析的結(jié)果對(duì)我們是黑盒,Doc2X 提取后結(jié)果對(duì)我們可見,我們可以對(duì)結(jié)果做干預(yù),生成的內(nèi)容更可控。
Doc2X API 價(jià)格也是很便宜的,每頁(yè)單價(jià)0.02元。有需要的朋友可以用起來了。
官網(wǎng)使用:https://doc2x.noedgeai.com/
開放平臺(tái)API調(diào)用:https://open.noedgeai.com/























