為什么分塊在RAG技術(shù)中很重要?但又很沒(méi)有存在感? 原創(chuàng)
RAG技術(shù)作為目前大模型應(yīng)用比較火的一個(gè)領(lǐng)域,怎么做好一個(gè)RAG系統(tǒng)一直是很多人和企業(yè)都在思考的一個(gè)問(wèn)題;但RAG并不是一個(gè)獨(dú)立的技術(shù),而是一個(gè)技術(shù)的集合體,涉及到多個(gè)不同的技術(shù);比如說(shuō)向量數(shù)據(jù)庫(kù),embedding,語(yǔ)義分析,搜索技術(shù)等等。
而在RAG技術(shù)中有一個(gè)不被大家所重視的一點(diǎn)就是——分塊(chunk);什么是分塊?
舉個(gè)例子,西游記作為我國(guó)的四大名著之一,其有八十多萬(wàn)字;如果說(shuō)把西游記作為一個(gè)整體向量化之后存儲(chǔ)到向量數(shù)據(jù)庫(kù)中,我們要想從中找到孫悟空三大白骨精的內(nèi)容,就需要把整個(gè)西游記都過(guò)濾一遍才能找到需要的章節(jié)。
而且由于技術(shù)方面的原因,向量不擅長(zhǎng)處理長(zhǎng)文本數(shù)據(jù),一般情況下都是把長(zhǎng)文本按照某種方式切割成多個(gè)短的段落;然后一部分一部分的存儲(chǔ)到向量數(shù)據(jù)庫(kù)中。
而這一部分一部分的數(shù)據(jù)就是分塊,每一塊都是整體的一部分。
分塊將大塊文本切分成多個(gè)小塊文本和段落,這使得文本更容易管理和處理;其使得更容易進(jìn)行embedding(嵌入),并顯著提升從向量數(shù)據(jù)庫(kù)中召回的相關(guān)性與準(zhǔn)確性。
文本分塊——chunk
在RAG技術(shù)中,存在一個(gè)很大的難點(diǎn)就是怎么快速與高效以及準(zhǔn)確地檢索到用戶所需要的內(nèi)容;召回效率與質(zhì)量是RAG系統(tǒng)的核心指標(biāo),如果一個(gè)RAG系統(tǒng)的召回效率和質(zhì)量都很差,那么這個(gè)RAG系統(tǒng)不論使用什么高大上的技術(shù)都一文不值。
那應(yīng)該怎么解決RAG的召回質(zhì)量問(wèn)題呢?

雖然為了提升RAG的召回質(zhì)量,在RAG的每個(gè)環(huán)節(jié)都想方設(shè)法的優(yōu)化;而分塊作為RAG其中的一個(gè)重要步驟,當(dāng)然也不能例外。
往小了說(shuō),分塊是方便我們對(duì)大文本和長(zhǎng)文本進(jìn)行處理,往大了說(shuō)分塊能直接影響到RAG的召回質(zhì)量和效率。
在實(shí)際操作中,分塊的好處是多方面的。首先,它能夠提高模型處理的效率,因?yàn)檩^小的文本段落更容易進(jìn)行嵌入和檢索。
其次,分塊后的文本能夠更精確地匹配用戶查詢,從而提供更相關(guān)的搜索結(jié)果。這對(duì)于需要高精度信息檢索和內(nèi)容生成的應(yīng)用程序尤為重要。
通過(guò)優(yōu)化內(nèi)容的分塊和嵌入策略,我們可以最大化LLM在各種應(yīng)用場(chǎng)景中的性能。分塊技術(shù)不僅提高了內(nèi)容召回的準(zhǔn)確性,還提升了整體系統(tǒng)的響應(yīng)速度和用戶體驗(yàn)。
因此,在構(gòu)建和優(yōu)化基于LLM的應(yīng)用程序時(shí),理解和應(yīng)用分塊技術(shù)是不可或缺的步驟。
當(dāng)然,根據(jù)不同的應(yīng)用場(chǎng)景,分塊也有多種不同的方式,比如固定分塊;句子分割,語(yǔ)義分塊等多種分塊方式。但不論哪種分塊方式,目的都是為了讓數(shù)據(jù)查詢的速度更快,效率更高,結(jié)果更準(zhǔn)確。

為什么分塊會(huì)很重要?
Pinecone公司的Roie Schwaber-Cohen指出:“開(kāi)始思考如何將我的內(nèi)容分成更小的塊的原因是,這樣當(dāng)我檢索時(shí),它實(shí)際上能夠命中正確的內(nèi)容。你將用戶的查詢嵌入,然后將其與內(nèi)容的嵌入進(jìn)行比較。
如果你嵌入的內(nèi)容大小與用戶查詢的大小差異很大,你就更可能得到較低的相似度得分。”這句話強(qiáng)調(diào)了分塊的關(guān)鍵作用:通過(guò)合理的分塊,可以確保用戶查詢與內(nèi)容之間的相似度得分更高,從而提高搜索結(jié)果的相關(guān)性和準(zhǔn)確性。
本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代 作者:DFires

















