RAG中召回率和召回準(zhǔn)確度的區(qū)別和聯(lián)系 原創(chuàng)
“ RAG的優(yōu)化方向只有兩個(gè),召回率和準(zhǔn)確率也就是精度。”
在前面的文檔中簡單介紹過RAG的幾種優(yōu)化方式,因?yàn)閺谋举|(zhì)上來說RAG的目的只有一個(gè),那就是快速并且準(zhǔn)確的召回?cái)?shù)據(jù)。
但在實(shí)際的RAG系統(tǒng)中,我們往往會(huì)面臨著一個(gè)問題,那就是召回率和準(zhǔn)確率的問題;如果RAG系統(tǒng)的召回率太低,那么RAG就沒有了存在的意義。
以作者目前遇到的實(shí)際問題為例,就是數(shù)據(jù)召回率不足,更不用說召回的準(zhǔn)確率了,也就是精度。
雖然說影響RAG效果的因素有很多,但單純的從RAG的角度來說,主要就兩個(gè)方面:
1. 召回率
2. 召回準(zhǔn)確率
任何與RAG有關(guān)的優(yōu)化方案,基本上可以說都是從這兩個(gè)角度出發(fā);所以,今天我們就主要來討論一下這兩個(gè)問題。

RAG召回率和準(zhǔn)確率問題
很多人在做RAG的時(shí)候都沒有搞明白一個(gè)問題,那就是召回率和準(zhǔn)確率,以及其之間的關(guān)系。
我們知道在大模型的應(yīng)用中,召回文檔的質(zhì)量直接影響到模型的輸出結(jié)果;因此,召回文檔的重要性就不言而喻了。
甚至很多人都不知道怎么去評判一個(gè)RAG系統(tǒng)的好壞,以及具體是哪些因素影響了RAG的表現(xiàn)?
作者剛開始在做RAG系統(tǒng)的時(shí)候感覺RAG好簡單,流程明確,也不復(fù)雜;無非就是切分一下文檔,然后通過嵌入模型和相似度檢索對文檔進(jìn)行召回即可。

但在實(shí)際的操作過程中卻發(fā)現(xiàn),雖然RAG系統(tǒng)實(shí)現(xiàn)起來很簡單,但要真的想把RAG給做好,卻不是一件容易的事情。
作者目前遇到的一個(gè)問題就是,RAG系統(tǒng)整體是跑起來了,但其召回率特別低,還不到百分之五十;其中一部分是文檔處理的質(zhì)量不太好,其次就是召回策略的問題。
但不管是什么問題,總之就涉及到兩個(gè)概念;召回率和準(zhǔn)確率。
召回率解決的是召回相關(guān)文檔的數(shù)量,準(zhǔn)確率解決的是召回相關(guān)文檔的準(zhǔn)確性,也是有效性。
但很多時(shí)候召回率和準(zhǔn)確率是一個(gè)矛盾體,想提升精度,就必須限制其檢索范圍,但限制檢索范圍就肯定會(huì)影響到召回率;反之亦然。
當(dāng)然,面對這種問題業(yè)界的普遍做法還是分為兩步,第一步是先解決召回率問題,第二步再通過精排或其它方式解決準(zhǔn)確性問題。
以相似度檢索和重排序?yàn)槔?/p>
1. 相似度檢索是解決召回率的問題
2. rerank是解決召回準(zhǔn)確率的問題
1). **召回率(Recall)**: - 定義:在所有相關(guān)文檔中,系統(tǒng)成功檢索出的比例。 - 公式:Recall = (檢索出的相關(guān)文檔數(shù)) / (總相關(guān)文檔數(shù)) - 目標(biāo):盡量不遺漏任何相關(guān)文檔(即減少漏檢)。
2). **準(zhǔn)確度(Precision)**: - 這里我們特指召回的準(zhǔn)確度,即檢索結(jié)果中相關(guān)文檔的比例。通常我們關(guān)注Top K的準(zhǔn)確度(Precision@K)。 - 公式:Precision@K = (前K個(gè)結(jié)果中相關(guān)文檔數(shù)) / K - 目標(biāo):確保返回的文檔盡可能都是相關(guān)的(即減少噪聲)。
**區(qū)別與聯(lián)系**
區(qū)別:
- 召回率關(guān)注的是系統(tǒng)找到所有相關(guān)文檔的能力,強(qiáng)調(diào)“全”。
- 準(zhǔn)確度關(guān)注的是系統(tǒng)返回的文檔中有多少是相關(guān)的,強(qiáng)調(diào)“準(zhǔn)”。
聯(lián)系:
- 兩者通常是一對矛盾(召回率高時(shí),準(zhǔn)確度往往低;反之亦然)。
因?yàn)闉榱俗非蟾哒倩芈剩覀兛赡軙?huì)放寬檢索條件,導(dǎo)致返回更多不相關(guān)文檔(準(zhǔn)確度下降)。而為了追求高準(zhǔn)確度,我們可能會(huì)設(shè)置嚴(yán)格的檢索條件,導(dǎo)致漏掉一些相關(guān)文檔(召回率下降)。
本文轉(zhuǎn)載自????AI探索時(shí)代???? 作者:DFires

















