精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

RAG 中的語義分塊:實現更優的上下文檢索

人工智能
語義分塊是RAG技術中不可或缺的關鍵環節。它通過優化文檔的分割方式,提升了上下文檢索的效果,進而顯著提高了RAG系統的性能。

檢索增強生成(RAG)技術異軍突起,席卷了整個大語言模型領域。通過將大語言模型(LLMs)的強大能力與外部知識檢索相結合,RAG使得模型能夠生成準確且有依據的回復,即便在專業領域也不例外。在每一個表現卓越的RAG流程背后,都有一個默默發揮關鍵作用的 “英雄”:分塊技術,尤其是語義分塊。

RAG生態系統與分塊的作用

RAG代表了人工智能系統獲取和利用知識方式的重大變革。傳統的大語言模型僅依賴于其預先訓練的知識,這可能存在局限性或時效性問題。RAG通過在生成過程中從外部資源(如數據庫、文檔或互聯網)檢索相關信息,很好地解決了這一局限性。這些外部知識就像補充彈藥,極大地擴展了模型的知識邊界,使其能夠應對各種復雜問題。

在RAG流程中,分塊是至關重要的一環。分塊指的是在對文檔進行嵌入和索引之前,將其分割成較小單元的過程。這些分塊在查詢時被檢索出來,并輸入到大語言模型中用于生成回復。然而,分塊并非簡單的切割操作,其方式直接影響著RAG系統的性能。如果分塊過大,它們可能無法適配模型的上下文窗口,導致信息丟失;而如果分塊過小或分割不當,語義信息會被破壞,使模型難以理解和處理,進而影響最終回復的質量。

分塊面臨的挑戰

以一段醫學文章為例,假設內容如下:“蝙蝠俠主要在哥譚市活動,這是一個犯罪猖獗、腐敗橫行的大都市。他的宿敵小丑在混亂和不可預測中如魚得水。盡管布魯斯·韋恩資助了哥譚市的許多社會項目,但他仍在為自己作為億萬富翁和義警的雙重身份而苦苦掙扎。” 如果使用簡單的分塊方法,可能會將其分割為:

  • 分塊1:“蝙蝠俠主要在哥譚市活動,這是一個犯罪猖獗的”
  • 分塊2:“大都市,腐敗橫行。他的宿敵小丑,”
  • 分塊3:“在混亂和不可預測中如魚得水。盡管布魯斯·韋恩”
  • 分塊4:“資助了哥譚市的許多社會項目,但他仍在為......”

此時,若用戶提問:“是什么讓蝙蝠俠的生活如此矛盾?” 檢索器可能會隨機獲取到句子中間的某個分塊,或者遺漏關于他雙重身份的關鍵信息,進而導致給出的答案籠統或錯誤。這清晰地展現了不恰當分塊帶來的問題,突出了語義分塊的重要性和必要性。

語義分塊詳解

語義分塊旨在以一種保留每個單元有意義、自包含上下文的方式分割文檔。它尊重自然的邊界,比如段落、句子或主題,確保每個分塊都能獨立回答相關的查詢。實現語義分塊通常涉及以下幾個關鍵步驟:

  1. 句子邊界檢測

準確識別句子的起止位置,這是保留語義完整性的基礎。因為句子是表達完整思想的基本語言單位,正確劃分句子邊界有助于將相關信息歸為一組。

  1. 主題建模或基于嵌入的分割

主題建模可以分析文檔內容,將具有相似主題的部分劃分為一個分塊。基于嵌入的分割則利用詞或句子的嵌入向量,通過計算向量之間的相似度來確定分割點,在語義發生變化的地方進行分割,使每個分塊內的語義更加連貫。

  1. 使用重疊窗口保留上下文

為了避免在分割過程中丟失上下文信息,通常會采用重疊窗口的方法。即相鄰分塊之間有一定比例的重疊內容,這樣可以確保在檢索和處理分塊時,前后信息能夠相互關聯,增強模型對上下文的理解。

分塊策略對比

常見的分塊策略有多種,從簡單到語義化程度高依次介紹如下:

  • 固定大小分塊(簡單方法)

在Python的LangChain庫中,可以使用 CharacterTextSplitter 進行固定大小分塊。示例代碼如下:

from langchain.text_splitter import CharacterTextSplitter
splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=50)
chunks = splitter.split_text(document)

這種方法的優點是簡單直接,易于實現。但它存在明顯的缺陷,可能會在句子中間進行分割,破壞句子的完整性和上下文連貫性,影響語義的表達。

  • 基于句子的分塊

借助 NLTKTextSplitter 可以實現基于句子的分塊,示例代碼為:

from langchain.text_splitter import NLTKTextSplitter
splitter = NLTKTextSplitter(chunk_size=3, chunk_overlap=1)
chunks = splitter.split_text(document)
  • 該方法能夠保留句子邊界,一定程度上保證了語義的完整性。然而,它可能仍然會在分塊過程中分割主題,導致一個主題被分散到多個分塊中,不利于模型對完整主題的理解和處理。
  • 遞歸分塊

RecursiveCharacterTextSplitter 提供了遞歸分塊的功能,代碼如下:

from langchain.text_splitter import RecursiveCharacterTextSplitter
splitter = RecursiveCharacterTextSplitter(
 separators=["\n\n", "\n", ".", " ", ""],
 chunk_size=500,
 chunk_overlap=100
)
chunks = splitter.split_text(document)

遞歸分塊嘗試在較大的邊界(如段落、句子、單詞)上進行分割,能夠在分塊長度和語義保持之間取得較好的平衡。不過,它可能仍然需要根據具體應用場景進行微調,以達到最佳效果。

  • 基于嵌入的語義分塊(高級方法)

這種技術利用句子嵌入來在語義發生變化的地方分割文本。示例代碼如下: 

from sentence_transformers import SentenceTransformer, util
import nltk
model = SentenceTransformer('all-MiniLM-L6-v2')
sentences = nltk.sent_tokenize(document)
embeddings = model.encode(sentences)
similarities = [util.cos_sim(embeddings[i], embeddings[i+1]) for i in range(len(embeddings)-1)]
chunks = []
chunk = [sentences[0]]
for i, score in enumerate(similarities):
    if score < 0.6:  # 可根據需要調整閾值
        chunks.append(" ".join(chunk))
        chunk = []
    chunk.append(sentences[i+1])
if chunk:
    chunks.append(" ".join(chunk))

基于嵌入的語義分塊能夠真正實現語義層面的分割,對于包含豐富主題的文檔效果顯著。但它的計算復雜度較高,處理速度相對較慢,實現過程也更為復雜。

評估分塊質量

分塊策略的優劣直接影響RAG系統下游的各個環節,因此評估分塊質量至關重要。可以從以下幾個方面進行評估:

指標

  • 與真實情況的分塊重疊度(如使用Recall@k指標)通過計算分塊與理想分塊(真實情況)的重疊比例,衡量分塊的準確性。重疊度越高,說明分塊結果越接近理想狀態,能夠更好地保留相關信息。
  • 嵌入一致性(分塊內相似度應較高)評估分塊內文本的嵌入向量之間的相似度。如果分塊內的文本相似度高,意味著分塊內的語義連貫性好,模型更容易理解和處理。
  • 模型回答準確率(端到端RAG評估)通過實際輸入查詢,觀察模型基于分塊生成的回答的準確率。這是最直接評估分塊策略對RAG系統整體性能影響的指標。

工具

  • LangChain RAG評估器LangChain庫提供的評估器可以方便地對RAG系統進行評估,包括對分塊效果的評估。
  • Ragas這是一個專門用于評估RAG系統的工具包,能夠從多個維度對分塊質量進行分析。
  • 帶有真實相關性標簽的自定義問答對通過創建自定義的問答對,并標注問題與答案之間的相關性,可以針對性地評估分塊策略在特定任務上的表現。

最佳實踐

為了實現有效的語義分塊,需要遵循以下最佳實踐:

  1. 優先選擇基于句子或語義感知的分塊方式

這種方式能夠更好地保留語義信息,提高模型對上下文的理解能力。

  1. 合理使用分塊重疊

通常,50 - 100個標記的重疊是比較合適的。分塊重疊可以確保相鄰分塊之間的信息連貫性,避免因分割導致的上下文丟失。

  1. 根據具體應用場景調整分塊大小

不同類型的文檔(如法律文檔和推文)對分塊大小的要求不同。法律文檔通常內容復雜、信息量大,可能需要較大的分塊;而推文內容簡短,分塊大小應相應減小。

  1. 利用元數據(如標題、副標題)進行層次感知分塊

元數據可以提供文檔的結構信息,幫助在分塊時更好地考慮文檔的層次結構,使分塊結果更符合邏輯。

  1. 持續評估、迭代和重新訓練檢索器

隨著數據的變化和應用場景的調整,分塊策略可能需要不斷優化。通過持續評估分塊質量,對檢索器進行迭代和重新訓練,可以確保RAG系統始終保持良好的性能。

語義分塊在現實中的巨大影響

語義分塊對于實際的RAG系統來說至關重要,甚至可以決定系統的成敗。以一個企業應用案例(法律合同問答機器人)為例,從簡單分塊切換到遞歸 + 語義分塊后,取得了顯著的效果:

  1. 答案準確率提高23%

語義分塊使得機器人能夠更準確地理解問題的上下文,從合同文檔中檢索到更相關的信息,從而生成更準確的答案。

  1. 幻覺現象減少41%

在生成式模型中,幻覺是一個常見問題,即模型生成看似合理但實際上錯誤的信息。語義分塊通過提供更準確的上下文,有效減少了這種現象的發生。

  1. 檢索器命中率從62% 提升到87%

語義分塊優化了分塊的內容和結構,使檢索器能夠更精準地匹配用戶的查詢,大大提高了命中率。

語義分塊是RAG技術中不可或缺的關鍵環節。它通過優化文檔的分割方式,提升了上下文檢索的效果,進而顯著提高了RAG系統的性能。隨著人工智能技術的不斷發展,語義分塊技術也將不斷演進和完善,為更多領域的應用提供有力支持。無論是開發內部知識機器人,還是構建特定領域的智能助手,深入理解和應用語義分塊技術都將帶來巨大的優勢,推動人工智能應用向更加智能、高效的方向發展。

責任編輯:武曉燕 來源: 大模型之路
相關推薦

2025-05-09 03:55:00

2024-01-29 08:49:36

RAG模型檢索

2024-09-30 14:10:00

2017-05-11 14:00:02

Flask請求上下文應用上下文

2025-10-13 08:00:00

2025-05-09 07:50:30

2025-10-20 09:06:00

2025-10-27 08:25:01

2025-04-07 01:02:00

GoAPI語言

2022-09-15 08:01:14

繼承基礎設施基礎服務

2024-06-06 08:42:01

2025-02-26 00:16:56

RAGAI服務

2017-06-27 18:52:05

TensorFlow深度學習

2012-07-18 11:39:18

ibmdw

2025-06-26 07:00:00

上下文工程AI智能體

2021-09-07 09:53:42

JavaScript變量提升

2025-10-13 01:22:00

2024-09-05 08:24:09

2024-10-29 11:54:25

2012-12-31 10:01:34

SELinuxSELinux安全
點贊
收藏

51CTO技術棧公眾號

爱情岛亚洲播放路线| 国产绿帽刺激高潮对白| 免费电影一区二区三区| 欧美午夜精品久久久久久孕妇| 亚欧精品在线| 日韩一卡二卡在线| 久色婷婷小香蕉久久| 九九热这里只有精品6| 玖玖爱在线观看| av国产精品| 狠狠躁夜夜躁久久躁别揉| 亚洲一区综合| 深夜影院在线观看| 国产一区在线精品| 国产精品成久久久久三级| 九九视频免费观看| 色喇叭免费久久综合| 成人一级视频在线观看| 国产97色在线|日韩| 久久亚洲av午夜福利精品一区| 日本成人一区二区| 精品久久中文字幕久久av| 欧美日韩在线免费观看视频| 完全免费av在线播放| 日韩精品在线观看一区| 亚洲国产欧美91| 欧美xoxoxo| 黄色精品在线看| 日韩中文字幕亚洲精品欧美| av大片在线观看| 91在线国产福利| 翡翠波斯猫1977年美国| 国产又粗又猛又爽| 免费在线观看视频一区| 欧美综合一区第一页| 精品无码av在线| 亚洲欧美综合久久久| 日韩亚洲综合在线| 美国一级黄色录像| 欧美特黄一级大片| 在线观看欧美精品| 两根大肉大捧一进一出好爽视频| 亚洲区小说区图片区| 国产精品白丝jk白祙喷水网站| 国产精品视频yy9099| 日韩免费av网站| 久久国产日韩| 欧美一级高清免费播放| 久草视频在线观| 99国产精品| 97精品一区二区三区| 久久网一区二区| 国内精品久久久久久久影视麻豆| 美女视频久久黄| 中文字幕人妻一区二| 欧美在线视屏| 欧美精品成人在线| 国产无遮挡又黄又爽在线观看| 激情综合亚洲| 97精品一区二区三区| 91国产丝袜播放在线| 亚洲一区亚洲| 国产精品激情自拍| 国产一区二区在线不卡| 国产九九视频一区二区三区| 亚洲xxx自由成熟| 亚洲国产成人一区二区| 99v久久综合狠狠综合久久| 久久综合狠狠综合久久综青草 | 国产高清不卡一区二区| 懂色一区二区三区av片| 天天干天天草天天射| 91视频91自| 日韩久久久久久久| 浪潮av一区| 亚洲一区二区三区国产| 北条麻妃在线视频观看| 成人午夜在线| 精品少妇一区二区三区日产乱码 | 中文字幕第一区| 最新不卡av| 黄色小说在线播放| 色妞www精品视频| 亚洲天堂网2018| 国产精品一区二区三区美女| 亚洲一区999| 婷婷伊人五月天| 国产精品普通话对白| 国产精品久久久久久久美男| 国产情侣一区二区| 91免费看视频| 爱爱爱视频网站| 51精品视频| 欧美色手机在线观看| 古装做爰无遮挡三级聊斋艳谭| 欧美理论电影在线精品| 少妇精69xxtheporn| 国产一级一片免费播放放a| 日韩精彩视频在线观看| 99中文视频在线| 69久久精品| 性欧美疯狂xxxxbbbb| 一道本在线免费视频| 国内精品国产成人国产三级粉色| 中文字幕在线成人| 日本三级中文字幕| 精品一区二区三区视频| 久久精品第九区免费观看 | 九色porny自拍| 激情小说亚洲色图| 日韩一中文字幕| 久草手机在线观看| 国产精品中文字幕日韩精品| 日本一区二区在线视频观看| 国产在线拍揄自揄拍视频| 欧美日韩在线播| 中文字幕一区二区三区人妻| 人人狠狠综合久久亚洲婷| 国内精品一区二区三区| 国产农村老头老太视频| 欧美激情一区二区三区在线| www国产精品内射老熟女| 国产亚洲亚洲国产一二区| 亚洲午夜av久久乱码| 日韩欧美中文字幕一区二区| 国产酒店精品激情| 中文字幕久精品免| 成人黄页网站视频| 亚洲欧洲一区二区三区在线观看| 久久免费视频精品| 国产精一区二区三区| 亚洲免费av网| 小说区图片区亚洲| 在线观看国产精品日韩av| 国产一级片毛片| a美女胸又www黄视频久久| 免费网站在线观看视频| 伦一区二区三区中文字幕v亚洲| 亚洲精品视频在线观看视频| 亚洲一区欧美在线| www.99精品| 麻豆tv在线播放| 国产伦精品一区二区三区在线播放| 欧美另类极品videosbestfree| 国产一区二区小视频| 中文字幕欧美一区| 午夜剧场高清版免费观看| 成人在线免费观看视频| 国产精品美女无圣光视频| 粉嫩一区二区三区国产精品| 欧美丝袜丝nylons| 国产三级在线观看完整版| 日本少妇一区二区| 亚洲一区二区在线免费观看| 亚洲a成人v| 久久精品国产成人精品| 国产乱码精品一区二区| 亚洲免费观看高清完整版在线观看熊| 99九九99九九九99九他书对| 亚洲mv大片欧洲mv大片| 懂色av一区二区三区在线播放| jizzjizz亚洲| 亚洲а∨天堂久久精品9966| 中文字幕在线观看视频网站| 久久久久久久一区| 一区二区三区网址| 在线看片不卡| 精品乱码一区| 欧美xnxx| 色综合久久精品亚洲国产| 少妇一区二区三区四区| 色综合av在线| xxxx日本少妇| va亚洲va日韩不卡在线观看| 成人一区二区三| 午夜精品一区二区三区国产 | 一区二区三区高清| 青青草视频播放| 蜜臀va亚洲va欧美va天堂 | 性生交大片免费全黄| 国产麻豆一精品一av一免费 | 麻豆中文一区二区| 亚洲色婷婷久久精品av蜜桃| 日韩美脚连裤袜丝袜在线| 国产精品高潮在线| av电影免费在线观看| 日韩成人av在线| 国产精品美女一区| 午夜精品免费在线| 国产白丝一区二区三区| 国产精品www994| 欧美日韩免费高清| 美女久久精品| 欧美中文字幕视频在线观看| 精品自拍一区| 亚洲女同精品视频| 国内精品偷拍视频| 色乱码一区二区三区88| 亚洲欧美一区二区三区四区五区| www国产亚洲精品久久麻豆| 久久人人爽av| 西西裸体人体做爰大胆久久久| 国产又大又长又粗又黄| 亚洲精品合集| 成人免费观看网站| 欧美在线一级| 日本国产一区二区三区| 制服丝袜在线播放| 中文字幕日韩欧美| 头脑特工队2在线播放| 69堂国产成人免费视频| aaaaaa毛片| 亚洲国产精品一区二区尤物区| 永久免费毛片在线观看| 91视频在线观看免费| 国产麻豆剧传媒精品国产| 青草av.久久免费一区| 欧美 日韩 国产 高清| 亚洲精品久久| 一本久道久久综合| 国产尤物久久久| 久久久久久久有限公司| 亚洲一区二区电影| 99国产在线| 99精品国产九九国产精品| 国产精品入口福利| 亚洲成人看片| 午夜精品蜜臀一区二区三区免费| aa在线视频| 久久天天躁狠狠躁老女人| 在线观看美女网站大全免费| 亚洲天堂第一页| 久久久资源网| 国产香蕉一区二区三区在线视频 | 亚洲AV无码一区二区三区性| 欧美日韩aaa| 伊人精品一区二区三区| 欧美日韩一区三区| 亚洲精品一区二区二区| 欧美午夜影院在线视频| 丰满少妇xoxoxo视频| 色悠悠亚洲一区二区| youjizz在线视频| 欧美日韩在线免费观看| 国产精品午夜影院| 色哟哟一区二区在线观看 | 欧美一级免费观看| 99国产成人精品| 欧美一区二区日韩| 亚洲AV无码乱码国产精品牛牛 | 欧美视频精品一区| 中文字幕视频网站| 在线观看视频欧美| 中文字幕乱码在线观看| 欧美日韩国产另类不卡| 国产视频第二页| 日韩三区在线观看| 欧美 日韩 国产 精品| 日韩av影视综合网| 蜜桃免费在线| www.欧美免费| 日本乱理伦在线| 欧美亚洲伦理www| 成人免费福利| 成人国产精品日本在线| 麻豆国产精品| 精品一区二区日本| 精品久久91| 国产精品无码乱伦| 黄色一区二区三区四区| 精品中文字幕av| 青草av.久久免费一区| 最好看的中文字幕| 91在线观看高清| www.日本高清视频| 亚洲黄色性网站| 毛片基地在线观看| 欧美精品 国产精品| 国精产品乱码一区一区三区四区| 精品国产凹凸成av人网站| 精品视频一二区| 久久成年人视频| 亚洲天堂导航| 成人欧美一区二区三区在线 | 亚洲一区二区久久| 哥也色在线视频| 5278欧美一区二区三区| 中文成人激情娱乐网| 国产精品综合久久久久久| 欧美系列电影免费观看| 热久久最新网址| 日韩精品国产精品| 日本一级大毛片a一| 久久久久国产一区二区三区四区 | 欧美午夜精品电影| 亚洲国产中文字幕在线| 一区二区日韩精品| 成人免费观看在线观看| 国产欧美精品va在线观看| 日韩高清一级| 亚洲国产精品女人| 久久国产日韩| 亚洲高清无码久久| 亚洲品质自拍视频| 好吊色在线视频| 亚洲精品成人久久电影| jizz性欧美| 国产日韩精品在线播放| 国产调教一区二区三区| 国产素人在线观看| 国产麻豆精品一区二区| 亚洲av毛片基地| 欧美性猛交xxxxx免费看| 性色av蜜臀av| 日韩中文理论片| 欧美xx视频| 久久精品国产综合精品| 红桃视频国产一区| 亚洲免费在线播放视频| 欧美国产成人精品| 69国产精品视频免费观看| 欧美精品一区二区三区四区| av网站在线免费看推荐| 国产精品一区二区久久国产| 你微笑时很美电视剧整集高清不卡| 无码人妻精品一区二区蜜桃网站| 国产一区啦啦啦在线观看| 91无套直看片红桃在线观看| 色狠狠桃花综合| 国产午夜精品一区理论片| 日本在线观看天堂男亚洲 | 国产精品久久久久久妇女| 欧美日韩综合网| 久久久人人人| 亚洲蜜桃精久久久久久久久久久久| 亚洲午夜羞羞片| 四虎在线视频免费观看| 国模精品一区二区三区色天香| 99久久免费精品国产72精品九九| 成人黄色片免费| 成人一区二区三区中文字幕| 久久久香蕉视频| 欧美哺乳videos| 24小时免费看片在线观看| 国产精品欧美久久| 亚洲一区二区三区高清不卡| 日本丰满少妇裸体自慰| 色偷偷久久人人79超碰人人澡 | 北条麻妃99精品青青久久| 999色成人| 91.com在线| 97成人超碰视| 中文字幕在线播| 色婷婷av一区二区三区久久| 涩涩涩久久久成人精品| 手机看片日韩国产| 国产成人精品三级| 久久精品视频6| 日韩久久免费视频| 成人看片在线观看| 一区国产精品| 国产aⅴ综合色| 免费在线不卡视频| 国产一区二区三区在线播放免费观看 | 青娱乐精品在线| 亚洲最大色网站| 天堂av中文在线资源库| 国产精品视频一区二区三区四 | 亚洲国产精品嫩草影院久久av| 日韩亚洲在线视频| 亚洲人成网站色在线观看| 男人天堂手机在线观看| 国产精品av电影| 97久久夜色精品国产| 亚洲精品国产成人av在线| 欧美性猛交xxx| 黄色免费网站在线观看| 国产在线观看一区| 另类小说视频一区二区| 久久国产一级片| 亚洲欧美日韩精品久久奇米色影视| 国产成人福利夜色影视| 少妇一晚三次一区二区三区| 波多野结衣一区二区三区 | f2c人成在线观看免费视频| 日本不卡在线播放| 国产高清精品网站| www.久久视频| 欧美激情在线观看视频| 欧美伦理在线视频| 国产伦精品一区二区三区88av| 色素色在线综合| 免费在线播放电影| 三区精品视频| 99re在线视频这里只有精品| 中文字幕一区二区三区四区免费看| 欧美激情一区二区三区在线视频观看| 精品久久久久中文字幕小说| 日本泡妞xxxx免费视频软件| 欧美亚洲国产一区二区三区va|