精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Chunking:基于大模型RAG系統中的文檔分塊

原創 精選
人工智能
在RAG系統中, 文本分塊技術是必不可少的。對于大型文檔而言,可以嘗試采用面向主題感知的句子嵌入來提升RAG 系統的性能,使其生成更相關且一致的內容。

將大文檔分割成較小的分塊是一項關鍵而復雜的任務,對RAG系統的性能有著重大的影響。一般地,RAG系統旨在通過將基于檢索的方法和基于生成的方法相結合,提高產出的質量和相關性。有多種框架提供了文檔分塊方法,每種方法都有自己的優點和典型用例。或許,利用主題感知的句子嵌入來識別文檔中的主題變更,確保每個塊封裝一個主題會是一種不錯的選擇。

1.回顧RAG

RAG系統是一個復雜的機器學習模型,它融合了基于檢索的技術和生成式AI。RAG 系統的主要目標是通過合并從數據集中檢索的信息來提高生成內容的質量和相關性。回顧一下 RAG 系統的工作原理:

  • 檢索階段: 系統首先根據輸入查詢檢索相關文檔或信息。這個階段依賴于搜索算法和索引方法來快速識別大量集合中最相關的數據。
  • 生成階段: 一旦檢索到相關文檔,就會使用一個通常是基于transformer的大語言模型,如 GPT-4來創建一個連貫的、與上下文相適應的響應。此模型使用檢索到的信息來確保生成的內容是準確的,而且信息豐富。

RAG 系統的混合特性使它們對于知識密集型任務特別有效,在這些任務中,檢索和生成的結合極大地提高了總體性能。

2. 常見的文本分塊技術

文本分塊是許多自然語言處理任務的基礎步驟,可以采用多種技術來確保分塊方式保留了語義和上下文。根據任務的具體要求,可以以多種方式來實現文本分塊,下面是針對不同需求分塊方法:

2.1 按字符分塊

此方法將文本分解為單個字符。它適用于需要細粒度文本分析的任務,例如字符級語言模型或某些類型的文本預處理。

2.2 按Token分塊

將文本分割成token,是自然語言處理中的一種標準方法。基于令牌的組塊對于文本分類、語言建模和其他依賴于token化輸入的 NLP 應用程序等任務來說是必不可少的。

2.3 按段落分塊

按段落分段整理文本有助于維護文檔的整體結構和流程。此方法適用于需要較大上下文的任務,如文檔摘要或內容提取。

2.4 遞歸分塊

這涉及到重復地將數據分解成更小的塊,通常用于分層數據結構。遞歸組塊有利于需要多級分析的任務,如主題建模或層次聚類。

2.5 語義分塊

根據意義而非結構元素對文本進行分組對于需要理解數據上下文的任務至關重要。語義塊利用諸如句子嵌入等技術來確保每個塊代表一個連貫的主題或想法。

2.6 代理分塊

這種方法的重點是在識別和分組文本的基礎上增加參與的代理,如人或組織。它在信息抽取和實體識別任務中非常有用,因為理解不同實體之間的角色和關系非常重要。

3.基于Langchain的文本分塊技術——5行代碼

Langchain 框架中提供了很多可以開箱即用的技術,常見的文本分塊技術如下:

  • 遞歸字符分塊
  • token分塊
  • 句子分塊
  • 正則分塊 
  • Markdown分塊

3.1 遞歸字符文本分塊

此方法基于字符數來遞歸地分割文本。每個塊都保持在指定的長度以下,這對于具有自然段落或句子間斷的文檔特別有用,確保了塊的可管理性和易于處理性,而不會丟失文檔的固有結構。

Langchain中的遞歸字符文本分割器方法根據字符數將文本分割成塊,以確保每個塊低于指定的長度。這種方法有助于保持文檔中段落或句子的自然斷開。

from langchain.text_splitter import RecursiveCharacterTextSplitter

text = " long document text here..."

# 初始化 RecursiveCharacterTextSplitter,塊大小1k字符以及50個跨文本字符
charSplitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=50)

# 分塊
chunks = charSplitter.split_text(text)

# 打印輸出
for chunk in chunks:
    print(chunk)

3.2 Token文本分塊

這種技術使用token劃分文檔,token可以是單詞或詞元。在處理具有token限制的大語言模型時,它確保了每個塊都符合模型的約束。在自然語言處理任務中,通常使用基于token分塊來保持文本的完整性,同時遵守模型的限制。

from langchain.text_splitter import TokenSplitter

text = " long document text ..."

# 初始化TokenSplitter,最大token限制為 512
splitter = TokenSplitter(max_tokens=512)

chunks = splitter.split_text(text)

for chunk in chunks:
    print(chunk)

3.3 句子分塊

通過在句子邊界上分割文本,保持了文本的上下文完整性。句子通常代表完整的思想,這使得這種方法非常適合那些對內容有連貫理解的場景。

from langchain.text_splitter import SentenceSplitter

text = "long document text ..."

# 初始化SentenceSplitter ,每個塊最多5個句子
splitter = SentenceSplitter(max_length=5)

chunks = splitter.split_text(text)

for chunk in chunks:
    print(chunk)

3.4 正則分塊

此方法使用正則表達式來自定義拆分點。它為各種用例提供了最高的靈活性,允許用戶根據特定于他們的用例模式來拆分文檔。例如,可以在特定關鍵字或標點符號的每個實例上文檔拆分。

from langchain.text_splitter import RegexSplitter

# Example long document text
text = "Your long document text goes here..."

# 用一個模式初始化 RegexSplitter,以雙換行符分割文本
splitter = RegexSplitter(pattern=r'\n\n+')

chunks = splitter.split_text(text)

for chunk in chunks:
    print(chunk)

3.5 Markdown 的文檔分塊

該方法專為 markdown文檔定制,根據特定元素(如標題、列表和代碼塊)分割文本,保留了標記文檔的結構和格式,使其適合于技術文檔和內容管理。

from langchain.text_splitter import MarkdownSplitter

text = "long markdown document..."

splitter = MarkdownSplitter()

chunks = splitter.split_text(text)

for chunk in chunks:
    print(chunk)

4. 面向主題的分塊技術

大型文檔,如學術論文、長篇報告和詳細文章,通常包含多個主題。langchain中的分割技術,都難以準確識別主題轉換點。這些方法經常會錯過細微的轉換或錯誤地識別它們,導致分塊重疊。

面向主題的分塊技術旨在使用句子嵌入來識別文檔中主題的變化。通過標識主題轉移的位置,確保每個塊封裝一個單一的、連貫的主題,具體包括:

  • 句子嵌入: 句子嵌入將句子轉換成高維向量,從而捕捉句子的語義。通過分析這些向量,我們可以確定主題變化的點。
  • 主題檢測: 使用為主題建模的相關算法,檢測主題的變化并確定分割文檔的最佳點。這確保了每個塊在主題上是一致的。
  • 增強的檢索和嵌入: 通過確保每個塊代表一個主題,RAG 系統中的檢索和嵌入步驟變得更加有效。每個塊的嵌入更有意義,從而提高檢索性能和響應的準確性。

這種技術已經在過去主題建模的場景下得到了證明,但是它同樣適用于 RAG 系統。通過采用這種方法,RAG 系統可以在其生成的內容中實現更高的準確性和相關性,使其更有效地完成復雜和知識密集型的任務。

4.1 生成句子嵌入

可以使用Sentence-BERT (SBERT) 為單個句子生成嵌入,這些嵌入是密集的向量表示,封裝了句子的語義內容,使我們能夠衡量它們的相似性。

from sentence_transformers import SentenceTransformer

sentences = ["Sentence 1...", "Sentence 2...", ...]

model = SentenceTransformer('paraphrase-MiniLM-L6-v2')

embeddings = model.encode(sentences)

4.2 計算相似度

句子之間的相似度是通過余弦距離或者其他距離度量來衡量的,比如曼哈頓或者歐氏距離。這有助于識別連續句之間的連貫性。

from sklearn.metrics.pairwise import cosine_similarity

similarity_matrix = cosine_similarity(embeddings)

4.3 差異評分

為了檢測主題轉換,我們定義了一個參數 n,指定要比較的句子數。該算法根據余弦距離計算差距得分。

import numpy as np

#定義參數 
n = 2

# 計算差異評分
gap_scores = []
for i in range(len(embeddings) - n):
    similarity = cosine_similarity(embeddings[i:i+n], embeddings[i+n:i+2*n])
    gap_scores.append(np.mean(similarity))

為了解決差異分數中的噪聲,可以采用平滑算法,窗口大小 k 決定了平滑的程度。

# 定義窗口大小 k
k = 3

# 平滑差異評分
smoothed_gap_scores = np.convolve(gap_scores, np.ones(k)/k, mode='valid')

4.4 邊界檢測

通過分析平滑后的差距得分來識別局部極小值,這表明潛在的話題轉換,可以用閾值來確定重要的邊界。

# 檢測本地極小值
local_minima = (np.diff(np.sign(np.diff(smoothed_gap_scores))) > 0).nonzero()[0] + 1


# 設置閾值 c
C = 1.5

# 確定顯著的界限

significant_boundaries = [i for i in local_minima if smoothed_gap_scores[i] < np.mean(smoothed_gap_scores) - c * np.std(smoothed_gap_scores)]

4.5 分段的聚類

對于較長的文檔,類似的主題可能會重新出現。為了處理這個問題,使用類似的內容聚類算法,可以減少冗余并確保每個主題都是唯一表示的。

from sklearn.cluster import KMeans

# 轉化為embedding
segment_embeddings = [np.mean(embeddings[start:end], axis=0) for start, end in zip(significant_boundaries[:-1], significant_boundaries[1:])]

# Kmeans 聚類示例
kmeans = KMeans(n_clusters=5)
clusters = kmeans.fit_predict(segment_embeddings)

這里的代碼只是示意, 還可以通過自動參數優化、采用 transformer 模型、基于知識圖譜的層次分類等方法來進一步增強面向主題感知的分塊技術。

5.一句話小結

在RAG系統中, 文本分塊技術是必不可少的。對于大型文檔而言,可以嘗試采用面向主題感知的句子嵌入來提升RAG 系統的性能,使其生成更相關且一致的內容。

責任編輯:武曉燕 來源: 喔家ArchiSelf
相關推薦

2025-03-21 14:34:17

2025-10-30 00:00:00

2025-09-03 04:00:45

RAG系統分塊

2025-04-02 04:00:00

RAG分塊優化

2024-02-26 00:00:00

RAG系統圖譜

2024-06-19 16:11:22

2024-02-05 14:12:37

大模型RAG架構

2025-11-04 04:15:00

RAG系統文本分塊

2025-05-28 01:00:00

大模型智能問答AI

2025-01-23 08:00:00

2025-05-27 08:35:00

2025-05-07 08:35:11

2025-03-05 08:57:55

2024-12-11 08:28:15

2024-12-04 10:35:21

2025-06-10 04:30:00

2025-04-29 09:15:49

AI數據模型

2025-04-29 08:09:39

2025-11-07 04:00:00

2024-10-14 14:45:00

數據模型
點贊
收藏

51CTO技術棧公眾號

久久久久久久电影一区| 丁香五六月婷婷久久激情| 国产精品久久久久久中文字| 91成年人网站| 成人午夜亚洲| 中文字幕一区二区5566日韩| 2019国产精品视频| 国产精品xxxx喷水欧美| 怕怕欧美视频免费大全| 欧美日本在线播放| 男人天堂新网址| 亚洲 欧美 自拍偷拍| 丝袜脚交一区二区| 日韩亚洲精品电影| 好吊操视频这里只有精品| 一区二区乱码| 亚洲欧洲www| 国产一区二区三区免费不卡| 中文字幕av影视| 午夜精品免费| 亚洲天堂网站在线观看视频| 超级砰砰砰97免费观看最新一期 | 精品久久99| 亚洲一二三区在线观看| 五月天久久综合网| 日本精品一二区| 久久成人久久爱| 91av在线播放视频| 久久r这里只有精品| 一区三区在线欧| 日韩欧美一级二级三级| 992kp快乐看片永久免费网址| 欧美草逼视频| 欧美国产日本视频| 久久久免费看| 亚洲欧美强伦一区二区| 久久99精品一区二区三区| 欧美在线视频a| 国产一级片免费| 99久久九九| 一个人www欧美| 一级国产黄色片| 亚洲国产欧美在线观看| 欧美性受xxxx黑人xyx性爽| 69堂免费视频| 91九色porn在线资源| 亚洲人成网站精品片在线观看| 日韩国产精品一区二区三区| 亚洲 小说区 图片区 都市| 风间由美性色一区二区三区 | 精品91福利视频| 欧美影院一区二区| 999精品网站| 在线视频中文字幕第一页| 亚洲欧洲精品一区二区三区不卡| 亚洲精品日韩精品| 永久免费av在线| 亚洲国产岛国毛片在线| 日韩一区二区电影在线观看| 国产一二在线观看| 国产亚洲欧美激情| 日本不卡二区高清三区| 免费黄色在线视频网站| 久久精品夜色噜噜亚洲a∨| 久久久久久久久一区| 天堂8在线视频| 97se亚洲国产综合自在线| 国产一区二区三区四区hd| 亚洲成熟女性毛茸茸| 国产精品一级黄| 国产欧美一区二区三区另类精品 | 免费视频网站www| 欧美福利网址| 久久久久久av| 91porny在线| 天堂一区二区在线| 国产精品一区二区三区成人| 国产精品热久久| 国产精品一级片| 精品无码久久久久久久动漫| 三级无遮挡在线观看| 国产日韩影视精品| 在线观看福利一区| 性欧美1819sex性高清大胸| 亚洲国产婷婷综合在线精品| 国产原创popny丨九色| 欧美福利在线播放| 欧美人动与zoxxxx乱| wwwxxxx在线观看| 美女网站色精品尤物极品姐弟| 亚洲精品资源在线| 自拍偷拍第9页| 久久久久亚洲| 91国内揄拍国内精品对白| 亚洲 日本 欧美 中文幕| 麻豆免费看一区二区三区| 99国产在线| 日韩精品系列| 亚洲视频在线观看三级| 国产原创popny丨九色| 成人看片网页| 日韩精品一区在线观看| 国产精品815.cc红桃| 天天揉久久久久亚洲精品| 欧美激情综合色综合啪啪五月| 欧美性猛交bbbbb精品| 国内久久婷婷综合| 美女被啪啪一区二区| av中文字幕在线观看| 欧美日韩在线另类| www.偷拍.com| 国产一区二区三区站长工具| 欧美高清视频一区二区| 亚洲图片欧美日韩| 国产99久久久精品| 亚洲一区3d动漫同人无遮挡 | 亚洲免费视频成人| 99色精品视频| 中文字幕一区图| 中文字幕亚洲综合| 国产区一区二区三| 国产成人av影院| 亚洲精品成人久久久998| www在线观看黄色| 69堂成人精品免费视频| 无码人妻aⅴ一区二区三区69岛| 国产精品大片| 国产在线视频欧美| 久久久久久青草| 亚洲成人免费看| 中文字幕第三区| 成人羞羞视频播放网站| 国产91av在线| 亚洲精品一区二区三区新线路 | 国产探花在线播放| 免费不卡在线观看| 蜜桃传媒视频麻豆第一区免费观看| 黄色网页在线免费观看| 日本丶国产丶欧美色综合| 中文字幕日韩三级片| 国产精品分类| 粉嫩av一区二区三区免费观看| 成人在线免费观看| 色94色欧美sute亚洲线路一久| 亚洲午夜久久久久久久久| 天天射综合网视频| 国产精品偷伦一区二区| 国产视频网站在线| 欧美性xxxxxxx| 第四色在线视频| 亚洲午夜电影| 国产成人成网站在线播放青青| 2024最新电影在线免费观看| 欧美久久免费观看| 亚洲精品自拍视频在线观看| 美女脱光内衣内裤视频久久网站| 日韩欧美在线一区二区| 亚洲第一会所001| 在线视频欧美性高潮| 精品乱码一区内射人妻无码| 国产三级欧美三级| 污污网站免费看| 日韩精品一区二区三区免费观影 | 伊人亚洲精品| 久久久国产视频91| av综合在线观看| 一区二区三区欧美| 日本性生活一级片| 亚洲一区二区三区四区五区午夜 | 天天综合天天添夜夜添狠狠添| 日韩欧美字幕| 91免费欧美精品| 秋霞在线午夜| 日韩精品一区二区视频| 亚洲欧美一二三区| 亚洲欧洲日韩一区二区三区| 午夜影院免费版| 亚洲调教视频在线观看| 六十路精品视频| 日本成人福利| 久久av中文字幕| 蜜桃视频在线观看www| 欧美视频中文字幕在线| 一级肉体全黄裸片| 国内精品第一页| 男人天堂av片| 久久最新网址| 成人福利网站在线观看| 国产理论电影在线| 亚洲偷熟乱区亚洲香蕉av| 亚洲图片小说视频| 亚洲成人一区二区| 久久中文字幕精品| 国产精品123区| 国产69精品久久久久999小说| 亚洲深夜福利在线观看| 成人激情电影一区二区| 国产自产自拍视频在线观看| 一本色道久久88精品综合| 精品人妻av一区二区三区| 欧美日韩免费在线观看| 香蕉久久久久久久| av亚洲产国偷v产偷v自拍| 91色国产在线| 亚洲国产99| 午夜久久资源| 国产精品sss在线观看av| 国产精品爱啪在线线免费观看| 国产黄网站在线观看| 亚洲精品乱码久久久久久金桔影视 | 91插插插插插插插插| 亚洲五月婷婷| 美国av在线播放| 免费精品国产| 国产精品视频500部| 亚洲精品伊人| 国产v综合ⅴ日韩v欧美大片| 免费电影视频在线看| 色偷偷噜噜噜亚洲男人的天堂| 亚洲精品一区二区口爆| 欧美福利视频一区| 天天射天天干天天| 午夜成人在线视频| 91杏吧porn蝌蚪| 中文字幕欧美区| 成年人在线观看av| 成人美女视频在线观看18| 男人午夜视频在线观看| 日韩不卡一区二区| 日本久久久精品视频| 91久久视频| wwwjizzjizzcom| 999国产精品视频| 日韩一区国产在线观看| 日韩福利视频一区| 国产伦精品一区二区| 日本精品国产| 91亚洲精华国产精华| 日韩成人在线一区| 国产精品色悠悠| 欧美日韩女优| 国产成+人+综合+亚洲欧美丁香花| heyzo高清中文字幕在线| 欧美激情女人20p| av网址在线播放| 久久伊人精品天天| 免费观看在线午夜影视| www.国产精品一二区| 91最新在线| 正在播放亚洲1区| www在线免费观看| 一区三区二区视频| av在线播放av| 色播久久人人爽人人爽人人片视av| 国产中文字幕在线播放| 亚洲欧洲一区二区三区久久| 青青久草在线| 亚洲欧美日韩中文在线| 国产在线一二三区| 中文字幕9999| 欧美jizz18hd性欧美| 日韩在线一区二区三区免费视频| 在线看免费av| 久久精品91久久久久久再现| 国产精品扒开做爽爽爽的视频| 美女精品久久久| 欧美hdxxxx| 欧美一级大片视频| 日韩精品三区| 国产主播欧美精品| 欧美三级一区| 国产嫩草一区二区三区在线观看 | 亚洲成人自拍视频| 日韩欧美中文| www.欧美黄色| 国产精品日本| 亚洲另类第一页| 国产成人精品免费网站| 国产毛片毛片毛片毛片毛片毛片| www激情久久| 欧洲美熟女乱又伦| 亚洲精品日韩一| 毛片毛片女人毛片毛片| 欧美日韩一区二区三区在线看 | 88xx成人免费观看视频库 | 亚洲乱码一区| 久久日韩精品| 97精品国产| r级无码视频在线观看| 三级一区在线视频先锋| 日韩av福利在线观看| 久久综合色8888| 精品国产视频一区二区三区| 午夜免费久久看| 超碰在线97观看| 日韩视频免费直播| 黄色国产在线| 欧美激情视频播放| 国产一区二区主播在线| 成人动漫视频在线观看免费| 杨幂一区二区三区免费看视频| 国产福利片一区二区| 国产亚洲激情| 性久久久久久久久久久久久久| 91尤物视频在线观看| 91高清免费看| 色婷婷av一区二区三区软件| 99久久久国产精品无码网爆| 亚洲人成在线播放| 欧美videos另类精品| 国产色综合天天综合网| 亚洲人成精品久久久 | 影音先锋中文字幕一区二区| www.欧美日本| 成人av网在线| 日韩欧美综合视频| 色天天综合色天天久久| 天天av天天翘| 欧美日产国产成人免费图片| av成人在线观看| 美女黄毛**国产精品啪啪| 欧美区一区二| 成人亚洲免费视频| 国产日本欧洲亚洲| 国产成人精品网| 精品久久人人做人人爽| www免费视频观看在线| 国产噜噜噜噜久久久久久久久| 在线日韩一区| 男人操女人逼免费视频| 成人一级视频在线观看| 成人免费精品动漫网站| 欧美久久免费观看| 浮生影视网在线观看免费| 日本精品久久电影| 国产伦乱精品| 亚洲理论电影在线观看| 国产精品一区二区三区四区 | 午夜视频久久久久久| 国内毛片毛片毛片毛片| 久久国产精品免费视频| 亚洲精品毛片| 中文视频一区视频二区视频三区| 日本在线不卡视频一二三区| 级毛片内射视频| 在线视频你懂得一区二区三区| 理论在线观看| 国产精品电影观看| 狠狠操综合网| www日韩在线观看| 国产欧美一区二区精品秋霞影院 | 日韩一级在线观看| 精品美女在线观看视频在线观看| 国产日韩欧美视频| 久久久久久久久99精品大| a级大片免费看| 亚洲中国最大av网站| 欧日韩在线视频| 91a在线视频| 欧美精品第一区| 无限资源日本好片| 亚洲视频在线一区| 性欧美一区二区三区| 久久久久久国产免费| 欧美sss在线视频| 国产l精品国产亚洲区久久| 日本一区二区综合亚洲| 制服丝袜在线一区| 久久精品国产成人精品| 网站一区二区| 成人毛片视频网站| 国产偷国产偷精品高清尤物| 在线观看免费黄色小视频| 亚洲欧美另类人妖| 国产精品专区免费| 亚欧精品在线| 国产美女精品人人做人人爽| 国产亚洲精品久久久久久打不开| 亚洲精品国精品久久99热一| 欧美舌奴丨vk视频| 懂色av一区二区三区四区五区| 国产激情精品久久久第一区二区| 日本一区二区免费在线观看| 亚洲欧美综合v| 日日夜夜亚洲| 僵尸世界大战2 在线播放| 国产午夜精品久久久久久久| 91片黄在线观看喷潮| 国内精品久久久久久久久| 精品国产91乱码一区二区三区四区 | 欧美凹凸一区二区三区视频| 秋霞成人午夜伦在线观看| 久久精品www| 这里只有精品在线观看| 国产精品极品在线观看| 亚洲欧美视频二区| 偷拍一区二区三区| 欧美天天影院| 免费看成人午夜电影| 国产精品一区二区黑丝|