精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

基于文本結構分塊 - 文本分塊(Text Splitting),RAG不可缺失的重要環節

發布于 2025-4-14 00:49
瀏覽
0收藏

在 RAG 的核心步驟中,有一個至關重要的步驟:“文本分塊(Text Splitting)”。

它的主要作用就是把一大段文本切分成更小、更合理的片段,這樣模型才能更好地理解、處理或者存儲這些內容。

如果一整篇文章不拆開,那 embedding 的顆粒度太粗,問答的時候很容易不準。所以切得好不好,直接影響最后答案的相關性和準確性。

最基本的分塊方法是根據文檔的長度進行拆分。這種簡單而有效的方法確保每個塊不會超過指定的大小限制。

基于長度拆分的主要好處:簡單明了的實現、一致的塊大小、易于適應不同模型的要求。缺點就是: 過于死板,忽視文本結構

1. 基于文本結構分塊

一般的文本會自然地組織成層次單位,如段落、句子和詞。

我們可以利用這種固有結構來指導我們的拆分策略,創建保持自然語言流暢、保持拆分內的語義連貫,并適應不同文本粒度水平的拆分。

LangChain 的 ??RecursiveCharacterTextSplitter?? 實現了這個概念:

  • ??RecursiveCharacterTextSplitter?? 嘗試保持較大單位(例如段落)的完整性。
  • 如果一個單位超出了塊大小,它將移到下一個層級(例如句子)。
  • 如果必要,這個過程將繼續到單詞級別。

2. RecursiveCharacterTextSplitter的實現思路

2.1 挑選分隔符

  • 從提供的分隔符列表中找到第一個在文本中存在的分隔符
  • 如果找到合適的分隔符,將其后的所有分隔符保存起來,用于后續可能的遞歸分割
  • 如果找不到任何分隔符,就使用最后一個分隔符(通常是空字符串)

舉個例子:

假設分隔符列表是 ["\n\n", "\n", " ", ""],對于文本 "Hello\nWorld" :

  • 首先檢查 "\n\n" ,文本中不存在
  • 然后檢查 "\n" ,文本中存在
  • 選擇 "\n" 作為分隔符
  • 保存 [" ", ""] 作為 new_separators ,供后續使用

separator = separators[-1]
new_separators = []
for i, _s in enumerate(separators):
    _separator = _s if self._is_separator_regex else re.escape(_s)
    if _s == "":
        separator = _s
        break
    if re.search(_separator, text):
        separator = _s
        new_separators = separators[i + 1 :]
        break

_separator = separator if self._is_separator_regex else re.escape(separator)

2.2 按分隔符分割文本

splits = _split_text_with_regex(text, _separator, self._keep_separator)

2.3 整理分割好的塊

  • 對每個分割后的文本塊進行處理:
  • 如果文本塊小于指定大小,添加到臨時列表
  • 如果文本塊大于指定大小,且還有其他分隔符可用,則遞歸分割
  • 如果文本塊大于指定大小,但沒有其他分隔符,則直接添加
  • 合并所有符合大小要求的文本塊
  • 返回最終的分割結果

基于文本結構分塊 - 文本分塊(Text Splitting),RAG不可缺失的重要環節-AI.x社區

for s in splits:
    if self._length_function(s) < self._chunk_size:
        _good_splits.append(s)
    else:
        if _good_splits:
            merged_text = self._merge_splits(_good_splits, _separator)
            final_chunks.extend(merged_text)
            _good_splits = []
        ifnot new_separators:
            final_chunks.append(s)
        else:
            other_info = self._split_text(s, new_separators)
            final_chunks.extend(other_info)
if _good_splits:
    merged_text = self._merge_splits(_good_splits, _separator)
    final_chunks.extend(merged_text)
return final_chunks

3. 代碼實現

from langchain.text_splitter import RecursiveCharacterTextSplitter

text = """
《誅仙》
作者:蕭鼎


第一集
序章

時間:不明,應該在很早很早以前。

地點:神州浩土。

自太古以來,人類眼見周遭世界,諸般奇異之事,電閃雷鳴,狂風暴雨,又有天災人禍,傷亡無數,哀鴻遍野,絕非人力所能為,所能抵擋。遂以為九天之上,有諸般神靈,九幽之下,亦是陰魂歸處,閻羅殿堂。

于是神仙之說,流傳于世。無數人類子民,誠心叩拜,向著自己臆想創造出的各種神明頂禮膜拜,祈福訴苦,香火鼎盛。

自古以來,凡人無不有一死。但世人皆惡死愛生,更有地府閻羅之說,平添了幾分苦懼,在此之下,遂有長生不死之說。

相較其它生靈物種,人類或在體質上處于劣勢,但萬物靈長,卻是絕無虛言。在追求長生的原動力下,一代代聰明才智之士,前赴后繼,投入畢生精力,苦苦鉆研。

至今為止,雖然真正意義上的長生不死仍未找到,卻有一些修真煉道之士參透些許天地造化,以凡人之身,掌握強橫力量,借助各般秘寶法器之力,竟可震撼天地,有雷霆之威。

而一些得道高深的前輩,更傳說已活上千年之久而不死。世上之人以為得道成仙,便有更多人投入修真煉道之路。

神州浩土,廣瀚無邊。唯有中原大地,最是豐美肥沃,天下人口十之八九聚居于此。而東南西北邊荒之地,山險水惡,多兇獸猛禽,多惡瘴毒物,亦多蠻族夷民,茹毛飲血,是以人跡罕至。而人間自古相傳,有洪荒遺種,殘存人世,藏于深山密谷,壽逾萬年,卻是無人得見。

時至今日,人間修真煉道之人,多如過江之鯽,數不勝數。又以神州浩土之廣闊,人間奇人異士之多,故修煉之法道林林總總,俱不相同。長生之法還未找到,彼此間卻逐漸有了門派之分,正邪之別。由之而起的門戶之見,勾心斗角乃至爭伐殺戮,在所多有。

當長生不死看起來那般遙遠而不可捉摸,修煉中所帶來的力量,便逐漸成了許多人的目標。

方今之世,正道大昌,邪魔退避。中原大地山靈水秀,人氣鼎盛,物產豐富,為正派諸家牢牢占據。其中尤以「青云門」、「天音寺」和「焚香谷」為三大支柱,是為領袖。

這個故事,便是從「青云門」開始的。
"""

text_splitter = RecursiveCharacterTextSplitter(chunk_size=150)
docs = text_splitter.create_documents([text])

for doc in docs:
    print('-' * 50)
    print(doc)

4. 拆分結果

通過觀察文本的分塊結果,可以看出 RecursiveCharacterTextSplitter 在 chunk_size=150 的設置下,將整個文本分成了7個完整的塊。

分割時優先考慮了段落間的自然分隔(\n\n),使每個塊都保持了相對獨立的主題。

這種分塊方式既保證了每塊內容的語義連貫性,又控制了文本長度在合理范圍內,為后續的文本處理和分析提供了良好的基礎。

--------------------------------------------------
page_cnotallow='《誅仙》
作者:蕭鼎


第一集
序章

時間:不明,應該在很早很早以前。

地點:神州浩土。

自太古以來,人類眼見周遭世界,諸般奇異之事,電閃雷鳴,狂風暴雨,又有天災人禍,傷亡無數,哀鴻遍野,絕非人力所能為,所能抵擋。遂以為九天之上,有諸般神靈,九幽之下,亦是陰魂歸處,閻羅殿堂。'
--------------------------------------------------
page_cnotallow='于是神仙之說,流傳于世。無數人類子民,誠心叩拜,向著自己臆想創造出的各種神明頂禮膜拜,祈福訴苦,香火鼎盛。

自古以來,凡人無不有一死。但世人皆惡死愛生,更有地府閻羅之說,平添了幾分苦懼,在此之下,遂有長生不死之說。'
--------------------------------------------------
page_cnotallow='相較其它生靈物種,人類或在體質上處于劣勢,但萬物靈長,卻是絕無虛言。在追求長生的原動力下,一代代聰明才智之士,前赴后繼,投入畢生精力,苦苦鉆研。'
--------------------------------------------------
page_cnotallow='至今為止,雖然真正意義上的長生不死仍未找到,卻有一些修真煉道之士參透些許天地造化,以凡人之身,掌握強橫力量,借助各般秘寶法器之力,竟可震撼天地,有雷霆之威。

而一些得道高深的前輩,更傳說已活上千年之久而不死。世上之人以為得道成仙,便有更多人投入修真煉道之路。'
--------------------------------------------------
page_cnotallow='神州浩土,廣瀚無邊。唯有中原大地,最是豐美肥沃,天下人口十之八九聚居于此。而東南西北邊荒之地,山險水惡,多兇獸猛禽,多惡瘴毒物,亦多蠻族夷民,茹毛飲血,是以人跡罕至。而人間自古相傳,有洪荒遺種,殘存人世,藏于深山密谷,壽逾萬年,卻是無人得見。'
--------------------------------------------------
page_cnotallow='時至今日,人間修真煉道之人,多如過江之鯽,數不勝數。又以神州浩土之廣闊,人間奇人異士之多,故修煉之法道林林總總,俱不相同。長生之法還未找到,彼此間卻逐漸有了門派之分,正邪之別。由之而起的門戶之見,勾心斗角乃至爭伐殺戮,在所多有。'
--------------------------------------------------
page_cnotallow='當長生不死看起來那般遙遠而不可捉摸,修煉中所帶來的力量,便逐漸成了許多人的目標。

方今之世,正道大昌,邪魔退避。中原大地山靈水秀,人氣鼎盛,物產豐富,為正派諸家牢牢占據。其中尤以「青云門」、「天音寺」和「焚香谷」為三大支柱,是為領袖。

這個故事,便是從「青云門」開始的。'

5. 圖形化顯示分塊

通過www.chunkviz.com可以以圖形化的方式看到分塊結果

基于文本結構分塊 - 文本分塊(Text Splitting),RAG不可缺失的重要環節-AI.x社區

總結

文本分塊不僅是技術實現的問題,更是影響 RAG 系統最終效果的核心策略。

簡單分塊雖易上手但效果有限,結構化遞歸分塊則在保留語義、提升相關性方面表現更優。

想要構建高質量問答系統,分塊方式絕不能隨便選,而是要結合文本特點和應用場景精細設計。

 

本文轉載自??AI取經路??,作者:AI取經路

收藏
回復
舉報
回復
相關推薦
国产精品免费看| 中文无码日韩欧| 国产精品成人在线观看| 91在线观看网站| 欧美啪啪小视频| 日韩电影免费网址| 精品欧美乱码久久久久久1区2区| 1024av视频| 视频免费一区| 91丨porny丨在线| 国产日产亚洲精品| 亚洲国产成人精品激情在线| 色综合狠狠操| 亚洲九九九在线观看| 热久久久久久久久| 丝袜诱惑一区二区| 亚洲人成精品久久久久久| 久久综合中文色婷婷| 99久久久久久久| 老妇喷水一区二区三区| 欧美床上激情在线观看| 熟女高潮一区二区三区| 亚洲三级av| 欧美三区在线视频| 日韩av资源在线| 精品国产一区二区三区麻豆小说| 成人信息集中地| 日韩三级毛片| 日韩欧美亚洲另类制服综合在线| 国产主播中文字幕| 中文字幕成在线观看| 一区二区国产盗摄色噜噜| 亚洲日本精品国产第一区| 四虎精品成人影院观看地址| 国产福利一区二区| 成人国产在线激情| 在线视频精品免费| 欧美亚洲视频| 91精品国产高清| 久久免费视频99| 欧美精品99| 欧美日韩国产二区| 精品99久久久久成人网站免费 | 在线天堂新版最新版在线8| 一区二区三区蜜桃| 亚洲小说欧美另类激情| 自拍视频在线播放| 国产日产欧美一区| 午夜精品一区二区三区在线观看| 欧美日韩视频精品二区| 久久综合久久综合九色| 久久国产精品免费一区| 婷婷亚洲一区二区三区| 久久综合九色综合欧美98| 日韩一二在线观看| 亚洲高清免费在线观看| 午夜日韩成人影院| 色综合久久中文综合久久牛| 春日野结衣av| 成人福利视频| 欧美艳星brazzers| 在线观看国产中文字幕| 亚洲欧美在线综合| 欧美一卡二卡在线观看| 亚洲免费观看在线| 秋霞在线一区| 欧美好骚综合网| 亚洲福利视频在线| theav精尽人亡av| 亚洲理论电影片| 你懂的国产精品永久在线| 97精品国产综合久久久动漫日韩 | 俄罗斯女人裸体性做爰| 欧美国产亚洲精品| 日韩免费一区二区三区在线播放| 精品国产aⅴ一区二区三区东京热| 一区二区三区国产好| 亚洲精品按摩视频| 国产黄色大片免费看| 天天做天天爱天天综合网| 欧美老少配视频| 国产91av视频| 日本大胆欧美人术艺术动态| 国产精品永久| 中文精品在线| 中文字幕久精品免费视频| 91视频最新网址| 欧美成人一品| 91精品国产色综合| 久久久国产免费| 久久精品国产77777蜜臀| 亚洲精品社区| 亚洲人成网站影音先锋播放| 国产91在线亚洲| 亚洲天堂手机| 91 com成人网| 国产黄色网址在线观看| 偷偷www综合久久久久久久| 久久久久久久91| 无码久久精品国产亚洲av影片| 国内成人自拍视频| 欧美极品一区| 99久久久久久久久| 日韩欧美一区二区三区在线观看| 欧美中文字幕一区| 亚洲天堂美女视频| 四季av一区二区凹凸精品| 久久久久久久久久久免费| 精品久久久久久久久久久久久久久久久久| 精品亚洲成a人| 久久涩涩网站| 91国内在线| 欧美综合在线视频| 六十路息与子猛烈交尾| 999精品色在线播放| 欧美亚洲日本网站| 亚洲经典一区二区| 国产精品激情偷乱一区二区∴| 国产白丝袜美女久久久久| 精品国产乱码久久久久久樱花| 亚洲精选中文字幕| 日本少妇全体裸体洗澡| 韩国v欧美v日本v亚洲v| 热re99久久精品国产99热| 国产麻豆剧传媒精品国产av| 欧美黄色网络| 精品一区二区综合| 日韩视频在线免费观看| av大片免费观看| 岛国一区二区三区| 中文字幕在线乱| 成人午夜sm精品久久久久久久| 精品成人免费观看| 青草影院在线观看| 久久精品国产第一区二区三区| 欧美日韩精品久久| 筱崎爱全乳无删减在线观看 | 97国产精品人人爽人人做| aaa国产视频| 国产精品成人网| 日韩精品视频一二三| av中文字幕一区二区| 国产精品爱久久久久久久| 天堂中文在线8| 懂色av影视一区二区三区| 伦理片一区二区| 亚洲精品裸体| 蜜桃精品久久久久久久免费影院| 国产夫妻在线播放| 日韩高清中文字幕| 久久99精品波多结衣一区| 99久久777色| 黄色免费福利视频| 久久最新网址| 国产精品久久二区| 91在线高清| 欧美福利视频一区| 国产十六处破外女视频| 国产精品一区二区你懂的| 4444在线观看| 国产精品毛片久久久| 国内精品免费午夜毛片| 天堂av中文在线资源库| 91成人免费在线| 国产精品麻豆一区| 国产一区二区视频在线| 欧美日韩中文字幕在线播放| 成人知道污网站| 91麻豆精品国产91| 久久精品丝袜高跟鞋| av中文字幕在线观看| 日韩免费视频一区| 青青操免费在线视频| 26uuu亚洲| 天堂av8在线| 精品福利电影| 日韩欧美精品在线不卡 | 欧美日本在线看| 久草网在线观看| 久久久久久黄色| 手机在线国产视频| 日韩午夜在线| 亚洲一区二区三区欧美| 99精品国产一区二区三区2021| **欧美日韩vr在线| 黄在线免费看| 日韩av最新在线| 亚洲一区 中文字幕| 亚洲精品videosex极品| 亚洲狠狠婷婷综合久久久久图片| 免费成人性网站| 拔插拔插海外华人免费| av在线不卡顿| 国产亚洲欧美一区二区三区| a∨色狠狠一区二区三区| 久久99久久99精品免观看粉嫩| 蜜桃视频在线观看www| 国产精品xxxxx| 麻豆系列在线观看| 亚洲国产精品福利| 一级片视频网站| 精品日本高清在线播放| 三级黄色在线观看| 91视视频在线直接观看在线看网页在线看| 日韩一区二区三区不卡视频| 影音先锋国产精品| 亚洲精品国产系列| 亚洲精品播放| 国产乱码精品一区二区三区中文| 成人黄色毛片| 欧美一级大胆视频| 男女视频在线| 精品国产一区二区在线| 四虎影视2018在线播放alocalhost| 欧美久久一区二区| jizz国产在线| 欧美日韩一区二区在线播放| 中文字幕影音先锋| 亚洲欧洲日韩av| 国产一级久久久久毛片精品| 95精品视频在线| 男人女人拔萝卜视频| 久久精品国产一区二区| 白嫩少妇丰满一区二区| 日韩一级不卡| 你真棒插曲来救救我在线观看| 999精品一区| 亚洲三级一区| 日韩伦理视频| 色视频一区二区三区| 亚洲警察之高压线| 久久综合狠狠综合久久综青草| 国产精品久久久久av蜜臀| 99精彩视频| 日韩一二三区| 精品少妇一区二区三区在线播放 | 久久6免费高清热精品| 国产精品久久久久一区二区国产 | 中文字幕佐山爱一区二区免费| 成年人视频网站免费观看| 伊人蜜桃色噜噜激情综合| 男人天堂成人网| 一区二区三区在线| av不卡在线免费观看| 欧美激情国产在线| 在线不卡视频一区二区| 久久精品国产www456c0m| 亚洲欧洲三级| 99国内精品久久久久久久| 亚洲高清视频一区| 久久久影院免费| 一区二区在线不卡| 亚洲国产精品成人| 中文字幕の友人北条麻妃| 在线中文一区| 又大又硬又爽免费视频| 伊人久久久大香线蕉综合直播| 精品少妇人欧美激情在线观看| 影音先锋久久资源网| 免费av手机在线观看| 亚洲精品少妇| 妞干网在线免费视频| 蜜臀av性久久久久蜜臀av麻豆| 亚洲色图偷拍视频| 国产激情精品久久久第一区二区| 一个人看的视频www| av一区二区三区黑人| 日韩中文字幕电影| 中文字幕国产一区| 中文字幕在线有码| 亚洲成人精品一区| 少妇久久久久久久| 5566中文字幕一区二区电影| 亚洲精品久久久久久久久久久久久久| 亚洲高清免费观看高清完整版| 国内三级在线观看| 久热精品视频在线观看| 丁香花在线电影| 国产成人综合亚洲| 国产精品1区在线| 久久99精品国产99久久| 成人在线免费观看视频| 麻豆传媒网站在线观看| 免费看亚洲片| 亚洲三级在线观看视频| av在线播放成人| 欧美h片在线观看| 日本视频在线免费| 亚洲成人www| 亚洲中文字幕在线观看| 亚洲精品在线一区二区| 成年人在线观看| 欧美精品18videos性欧| jizzyou欧美16| 国产日韩亚洲精品| 66国产精品| 精品国产成人av在线免| 思热99re视热频这里只精品 | 91丨九色丨国产在线| 日本午夜精品久久久| 性做爰过程免费播放| 鲁大师成人一区二区三区 | 中文字幕人妻精品一区| 亚洲精品在线免费观看视频| √天堂资源地址在线官网| 久久久久久久久91| 日本国产一区| 欧美一区二区三区在线播放| 欧美三级在线| 久久久久久久久久一区| 久久男人中文字幕资源站| 久久亚洲AV无码| 91精品国产免费久久综合| 成人精品福利| 欧美在线观看网址综合| 免费欧美网站| japanese在线视频| 日韩成人免费电影| 性久久久久久久久久| 午夜精品福利一区二区三区av | 欧美精品一区二区性色a+v| 久久精品男女| 醉酒壮男gay强迫野外xx| 亚洲一区二区av在线| 97超碰人人草| 中文字幕亚洲第一| 欧美不卡高清一区二区三区| 麻豆一区区三区四区产品精品蜜桃| 欧美aⅴ99久久黑人专区| 欧美美女一级片| 国产精品成人免费精品自在线观看 | 欧美日韩国产在线观看网站| 欧美 日韩 国产一区| av中文字幕一区| www日韩精品| 日韩成人黄色av| 英国三级经典在线观看| 久久精品综合一区| 国产日韩亚洲| 国内精品久久99人妻无码| 日韩欧美国产激情| 韩国福利在线| 国产欧美久久一区二区| 四季av一区二区凹凸精品| www.激情小说.com| 中文字幕精品一区二区精品绿巨人| 中文字幕av片| 久久视频在线播放| 欧美高清一级片| 无码av天堂一区二区三区| www.久久久久久久久| 日韩久久中文字幕| 国产亚洲福利一区| 精品176极品一区| 亚洲精品8mav| 国产乱人伦偷精品视频免下载| 九九在线观看视频| 亚洲第一区第二区| 最新日韩精品| 亚洲一区3d动漫同人无遮挡 | 欧美va亚洲va| 在线手机中文字幕| 亚洲精品影院| 国产成人一区在线| 中文字字幕在线中文| 在线看日韩av| 久久免费福利| 日韩在线一级片| 国产精品色婷婷| 亚洲AV无码精品色毛片浪潮| 欧美精品久久久久| 少妇一区二区视频| 亚洲欧美日韩三级| 亚洲.国产.中文慕字在线| 香港一级纯黄大片| 国产欧美一区二区三区在线| 国产精品激情| 中文字幕被公侵犯的漂亮人妻| 欧美丰满少妇xxxbbb| 91九色在线播放| 日本一区二区在线视频| 国精产品一区一区三区mba桃花| 国产一级特黄aaa大片| 国产亚洲xxx| 成人h动漫免费观看网站| 99免费视频观看| 亚洲制服丝袜av| 阿v免费在线观看| 粉嫩高清一区二区三区精品视频| 久久午夜电影| 久久久一二三区| 中文字幕亚洲国产| 奇米777国产一区国产二区| 天天干天天玩天天操| 岛国精品视频在线播放| 免费黄色网址在线观看| 欧美成人第一区| 国产成人av电影在线播放| 中文字幕+乱码+中文字幕明步| 久久久久国产精品免费网站|