精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

文本分塊(Text Splitting),RAG不可缺失的重要環(huán)節(jié)

發(fā)布于 2025-5-23 06:34
瀏覽
0收藏

本文介紹了在增強檢索生成(RAG)流程中,文本分塊的重要性和實現(xiàn)方式。詳細解釋了為什么要對文本進行切分及代碼示例,展示了分塊后的效果。通過合理分塊,可以有效應對模型的輸入限制,提升檢索與生成的質(zhì)量,是構(gòu)建高效 LLM 應用的關鍵步驟之一。

1. 文檔分塊的原因

2. 文檔分塊的基本思路

2.1 基于長度的分塊類型

2.2 代碼實現(xiàn)

2.2 拆分結(jié)果

3. 圖形化顯示分塊

總結(jié)

在快速發(fā)展的自然語言處理(NLP)領域,增強檢索生成(RAG)已成為提高 AI 生成響應的準確性和相關性的強大技術(shù)。

在 RAG 的核心步驟中,有一個至關重要的步驟:“文本分塊(Text Splitting)”

它的主要作用就是把一大段文本切分成更小、更合理的片段,這樣模型才能更好地理解、處理或者存儲這些內(nèi)容。

比如說,如果你有一篇幾千字的文章,直接丟給模型處理,很可能會超過它的最大上下文長度(就是它一次能“看”的最多字數(shù))。這個時候就得用 文本分塊(Text Splitting)來把文章拆成幾段,讓每一段都不超出模型的處理能力,而且盡量保證語義完整、段落自然,不要斷在奇怪的地方。

除了應對長度限制,還有個原因是為了更精準地做 embedding、搜索或者問答。

舉個例子,如果你用 RAG 來做知識庫問答,先要把整個文檔轉(zhuǎn)成 embedding(向量表示),然后做向量檢索找出相關內(nèi)容。

如果一整篇文章不拆開,那 embedding 的顆粒度太粗,問答的時候很容易不準。所以切得好不好,直接影響最后答案的相關性和準確性。

文本分塊(Text Splitting),RAG不可缺失的重要環(huán)節(jié)-AI.x社區(qū)

1. 文檔分塊的原因

拆分文檔有幾個原因:

  • 處理不均勻的文檔長度:現(xiàn)實世界的文檔集合通常包含不同大小的文本。拆分確保對所有文檔進行一致的處理。
  • 克服模型限制:許多嵌入模型和語言模型都有最大輸入大小限制。拆分允許我們處理那些否則會超出這些限制的文檔。
  • 提高表示質(zhì)量:對于較長的文檔,嵌入或其他表示形式的質(zhì)量可能會隨著過多信息而降低。拆分可以導致每個部分更加集中和準確的表示。
  • 增強檢索精度:在信息檢索系統(tǒng)中,拆分可以提高搜索結(jié)果的粒度,從而允許查詢與相關文檔部分的更精確匹配。
  • 優(yōu)化計算資源:處理較小的文本塊可以更加節(jié)省內(nèi)存,并允許更好的并行處理任務。

2. 文檔分塊的基本思路

最基本的分塊方法是根據(jù)文檔的長度進行拆分。這種簡單而有效的方法確保每個塊不會超過指定的大小限制。

基于長度拆分的主要好處:簡單明了的實現(xiàn)、一致的塊大小、易于適應不同模型的要求。缺點就是: 過于死板,忽視文本結(jié)構(gòu)。

2.1 基于長度的分塊類型:

  • 基于token的:根據(jù)token數(shù)量分割文本,這在使用語言模型時非常有用。
  • 基于字符的:根據(jù)字符數(shù)量分割文本,這在不同類型的文本中可能更為一致。

2.2 代碼實現(xiàn)

基于字符的拆分為例來了解分塊的基本思路:

需要了解的概念

  • 塊大小(Chunk Size)- 每個數(shù)據(jù)塊包含的字符數(shù),比如 50、100、100,000 等。
  • 塊重疊(Chunk Overlap)- 相鄰數(shù)據(jù)塊之間重疊的字符數(shù)量。這樣做是為了避免將一個完整語境拆成幾部分,但會導致各塊之間出現(xiàn)重復數(shù)據(jù)。

使用LangChain創(chuàng)建 CharacterTextSplitter 實例,設置三個關鍵參數(shù):

  • chunk_size=15 :每個分割塊的最大字符數(shù)為15
  • chunk_overlap=5 :相鄰塊之間重疊的字符數(shù)為5,這有助于保持上下文連貫性
  • separator='' :使用空字符串作為分隔符,意味著將按照純字符數(shù)量進行分割,而不是按照特定分隔符(如句號、空格等)

from langchain.text_splitter import CharacterTextSplitter

text = "青云山連綿百里,峰巒起伏,最高有七峰,高聳入云,平日里只見白云環(huán)繞山腰,不識山頂真容。青云山山林密布,飛瀑奇巖,珍禽異獸,在所多有,景色幽險奇峻,天下聞名。"

text_splitter = CharacterTextSplitter(chunk_size=15, chunk_overlap=5, separator='')
docs = text_splitter.create_documents([text])

for doc in docs:
    print('-' * 50)
    print(doc)

2.2 拆分結(jié)果

根據(jù)設置的參數(shù)(chunk_size=15和chunk_overlap=5),文本被分成了8個片段,每個片段大約包含15個字符(包括標點符號),相鄰片段之間有5個字符的重疊,這確保了文本的連貫性。

例如:"起伏,最高"這部分內(nèi)容在第一段末尾和第二段開頭都出現(xiàn),這就是重疊的效果

分割后的每個片段都保持了基本的可讀性,雖然有些句子被切分開了。

最后一個片段"奇峻,天下聞名。"因為是文本末尾,所以長度較短,不足15個字符

--------------------------------------------------
page_cnotallow='青云山連綿百里,峰巒起伏,最高'
--------------------------------------------------
page_cnotallow='起伏,最高有七峰,高聳入云,平'
--------------------------------------------------
page_cnotallow='聳入云,平日里只見白云環(huán)繞山腰'
--------------------------------------------------
page_cnotallow='云環(huán)繞山腰,不識山頂真容。青云'
--------------------------------------------------
page_cnotallow='真容。青云山山林密布,飛瀑奇巖'
--------------------------------------------------
page_cnotallow=',飛瀑奇巖,珍禽異獸,在所多有'
--------------------------------------------------
page_cnotallow=',在所多有,景色幽險奇峻,天下'
--------------------------------------------------
page_cnotallow='奇峻,天下聞名。'

3. 圖形化顯示分塊

通過www.chunkviz.com可以以圖形化的方式看到分塊結(jié)果。

文本分塊(Text Splitting),RAG不可缺失的重要環(huán)節(jié)-AI.x社區(qū)

總結(jié)

文本分塊雖然看起來只是把文本切成小段,但它在大語言模型的應用中扮演著非常重要的角色。

它不僅解決了模型上下文長度的限制問題,還直接影響了后續(xù)任務的效果,比如 embedding 的精度、搜索的相關性、問答的準確性等等。

切分策略得當,不僅能提升模型的理解力,還能讓整個系統(tǒng)運行得更高效、更智能。所以在設計 LLM 應用時,文本分塊絕對不是一個可以忽略的細節(jié),而是值得精心打磨的核心組件之一。

本文轉(zhuǎn)載自??AI取經(jīng)路??,作者:AI取經(jīng)路

已于2025-5-23 10:47:16修改
收藏
回復
舉報
回復
相關推薦
av在线免费网站| 日韩欧美亚洲一区二区三区| xxxxxx欧美| 久久久久久久免费视频了| 欧美在线观看网址综合| 欧美图片第一页| 日韩毛片在线| 亚洲欧美韩国综合色| 翡翠波斯猫1977年美国| 妺妺窝人体色www在线下载| 久9re热视频这里只有精品| 亚洲自拍偷拍av| 国产高清不卡av| 一级一片免费看| 婷婷亚洲最大| 亚洲国产毛片完整版| 91蝌蚪视频在线观看| 99自拍视频在线观看| 99久久精品国产麻豆演员表| 国产精品高潮在线| 免费在线视频观看| 国产一区二区三区四区五区传媒 | 一二三四中文字幕| 五月婷婷伊人网| 久久免费国产| 美女精品视频一区| 一级黄色片大全| 91九色鹿精品国产综合久久香蕉| 精品国产999| 一区二区免费在线观看| 亚洲精品国产精品乱码不卡| 日本欧美韩国一区三区| 欧美丰满片xxx777| 欧美人与性囗牲恔配| 一区二区免费| 欧美老人xxxx18| 欧美精品第三页| 亚洲小说区图片| 中文一区在线播放| 亚洲一区二区三| 伦av综合一区| 亚洲激情专区| 久久成人人人人精品欧| 日本乱子伦xxxx| 激情亚洲另类图片区小说区| 制服丝袜国产精品| 免费看国产黄色片| 中文在线аv在线| 亚洲自拍另类综合| 精品国产三级a∨在线| 国产在线观看网站| 久久人人97超碰com| 国产精品二区二区三区| 中文字幕无线码一区| 性欧美videos另类喷潮| 久久免费视频网| 国产免费无码一区二区视频| 色综合天天综合网中文字幕| 亚洲欧美另类自拍| 人体私拍套图hdxxxx| 国产成人精品亚洲线观看| 91精品国产综合久久蜜臀| 色悠悠久久综合网| av亚洲一区二区三区| 大桥未久av一区二区三区| 日本熟妇人妻xxxx| 日本在线视频中文有码| 一区二区三区色| 久久久久久久9| 麻豆av在线免费观看| 一区二区三区免费观看| 日韩精品一区二区三区电影| 污视频在线免费观看网站| 亚洲国产欧美在线| 欧美日韩在线视频一区二区三区| 另类图片综合电影| 欧美日韩不卡一区| 国产裸体视频网站| 欧美精品国产白浆久久久久| 国产一区二区三区在线免费观看| 天堂а√在线中文在线鲁大师| 99视频精品全国免费| 久久偷看各类女兵18女厕嘘嘘| 看免费黄色录像| 欧美日韩一视频区二区| 欧美黑人一级爽快片淫片高清| 欧美黄色一区二区三区| 最新亚洲视频| 日本不卡高字幕在线2019| 波多野结衣在线观看视频| 久久久久久色| 国产在线观看精品| 成人激情四射网| 91在线视频18| 日韩影视精品| 黄网页免费在线观看| 亚洲成人激情自拍| 农村妇女精品一二区| 福利视频一区| 欧美tk丨vk视频| 干b视频在线观看| 欧美xxxx中国| 欧美激情精品久久久久久大尺度 | 麻豆国产在线播放| 国产精品久久久久久久久搜平片| 亚洲美女自拍偷拍| 9lporm自拍视频区在线| 色天天综合色天天久久| 天天看片天天操| 伊人www22综合色| 亚洲视频axxx| 久久久久久久福利| 三级精品在线观看| 成人免费视频视频在| 黄色在线网站| 一区二区三区在线观看网站| 成人免费毛片播放| jazzjazz国产精品麻豆| 在线看国产精品| 麻豆一区二区三区精品视频| 亚洲理伦在线| 91沈先生在线观看| 男女视频在线观看| 夜夜嗨av一区二区三区中文字幕 | 蜜臀久久99精品久久久画质超高清 | 97caopor国产在线视频| 日本韩国欧美一区二区三区| 午夜影院免费版| 国产探花一区| 国模精品视频一区二区| 日本妇乱大交xxxxx| 粉嫩av一区二区三区在线播放 | 日本黄色www| 日韩一级电影| 九九精品视频在线| 亚洲图片在线播放| 久久精品视频一区二区| 99在线免费视频观看| 国产精品高清一区二区| 在线精品91av| 国产精品乱码一区二区视频| 成人av在线影院| 国产又粗又长又爽视频| 三级成人黄色影院| 亚洲国产精品字幕| 国产一级做a爰片在线看免费| 看电视剧不卡顿的网站| 欧美在线一区二区三区四区| 国内激情视频在线观看| 精品国产99国产精品| 亚洲国产123| 欧美专区18| 蜜桃999成人看片在线观看| 国产第一页在线视频| 日韩一区二区三区免费观看| 免费黄色激情视频| 蜜桃传媒麻豆第一区在线观看| 久久综合九色综合久99| 欧美激情网站| 精品国产免费一区二区三区四区| 免费在线黄色网| 国模一区二区三区白浆| 艳母动漫在线免费观看| 99精品视频在线免费播放| y97精品国产97久久久久久| 一级片免费网站| 中文字幕一区二区三区乱码在线| 黄色三级视频在线| 欧美第一精品| 91久久精品国产91久久| caopon在线免费视频| 日韩三级在线观看| 国产一级视频在线播放| 99国产一区二区三精品乱码| 水蜜桃色314在线观看| 欧美丝袜足交| 日韩免费黄色av| av片在线看| 91精品国产综合久久小美女| 欧美成人精品一区二区免费看片 | 91精品人妻一区二区三区四区| 欧美日韩国产色综合一二三四| 91亚洲国产成人精品性色| 免费不卡av| 精品一区二区电影| 中文字幕欧美色图| 国产欧美日韩久久| 夜夜夜夜夜夜操| 激情视频一区| 欧美精品久久久| 四虎国产精品免费久久| 久久精品福利视频| 亚洲精品视频专区| 日韩欧美aaa| 四虎永久免费地址| 波多野洁衣一区| www.日日操| 一精品久久久| 国产精品乱码视频| 成人一级福利| 在线午夜精品自拍| 亚洲av无码乱码在线观看性色 | 久久男人资源站| 韩国女主播一区二区三区| 日本精品视频在线播放| 粗大黑人巨茎大战欧美成人| 亚洲电影第1页| 国产三级理论片| 一个色在线综合| 成人无码www在线看免费| 老司机免费视频一区二区 | 69精品无码成人久久久久久| 国产乱子伦视频一区二区三区| 久久久久久久久久久福利| 欧美禁忌电影| 97netav| h1515四虎成人| 欧美—级高清免费播放| 午夜在线观看视频| 精品视频在线播放免| 国产黄色片网站| 欧美视频一区在线| 日韩少妇裸体做爰视频| 国产精品传媒入口麻豆| 精品人妻一区二区三区视频| 加勒比av一区二区| 成人小视频在线看| 雨宫琴音一区二区在线| 日韩中文字幕一区二区| 超碰精品在线观看| 成人激情在线观看| 另类激情视频| 97视频网站入口| 在线视频国产区| 一区二区三区回区在观看免费视频| 一级全黄裸体免费视频| 色综合久久久久综合体桃花网| 玖玖爱这里只有精品| 国产精品久久久一区麻豆最新章节| 喷水视频在线观看| 国产成人av电影| 久久人人爽人人片| 蜜桃av一区二区三区| 任你操这里只有精品| 亚洲看片一区| 国产freexxxx性播放麻豆| 国内综合精品午夜久久资源| 日本一区免费| 国产欧美一区二区精品久久久| 精品伦精品一区二区三区视频| 亚洲综合影院| 成人18视频| 日韩一区免费| 不卡视频一区二区三区| 日本一区二区乱| 91嫩草国产在线观看| 成人在线分类| 91丨九色丨国产| 久久亚洲精精品中文字幕| 亚洲xxxxx性| 免费成人毛片| 国产日韩欧美日韩大片| 欧美大片网站| 91免费的视频在线播放| 色婷婷成人网| 国产女精品视频网站免费| 欧美激情福利| 亚洲精品欧美日韩专区| 日本99精品| 国产视频一区二区三区四区| 激情av综合| 免费在线一区二区| 牛牛影视一区二区三区免费看| 国产一区二区免费在线观看| 欧美成人午夜77777| 久久一区二区三区av| 精品国产1区| 先锋影音亚洲资源| 四虎国产精品免费观看| 香蕉视频在线网址| 女人色偷偷aa久久天堂| 精品丰满人妻无套内射| 亚洲国产国产亚洲一二三| 欧美日韩第二页| 麻豆视频观看网址久久| 69久久精品无码一区二区| www.av精品| 精品夜夜澡人妻无码av| 欧美国产精品一区| 九九视频在线观看| 日韩欧美aaa| 中文在线免费观看| 欧美zozozo| 国产一二三在线观看| 少妇精69xxtheporn| 人妖欧美1区| 国产91在线高潮白浆在线观看| 欧美日韩尤物久久| 99久久精品免费看国产一区二区三区 | 宅男66日本亚洲欧美视频| 免费在线看黄网站| 69视频在线免费观看| 成人免费福利| 懂色一区二区三区av片| 欧洲三级视频| 免费看欧美一级片| 青青草精品视频| 欧美日韩一区二区区别是什么 | 国产综合色香蕉精品| 97久久综合区小说区图片区| 日本精品二区| 欧美三级特黄| 噼里啪啦国语在线观看免费版高清版| 国产一区二区中文字幕| 女女互磨互喷水高潮les呻吟| 亚洲成人免费av| 精品国产亚洲av麻豆| 日韩在线免费视频观看| 日本综合字幕| 久久综合久久综合这里只有精品| 国产主播一区| 爱情岛论坛亚洲自拍| 亚洲欧洲av在线| 在线免费观看中文字幕| 亚洲一区www| 欧美大片高清| 欧美日韩免费精品| 巨乳诱惑日韩免费av| 久久精品老司机| 天天综合天天综合色| 成人av一区二区三区在线观看| 久久精品精品电影网| 96视频在线观看欧美| 一区二区三区四区五区精品| 日韩av不卡在线观看| 精品成人无码一区二区三区| 日本久久一区二区三区| 欧美3p视频在线观看| 青青草原成人在线视频| 亚洲系列另类av| 国产一区亚洲二区三区| 久久综合久久久久88| 中文字幕精品视频在线观看| 亚洲视频一区二区| 国产成人免费| 青春草在线视频免费观看| 国产在线国偷精品免费看| 搜索黄色一级片| 日韩欧美一区电影| 国产蜜臀一区二区打屁股调教| 国产高清一区二区三区| 亚洲巨乳在线| 亚洲做受高潮无遮挡| 91久久精品一区二区三区| 成人性爱视频在线观看| 国产日韩欧美在线视频观看| 68国产成人综合久久精品| 肉丝美足丝袜一区二区三区四| 亚洲在线一区二区三区| 污污视频在线观看网站| 国产精品av免费在线观看| 日韩在线理论| 波多野结衣中文字幕在线播放| 亚洲一区二区四区蜜桃| 五月激情婷婷网| 国产精品91视频| 亚洲激情五月| 熟女人妻在线视频| 在线观看免费一区| 菠萝菠萝蜜在线视频免费观看| 国产精品乱子乱xxxx| 日韩精品一二三区| 成年人一级黄色片| 亚洲国产精品高清久久久| 午夜无码国产理论在线| 中文字幕在线中文| 久久婷婷综合激情| 国产免费黄色网址| 浅井舞香一区二区| 999精品在线| 一本色道综合久久欧美日韩精品| 欧美视频中文字幕| 欧美人与牲禽动交com| 欧洲精品久久| 国产成人日日夜夜| 樱花视频在线免费观看| 欧美成aaa人片免费看| 日韩激情啪啪| 香蕉视频色在线观看| 欧美日韩国产激情| 欧美精品日韩少妇| 玛丽玛丽电影原版免费观看1977| 狠狠色丁香久久婷婷综| 全部毛片永久免费看| 久久在线免费视频| 竹菊久久久久久久| 欧美久久久久久久久久久| 欧美日韩国产影片| 国偷自产一区二区免费视频| 国产青草视频在线观看|