精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

系統梳理 RAG 系統的 21 種分塊策略

人工智能
毋庸置疑,RAG 系統中存在許多復雜的組件,但真正默默決定整個系統是否能正常運行的關鍵因素其實是分塊(chunking)。不同的數據類型、文件格式、內容結構、文檔長度和使用場景,都需要匹配不同的分塊策略。

檢索增強生成(RAG)是許多 AI 工程師又愛又恨的技術(包括我)。

沒錯,因為從理論上看,它簡單極了:“從你的定制數據中檢索正確的上下文,然后讓大語言模型基于此生成回答”。

但在實踐中,你不得不面對海量雜亂無章的數據 —— 這些數據以你見過的最混亂隨機的格式存儲,接著就是數日絞盡腦汁的試錯:

  • 調整文本塊(tweaking chunks)
  • 切換嵌入模型(switching embedding models)
  • 替換檢索器(swapping out retrievers)
  • 微調排序器(fine-tuning rankers)
  • 重寫提示詞(rewriting prompts)

而模型依然回復:“我找不到足夠的信息來回答你的問題”。

更糟糕的是,它還會一本正經地輸出完全錯誤的答案(產生幻覺)。

毋庸置疑,RAG 系統中存在許多復雜的組件,但真正默默決定整個系統是否能正常運行的關鍵因素其實是分塊(chunking)。

不同的數據類型、文件格式、內容結構、文檔長度和使用場景,都需要匹配不同的分塊策略。

一旦出錯,你的模型要么抓不住重點,要么... 好吧,還是抓不住重點。

本文將解析 21 種分塊策略(從基礎到進階),并說明何時該用何種策略,讓你的 RAG 系統不再...掉鏈子。

1.基礎分塊法(按換行符分割)Naive chunking (split by newline)

遇到換行符就分割文本。僅此而已。

基礎分塊法示例 | 此圖片由原文作者制作基礎分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 處理由換行符統一分隔的文本:筆記、項目列表、FAQ、聊天記錄或每一行都包含完整語義的文字轉錄稿。

注意:如果內容行過長,可能超出 LLM 的詞元限制。如果內容行過短,模型可能遺漏上下文或產生幻覺。

2.定長分塊法 Fixed-size/ fixed window chunking

按固定字符數/單詞數切割文本(即便這樣會切斷完整句子或語義單元)。

image.pngimage.png

定長分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 適用于原始的、雜亂的文本數據,如掃描文檔、質量較差的轉錄文本,或無標點、無標題、無其他結構的大型文本文件。

3.滑動窗口分塊法 Sliding window chunking

類似定長分塊,但每個文本塊會與前塊內容重疊,以保持跨塊上下文之間的關聯。

滑動窗口分塊法示例 | 此圖片由原文作者制作滑動窗口分塊法示例 | 此圖片由原文作者制作

適用場景:  

  • 處理需要保持長句間邏輯連貫性的文本類型:議論文、敘述性報告、自由形式的寫作等。
  • 與定長分塊法類似,適用于無結構的文本(無標題、無標點、無框架等),但需注意詞元消耗與上下文連貫性間的平衡。

4.按句分塊法 Sentence-based chunking

在句子結尾處分割文本(通常以句號、問號或感嘆號為標記)。

按句分塊法示例 | 此圖片由原文作者制作按句分塊法示例 | 此圖片由原文作者制作

適用場景:  

  • 適用于語義清晰的規整文本,每句話都承載著完整的語義,如技術博客、內容摘要或文檔。
  • 可作為初級的分塊手段產出小而聚焦的文本塊,便于后續通過更復雜的分塊技術重新組合或重排序這些文本塊。

5.按段分塊法 Paragraph-based chunking

依據段落分割文本(通常以雙換行符為界),使每塊均包含完整的語義單元。

按段分塊法示例 | 此圖片由原文作者制作

適用場景:  

  • 當按句分塊所得內容過于零碎時  
  • 處理已具備段落結構的文檔,如議論文、博客文章或研究報告

6.按頁分塊法 Page-based chunking

將每個物理頁面視為一個獨立文本塊。

按頁分塊法示例 | 此圖片由原文作者制作按頁分塊法示例 | 此圖片由原文作者制作

適用場景:  

  • 處理含固定頁面的文檔,如掃描版 PDF、演示文稿或書籍。
  • 需保留頁面布局的檢索場景(如在檢索時需要引用頁碼)。
7.按預定結構分塊法 Structured chunking

依據預定結構(如具有固定格式的系統日志記錄、結構化數據中的預定義字段、HTML 標簽或 Markdown 元素)分割文本。

按預定結構分塊法示例 | 此圖片由原文作者制作按預定結構分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 處理結構化/半結構化數據,如系統日志、JSON 記錄、CSV 文件或 HTML 文檔。

8.基于文檔層級的分塊法 Document-Based Chunking

基于文檔固有結構分塊(按標題/小標題/章節劃分)。

基于文檔層級的分塊法示例 | 此圖片由原文作者制作基于文檔層級的分塊法示例 | 此圖片由原文作者制作


適用場景:  

  • 當源文件具備清晰的章節結構時,如在技術文章、操作手冊、教材或學術論文中。
  • 可作為進階分塊技術(如按層級分塊(hierarchical chunking))的預處理步驟。

9.基于關鍵詞的分塊法 Keyword-based chunking

在預設關鍵詞出現處分割文本,將其視為邏輯斷點。


基于關鍵詞的分塊法示例(關鍵詞為“Note”)| 此圖片由原文作者制作基于關鍵詞的分塊法示例(關鍵詞為“Note”)| 此圖片由原文作者制作


適用場景:  

  • 文檔無標題結構但含標志性的關鍵詞(且這些關鍵詞可穩定標記新主題的起始)時使用

10.基于實體的分塊法 Entity-based chunking

使用命名實體識別(NER)模型檢測人物、地點、產品等實體,將相關文本圍繞每個實體分組形成區塊。


基于實體的分塊法示例 | 此圖片由原文作者制作基于實體的分塊法示例 | 此圖片由原文作者制作

適用場景:  

  • 處理特定類型的實體(人物/地點/組織等)對文檔理解起決定性作用的文件,如新聞報道、法律合同、案例研究或電影劇本。

11.基于詞元數的分塊法 Token-based chunking

通過 tokenizer(分詞器)按詞元數量分割文本。

建議結合按句分塊法(sentence chunking)等技術使用,避免破壞句子完整性導致上下文被破壞。

適用場景:  

  • 無標題/無段落結構的非結構化文檔。
  • 使用低詞元限制的 LLM 時(避免響應被強制截斷或長文本輸入被丟棄)。

12.基于主題的分塊法 Topic-based chunking

當文本主題發生變化時,可以通過以下方式對文本進行分塊:

  • 首先,將文本拆分為小單元(句子/段落)
  • 然后,使用主題建模或聚類算法將相關單元合并為區塊

基于主題的分塊法示例(使用聚類算法) | 此圖片由原文作者制作基于主題的分塊法示例(使用聚類算法) | 此圖片由原文作者制作

適用場景:

  • 當文檔涵蓋多個主題,且需保持語義焦點時。
  • 適用于主題轉變較為平緩但未通過明確的標題或關鍵詞標注的文本。

13.表格感知分塊法 Table-aware chunking

獨立識別表格內容,并按 JSON 或 Markdown 格式分塊(可逐行/逐列/整表處理)。


表格感知分塊法示例 | 此圖片由原文作者制作表格感知分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 含表格元素的文檔。

14.內容感知分塊法 Content-aware chunking

根據內容類型動態調整分塊策略(為段落/表格/列表等內容適配不同規則)。

適用場景:  

  • 混合格式的文檔(含多種文本結構)。
  • 需保持原生格式完整性的場景(表格不分割/段落不截斷等)。

15.上下文增強分塊法 Contextual chunking

通過 LLM 實現:

  • 分析知識庫的部分或全部內容。
  • 在嵌入前為每個文本塊注入簡短且相關的上下文

上下文增強分塊法示例 | 此圖片由原文作者制作上下文增強分塊法示例 | 此圖片由原文作者制作

適用場景:  

  • 知識庫的全部內容或部分內容在 LLM 的詞元限額內。
  • 處理復雜文檔(如財報/合同等)。

16.語義分塊法 Semantic chunking

基于嵌入相似度聚合主題相關的句子/段落,保持語義聚焦性。

適用場景:  

  • 當按段分塊法或定長分塊法失效時  
  • 處理含混雜主題的長文檔。

17.遞歸分塊法 Recursive chunking

首先使用大粒度的分隔符(如段落)分割文本。

如果任何生成的分塊超過預設的分塊大小限制,對這些區塊遞歸使用小粒度分隔符(如句子或單詞)進行分割,直至所有分塊都符合所需大小。

適用場景:  

  • 處理句子長度不規則或不可預測的文本,如訪談記錄、演講內容、自由形式的寫作內容。

18.嵌入優先分塊法 Embedding chunking

常規流程是先分塊后嵌入,但此方法先將所有句子全部嵌入,再按順序逐一處理,若相鄰句的相似度高于設定閾值則合并為一組,低于閾值則進行拆分。 

適用場景:  

  • 無結構(無句子分隔/標題/章節符/標記等)的文檔
  • 當基礎技術(如滑動窗口分塊法)效果不佳時

19.基于大模型/智能體的分塊法 Agentic / LLM-based chunking

將分塊的決策權完全交由 LLM,由其自主決定文本的分割方式。

適用場景:  

  • 當內容復雜或結構不明確,需要類似人類的判斷力來確定分塊邊界時

注意:該方法計算成本較高。

20.分層分塊法 Hierarchical chunking

將文本按照多個層次(如章節、子章節、段落)進行分塊,以便用戶能夠以不同詳細程度檢索信息。

image.pngimage.png

適用場景:  

  • 具備清晰層次結構的文檔,如技術文章、手冊、教材、研究論文等
  • 希望用戶在不丟失上下文的情況下,同時探索整體概述和詳細信息。

21.多模態分塊法 Modality-Aware Chunking

針對不同內容類型(文本、圖像、表格)實施差異化的分塊策略。

多模態分塊法示例 | 此圖片由原文作者制作多模態分塊法示例 | 此圖片由原文作者制作

BONUS:混合分塊法 Hybrid chunking

融合多種分塊技術、啟發式規則、嵌入模型以及 LLM 來提升分塊過程的可靠性。

適用場景:  

  • 單一分塊方法效果不足時,需組合方案應對復雜的數據結構。
責任編輯:武曉燕 來源: Baihai IDP
相關推薦

2025-05-06 10:05:23

2025-01-23 08:00:00

2024-08-05 10:23:36

2025-11-04 04:15:00

RAG系統文本分塊

2025-03-10 03:25:00

2025-03-21 14:34:17

2025-05-14 01:40:00

RAG數據工具

2025-06-30 04:15:00

2025-04-02 04:00:00

RAG分塊優化

2025-10-30 00:00:00

2025-07-01 09:36:42

2024-09-10 08:26:40

2025-08-27 07:09:28

2021-10-26 16:49:34

系統性能定位

2025-07-04 09:02:48

2025-05-07 08:35:11

2025-03-11 08:00:00

LLM開發深度學習

2025-11-07 04:00:00

2011-03-23 10:58:52

2025-05-26 09:57:46

點贊
收藏

51CTO技術棧公眾號

国产成人亚洲精品青草天美| 精品视频久久| 亚洲一区二区影院| 久久riav二区三区| 黄色污污网站在线观看| 国产精品x453.com| 亚洲精品国产电影| 狠狠干狠狠操视频| jizzjizz中国精品麻豆| 亚洲国产精品av| 国产精品美女黄网| 亚洲一区二区视频在线播放| 亚洲日本欧美| 久久精品国亚洲| 精品人妻一区二区三区视频| 美女日韩一区| 日本二三区不卡| 91视频 - 88av| 免费av毛片在线看| 久久蜜桃香蕉精品一区二区三区| 91亚洲精品视频| 亚洲性猛交富婆| 99精品视频免费观看视频| 久久久极品av| 欧洲美熟女乱又伦| 日韩一级电影| 日韩欧美一二三| 最新免费av网址| 欧美影视资讯| 精品毛片网大全| 亚洲一区二区三区av无码| 日本福利在线| 国产三级精品视频| 久久99导航| 三级网站在线看| 高清日韩电视剧大全免费| 国产一区二区在线免费| 波多野结衣爱爱| 性欧美xxxx大乳国产app| 欧美精品久久一区二区 | 成人av免费在线播放| 亚洲bt天天射| 国产又黄又大又粗的视频| 日韩精品国产欧美| 日本一区二区在线免费播放| 在线观看精品国产| 在线观看日韩av电影| 欧美精品在线看| 午夜国产福利一区二区| 99久久影视| 久久国产一区二区三区| 日本在线观看网址| 久久一级电影| 日韩中文字幕在线免费观看| 国产精品嫩草影院俄罗斯| 婷婷丁香综合| 精品自拍视频在线观看| 免费视频一二三区| 影音国产精品| 久久男人av资源网站| 国产在线视频卡一卡二| 国产亚洲网站| 欧洲成人在线观看| 中国黄色一级视频| 狠狠色2019综合网| 91在线观看免费高清| 国产不卡精品视频| 成人精品视频一区二区三区| 韩国成人av| 久草在线网址| 国产精品成人一区二区三区夜夜夜| 一区二区三区四区国产| 国产高清一区二区三区视频| 一区二区在线观看视频| 免费看又黄又无码的网站| 免费观看一级欧美片| 日本精品视频一区二区| 国产一级片自拍| 日本一区二区乱| 日韩高清a**址| 我想看黄色大片| 午夜国产欧美理论在线播放| 韩日精品中文字幕| 69xxxx国产| 久久99精品久久久久久动态图| 成人欧美一区二区三区视频xxx| 三级小视频在线观看| 亚洲国产岛国毛片在线| 日韩一级免费看| 日韩pacopacomama| 欧美一区二区在线免费观看| 国产精品一区二区入口九绯色| 日韩精品一卡| 午夜精品国产精品大乳美女| 艳妇乳肉豪妇荡乳av无码福利| 国产精品一区在线观看你懂的| 精品乱码一区| 精精国产xxxx视频在线| 欧美性猛交xxxx富婆弯腰| 狠狠躁狠狠躁视频专区| 另类尿喷潮videofree| 视频一区视频二区国产精品| 久久精品99国产精| 奇米色一区二区| 精品一区日韩成人| 国产网友自拍视频导航网站在线观看| 狠狠色噜噜狠狠狠狠97| 在线a免费观看| 国产成人3p视频免费观看| 久久91精品国产91久久跳| 亚洲天堂视频在线播放| 成人h动漫精品一区二| 亚洲视频小说| 亚洲精品**中文毛片| 欧美不卡在线视频| 最新黄色av网址| 久久资源在线| 久久国产精品亚洲va麻豆| www.久久ai| 欧美三级韩国三级日本三斤| 精品黑人一区二区三区观看时间| 午夜精彩国产免费不卡不顿大片| 国产精品久久精品| 美丽的姑娘在线观看免费动漫| 亚洲午夜精品17c| 91pony九色| 欧美日韩一区二区三区视频播放| 18久久久久久| 色哟哟国产精品色哟哟| 亚洲综合精品久久| 日本高清一区二区视频| 超碰成人久久| 国产精品久久久久久久久久99| 亚洲欧洲综合在线| 精品国产91久久久| 999精品免费视频| 精品91在线| 不卡视频一区二区| 色呦呦视频在线观看| 欧美老年两性高潮| 亚洲 欧美 变态 另类 综合| 美女精品自拍一二三四| 亚洲高清在线观看一区| 99riav视频一区二区| 在线观看视频99| 国产日韩在线免费观看| 中文字幕免费一区| gogogo高清免费观看在线视频| 日韩精品第一区| 国产一区欧美二区三区| 成人免费视屏| 精品国产伦一区二区三区观看体验 | 无罩大乳的熟妇正在播放| 国产精东传媒成人av电影| 国内精品久久久久久| 天堂在线资源库| 欧美日韩亚洲高清| b站大片免费直播| 日韩成人精品在线| 三年中文高清在线观看第6集| 亚洲男人在线| 欧美激情欧美激情在线五月| 欧美一区二区三区激情| 色综合婷婷久久| 国产123在线| 国产毛片精品视频| 三上悠亚久久精品| 久久91成人| 91免费看片在线| 美足av综合网| 亚洲免费影视第一页| 做爰视频毛片视频| 一区二区成人在线观看| 精品人妻无码一区二区三区| 青青青伊人色综合久久| 老司机午夜免费福利视频| 久久a级毛片毛片免费观看| 国产成人精品久久二区二区| 最新国产在线观看| 精品伦理精品一区| 国产寡妇亲子伦一区二区三区四区| 国产精品无码永久免费888| 在线a免费观看| 亚洲女人av| 久久久成人精品一区二区三区| 激情视频极品美女日韩| 国产精品扒开腿做爽爽爽视频| 黄色网页在线播放| 日韩av在线资源| 夜夜躁狠狠躁日日躁av| 五月天视频一区| 亚洲波多野结衣| 99r精品视频| 天天久久综合网| 蜜乳av另类精品一区二区| 亚洲av首页在线| 经典一区二区| 国产精品一区二区a| 亚洲成人av观看| 午夜精品久久17c| 日本蜜桃在线观看| 亚洲色图50p| 欧美 日韩 国产 在线| 欧美日韩aaaaa| 国产精品人人人人| 亚洲一区自拍偷拍| 一级二级黄色片| 久久综合成人精品亚洲另类欧美 | 91极品女神在线| 国产在线高潮| 色诱女教师一区二区三区| 日本一区高清| 亚洲电影中文字幕| aaa一区二区| 欧美三区在线视频| 亚洲第一在线播放| 亚洲已满18点击进入久久| 国产午夜精品福利视频| xnxx国产精品| 日韩av无码一区二区三区不卡| 韩国午夜理伦三级不卡影院| 国产熟人av一二三区| 在线一区欧美| 免费看毛片的网址| 欧美日韩网站| 好色先生视频污| 欧美黄色录像片| 婷婷四房综合激情五月| 九九综合久久| 欧美性天天影院| 夜色77av精品影院| 看高清中日韩色视频| 欧美人成在线观看ccc36| 国产一区二区视频在线免费观看 | 韩国主播福利视频一区二区三区| 欧美激情视频在线观看| 97影院秋霞午夜在线观看| 日韩在线高清视频| 欧美成人视屏| 久久久999国产精品| 精品国产丝袜高跟鞋| 久久中文字幕一区| a毛片在线看免费观看| 欧美刺激性大交免费视频| 成人黄色在线电影| 九九热最新视频//这里只有精品 | 天堂影院在线| 亚洲第一页在线| 日本毛片在线观看| 亚洲精品720p| 日本福利片高清在线观看| 亚洲精品小视频| 高清美女视频一区| 中文字幕自拍vr一区二区三区| 国产高清av在线| 中文字幕亚洲一区在线观看 | 精品国产一区二区三区久久久樱花 | 香蕉视频官网在线观看日本一区二区| 亚洲最大色综合成人av| 久久精品亚洲欧美日韩精品中文字幕| 五月天在线免费视频| 欧美精品一级| 欧美网站免费观看| 免费在线观看视频一区| 中文字幕成人免费视频| 国产98色在线|日韩| 国产激情视频网站| 久久久久久久久久电影| 黄色激情小视频| 亚洲综合在线免费观看| 九一国产在线观看| 精品视频在线免费看| 99久久久国产精品无码网爆| 欧美tk—视频vk| 欧美xxx.com| 久久手机免费视频| 国产白浆在线免费观看| 国产精品成人一区二区| 疯狂欧洲av久久成人av电影| 国产伦精品一区二区三区照片| 亚洲国产网址| 色哺乳xxxxhd奶水米仓惠香| 亚洲欧洲一区| 中文字幕免费高清在线| 成人免费福利片| 中文字幕第二区| 亚洲国产一二三| 中文字幕欧美在线观看| 精品久久久久久最新网址| 免费在线性爱视频| 欧美大片在线看免费观看| 欧美xo影院| 国产精品v欧美精品v日韩| 欧美最新另类人妖| 精品无码国模私拍视频| 看电视剧不卡顿的网站| 亚州av综合色区无码一区| 中文字幕一区视频| 成年免费在线观看| 日韩一区二区三区四区五区六区| 欧美成人片在线| 国外色69视频在线观看| 成人污污www网站免费丝瓜| 亚洲国产一区二区在线播放| 国产精品久久久久久在线观看| 国产三级精品视频| 日韩av在线播| 欧美一区二区在线看| 黄色毛片在线观看| 高清欧美电影在线| 精品国产一区二区三区性色av| 欧美日韩亚洲综合一区二区三区激情在线 | 午夜精品区一区二区三| 亚洲精品国产日韩| a级大片免费看| 国产精品久久久久久久岛一牛影视 | 久久一区二区三区电影| 久久久久久香蕉| 久久这里都是精品| 免费又黄又爽又色的视频| 欧美日韩久久久久久| 国产人成在线观看| 青青草国产精品一区二区| 久久影院资源站| 国产 日韩 亚洲 欧美| 成人性生交大合| 性色av无码久久一区二区三区| 欧美视频一区二区三区| 免费福利在线视频| 欧美一区在线直播| 日韩电影不卡一区| 欧美 日韩 国产 高清| 福利91精品一区二区三区| 极品盗摄国产盗摄合集| 欧美精品丝袜中出| 香蕉视频免费在线播放| 国产免费成人av| 欧美韩日高清| 亚洲精品mv在线观看| 中文字幕一区二区三区四区不卡| 中文字幕日韩经典| 最近的2019中文字幕免费一页| 黄色精品视频| 先锋影音一区二区三区| 欧美aⅴ一区二区三区视频| eeuss中文字幕| 欧美喷水一区二区| 国产理论在线观看| 91传媒视频在线观看| 欧美另类专区| 国产精品扒开腿做爽爽爽a片唱戏| 亚洲一区二区三区不卡国产欧美| 亚洲av无码国产精品久久不卡 | 亚洲黄色一区二区| 日韩国产高清视频在线| 欧美电影免费观看高清完整| 日本福利一区二区三区| 秋霞午夜av一区二区三区| 大吊一区二区三区| 日韩一级高清毛片| segui88久久综合9999| 欧美激情专区| 久久99国产乱子伦精品免费| 男女做暖暖视频| 亚洲福利在线视频| 校园春色亚洲色图| 一区二区三区四区视频在线观看| 国产精久久久| 国产99视频在线观看| 四虎8848精品成人免费网站| 蜜桃福利午夜精品一区| 亚洲电影第三页| 国产精品四虎| 成人性生交大片免费看视频直播| 国产精品av一区二区| 波多野结衣办公室33分钟| 欧美日韩免费观看一区二区三区| 国产福利视频在线| 久久久久久久久一区| 麻豆精品一区二区av白丝在线| 杨钰莹一级淫片aaaaaa播放| 亚洲精品97久久| 亚洲精品第一| 丁香花在线影院观看在线播放| 久久九九久久九九| 国产熟女精品视频| 日本在线观看天堂男亚洲| 天天影视欧美综合在线观看| 黄色在线免费播放| 欧美日韩精品一区视频| 成人黄色动漫| 中文字幕欧美人与畜| 97精品久久久久中文字幕| 在线观看免费视频一区| 97精品国产97久久久久久| 91精品国产91久久久久久密臀 | 午夜精品久久久久久久99老熟妇| 欧美在线日韩在线| 欧美精品播放| 手机免费观看av|