精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

系統梳理 RAG 系統的 21 種分塊策略 原創 精華

發布于 2025-9-3 10:02
瀏覽
0收藏

編者按: 我們今天為大家帶來的文章,作者的觀點是:分塊(chunking)才是決定 RAG 系統成敗的真正關鍵因素,不同場景需要匹配相應的分塊策略。

本文系統梳理了從基礎到進階的 21 種分塊策略,涵蓋了基礎分塊法、定長分塊法、滑動窗口分塊等傳統方法,以及語義分塊、上下文增強分塊、多模態分塊等前沿技術。

作者 | Anjolaoluwa Ajayi

編譯 | 岳揚

檢索增強生成(RAG)是許多 AI 工程師又愛又恨的技術(包括我)。

沒錯,因為從理論上看,它簡單極了:“從你的定制數據中檢索正確的上下文,然后讓大語言模型基于此生成回答”。

但在實踐中,你不得不面對海量雜亂無章的數據 —— 這些數據以你見過的最混亂隨機的格式存儲,接著就是數日絞盡腦汁的試錯:

  • 調整文本塊(tweaking chunks)
  • 切換嵌入模型(switching embedding models)
  • 替換檢索器(swapping out retrievers)
  • 微調排序器(fine-tuning rankers)
  • 重寫提示詞(rewriting prompts)

而模型依然回復:“我找不到足夠的信息來回答你的問題”。

更糟糕的是,它還會一本正經地輸出完全錯誤的答案(產生幻覺)。

毋庸置疑,RAG 系統中存在許多復雜的組件,但真正默默決定整個系統是否能正常運行的關鍵因素其實是分塊(chunking)。

不同的數據類型、文件格式、內容結構、文檔長度和使用場景,都需要匹配不同的分塊策略。

一旦出錯,你的模型要么抓不住重點,要么... 好吧,還是抓不住重點。

本文將解析 21 種分塊策略(從基礎到進階),并說明何時該用何種策略,讓你的 RAG 系統不再...掉鏈子。

1)基礎分塊法(按換行符分割)Naive chunking (split by newline)

遇到換行符就分割文本。僅此而已。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

基礎分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 處理由換行符統一分隔的文本:筆記、項目列表、FAQ、聊天記錄或每一行都包含完整語義的文字轉錄稿。

注意:如果內容行過長,可能超出 LLM 的詞元限制。如果內容行過短,模型可能遺漏上下文或產生幻覺。

2)定長分塊法 Fixed-size/ fixed window chunking

按固定字符數/單詞數切割文本(即便這樣會切斷完整句子或語義單元)。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

定長分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 適用于原始的、雜亂的文本數據,如掃描文檔、質量較差的轉錄文本,或無標點、無標題、無其他結構的大型文本文件。

3)滑動窗口分塊法 Sliding window chunking

類似定長分塊,但每個文本塊會與前塊內容重疊,以保持跨塊上下文之間的關聯。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

滑動窗口分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 處理需要保持長句間邏輯連貫性的文本類型:議論文、敘述性報告、自由形式的寫作等。
  • 與定長分塊法類似,適用于無結構的文本(無標題、無標點、無框架等),但需注意詞元消耗與上下文連貫性間的平衡。

4)按句分塊法 Sentence-based chunking

在句子結尾處分割文本(通常以句號、問號或感嘆號為標記)。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

按句分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 適用于語義清晰的規整文本,每句話都承載著完整的語義,如技術博客、內容摘要或文檔。
  • 可作為初級的分塊手段產出小而聚焦的文本塊,便于后續通過更復雜的分塊技術重新組合或重排序這些文本塊。

5)按段分塊法 Paragraph-based chunking

依據段落分割文本(通常以雙換行符為界),使每塊均包含完整的語義單元。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

按段分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 當按句分塊所得內容過于零碎時
  • 處理已具備段落結構的文檔,如議論文、博客文章或研究報告

6)按頁分塊法 Page-based chunking

將每個物理頁面視為一個獨立文本塊。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

按頁分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 處理含固定頁面的文檔,如掃描版 PDF、演示文稿或書籍。
  • 需保留頁面布局的檢索場景(如在檢索時需要引用頁碼)。

7)按預定結構分塊法 Structured chunking

依據預定結構(如具有固定格式的系統日志記錄、結構化數據中的預定義字段、HTML 標簽或 Markdown 元素)分割文本。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

按預定結構分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 處理結構化/半結構化數據,如系統日志、JSON 記錄、CSV 文件或 HTML 文檔。

8)基于文檔層級的分塊法 Document-Based Chunking

基于文檔固有結構分塊(按標題/小標題/章節劃分)。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

基于文檔層級的分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 當源文件具備清晰的章節結構時,如在技術文章、操作手冊、教材或學術論文中。
  • 可作為進階分塊技術(如按層級分塊(hierarchical chunking))的預處理步驟。

9)基于關鍵詞的分塊法 Keyword-based chunking

在預設關鍵詞出現處分割文本,將其視為邏輯斷點。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

基于關鍵詞的分塊法示例(關鍵詞為“Note”)| 此圖片由原文作者制作

適用場景:

  • 文檔無標題結構但含標志性的關鍵詞(且這些關鍵詞可穩定標記新主題的起始)時使用

10)基于實體的分塊法 Entity-based chunking

使用命名實體識別(NER)模型檢測人物、地點、產品等實體,將相關文本圍繞每個實體分組形成區塊。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

基于實體的分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 處理特定類型的實體(人物/地點/組織等)對文檔理解起決定性作用的文件,如新聞報道、法律合同、案例研究或電影劇本。

11)基于詞元數的分塊法 Token-based chunking

通過 tokenizer(分詞器)按詞元數量分割文本。

建議結合按句分塊法(sentence chunking)等技術使用,避免破壞句子完整性導致上下文被破壞。

適用場景:

  • 無標題/無段落結構的非結構化文檔。
  • 使用低詞元限制的 LLM 時(避免響應被強制截斷或長文本輸入被丟棄)。

12)基于主題的分塊法 Topic-based chunking

當文本主題發生變化時,可以通過以下方式對文本進行分塊:

  • 首先,將文本拆分為小單元(句子/段落)
  • 然后,使用主題建模或聚類算法將相關單元合并為區塊

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

基于主題的分塊法示例(使用聚類算法) | 此圖片由原文作者制作

適用場景:

  • 當文檔涵蓋多個主題,且需保持語義焦點時。
  • 適用于主題轉變較為平緩但未通過明確的標題或關鍵詞標注的文本。

13)表格感知分塊法 Table-aware chunking

獨立識別表格內容,并按 JSON 或 Markdown 格式分塊(可逐行/逐列/整表處理)。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

表格感知分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 含表格元素的文檔。

14)內容感知分塊法 Content-aware chunking

根據內容類型動態調整分塊策略(為段落/表格/列表等內容適配不同規則)。

適用場景:

  • 混合格式的文檔(含多種文本結構)。
  • 需保持原生格式完整性的場景(表格不分割/段落不截斷等)。

15)上下文增強分塊法 Contextual chunking

通過 LLM 實現:

  • 分析知識庫的部分或全部內容。
  • 在嵌入前為每個文本塊注入簡短且相關的上下文

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

上下文增強分塊法示例 | 此圖片由原文作者制作

適用場景:

  • 知識庫的全部內容或部分內容在 LLM 的詞元限額內。
  • 處理復雜文檔(如財報/合同等)。

16)語義分塊法 Semantic chunking

基于嵌入相似度聚合主題相關的句子/段落,保持語義聚焦性。

適用場景:

  • 當按段分塊法或定長分塊法失效時
  • 處理含混雜主題的長文檔。

17)遞歸分塊法 Recursive chunking

首先使用大粒度的分隔符(如段落)分割文本。

如果任何生成的分塊超過預設的分塊大小限制,對這些區塊遞歸使用小粒度分隔符(如句子或單詞)進行分割,直至所有分塊都符合所需大小。

適用場景:

  • 處理句子長度不規則或不可預測的文本,如訪談記錄、演講內容、自由形式的寫作內容。

18)嵌入優先分塊法 Embedding chunking

常規流程是先分塊后嵌入,但此方法先將所有句子全部嵌入,再按順序逐一處理,若相鄰句的相似度高于設定閾值則合并為一組,低于閾值則進行拆分。

適用場景:

  • 無結構(無句子分隔/標題/章節符/標記等)的文檔
  • 當基礎技術(如滑動窗口分塊法)效果不佳時

19)基于大模型/智能體的分塊法 Agentic / LLM-based chunking

將分塊的決策權完全交由 LLM,由其自主決定文本的分割方式。

適用場景:

  • 當內容復雜或結構不明確,需要類似人類的判斷力來確定分塊邊界時

注意:該方法計算成本較高。

20)分層分塊法 Hierarchical chunking

將文本按照多個層次(如章節、子章節、段落)進行分塊,以便用戶能夠以不同詳細程度檢索信息。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

適用場景:

  • 具備清晰層次結構的文檔,如技術文章、手冊、教材、研究論文等
  • 希望用戶在不丟失上下文的情況下,同時探索整體概述和詳細信息。

21)多模態分塊法 Modality-Aware Chunking

針對不同內容類型(文本、圖像、表格)實施差異化的分塊策略。

系統梳理 RAG 系統的 21 種分塊策略-AI.x社區

多模態分塊法示例 | 此圖片由原文作者制作

BONUS:混合分塊法 Hybrid chunking

融合多種分塊技術、啟發式規則、嵌入模型以及 LLM 來提升分塊過程的可靠性。

適用場景:

  • 單一分塊方法效果不足時,需組合方案應對復雜的數據結構。

END

本期互動內容 ??

?在處理特定類型文檔(如法律合同或學術論文)時,您有哪些獨特的分塊技巧可以分享?

原文鏈接:

??https://ai.gopubby.com/21-chunking-strategies-for-rag-f28e4382d399??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
標簽
收藏
回復
舉報
回復
相關推薦
国产精品免费久久久| 亚洲人成77777在线观看网| 成人av在线不卡| 少妇高潮一区二区三区69| 老司机午夜免费精品视频| 中文字幕av日韩| 黄页网站在线看| japanese23hdxxxx日韩| 亚洲免费av在线| 国产精品一区二区你懂得| 奴色虐av一区二区三区| 欧美日韩网址| 一区二区三区高清国产| 亚洲少妇一区二区三区| 精品国产美女a久久9999| 亚洲综合一区二区精品导航| 日本高清视频一区二区三区| 性生活免费网站| 免费看欧美美女黄的网站| 久久人91精品久久久久久不卡| 精品亚洲aⅴ无码一区二区三区| 亚洲专区**| 欧美日韩一区成人| 欧美精品99久久| 欧美大胆的人体xxxx| 国产精品免费视频一区| 美脚丝袜一区二区三区在线观看| 国产色片在线观看| 免费久久精品视频| 日本中文字幕久久看| 日本一级淫片免费放| 欧美成人嫩草网站| 色婷婷综合成人| xxx在线播放| 一区三区在线欧| 精品国产凹凸成av人导航| 欧美又黄又嫩大片a级| 草民电影神马电影一区二区| 精品人伦一区二区三区蜜桃网站| 五月天男人天堂| 尤物网在线观看| 91色婷婷久久久久合中文| 国产福利不卡| 欧美自拍偷拍一区二区| 国产成人三级在线观看| 亚洲在线免费观看| 国产日韩欧美一区二区东京热| 日韩av一区二| 国产精品xxxxx| 潘金莲一级淫片aaaaaa播放| 久久国产精品久久w女人spa| 午夜精品久久久久久久男人的天堂| 欧美一区免费观看| 欧美精品一区二区三区久久久竹菊| 久久五月天色综合| 少妇人妻丰满做爰xxx| 久久久久久久久久久久久久| 久久中文字幕视频| 欧美黄色一级网站| 国内精品久久久久久久影视麻豆| 久久久久久久成人| 男女视频免费看| 国产欧美另类| 国产不卡视频在线| a片在线免费观看| 久久精品国产亚洲一区二区三区| 成人h猎奇视频网站| 国产精品-色哟哟| 国产福利一区在线| 精品久久久久久综合日本| 蜜桃免费在线| 亚洲国产精品成人综合色在线婷婷 | 欧美一级精品大片| 亚洲熟女一区二区三区| 国内毛片久久| 国产一区二区三区在线看 | 日韩av色在线| 中文字幕码精品视频网站| 久久99热这里只有精品| 99在线观看视频网站| 香蕉av在线播放| 国产三级欧美三级| 只有这里有精品| yellow字幕网在线| 在线观看国产一区二区| 特级西西444www| 欧美色资源站| 北条麻妃久久精品| 欧美三日本三级少妇99| 麻豆国产精品一区二区三区| 不卡视频一区| 二区在线视频| 亚洲国产美女搞黄色| 日韩一级在线免费观看| 精品视频成人| 亚洲视屏在线播放| 久久久精品视频免费观看| 亚欧美中日韩视频| 91在线国产电影| 欧美在线一卡| 亚洲精品国产a久久久久久| 日本毛片在线免费观看| 精品乱码一区二区三区四区| 亚洲成人网在线| 五月天av网站| 国产精品日本欧美一区二区三区| 成人a在线视频| 免费在线一级视频| 午夜激情综合网| 视频区 图片区 小说区| 国产一区二区三区四区| 欧美激情欧美激情| 亚洲视频一区二区三区四区| www.亚洲免费av| 国产免费xxx| 91欧美精品| 日韩高清中文字幕| 免费在线观看国产精品| 久久成人免费电影| 日韩国产高清一区| 粉嫩一区二区| 亚洲第一男人av| 久久免费黄色网址| 精品在线免费观看| 婷婷四月色综合| 一级毛片久久久| 亚洲电影免费观看| 久久久无码一区二区三区| 精品一区二区三区在线视频| 精品一区二区三区的国产在线播放| 一区三区二区视频| 国产一级精品视频| 国产a区久久久| 加勒比海盗1在线观看免费国语版| 精品国产欧美日韩一区二区三区| 亚洲国内精品在线| 国产一级在线播放| 国产精品77777竹菊影视小说| 亚洲日本japanese丝袜| 欧美日韩精品免费观看视完整| 亚洲第一偷拍网| 麻豆亚洲av成人无码久久精品| 精品午夜久久福利影院 | 噜噜噜在线观看播放视频| 亚洲高清免费视频| 99免费观看视频| 欧美午夜国产| 国产v亚洲v天堂无码| 日韩免费影院| 欧美成人艳星乳罩| 免费日韩在线视频| 福利91精品一区二区三区| 欧美一二三不卡| 日韩高清一区| 午夜精品久久久久久99热软件| 亚洲精品一区二区三区不卡| 一区二区三区在线观看视频| 国产精品19p| 亚洲激情成人| 免费看成人午夜电影| 日本免费久久| 中文国产成人精品| 国产绳艺sm调教室论坛| 亚洲黄色av一区| 久久久久亚洲AV成人无码国产| 亚洲在线观看| 日韩免费毛片| 精品伊人久久| 97视频网站入口| 黄色软件在线观看| 欧美日本在线一区| 久草视频中文在线| 久久久99精品久久| 老司机午夜性大片| 黄色综合网站| 乱一区二区三区在线播放| 日日夜夜天天综合| 色婷婷综合久久久久中文字幕1| 99热这里精品| 五月婷婷激情综合网| 小早川怜子久久精品中文字幕| 久久精品国产在热久久| 无码人妻精品一区二区蜜桃网站| 亚洲色图丝袜| 成人a免费视频| 手机在线观看av网站| 国产亚洲人成网站在线观看| 国产高清第一页| 精品久久久久人成| 91制片厂在线| 99久久99久久精品免费看蜜桃| 天天视频天天爽| 亚洲伦理精品| 一本色道久久综合亚洲二区三区 | 精品久久久久久久久久久久久久久| 久久青青草视频| 日韩理论片一区二区| 人妻少妇精品视频一区二区三区| 久久福利视频一区二区| 日本www在线视频| 国产精品x453.com| 欧美精品在线一区| 日韩黄色av| 国产欧美日韩高清| 理论片午夜视频在线观看| 色妞久久福利网| 色播色播色播色播色播在线| 91麻豆精品国产91| 国产又粗又猛又黄视频| 亚洲在线视频网站| 国精产品视频一二二区| av在线免费不卡| 国产成人强伦免费视频网站| 久久综合网络一区二区| 国产黄色片免费在线观看| 欧美3p视频| 日韩欧美在线一区二区| 加勒比视频一区| 亚洲自拍在线观看| 97成人超碰| 国产精品福利在线| 亚洲电影观看| 97在线视频免费播放| av在线免费播放| 日韩中文字幕亚洲| 涩涩视频免费看| 亚洲成人精品久久| 丰满人妻av一区二区三区| 制服丝袜亚洲网站| 在线观看国产精品入口男同| 日韩欧美高清视频| 天堂在线免费观看视频| 亚洲成人中文在线| 久久精品一级片| 亚洲麻豆国产自偷在线| 欧美视频一区二区在线| 亚洲国产精品v| 精品无码人妻一区二区免费蜜桃| 9色porny自拍视频一区二区| 无码任你躁久久久久久老妇| 国产成人精品一区二区三区四区| 久久久久久久久久一区二区| 久久精品国产久精国产爱| 在线观看免费成人av| 久久婷婷丁香| 亚洲第一中文av| 人人爽香蕉精品| 不卡的在线视频| 国产九色精品成人porny| 在线视频观看一区二区| 韩国视频一区二区| 潘金莲一级淫片aaaaaaa| 国产激情视频一区二区在线观看| 99热这里只有精品2| 国产ts人妖一区二区| 精品久久久久一区二区| 91毛片在线观看| av网在线播放| 国产精品成人网| 黄色一级片在线免费观看| 一二三区精品视频| 91在线看视频| 在线观看免费视频综合| 91免费视频播放| 精品国产免费视频| 天堂中文字幕在线| 精品亚洲一区二区| 成人77777| 欧美老女人性视频| 日韩av一卡| 国产精品视频导航| 日本成人手机在线| 久久精品中文字幕一区二区三区 | 日韩中文在线电影| 久久观看最新视频| 国产日韩亚洲| av污在线观看| 丰满亚洲少妇av| 日韩在线免费观看av| 中文字幕亚洲区| 国语对白一区二区| 色域天天综合网| 国产农村妇女毛片精品久久| 精品毛片乱码1区2区3区| 手机看片福利在线观看| 日韩亚洲欧美中文在线| 国产网红在线观看| 日本a级片电影一区二区| 欧美成人福利| 久久精品成人一区二区三区蜜臀 | 日韩一区二区三区国产| 免费在线中文字幕| 国产精品观看在线亚洲人成网| 精品一区二区三区视频在线播放| 精品免费视频123区| 日韩成人a**站| 91九色在线观看视频| 国产综合色视频| 强伦人妻一区二区三区| 亚洲精品福利视频网站| 无码人妻精品一区二区三区不卡| 欧美一区二区视频免费观看| 精品三级久久久久久久电影聊斋| 欧美日韩成人在线观看| 国产黄色精品| 国产视频在线观看一区| 国产精品国产一区| 国产一级不卡毛片| 成人一级黄色片| 亚洲精品一区二区三区在线播放| 色综合久久中文字幕| 亚洲国产精品久久人人爱潘金莲 | 羞羞网站在线看| 国产成人精品午夜| 久久影院资源站| 91精品国产吴梦梦| 久久精品国产第一区二区三区| 添女人荫蒂视频| 亚洲国产日韩综合久久精品| 亚洲影院一区二区三区| 日韩毛片中文字幕| sm捆绑调教国产免费网站在线观看| 成人性生交大片免费看视频直播 | 狠狠热免费视频| 99国产精品视频免费观看| 九九热这里有精品视频| 在线电影院国产精品| 草草影院在线观看| 日韩免费av一区二区| 一区二区小说| 99福利在线观看| 91网站在线观看视频| 久久在线视频精品| 欧美成人video| 丝袜在线视频| 99在线免费观看视频| 欧美日韩国产一区精品一区| 日韩精品视频网址| 亚洲男帅同性gay1069| 91亚洲国产成人精品一区| 在线视频日本亚洲性| 另类一区二区| 中文字幕中文字幕在线中心一区| 免费在线看成人av| xxxxx99| 欧美三片在线视频观看| 福利视频在线看| 国产欧美久久久久久| 外国成人免费视频| 巨乳女教师的诱惑| 一区二区三区四区五区视频在线观看| 国产农村妇女毛片精品| 欧美裸体xxxx极品少妇| 中文字幕区一区二区三| 精品国产一区二区三区无码| 岛国av在线一区| 久久久国产高清| 亚洲欧美综合v| 国产一区二区三区影视| 亚洲aⅴ天堂av在线电影软件| 免费看黄色91| 好吊色视频在线观看| 精品少妇一区二区三区视频免付费 | 国产精品videosex性欧美| 午夜影院免费版| 亚洲一区二区高清| 台湾av在线二三区观看| 国产精品xxxxx| 欧美1区视频| 成人网站免费观看| 欧美日韩亚洲高清一区二区| 国产素人视频在线观看| 国产精品久久精品视| 一本色道88久久加勒比精品| wwwwxxxx国产| 欧美日韩精品二区第二页| 污污视频在线| 免费日韩av电影| 理论片日本一区| 日韩av综合在线| 国产一区二区三区直播精品电影| 国产不卡精品在线| 女人天堂av手机在线| 国产精品女主播av| 亚洲国产精品成人久久蜜臀| 国产成人一区二区三区电影| 无码一区二区三区视频| 三级黄色片网站| 欧美二区在线观看| 狠狠躁少妇一区二区三区| 五月婷婷综合色| 成人永久看片免费视频天堂| 波多野结衣视频网址| 欧美寡妇偷汉性猛交| re久久精品视频| 日本一级片在线播放| 555夜色666亚洲国产免| 依依综合在线| 国产一级片91| 中文字幕av一区二区三区免费看|