精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

文檔太長模型“吃不下”?試試這15種Chunking策略,輕松搞定RAG! 原創 精華

發布于 2025-7-14 08:47
瀏覽
1收藏

RAG系統也能“切塊”?15種Chunking技巧讓你的檢索生成更聰明!

你知道嗎?在構建一個強大的RAG(Retrieval-Augmented Generation)系統時,決定其“聰明程度”的,可能不是模型本身,而是——你怎么“切塊”你的文檔

在NLP領域,RAG系統已經成為處理復雜問答、文檔摘要、知識庫檢索等任務的利器。但面對動輒上萬字的文檔,如何在不丟失上下文的前提下,把它們“切”成模型能消化的“小塊”,就成了關鍵。

今天這篇文章,我們就來系統聊聊:15種Chunking技巧,幫你打造一個既快又準的RAG系統。無論你是做問答系統、文檔檢索,還是構建企業知識庫,這篇文章都值得你收藏。

01|什么是Chunking?為什么它這么重要?

在RAG系統中,Chunking(切塊)指的是:把大文檔拆分成小塊,以便模型更好地理解和檢索信息

你可能會問:為什么不能直接把整篇文檔丟給模型?原因很簡單:

  • 大模型有token限制(比如GPT-4最多支持8K tokens);
  • 文檔太長,模型容易“看漏”關鍵信息;
  • 不切塊,檢索系統很難精準定位答案。

所以,Chunking不是簡單的“切”,而是要在“保留上下文”和“適配模型能力”之間找到平衡

02|Chunking的三大核心考量

在正式介紹15種技巧之前,我們先來理解Chunking的三個關鍵因素:

1. 塊的大小(Chunk Size)

  • 太大:容易超token限制,檢索慢;
  • 太小:上下文丟失,生成質量差;
  • 建議:根據模型token上限,控制在100~500 tokens之間。

2. 上下文保留(Context Preservation)

  • 切塊不能“斷句斷意”,否則模型會“看不懂”;
  • 使用滑動窗口、語義切塊等方式,能有效保留上下文。

3. 多模態處理(Modality Handling)

  • 文檔中可能包含表格、圖片、代碼塊
  • 不同內容類型需要不同的切塊策略。

03|15種Chunking技巧全解析(附代碼)

接下來,我們進入正題:15種Chunking技巧,每種都配有使用場景、優缺點和代碼示例,建議收藏!

1. 固定大小切塊(Fixed-Size Chunking)

原理:按固定詞數或token數切分。

適用場景:結構簡單的小文檔。

優點:實現簡單,速度快。

缺點:可能切斷句子,丟失語義。

def fixed_size_chunk(text, max_words=100):
    words = text.split()
    return [' '.join(words[i:i + max_words]) for i in range(0, len(words), max_words)]


2. 句子切塊(Sentence-Based Chunking)

原理:按句子邊界切分。

適用場景:需要保留語義完整性的文檔。

優點:語義清晰,上下文連貫。

缺點:句子長度不一,chunk大小不穩定。

import spacy
nlp = spacy.load("en_core_web_sm")

def sentence_chunk(text):
    doc = nlp(text)
    return [sent.text for sent in doc.sents]


3. 段落切塊(Paragraph-Based Chunking)

原理:按段落切分。

適用場景:結構清晰的文檔,如論文、報告。

優點:自然分段,語義完整。

缺點:段落長度不一,可能超token限制。

def paragraph_chunk(text):
    return text.split('\n\n')


4. 語義切塊(Semantic Chunking)

原理:基于語義相似度進行切塊。

適用場景:技術文檔、復雜文本。

優點:上下文保留好。

缺點:實現復雜,需依賴模型。

def semantic_chunk(text, max_len=200):
    doc = nlp(text)
    chunks = []
    current_chunk = []
    for sent in doc.sents:
        current_chunk.append(sent.text)
        if len(' '.join(current_chunk)) > max_len:
            chunks.append(' '.join(current_chunk))
            current_chunk = []
    if current_chunk:
        chunks.append(' '.join(current_chunk))
    return chunks


5. 模態感知切塊(Modality-Specific Chunking)

原理:文本、表格、圖片分別處理。

適用場景:PDF、技術手冊等混合內容文檔。

優點:保留多種模態信息。

缺點:實現復雜。

def modality_chunk(text, images=None, tables=None):
    text_chunks = paragraph_chunk(text)
    return {'text_chunks': text_chunks, 'images': images, 'tables': tables}


6. 滑動窗口切塊(Sliding Window Chunking)

原理:相鄰chunk之間有重疊。

適用場景:法律、學術文檔。

優點:上下文連貫。

缺點:內容重復,處理量大。

def sliding_window_chunk(text, chunk_size=100, overlap=20):
    tokens = text.split()
    chunks = []
    for i in range(0, len(tokens), chunk_size - overlap):
        chunk = ' '.join(tokens[i:i + chunk_size])
        chunks.append(chunk)
    return chunks


7. 層級切塊(Hierarchical Chunking)

原理:按章節、段落、子段落分層切塊。

適用場景:結構化文檔,如論文、合同。

優點:保留文檔結構。

缺點:實現復雜。

def hierarchical_chunk(text, section_keywords):
    sections = []
    current_section = []
    for line in text.splitlines():
        if any(keyword in line for keyword in section_keywords):
            if current_section:
                sections.append("\n".join(current_section))
            current_section = [line]
        else:
            current_section.append(line)
    if current_section:
        sections.append("\n".join(current_section))
    return sections


8. 內容感知切塊(Content-Aware Chunking)

原理:根據內容特征動態調整切塊策略。

適用場景:電子書、技術文檔。

優點:靈活適應不同內容。

缺點:邏輯復雜。

def content_aware_chunk(text):
    chunks = []
    current_chunk = []
    for line in text.splitlines():
        if line.startswith(('##', '###', 'Introduction', 'Conclusion')):
            if current_chunk:
                chunks.append('\n'.join(current_chunk))
            current_chunk = [line]
        else:
            current_chunk.append(line)
    if current_chunk:
        chunks.append('\n'.join(current_chunk))
    return chunks


9. 表格感知切塊(Table-Aware Chunking)

原理:將表格獨立切塊。

適用場景:財務報表、技術文檔。

優點:保留表格結構。

缺點:格式可能丟失。

import pandas as pd

def table_aware_chunk(table):
    return table.to_markdown()


10. Token級切塊(Token-Based Chunking)

原理:按token數切塊,適配Transformer模型。

適用場景:GPT、BERT等模型。

優點:適配模型限制。

缺點:可能切斷句子。

from transformers import GPT2Tokenizer

tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

def token_based_chunk(text, max_tokens=200):
    tokens = tokenizer(text)["input_ids"]
    chunks = [tokens[i:i + max_tokens] for i in range(0, len(tokens), max_tokens)]
    return [tokenizer.decode(chunk) for chunk in chunks]


11. 實體感知切塊(Entity-Based Chunking)

原理:基于NER識別實體進行切塊。

適用場景:簡歷、合同、法律文檔。

優點:保留實體信息。

缺點:需訓練NER模型。

def entity_based_chunk(text):
    doc = nlp(text)
    return [ent.text for ent in doc.ents]


12. 主題切塊(Topic-Based Chunking)

原理:使用LDA等主題模型進行切塊。

適用場景:新聞、研究論文等多主題文檔。

優點:按主題聚合信息。

缺點:需額外建模。

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation

def topic_based_chunk(text, num_topics=3):
    sentences = text.split('. ')
    vectorizer = CountVectorizer()
    sentence_vectors = vectorizer.fit_transform(sentences)
    lda = LatentDirichletAllocation(n_components=num_topics, random_state=42)
    lda.fit(sentence_vectors)
    # 省略主題分配邏輯
    return sentences


13. 頁面切塊(Page-Based Chunking)

原理:按PDF頁面切塊。

適用場景:PDF文檔。

優點:實現簡單。

缺點:可能斷句。

def page_based_chunk(pages):
    return pages


14. 關鍵詞切塊(Keyword-Based Chunking)

原理:按關鍵詞切分。

適用場景:結構清晰的文檔。

優點:符合文檔結構。

缺點:需預定義關鍵詞。

def keyword_based_chunk(text, keywords):
    chunks = []
    current_chunk = []
    for line in text.splitlines():
        if any(keyword in line for keyword in keywords):
            if current_chunk:
                chunks.append('\n'.join(current_chunk))
            current_chunk = [line]
        else:
            current_chunk.append(line)
    if current_chunk:
        chunks.append('\n'.join(current_chunk))
    return chunks


15. 混合切塊(Hybrid Chunking)

原理:結合多種策略。

適用場景:復雜文檔。

優點:靈活強大。

缺點:實現復雜。

def hybrid_chunk(text):
    paragraphs = paragraph_chunk(text)
    hybrid_chunks = []
    for paragraph in paragraphs:
        hybrid_chunks += sentence_chunk(paragraph)
    return hybrid_chunks


04|不同場景下如何選擇Chunking策略?

場景類型

推薦策略

FAQ、客服系統

句子切塊、關鍵詞切塊

學術論文

層級切塊、語義切塊

技術文檔

表格感知切塊、內容感知切塊

多模態文檔

模態感知切塊、混合切塊

法律文檔

滑動窗口切塊、實體感知切塊


05|結語:Chunking不是“切”,是“設計”

Chunking不是簡單的“把文檔切碎”,而是一種信息架構設計。不同的切塊策略,直接決定了RAG系統的檢索精度、生成質量和響應速度。

希望這篇文章能幫你找到最適合你業務的Chunking策略。如果你正在構建RAG系統,不妨從這些小技巧開始,逐步優化你的文檔處理流程。


本文轉載自??Halo咯咯??    作者:基咯咯

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-7-14 08:47:35修改
收藏 1
回復
舉報
回復
相關推薦
四虎影院在线播放| 黄色精品一二区| 久久精品五月天| 国产拍精品一二三| 99精品久久免费看蜜臀剧情介绍| sm国产在线调教视频| 我看黄色一级片| 亚洲视频免费一区| 亚洲视频www| 日本啊v在线| 国产又黄又猛视频| 亚洲欧美日韩一区在线| 久久精品一区二区国产| 清纯唯美亚洲色图| 无码无遮挡又大又爽又黄的视频| 精品视频—区二区三区免费| 99精品免费视频| 青青青手机在线视频观看| 97在线播放视频| 在线视频欧美日韩| 精品写真视频在线观看| 久操视频在线观看| 337p日本欧洲亚洲大胆张筱雨 | av视屏在线播放| 欧美v亚洲v综合ⅴ国产v| 欧美在线国产| 五月婷婷免费视频| 黑鬼大战白妞高潮喷白浆| 日韩中文字幕免费看| 国产一区二区三区视频在线播放| 暧暧视频在线免费观看| 国产又粗又猛又爽又黄av| 91传媒免费看| 欧美日韩一区二区在线观看视频 | 欧美午夜视频网站| 欧美黄色一区二区| 九色视频网站在线观看| gogo亚洲国模私拍人体| 日韩美女视频中文字幕| 一区二区三区四区视频精品免费| 久久精品论坛| 国产男女裸体做爰爽爽| 999香蕉视频| 久久久久久久久久国产| 亚洲天堂av一区| 精品久久久久久久| 欧美女v视频| 亚洲一级Av无码毛片久久精品| 国产精品视频大全| 色婷婷综合久久久久中文 | 纪美影视在线观看电视版使用方法| av日韩免费电影| 91麻豆精品国产91久久久使用方法| 久久不射中文字幕| 98色花堂精品视频在线观看| 成人免费毛片东京热| 在线观看一区二区三区三州| 亚洲美女福利视频网站| 91麻豆高清视频| 亚洲都市激情| 国产天堂素人系列在线视频| caopeng视频| 亚洲日本精品国产第一区| 一本久久综合亚洲鲁鲁| 中文字幕日韩一区| 中文字幕一区二区三区在线视频| 浪潮av一区| 久视频在线观看| 激情综合在线观看| 国产精品欧美日韩久久| 337p亚洲精品色噜噜狠狠| 国产成人综合在线观看| 天堂av一区二区三区在线播放| 免费动漫网站在线观看| 久久成人小视频| 日韩成人三级视频| 欧美亚洲视频在线观看| 欧美日精品一区视频| 国产乱人伦偷精品视频不卡| 欧美18免费视频| 成年人免费在线视频| 国产在线拍揄自揄拍| 日韩av在线综合| 999视频在线观看| 中文字幕一区二区精品| 亚洲国产精品视频| 激情小说亚洲一区| 国产日产精品一区二区三区四区的观看方式| 91最新在线| 欧美a视频在线观看| 性活交片大全免费看| 五月天男人天堂| 国产91ⅴ在线精品免费观看| 日韩视频免费观看高清完整版| 久久蜜桃香蕉精品一区二区三区| 欧美激情综合| 国产免费区一区二区三视频免费 | 国产成人久久精品77777最新版本 国产成人鲁色资源国产91色综 | 日本三级在线视频| 中文字幕+乱码+中文字幕明步| 在线免费看黄色片| 亚洲精品无码国产| 超碰在线97av| 97香蕉超级碰碰久久免费的优势| 日韩欧美一区二区免费| 亚洲天堂精品视频| 久久99蜜桃精品| 羞羞答答成人影院www| 国外成人福利视频| 日本中文字幕伦在线观看| 久草热在线观看| 懂色av蜜臀av粉嫩av永久| 天美一区二区三区| 黄色www在线观看| 成人自拍网站| 国产精品综合网站| 欧美日韩国产另类不卡| 国模少妇一区二区三区| 亚洲天堂网站| 国产精品视频在线观看免费| 精品久久国产精品| 精品一区二区国语对白| 成人福利片网站| 亚洲黄色免费观看| 鲁丝一区二区三区| 午夜大片在线观看| 日韩精品在线视频免费观看| 久久精品国产一区二区三区不卡| 日韩av大片在线| 久久久精品一区二区三区| 精品日本一线二线三线不卡| 欧美日韩亚洲精品内裤| 综合久久久久综合| 91麻豆精东视频| 国产风韵犹存在线视精品| 久久精品官网| 影音先锋亚洲精品| 91tv精品福利国产在线观看| 亚洲国产国产| 精品午夜电影| 亚洲不卡视频| 国产精品免费精品自在线观看| 在线毛片观看| 6699嫩草久久久精品影院| 黄色免费在线观看网站| www.亚洲视频| 黄色片在线免费看| 四虎影院在线播放| 日夜干在线视频| 日韩一级中文字幕| 亚洲精品国产一区二| 99精品在线视频观看| 国产一区二区三区三州| 影音先锋国产在线| 自拍偷拍18p| 中文无码av一区二区三区| 伊人中文字幕在线观看| 91国产丝袜播放在线| 国产精品视频免费播放| 男人的天堂一区二区| 日韩视频免费观看高清| 国产真人真事毛片| 97超碰人人干| 国产性生活视频| 在线观看中文字幕2021| 国产精品区在线观看| 中文字幕网址在线| 国产伦一区二区| 蜜臀av午夜精品| 青青草在线视频免费观看| 色鬼7777久久| 日本三级视频在线播放| 伊人影院蕉久影院在线播放| 182在线视频观看| 78精品国产综合久久香蕉| 免费精品一区| 一本色道久久综合狠狠躁的番外| 欧美一区电影| 亚洲国产第一| 另类中文字幕网| 成人91在线观看| 国产精品国产三级国产aⅴ入口| 一区二区三区小说| 欧美亚日韩国产aⅴ精品中极品| 欧美一卡二卡三卡四卡| 国产午夜精品视频免费不卡69堂| 欧美成人激情图片网| 日本高清+成人网在线观看| 91午夜在线播放| 午夜欧美一区二区三区免费观看| 国产精品久久久久久久久电影网| av污在线观看| 黄免费在线观看| 国产一区二区三区影院| 欧美一区,二区| 羞羞网站在线看| 9999精品视频| 99热精品久久| 蜜桃视频第一区免费观看| 久久精品夜色噜噜亚洲a∨| 午夜欧美2019年伦理 | 欧美久久久久久久| 免费看黄在线看| 黄色在线免费播放| 国产大片中文字幕| 内射无码专区久久亚洲| 国内高清免费在线视频| 精品一区二区三区中文字幕视频| 国产高清欧美| 国产毛片精品视频| 亚洲精品欧美在线| 精品少妇一区二区三区日产乱码 | 6080yy精品一区二区三区| 久久av一区二区三区亚洲| 男人操女人逼免费视频| 成都免费高清电影| 波多野结衣一区二区三区在线| av影片在线看| 日韩精品成人在线观看| 极品日韩av| 国产午夜精品理论片a级大结局| 欧美亚洲日本一区| 久久精品久久久久| 国产精品视频500部| 男人操女人免费| 91高清免费观看| 污视频软件在线观看| 成人在线观看免费视频| 欧美激情视频一区二区三区在线播放 | 亚洲精品欧美极品| 国产免费黄色小视频| 福利视频第一页| 亚洲av毛片成人精品| 国产aⅴ精品一区二区四区| 亚洲免费大片| 一区二区三区在线观看视频| 亚洲精品国精品久久99热一| 国产日韩精品在线观看| 日韩视频第二页| 国产精品日日夜夜| 黄色在线观看网站| 国产一区二区三区91| av在线不卡免费看| 日韩一级片网址| 成人乱色短篇合集| 精品久久久噜噜噜噜久久图片| 中文字幕一区二区三区手机版 | 国产成人综合亚洲91猫咪| 一本大道久久a久久综合| 久久久久亚洲精品国产| 天天综合五月天| 亚洲女人毛茸茸高潮| av免费在线一区二区三区| 久操成人av| 国产欧美视频在线观看| 日韩精品中文字幕在线播放| 久久精品中文字幕一区二区三区 | 久久久视频6r| 亚洲图片88| 91综合在线| 亚洲女人的天堂| 九九精品视频在线观看| 国产小视频免费| 日本少妇xxxx动漫| 亚洲最新无码中文字幕久久| 久久精品30| 欧美在线高清视频| 亚洲va欧美va国产综合久久| 欧美性猛交xx| 牛牛热在线视频| 第四色成人网| 亚洲综合久久av| 欧美整片在线观看| 亚洲综合色在线观看| 亚洲国产精品视频在线| 亚洲动漫精品| 一区二区三区四区视频精品免费| 97在线精品视频| 亚洲欧美日本一区二区| 少妇精品高潮欲妇又嫩中文字幕| 欧美日韩在线播放视频| 伊人一区二区三区| 国产精品狠色婷| 能看毛片的网站| 一广人看www在线观看免费视频| 国产精品99一区二区| 欧美日韩一区高清| 久久久久久草| 国产在线视频99| 天堂久久一区| 国产精品色婷婷久久58| 久久久久久综合网天天| 在线视频观看一区二区| 国产无套粉嫩白浆在线2022年| 黑人一区二区| 日韩美女天天操| 中文精品一区二区三区| 免费黄色片视频| 日韩大胆成人| 午夜精彩视频在线观看不卡| 91入口在线观看| 在线免费观看亚洲视频| 欧美亚洲黄色| 国产精品伦一区| 91在线色戒在线| 男人的天堂久久久| 7m精品国产导航在线| 亚洲一区二区三区美女| 国产乱码精品一区二区三区卡| 玖玖爱这里只有精品| 97久久综合精品久久久综合| 一区二区三区日韩精品视频| 99porn视频在线| 久久久久久91亚洲精品中文字幕| 伊人久久大香线蕉| 欧美色倩网站大全免费| 一区二区三区四区免费观看| 国产v片在线观看| 伊人狠狠色j香婷婷综合| 日韩精品极品在线观看播放免费视频| 日本www在线播放| 在线毛片网站| 国产成人免费网站| 日本伊人精品一区二区三区介绍| 正在播放国产对白害羞| 午夜久久av| 欧美亚洲尤物久久| 日韩激情视频一区二区| 国产一区电影| 暴力调教一区二区三区| 国产精品久久久久久五月尺| 青青草原在线免费观看视频| 一区二区三区日本久久久 | 成人福利电影| 欧美国产禁国产网站cc| 国产66精品久久久久999小说| 中文字幕日本人妻久久久免费| 欧美午夜不卡影院在线观看完整版免费| 亚洲国产又黄又爽女人高潮的| 妞干网在线免费视频| 精灵使的剑舞无删减版在线观看| 中文字幕高清一区| 欧美一级二级三级| 欧洲成人一区二区三区| 国产一区二区影院| 伊人久久久久久久久久久| 亚洲午夜激情| 一本一道人人妻人人妻αv| 亚洲精品影视| 91国内产香蕉| 国产视频91在线| 日韩一级在线| 国语自产在线不卡| 久久精品久久国产| 欧美片第1页综合| 欧美激情精品久久久久久| 日韩三级久久久| 欧美日本不卡| 97视频免费在线观看| 97免费在线观看视频| 夜夜夜久久久| 国产精品成人aaaaa网站| 国产字幕在线观看| 精品亚洲aⅴ乱码一区二区三区| 亚洲www在线| 亚洲精品喷潮一区二区三区| 高清不卡一二三区| 国内一区在线| 国产精品ⅴa有声小说| 国产精品久久久久久久久搜平片| 亚洲国产精品影视| 91黄页在线观看| 欧美日韩中字一区| 91人人澡人人爽| 亚洲另类春色校园小说| 最近中文字幕mv在线一区二区三区四区 | 国产午夜一区二区三区| 婷婷视频在线播放| 亚洲国产福利| 欧美成人a视频| 精品人妻互换一区二区三区| 国产国产精品| 日韩美女视频中文字幕| 欧美自拍偷拍第一页| 国产欧美精品一区| 欧美久久久久久久久久久久久| 久久人人视频| 在线午夜精品自拍| 久草视频在线观| www.亚洲国产| 久久久国内精品| 国产欧美视频在线| 尤物九九久久国产精品的分类| 日本一区二区欧美| 精品一区二区三区的国产在线播放| 欧美一区二区三区精美影视| heyzo高清中文字幕在线| 精品国产乱子伦一区| 久久人妻无码aⅴ毛片a片app | 午夜精品福利电影|