精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

RAG—Chunking策略實戰

人工智能
在 RAG 系統中,即便采用性能卓越的 LLM 并反復打磨 Prompt,問答仍可能出現上下文缺失、事實性錯誤或拼接不連貫等問題。多數團隊會頻繁更換檢索算法與 Embedding模型,但收益常常有限。

一、背景

二、什么是分塊(Chunking)

三、為何要對內容做分塊處理

四、分塊策略詳解

    1. 基礎分塊

    2. 結構感知分塊

    3. 語義與主題分塊

    4. 高級分塊

    5. 混合分塊

五、結論

一、背 景

在 RAG 系統中,即便采用性能卓越的 LLM 并反復打磨 Prompt,問答仍可能出現上下文缺失、事實性錯誤或拼接不連貫等問題。多數團隊會頻繁更換檢索算法與 Embedding模型,但收益常常有限。真正的瓶頸,往往潛伏在數據入庫之前的一個細節——文檔分塊(chunking)。不當的分塊會破壞語義邊界,拆散關鍵線索并與噪聲糾纏,使被檢索的片段呈現“順序錯亂、信息殘缺”的面貌。在這樣的輸入下,再強大的模型也難以基于支離破碎的知識推理出完整、可靠的答案。某種意義上,分塊質量幾乎決定了RAG的性能上限——它決定知識是以連貫的上下文呈現,還是退化為無法拼合的碎片。

在實際場景中,最常見的錯誤是按固定長度生硬切割,忽略文檔的結構與語義:定義與信息被切開、表頭與數據分離、步驟說明被截斷、代碼與注釋脫節,結果就是召回命中卻無法支撐結論,甚至誘發幻覺與錯誤引用。相反,高質量的分塊應盡量貼合自然邊界(標題、段落、列表、表格、代碼塊等),以適度重疊保持上下文連續,并保留必要的來源與章節元數據,確保可追溯與重排可用。當分塊尊重文檔的敘事與結構時,檢索的相關性與答案的事實一致性往往顯著提升,遠勝于一味更換向量模型或調參;換言之,想要真正改善 RAG 的穩健性與上限,首先要把“知識如何被切開并呈現給模型”這件事做好。

PS:本文主要是針對中文文檔類型的嵌入進行實戰。

二、什么是分塊(Chunking)

分塊是將大塊文本分解成較小段落的過程,這使得文本數據更易于管理和處理。通過分塊,我們能夠更高效地進行內容嵌入(embedding),并顯著提升從向量數據庫中召回內容的相關性和準確性。

在實際操作中,分塊的好處是多方面的。首先,它能夠提高模型處理的效率,因為較小的文本段落更容易進行嵌入和檢索。

其次,分塊后的文本能夠更精確地匹配用戶查詢,從而提供更相關的搜索結果。這對于需要高精度信息檢索和內容生成的應用程序尤為重要。

通過優化內容的分塊和嵌入策略,我們可以最大化LLM在各種應用場景中的性能。分塊技術不僅提高了內容召回的準確性,還提升了整體系統的響應速度和用戶體驗。

因此,在構建和優化基于LLM的應用程序時,理解和應用分塊技術是不可或缺的步驟。

分塊過程中主要的兩個概念:chunk_size塊的大小,chunk_overlap重疊窗口。

圖片圖片

三、為何要對內容做分塊處理

  • 模型上下文窗口限制:LLM無法一次處理超長文本。分塊的目的在于將長文檔切成模型可穩定處理的中等粒度片段,并盡量對齊自然語義邊界(如標題、段落、句子、代碼塊),避免硬切導致關鍵信息被截斷或語義漂移。即便使用長上下文模型,過長輸入也會推高成本并稀釋信息密度,合理分塊仍是必需的前置約束。
  • 檢索的信噪比:塊過大時無關內容會稀釋信號、降低相似度判別力;塊過小時語境不足、容易“只命中詞不命中義”。合適的塊粒度可在召回與精度間取得更好平衡,既覆蓋用戶意圖,又不引入多余噪聲。在一定程度上提升檢索相關性的同時又能保證結果穩定性。
  • 語義連續性:跨段落或跨章節的語義關系常在邊界處被切斷。通過設置適度的 chunk_overlap,可保留跨塊線索、減少關鍵定義/條件被“切開”的風險。對于強結構文檔,優先讓邊界貼合標題層級與句子斷點;必要時在檢索階段做輕量鄰近擴展,以提升答案的連貫性與可追溯性,同時避免重復內容擠占上下文預算。

總之理想的分塊是在“上下文完整性”和“信息密度”之間取得動態平衡:chunk_size決定信息承載量,chunk_overlap 用于彌補邊界斷裂并維持語義連續。只要邊界對齊語義、粒度貼合內容,檢索與生成的質量就能提升。

圖片圖片

四、分塊策略詳解

基礎分塊

基于固定長度分塊

  • 分塊策略:按預設字符數 chunk_size 直接切分,不考慮文本結構。
  • 優點:實現最簡單、速度快、對任意文本通用。
  • 缺點:容易破壞語義邊界;塊過大容易引入較多噪聲,過小則會導致上下文不足。
  • 適用場景:結構性弱的純文本,或數據預處理初期的基線方案。
from langchain_text_splitters import CharacterTextSplitter


splitter = CharacterTextSplitter(
    separator="",        # 純按長度切
    chunk_size=600,      # 依據實驗與模型上限調整
    chunk_overlap=90,    # 15% 重疊
)
chunks = splitter.split_text(text)
  • 參數建議(僅限中文語料建議):

chunk_size:300–800 字優先嘗試;若嵌入模型最佳輸入為 512/1024 tokens,可折算為約 350/700 中文字符起步。

chunk_overlap:10%–20% 起步;超過 30% 通常導致索引體積與檢索開銷顯著上升,對實際性能起負作用,最后的效果并不會得到明顯提升。

基于句子的分塊

  • 分塊策略:先按句子切分,再將若干句子聚合成滿足chunk_size的塊;保證最基本的語義完整性。
  • 優點:句子級完整性最好。對問句/答句映射友好。便于高質量引用。
  • 缺點:中文分句需特別處理。僅句子級切分可能導致塊過短,需后續聚合。
  • 適用場景:法律法規、新聞、公告、FAQ 等以句子為主的文本。
  • 中文分句注意事項:

不要直接用 NLTK 英文 Punkt:無法識別中文標點,分句會失敗或異常。

可以直接使用以下內容進行分句:

1)基于中文標點的正則:按“。!?;”等切分,保留引號與省略號等邊界。

2)使用支持中文的 NLP 庫進行更精細的分句:

3)HanLP(推薦,工業級,支持繁多語言學特性)Stanza(清華/斯坦福合作,中文支持較好)spaCy + pkuseg 插件(或 zh-core-web-sm/med/lg 生態)

  • 示例(適配常見中文標點,基于正則的分句):
import re


def split_sentences_zh(text: str):
    # 在句末標點(。!?;)后面帶可選引號的場景斷句
    pattern = re.compile(r'([^。!?;]*[。!?;]+|[^。!?;]+$)')
    sentences = [m.group(0).strip() for m in pattern.finditer(text) if m.group(0).strip()]
    return sentences


def sentence_chunk(text: str, chunk_size=600, overlap=80):
    sents = split_sentences_zh(text)
    chunks, buf = [], ""
    for s in sents:
        if len(buf) + len(s) <= chunk_size:
            buf += s
        else:
            if buf:
                chunks.append(buf)
            # 簡單重疊:從當前塊尾部截取 overlap 字符與下一句拼接
            buf = (buf[-overlap:] if overlap > 0 and len(buf) > overlap else "") + s
    if buf:
        chunks.append(buf)
    return chunks


chunks = sentence_chunk(text, chunk_size=600, overlap=90)

HanLP 分句示例:

from hanlp_common.constant import ROOT
import hanlp


tokenizer = hanlp.load('PKU_NAME_MERGED_SIX_MONTHS_CONVSEG')  # 或句法/句子級管線
# HanLP 高層 API 通常通過句法/語料管線獲得句子邊界,具體以所用版本 API 為準
# 將句子列表再做聚合為 chunk_size

基于遞歸字符分塊

  • 分塊策略:給定一組由“粗到細”的分隔符(如段落→換行→空格→字符),自上而下遞歸切分,在不超出 chunk_size 的前提下盡量保留自然語義邊界。
  • 優點:在“保持語義邊界”和“控制塊大小”之間取得穩健平衡,對大多數文本即插即用。
  • 缺點:分隔符配置不當會導致塊粒度失衡,極度格式化文本(表格/代碼)效果一般。
  • 適用場景:綜合性語料、說明文檔、報告、知識庫條目。
import re
from langchain_text_splitters import RecursiveCharacterTextSplitter


separators = [
    r"\n#{1,6}\s",                 # 標題
    r"\n\d+(?:\.\d+)*\s",          # 數字編號標題 1. / 2.3. 等
    "\n\n",                        # 段落
    "\n",                          # 行
    " ",                           # 空格
    "",                            # 兜底字符級
]
splitter = RecursiveCharacterTextSplitter(
    separators=separators,
    chunk_size=700,
    chunk_overlap=100,
    is_separator_regex=True,       # 告訴分割器上面包含正則
)
chunks = splitter.split_text(text)
  • 參數與分隔符建議(僅中文文檔建議):

chunk_size:400–800 字符;如果內容更技術化、長句多時可適當上調該數值。

chunk_overlap:10%–20%。

separators(由粗到細,按需裁剪):

1)章節/標題:正則 r"^#{1,6}\s"(Markdown 標題)、r"^\d+(.\d+)*\s"(編號標題)

2)段落:"\n\n"

3)換行:"\n"

4)空格:" "

5)兜底:""

總結

  • 調優流程:

固定檢索與重排,只動分塊參數。

用驗證集計算 Recall@k、nDCG、MRR、來源命中文檔覆蓋率、答案事實性(faithfulness)。

觀察塊長分布:若長尾太長,適當收緊chunk_size 或增加粗粒度分隔符;若過短,放寬chunk_size 或降低分隔符優先級。

  • 重疊的成本與收益:

收益:緩解邊界斷裂,提升答案連貫性與可追溯性。

成本:索引尺寸增長、召回重復塊增多、rerank 負載提升。通常不建議超過 20%–25%。

  • 組合技巧:

先遞歸分塊,再對“異常長句”或“跨段引用”場景加一點點額外 overlap。

對標題塊注入父級標題上下文,提高定位能力與可解釋性。

  • 何時切換策略:

若問答頻繁丟上下文或引用斷裂:增大overlap或改用句子/結構感知策略。

若召回含噪過多:減小 chunk_size 或引入更強的結構分隔符。

結構感知分塊

利用文檔固有結構(標題層級、列表、代碼塊、表格、對話輪次)作為分塊邊界,邏輯清晰、可追溯性強,能在保證上下文完整性的同時提升檢索信噪比。

結構化文本分塊
  • 分塊策略以標題層級(H1–H6、編號標題)或語義塊(段落、列表、表格、代碼塊)為此類型文檔的天然邊界,對過長的結構塊再做二次細分,對過短的進行相鄰合并。
  • 實施步驟

解析結構:Markdown 用解析器remark/markdown-it-py或正則識別標題與語塊;HTML用 DOMBeautifulSoup/Cheerio遍歷 Hx、p、li、pre、table 等。

生成章節:以標題為父節點,將其后的連續兄弟節點納入該章節,直至遇到同級或更高層級標題。

二次切分:章節超出 chunk_size時,優先按子標題/段落切,再不足時按句子或遞歸字符切分。

合并短塊:低于 min_chunk_chars 的塊與相鄰塊合并,優先與同一父標題下的前后塊。

上下文重疊:優先用“結構重疊”(父級標題路徑、前一小節標題+摘要),再輔以小比例字符overlap(10%–15%)。

寫入 metadata。

  • 示例代碼
import re
from typing import List, Dict


heading_pat = re.compile(r'^(#{1,6})\s+(.*)$')  # 標題
fence_pat = re.compile(r'^```')                 # fenced code fence


def split_markdown_structure(text: str, chunk_size=900, min_chunk=250, overlap_ratio=0.1) -> List[Dict]:
    lines = text.splitlines()
    sections = []
    in_code = False
    current = {"level": 0, "title": "", "content": [], "path": []}
    
    path_stack = []  # [(level, title)]
    
    for ln in lines:
        if fence_pat.match(ln):
            in_code = not in_code
        m = heading_pat.match(ln) if not in_code else None
        if m:
            if current["content"]:
                sections.append(current)
            level = len(m.group(1))
            title = m.group(2).strip()


            while path_stack and path_stack[-1][0] >= level:
                path_stack.pop()
            path_stack.append((level, title))
            breadcrumbs = [t for _, t in path_stack]
            current = {"level": level, "title": title, "content": [], "path": breadcrumbs}
        else:
            current["content"].append(ln)
    
    if current["content"]:
        sections.append(current)
    
    # 通過二次拆分/合并將部分平鋪成塊
    chunks = []
    def emit_chunk(text_block: str, path: List[str], level: int):
        chunks.append({
            "text": text_block.strip(),
            "meta": {
                "section_title": path[-1] if path else "",
                "breadcrumbs": path,
                "section_level": level,
            }
        })
    
    for sec in sections:
        raw = "\n".join(sec["content"]).strip()
        if not raw:
            continue
        if len(raw) <= chunk_size:
            emit_chunk(raw, sec["path"], sec["level"])
        else:
            paras = [p.strip() for p in raw.split("\n\n") if p.strip()]
            buf = ""
            for p in paras:
                if len(buf) + len(p) + 2 <= chunk_size:
                    buf += (("\n\n" + p) if buf else p)
                else:
                    if buf:
                        emit_chunk(buf, sec["path"], sec["level"])
                    buf = p
            if buf:
                emit_chunk(buf, sec["path"], sec["level"])
    
    merged = []
    for ch in chunks:
        if not merged:
            merged.append(ch)
            continue
        if len(ch["text"]) < min_chunk and merged[-1]["meta"]["breadcrumbs"] == ch["meta"]["breadcrumbs"]:
            merged[-1]["text"] += "\n\n" + ch["text"]
        else:
            merged.append(ch)
    
    overlap = int(chunk_size * overlap_ratio)
    for ch in merged:
        bc = " > ".join(ch["meta"]["breadcrumbs"][-3:])
        prefix = f"[{bc}]\n" if bc else ""
        if prefix and not ch["text"].startswith(prefix):
            ch["text"] = prefix + ch["text"]
        # optional character overlap can在檢索階段用鄰接聚合替代,這里略
    
    return merged
  • 參數建議(中文文檔)

chunk_size:600–1000 字;技術文/長段落可取上限,繼續適當增加。

min_chunk_chars:200–300 字(小于則合并)。

chunk_overlap:10%–15%;若使用“父級標題路徑 + 摘要”作為結構重疊,可降至 5%–10%。

對話式分塊

  • 分塊策略

以“輪次/說話人”為邊界,優先按對話鄰接對和小段話題窗口聚合。重疊采用“輪次重疊”而非單純字符重疊,保證上下文流暢。

  • 適用場景

客服對話、訪談、會議紀要、技術支持工單等多輪交流。

  • 檢索期鄰

接聚合在檢索階段對對話塊做“鄰接擴展”:取被召回塊前后各 1–2 輪上下文(或相鄰塊拼接)作為最終送審上下文,以提高回答連貫性與可追溯性。

  • 與重排協同

可提升對“誰說的、在哪段說的”的判斷力。

  • 示例代碼:(按輪次滑動窗口分塊)
from typing import List, Dict


def chunk_dialogue(turns: List[Dict], max_turns=10, max_chars=900, overlap_turns=2):
    """
    turns: [{"speaker":"User","text":"..." , "ts_start":123, "ts_end":130}, ...]
    """
    chunks = []
    i = 0
    while i < len(turns):
        j = i
        char_count = 0
        speakers = set()
        while j < len(turns):
            t = turns[j]
            uttr_len = len(t["text"])
            # 若單條超長,允許在句級二次切分(此處略),但不跨 speaker
            if (j - i + 1) > max_turns or (char_count + uttr_len) > max_chars:
                break
            char_count += uttr_len
            speakers.add(t["speaker"])
            j += 1
        
        if j > i:
            window = turns[i:j]
        elif i < len(turns):
            window = [turns[i]]
        else:
            break
        text = "\n".join([f'{t["speaker"]}: {t["text"]}' for t in window])
        meta = {
            "speakers": list(speakers),
            "turns_range": (i, j - 1),
            "ts_start": window[0].get("ts_start"),
            "ts_end": window[-1].get("ts_end"),
        }
        chunks.append({"text": text, "meta": meta})
        
        # 按輪次重疊回退
        if j >= len(turns):
            break
        next_start = i + len(window) - overlap_turns
        i = max(next_start, i + 1)  # 確保至少前進1步
    return chunks
  • 參數建議

max_turns_per_chunk:6–12 輪起步;語速快信息密度高可取 8–10。

max_chars_per_chunk:600–1000 字;若存在長段獨白,優先句級再切,不跨說話人。

overlap_turns:1–2 輪;保證上一問下一答的連續性。

keep_pairing:不要拆開明顯的問答對;若 chunk 臨界,寧可擴一輪或后移切分點。

總結

  • 首選用結構邊界做第一次切分,再用句級/遞歸策略做二次細分。
  • 優先使用“結構重疊”(父標題路徑、上段標題+摘要、相鄰發言)替代大比例字符重疊。
  • 為每個塊寫好 metadata,可顯著提升檢索質量與可解釋性。
  • 對 PDF/HTML 先去噪(頁眉頁腳、導航、廣告等),避免把噪聲索引進庫。

語義與主題分塊

該方法不依賴文檔的物理結構,而是依據語義連續性與話題轉移來決定切分點,尤其適合希望“塊內高度內聚、塊間清晰分界”的知識庫與研究類文本。

語義分塊

  • 分塊策略

對文本先做句級切分,計算句子或短段的向量表示;

當相鄰語義的相似度顯著下降(發生“語義突變”)時設為切分點。

  • 適用場景

專題化、論證結構明顯的文檔:

白皮書、論文、技術手冊、FAQ 聚合頁;

需要高內聚檢索與高可追溯性。

  • 使用流程

句級切分:先用中文分句(標點/中文分句模型)得到句子序列。

向量化:對每個句子編碼,開啟歸一化(normalize)以便用余弦相似度。

突變檢測:

1)簡單粗暴的方法:sim(i, i-1) 低于閾值則切分。

2)穩健的方法:與“前后窗口的均值向量”比較,計算新穎度 novelty = 1 - cos(emb_i, mean_emb_window),新穎度高于閾值則切分。

3)平滑的方法:對相似度/新穎度做移動平均,降低抖動。

約束與修正:設置最小/最大塊長,避免過碎或過長,必要時進行相鄰塊合并。

  • 與檢索/重排的協同召回時可做“鄰接擴展”(把被命中的塊前后各追加一兩句),再做重排序。語義分塊的高內聚可讓 重排序更精準地區分相近候選。
  • 代碼示例
from typing import List, Dict, Tuple
import numpy as np
from sentence_transformers import SentenceTransformer
import re


def split_sentences_zh(text: str) -> List[str]:
    # 簡易中文分句,可替換為 HanLP/Stanza 更穩健的實現
    pattern = re.compile(r'([^。!?;]*[。!?;]+|[^。!?;]+$)')
    return [m.group(0).strip() for m in pattern.finditer(text) if m.group(0).strip()]


def rolling_mean(vecs: np.ndarray, i: int, w: int) -> np.ndarray:
    s = max(0, i - w)
    e = min(len(vecs), i + w + 1)
    return vecs[s:e].mean(axis=0)


def semantic_chunk(
    text: str,
    model_name: str = "BAAI/bge-m3",
    window_size: int = 2,
    min_chars: int = 350,
    max_chars: int = 1100,
    lambda_std: float = 0.8,
    overlap_chars: int = 80,
) -> List[Dict]:
    sents = split_sentences_zh(text)
    if not sents:
        return []
    
    model = SentenceTransformer(model_name)
    emb = model.encode(sents, normalize_embeddings=True, batch_size=64, show_progress_bar=False)
    emb = np.asarray(emb)
    
    # 基于窗口均值的“新穎度”分數
    novelties = []
    for i in range(len(sents)):
        ref = rolling_mean(emb, i-1, window_size) if i > 0 else emb[0]
        ref = ref / (np.linalg.norm(ref) + 1e-8)
        novelty = 1.0 - float(np.dot(emb[i], ref))
        novelties.append(novelty)
    novelties = np.array(novelties)
    
    # 相對閾值:μ + λσ
    mu, sigma = float(novelties.mean()), float(novelties.std() + 1e-8)
    threshold = mu + lambda_std * sigma
    
    chunks, buf, start_idx = [], "", 0
    def flush(end_idx: int):
        nonlocal buf, start_idx
        if buf.strip():
            chunks.append({
                "text": buf.strip(),
                "meta": {"start_sent": start_idx, "end_sent": end_idx-1}
            })
        buf, start_idx = "", end_idx
    
    for i, s in enumerate(sents):
        # 若超長則先沖洗
        if len(buf) + len(s) > max_chars and len(buf) >= min_chars:
            flush(i)
            # 結構化重疊:附加上一個塊的尾部
            if overlap_chars > 0 and len(s) < overlap_chars:
                buf = s
                continue
        
        buf += s
        
        # 達到最小長度后遇到突變則切分
        if len(buf) >= min_chars and novelties[i] > threshold:
            flush(i + 1)
    
    if buf:
        flush(len(sents))
    
    return chunks
  • 參數調優說明(僅作參考)

閾值的含義:語義變化敏感度控制器,越低越容易切、越高越保守。

設定方式:

1)絕對閾值:例如使用余弦相似度,若 sim < 0.75 則切分(需按語料校準)。

2)相對閾值:對全篇的相似度/新穎度分布估計均值μ與標準差σ,使用 μ ± λσ 作為閾值,更穩健。

初始的配置建議(僅限于中文技術/說明文檔):

       1)窗口大小 window_size:2–4 句

       2)最小/最大塊長:min_chunk_chars=300–400,max_chunk_chars=1000–1200

       3)閾值策略:novelty > μ + 0.8σ 或相似度 < μ - 0.8σ(先粗調后微調)

       4)overlap:10% 左右或按“附加上一句”做輕量輪次重疊

主題的分塊

  • 分塊策略

利用主題模型或聚類算法在“宏觀話題”發生切換時進行切分,更多的關注章節級、段落級的主題邊界。該類分塊策略主要適合長篇、多主題材料。

  • 適用場景

報告、書籍、長調研文檔、綜合評審;

當文檔內部確有較穩定的“話題塊”。

  • 使用流程(最好用“句向量 + 聚類 + 序列平滑”而非純 LDA)

句級切分并編碼:首先通過向量模型得到句向量,normalize。

文檔內或語料級聚類:

1)文檔內小規模:MiniBatchKMeans(k=3–8 先驗)或 SpectralClustering。

2)語料級統一主題:在大量文檔上聚類(或用 HDBSCAN+UMAP),再將每篇文檔的句子映射到最近主題中心。

序列平滑與解碼:

      1) 對句子的主題標簽做滑窗多數投票或一階馬爾可夫平滑,避免頻繁抖動。

      2)當主題標簽穩定變化并滿足最小塊長時,設為切分點。

主題命名:用 KeyBERT/TF-IDF 在每個塊內抽關鍵詞,或用小模型生成一句話主題摘要,寫入 metadata。

約束:min/max_chars,保留代碼/表格等原子塊,必要時與結構邊界結合使用。

  • 代碼示例(KMeans 文檔內聚類 + 序列平滑)
from typing import List, Dict
import numpy as np
from sentence_transformers import SentenceTransformer
from sklearn.cluster import KMeans
import re


def split_sentences_zh(text: str) -> List[str]:
    pattern = re.compile(r'([^。!?;]*[。!?;]+|[^。!?;]+$)')
    return [m.group(0).strip() for m in pattern.finditer(text) if m.group(0).strip()]


def topic_chunk(
    text: str,
    k_topics: int = 5,
    min_chars: int = 500,
    max_chars: int = 1400,
    smooth_window: int = 2,
    model_name: str = "BAAI/bge-m3"
) -> List[Dict]:
    sents = split_sentences_zh(text)
    if not sents:
        return []
    
    model = SentenceTransformer(model_name)
    emb = model.encode(sents, normalize_embeddings=True, batch_size=64, show_progress_bar=False)
    emb = np.asarray(emb)
    
    km = KMeans(n_clusters=k_topics, n_init="auto", random_state=42)
    labels = km.fit_predict(emb)
    
    # 簡單序列平滑:滑窗多數投票
    smoothed = labels.copy()
    for i in range(len(labels)):
        s = max(0, i - smooth_window)
        e = min(len(labels), i + smooth_window + 1)
        window = labels[s:e]
        vals, counts = np.unique(window, return_counts=True)
        smoothed[i] = int(vals[np.argmax(counts)])
    
    chunks, buf, start_idx, cur_label = [], "", 0, smoothed[0]
    def flush(end_idx: int):
        nonlocal buf, start_idx
        if buf.strip():
            chunks.append({
                "text": buf.strip(),
                "meta": {"start_sent": start_idx, "end_sent": end_idx-1, "topic": int(cur_label)}
            })
        buf, start_idx = "", end_idx
    
    for i, s in enumerate(sents):
        switched = smoothed[i] != cur_label
        over_max = len(buf) + len(s) > max_chars
        under_min = len(buf) < min_chars
        
        # 嘗試延后切分,保證最小塊長
        if switched and not under_min:
            flush(i)
            cur_label = smoothed[i]
        
        if over_max and not under_min:
            flush(i)
        
        buf += s
    
    if buf:
        flush(len(sents))
    
    return chunks
  • 一些參數對結果的影響

k(主題數):難以精準預設,可通過輪廓系數(silhouette)/肘部法初篩,再結合領域先驗與人工校正。

HDBSCAN:min_cluster_size 影響較大,過小會碎片化,過大則合并不同話題。

min_topic_span_sents:如 5–8 句,防止標簽抖動導致過密切分。

小文檔不宜用:樣本太少時主題不可分,優先用語義分塊或結構分塊。

高級分塊

小-大分塊

  • 分塊策略用“小粒度塊”(如句子/短句)做高精度召回,定位到最相關的微片段;再將其“所在的大粒度塊”(如段落/小節)作為上下文送入 LLM,以兼顧精確性與上下文完整性。
  • 使用流程

構建索引(離線):

1)Sentence/短句索引(索引A):單位為句子或子句。

2)段落/小節存儲(存儲B):保留原始大塊文本與結構信息。

檢索(在線):

      1)用索引A召回 top_k_small 個小塊(向量檢索)。

      2)將小塊按 parent_id 分組,計算組內分數(max/mean/加權),選出 top_m_big 個父塊候選。

      3)對“查詢-父塊文本”做交叉編碼重排,提升相關性排序的穩定性。

      4)上下文組裝:在每個父塊中高亮或優先保留命中小句附近的上下文(鄰近N句或窗口字符 w),在整體 token 預算內拼接多塊。

      5)代碼示例(偽代碼)

# 離線:構建小塊索引,并保存 parent_id -> 大塊文本 的映射
# 在線檢索:
small_hits = small_index.search(embed(query), top_k=30)
groups = group_by_parent(small_hits)
scored_parents = score_groups(groups, agg="max")
candidates = top_m(scored_parents, m=3)


# 交叉編碼重排
rerank_inputs = [(query, parent_text(pid)) for pid in candidates]
reranked = cross_encoder_rerank(rerank_inputs)


# 組裝上下文:對每個父塊,僅保留命中句及其鄰近窗口,并加上標題路徑
contexts = []
for pid, _ in reranked:
    hits = groups[pid]
    context = build_local_window(parent_text(pid), hits, window_sents=1)
    contexts.append(prefix_with_breadcrumbs(pid) + context)


final_context = pack_under_budget(contexts, token_budget=3000)    # 留出回答空間

父子段分塊

  • 分塊策略

將文檔按章節/段落等結構單元切成“父塊”(Parent),再在每個父塊內切出“子塊”(通常為句子/短段或者篤固定塊)。然后為“子塊”建向量索引以做高精度召回。當檢索時先召回子塊,再按 parent_id 聚合并擴展到父塊或父塊中的局部窗口,兼顧最后召回內容的精準與上下文完整性。

  • 適用場景

結構清晰的說明文、手冊、白皮書、法規、FAQ 聚合頁;

需要“句級證據準確 + 段/小節級上下文完整”的問答。

  • 使用流程

結構粗切(父塊)

1)按標題層級/段落/代碼塊切出父塊。

2)父塊寫入 breadcrumbs(H1/H2/...)、anchor、block_type、start/end_offset。

精細切分(子塊)

      1)在父塊內部以句子/子句/固定塊為單位切分(可用遞歸分塊兜底),小比例 overlap(或附加上一句內容)。

      2)為每個子塊記錄child_offset、sent_index_range、parent_id。

建索引與存儲

      1)子塊向量索引A:先編碼,normalize 后建索引。

      2) 父塊存儲B:保存原文與結構元信息,此處可以選建一個父塊級向量索引用于粗排或回退。

檢索與組裝

      1 ) 用索引A召回 top_k_child 子塊。

      2 ) 按 parent_id 分組并聚合打分(max/mean/命中密度),選出 top_m_parent 父塊候選。

      3 ) 對 (query, parent_text 或 parent_window) 交叉編碼重排。

      4)上下文裁剪:對每個父塊僅保留“命中子塊±鄰近窗口”(±1–2 句或 80–200 字),加上標題路徑前綴,控制整體 token 預算。

打分與聚合策略

1)組分數:score_parent = α·max(child_scores) + (1-α)·mean(child_scores) + β·coverage(命中子塊數/父塊子塊總數)。

2)密度歸一化:density = sum(exp(score_i)) / length(parent_text),為避免長父塊因命中多而“天然占優”。

3)窗口合并:同一父塊內相鄰命中窗口若間距小于閾值則合并,減少重復與碎片。

  • 與“小-大分塊”的關系

1)小-大分塊是檢索工作流(小粒度召回→大粒度上下文);

2)父子段分塊是數據建模與索引設計(顯式維護 parent–child 映射)。

3)兩者強相關、常配合使用:父子映射讓小-大擴展更穩、更易去重與回鏈。

  • 示例
from typing import List, Dict, Tuple
import numpy as np
from sentence_transformers import SentenceTransformer




embedder = SentenceTransformer("BAAI/bge-m3")


def search_parent_child(query: str, top_k_child=40, top_m_parent=3, window_chars=180):
    q = embedder.encode([query], normalize_embeddings=True)[0]
    hits = small_index.search(q, top_k=top_k_child)  # 返回 [(child_id, score), ...]
    # 分組
    groups: Dict[str, List[Tuple[str, float]]] = {}
    for cid, score in hits:
        p = child_parent_id[cid]
        groups.setdefault(p, []).append((cid, float(score)))
    
    # 聚合打分(max + coverage)
    scored = []
    for pid, items in groups.items():
        scores = np.array([s for _, s in items])
        agg = 0.7 * scores.max() + 0.3 * (len(items) / (len(parents[pid]["sent_spans"]) + 1e-6))
        scored.append((pid, float(agg)))
    scored.sort(key=lambda x: x[1], reverse=True)
    candidates = [pid for pid, _ in scored[:top_m_parent]]
    
    # 為每個父塊構造“命中窗口”
    contexts = []
    for pid in candidates:
        ptext = parents[pid]["text"]
        # 找到子塊命中區間并合并窗口
        spans = sorted([(children[cid]["start"], children[cid]["end"]) for cid, _ in groups[pid]])
        merged = []
        for s, e in spans:
            s = max(0, s - window_chars)
            e = min(len(ptext), e + window_chars)
            if not merged or s > merged[-1][1] + 50:
                merged.append([s, e])
            else:
                merged[-1][1] = max(merged[-1][1], e)
        windows = [ptext[s:e] for s, e in merged]
        prefix = " > ".join(parents[pid]["meta"].get("breadcrumbs", [])[-3:])
        contexts.append((pid, f"[{prefix}]\n" + "\n...\n".join(windows)))
    
    # 交叉編碼重排(此處用占位函數)
    reranked = cross_encoder_rerank(query, [c[1] for c in contexts])  # 返回 indices 順序
    ordered = [contexts[i] for i in reranked]
    return ordered  # [(parent_id, context_text), ...]
  • 調參建議(僅作參考,具體需要按照實際來)調參順序:先定父/子塊長度 → 標定 top_k_child 與聚合權重 → 調整窗口大小與合并閾值 → 最后接入交叉編碼重排并控制 token 預算。

代理式分塊

  • 分塊策略

使用一個小溫度、強約束的 LLM Agent 模擬“人類閱讀與編排”,根據語義、結構與任務目標動態決定分塊邊界,并輸出結構化邊界信息與理由(rationale 可選,不用于檢索)。

  • 適用場景

高度復雜、長篇、非結構化且混合格式(文本+代碼+表格)的文檔;

結構/語義/主題策略單獨使用難以取得理想邊界時。

  • 使用時的注意事項

規則護欄:

1)禁止在代碼塊、表格單元、引用塊中間切分,對圖片/公式作為原子單元處理。

2)保持標題鏈路完整,強制最小/最大塊長(min/max_chars / min/max_sents)。

目標對齊:在系統提示中明確“為了檢索問答/用于摘要/用于診斷”的目標,Agent 以任務優先級決定邊界與上下文冗余度。

1)結構化輸出:要求輸出 segments: [{start_offset, end_offset, title_path, reason}],不能接受自由文本。

2)自檢與回退:Agent 產出的邊界先過一遍約束校驗器(如長度、原子塊、順序等),不符合規則的內容則自動回退到遞歸/句級分塊。

成本控制:

     1 )長文分批閱讀(分段滑動窗口);

     2 ) 在每段末尾只輸出邊界草案,最終匯總并去重;

     3 )溫度低(≤0.3)、max_tokens 受控。

     4) 示例:Agent 輸出模式(偽 Prompt 片段)

系統:你是分塊器。目標:為RAG檢索創建高內聚、可追溯的塊。規則:
1) 不得在代碼/表格/公式中間切分;
2) 每塊400-1000字;
3) 保持標題路徑完整;
4) 盡量讓“定義+解釋”在同一塊;
5) 輸出JSON,含 start_offset/end_offset/title_path。


用戶:<文檔片段文本>
助手(示例輸出):
{
  "segments": [
    {"start": 0, "end": 812, "title_path": ["指南","安裝"], "reason": "完整步驟+注意事項"},
    {"start": 813, "end": 1620, "title_path": ["指南","配置"], "reason": "參數表與示例緊密相關"}
  ]
}
  • 集成的流程

粗切:先用結構感知/遞歸策略獲得初步塊,降低 Agent 處理跨度。

Agent 精修:對“疑難塊”(過長/多格式/主題混雜)調用 Agent 細化邊界。

質檢:規則校驗 + 語義稀疏度檢測(塊內相似度方差過大則再細分)。

寫入 metadata。

混合分塊

單一策略難覆蓋所有文檔與場景。混合分塊通過“先粗后細、按需細化”,在效率、可追溯性與答案質量之間取得穩健平衡。

  • 分塊策略

先用宏觀邊界(結構感知)做粗粒度切分,再對“過大或主題跨度大的塊”應用更精細的策略(遞歸、句子、語義/主題)。查詢時配合“小-大分塊”/“父子段分塊”的檢索組裝,以小精召回、以大保上下文。

  • 使用流程

粗切(離線):按標題/段落/代碼塊/表格等結構單元切分,清理噪聲(頁眉頁腳/導航)。

細化(離線):對超長或密度不均的塊,按規則選用遞歸/句子/語義分塊二次細分。

索引(離線):同時為“小塊索引(句/子句)”與“大塊存儲(段/小節)”生成數據與metadata。

檢索(在線):小塊高精度召回 → 按父塊聚合與重排→ 在父塊中抽取命中句鄰域作為上下文,控制整體 token 預算。

  • 策略選擇規則

若塊類型為代碼/表格/公式:保持原子,不在中間切分,直接與其解釋文字打包。

若為對話:按輪次/說話人做對話式分塊,overlap 使用“輪次重疊”。

若為普通說明文/Markdown章節:

1)長度 > max_coarse或句長方差高/標點稀疏:優先語義分塊(句向量+突變閾值)。

2)否則:遞歸字符分塊(標題/段落/換行/空格/字符)保持語義邊界。

對過短塊:與同一父標題相鄰塊合并,優先向后合并。

  • 質量-成本檔位(僅供參考)

fast:僅結構→遞歸。overlap 5%–10%,不跑語義分塊和主題分塊

balanced(推薦):結構→遞歸,對異常塊啟用語義分塊,小-大檢索,overlap 10%左右

quality:在 balanced 基礎上對疑難塊啟用 Agent 精修,更強的鄰接擴展與rerank

  • 簡潔調度器示例, 將結構粗切與若干細分器組合為一個“混合分塊”入口,關鍵是類型判斷與長度閾值控制。可以把前文已實現的結構/句子/語義/對話分塊函數掛入此調度器。
from typing import List, Dict


def hybrid_chunk(
    doc_text: str,
    parse_structure,          # 函數:返回 [{'type': 'text|code|table|dialogue', 'text': str, 'breadcrumbs': [...], 'anchor': str}]
    recursive_splitter,       # 函數:text -> [{'text': str}]
    sentence_splitter,        # 函數:text -> [{'text': str}]
    semantic_splitter,        # 函數:text -> [{'text': str}]
    dialogue_splitter,        # 函數:turns(list) -> [{'text': str}],若無對話則忽略
    max_coarse_len: int = 1100,
    min_chunk_len: int = 320,
    target_len: int = 750,
    overlap_ratio: float = 0.1,
) -> List[Dict]:
    """
    返回格式: [{'text': str, 'meta': {...}}]
    """
    blocks = parse_structure(doc_text)  # 先拿到結構塊
    chunks: List[Dict] = []
    
    def emit(t: str, meta_base: Dict):
        t = t.strip()
        if not t:
            return
        # 結構重疊前綴(標題路徑)
        bc = " > ".join(meta_base.get("breadcrumbs", [])[-3:])
        prefix = f"[{bc}]\n" if bc else ""
        chunks.append({
            "text": (prefix + t) if not t.startswith(prefix) else t,
            "meta": meta_base
        })
    
    for b in blocks:
        t = b["text"]
        btype = b.get("type", "text")
        
        # 原子塊:代碼/表格
        if btype in {"code", "table", "formula"}:
            emit(t, {**b, "splitter": "atomic"})
            continue
        
        # 對話塊
        if btype == "dialogue":
            for ck in dialogue_splitter(b.get("turns", [])):
                emit(ck["text"], {**b, "splitter": "dialogue"})
            continue
        
        # 普通文本:依據長度與“可讀性”啟用不同細分器
        if len(t) <= max_coarse_len:
            # 中短文本:遞歸 or 句子
            sub = recursive_splitter(t)
            # 合并過短子塊
            buf = ""
            for s in sub:
                txt = s["text"]
                if len(buf) + len(txt) < min_chunk_len:
                    buf += txt
                else:
                    emit(buf or txt, {**b, "splitter": "recursive"})
                    buf = "" if buf else ""
            if buf:
                emit(buf, {**b, "splitter": "recursive"})
        else:
            # 超長文本:語義分塊優先
            for ck in semantic_splitter(t):
                emit(ck["text"], {**b, "splitter": "semantic"})
    
    # 輕量字符重疊(可選)
    if overlap_ratio > 0:
        overlapped = []
        for i, ch in enumerate(chunks):
            overlapped.append(ch)
            if i + 1 < len(chunks) and ch["meta"].get("breadcrumbs") == chunks[i+1]["meta"].get("breadcrumbs"):
                # 在相鄰同章節塊間引入小比例重疊
                ov = int(len(ch["text"]) * overlap_ratio)
                if ov > 0:
                    head = ch["text"][-ov:]
                    chunks[i+1]["text"] = head + chunks[i+1]["text"]
        chunks = overlapped
    
    return chunks

五、結論

圖片圖片


責任編輯:武曉燕 來源: 得物技術
相關推薦

2025-05-27 08:35:00

2025-05-28 09:00:00

2024-08-05 10:23:36

2025-09-03 04:00:45

RAG系統分塊

2024-10-29 11:54:25

2025-06-11 08:40:00

LangChainRAG人工智能

2025-05-06 10:05:23

2025-04-03 16:02:14

2024-09-24 14:32:17

RAG高級優化Fusion

2025-03-21 14:34:17

2024-11-08 08:39:39

2024-06-27 16:38:57

2024-08-12 08:28:53

2025-10-27 08:25:01

2024-11-11 14:23:11

2025-03-11 08:00:00

LLM開發深度學習

2025-05-14 01:40:00

RAG數據工具

2024-08-06 10:02:42

2025-02-06 13:50:06

2024-05-20 08:31:33

檢索增強生成LLM大型語言模型
點贊
收藏

51CTO技術棧公眾號

亚洲日本欧美天堂| 久久成人av少妇免费| 亚洲精品福利在线| 欧美日韩第二页| 三区四区在线视频| 国产98色在线|日韩| 欧美一区二区三区……| 国产一二三四视频| 欧美一级爆毛片| 国产日产欧美精品| 国产亚洲小视频| 免费精品国产| 日韩午夜三级在线| 久久久久久久久久久免费视频| 欧美a免费在线| 91网站视频在线观看| 国产男人精品视频| 国产a∨精品一区二区三区仙踪林| 日韩大片在线观看| 亚洲精品福利资源站| 一起操在线视频| 中文在线免费视频| 亚洲综合在线免费观看| 日韩亚洲视频在线| av男人天堂av| 免费成人av在线播放| 久久免费少妇高潮久久精品99| 国产jjizz一区二区三区视频| 91成人精品在线| 欧美精品aⅴ在线视频| 成年人视频观看| 欧美大胆的人体xxxx| 国产精品久久久久久久久动漫| 狠狠爱一区二区三区| 国产青青草视频| 美腿丝袜亚洲三区| 欧美性受xxxx黑人猛交| 日韩免费av片| 国产一区观看| 欧美精品在线第一页| 午夜激情福利电影| 日韩免费高清| 亚洲色图综合久久| 国产一级二级在线观看| 在线播放一区二区精品视频| 91精品欧美久久久久久动漫| 日韩爱爱小视频| 天然素人一区二区视频| 欧美性猛交xxxx富婆| 黄网站欧美内射| 国产91足控脚交在线观看| 亚洲欧美电影一区二区| 亚洲欧美日韩国产yyy| 国产系列电影在线播放网址| 久久综合网色—综合色88| 国产日韩亚洲精品| 亚洲 欧美 自拍偷拍| 91香蕉视频污| 欧美日韩一区在线观看视频| 欧美一区二区三区少妇| 久久久久久亚洲综合影院红桃| 激情小说综合网| 天天综合网天天综合| av亚洲产国偷v产偷v自拍| 国严精品久久久久久亚洲影视| 人妻一区二区三区免费| 99国产精品国产精品毛片| 久久人人九九| 欧美偷拍视频| 国产三区在线成人av| 无码免费一区二区三区免费播放| 国产毛片av在线| 欧美国产日本视频| 中文字幕人成一区| 性欧美猛交videos| 亚洲成人av在线电影| 国产真实乱子伦| 国产成人福利夜色影视| 欧美日韩国产中文| 国产大尺度视频| 蜜桃精品wwwmitaows| 中文字幕在线观看日韩| 中文字幕人妻一区二| 亚洲国内欧美| 国产精品国产三级国产aⅴ9色| 91精品人妻一区二区三区果冻| 国产综合久久久久久鬼色| 懂色中文一区二区三区在线视频 | 欧美韩国一区| 欧美极品第一页| 无码人妻精品一区二区三区蜜桃91 | 国产喷水吹潮视频www| 成人91在线观看| 日韩视频在线观看国产| av在线app| 欧美视频免费在线| 中日韩av在线播放| 精品精品国产三级a∨在线| 一区二区三区精品99久久| 欧美一区免费观看| 美女精品在线观看| 亚洲综合自拍一区| 精品av中文字幕在线毛片| 亚洲精品一卡二卡| 能在线观看的av网站| 久久国际精品| 亚洲香蕉成视频在线观看| 日日骚一区二区三区| 99精品久久久| 亚洲精品日韩av| 久久久资源网| 亚洲成人av在线电影| 亚洲xxx在线观看| 综合亚洲色图| 国模gogo一区二区大胆私拍 | 亚洲成人生活片| 日韩一区精品视频| 国产综合动作在线观看| 99视频免费在线观看| 色综合久久中文字幕| 国产精久久久久| 91av精品| 成人精品视频99在线观看免费| 色播色播色播色播色播在线| 亚洲综合在线视频| 国产精品999.| 日韩一区二区在线| 国产成人福利视频| 天堂a中文在线| 中文字幕五月欧美| 九色91popny| 国产精品一国产精品| 91tv亚洲精品香蕉国产一区7ujn| 精品久久人妻av中文字幕| 国产精品网站一区| 久久久国产欧美| 免费精品国产| 热草久综合在线| 五月婷婷伊人网| 欧美日韩午夜激情| 亚洲av成人精品一区二区三区 | 久久精品国产综合| 天天干,天天干| 国产午夜亚洲精品理论片色戒| 天天夜碰日日摸日日澡性色av| 91蝌蚪精品视频| 欧美精品久久久久久久久久| 成人免费视频国产| 亚洲国产精品一区二区久久恐怖片 | 国产精品天堂蜜av在线播放| 国产一区二区三区丝袜| 日本中文字幕在线观看视频| 久久色视频免费观看| 韩国日本在线视频| 九九久久电影| 国产精品美女视频网站| 二区三区在线播放| 欧美日韩精品电影| 永久免费看片直接| 国产乱码精品一区二区三区五月婷| 免费成人进口网站| 视频亚洲一区二区| 久久久久久有精品国产| 性xxxx视频| 色先锋资源久久综合| 性欧美一区二区| 韩国女主播成人在线| 永久免费看av| 欧美xxxx在线| 国产精品大片wwwwww| 麻豆视频在线观看免费网站| 日韩一级在线观看| 黄色片视频网站| 国产欧美日韩综合精品一区二区 | 国产午夜精品久久久久| 国产日本欧美一区二区| 91在线第一页| 亚洲精品色图| 视频一区视频二区视频三区高| 亚洲久草在线| 性色av一区二区三区红粉影视| 国产三级视频在线| 91精品国产aⅴ一区二区| 国产精品6666| 国产精品美女一区二区三区 | 色综合视频一区中文字幕| 日韩在线一区二区三区四区| 在线日韩av片| 久久久久久激情| 久久在线观看免费| 男女视频在线看| 国内精品久久久久久久影视麻豆| 欧美资源一区| 日本免费一区二区三区视频| 4p变态网欧美系列| 成人在线观看亚洲| 亚洲欧美制服另类日韩| 国产模特av私拍大尺度| 色婷婷一区二区三区四区| 日韩一级片av| 国产精品人妖ts系列视频| 日本50路肥熟bbw| 青青草原综合久久大伊人精品优势| 亚洲色婷婷久久精品av蜜桃| 精品国产一区二区三区| 国产伦精品一区二区三区高清| 粉嫩av一区二区三区四区五区 | 欧美1区2区3| 日韩av不卡在线| 黑人精品视频| 久久精品国产久精国产思思| 九色网友自拍视频手机在线| 精品国产一区二区三区不卡| 一级特黄aa大片| 色999日韩国产欧美一区二区| 国内偷拍精品视频| 国产精品久久久久aaaa樱花| 中文精品在线观看| 成人免费精品视频| 久久精品国产99久久99久久久| 久久精品人人| 97成人在线免费视频| 欧美一区影院| 一区二区三区|亚洲午夜| 亚洲精品亚洲人成在线| 精品福利影视| 第四色在线一区二区| 444亚洲人体| 亚洲最大的免费视频网站| 秋霞成人午夜鲁丝一区二区三区| 麻豆理论在线观看| 国模吧一区二区| 欧美野外wwwxxx| 免费av一区二区| 国产视频中文字幕在线观看| 日韩在线激情视频| av中文字幕一区二区三区| 精品偷拍一区二区三区在线看| 天天干在线观看| 精品久久人人做人人爽| 丰满人妻一区二区三区四区53| 日韩欧美在线综合网| 国产视频在线免费观看| 欧美一卡二卡三卡| 91亚洲欧美激情| 精品视频色一区| 亚洲中文字幕在线一区| 欧美日韩一区 二区 三区 久久精品| 波多野结衣一本一道| 91国在线观看| 中文字幕视频免费观看| 欧美日韩亚洲综合一区二区三区| 亚洲午夜无码久久久久| 欧美日韩国产经典色站一区二区三区| 亚洲性生活大片| 91精品婷婷国产综合久久性色| 国产精品人人妻人人爽| 日韩欧美一二区| 高潮毛片7777777毛片| 亚洲国产成人精品女人久久久 | 精品人妻无码一区二区三区蜜桃一 | 国产富婆一级全黄大片| 欧美一级黄色片| 欧美视频久久久| 亚洲精品一区二区久| 福利在线播放| 久久电影一区二区| 免费电影视频在线看| 欧美专区在线视频| 国产福利一区二区三区在线播放| 成人久久18免费网站图片| 老司机亚洲精品一区二区| 国产精品v欧美精品v日韩精品| 免费看久久久| 亚洲精品电影在线一区| 在线精品国产| 国产成人无码a区在线观看视频| 久久久久91| 天堂在线一区二区三区| 成人福利在线看| 九九九视频在线观看| 亚洲激情综合网| 久久精品国产成人av| 欧美日韩国产美| 免费观看a视频| 国产亚洲欧美另类中文| 日本不卡影院| 国产精品国语对白| av毛片精品| 日韩精品一区二区三区四区五区| 欧美成人久久| 蜜臀av午夜一区二区三区| 九九久久精品视频| 久久人人爽人人人人片| 国产精品久久久久久久久动漫| 日韩欧美a级片| 在线播放91灌醉迷j高跟美女 | 俄罗斯av网站| 国产在线日韩欧美| 无码人妻精品一区二区中文| 亚洲美女精品一区| 波多野结衣理论片| 亚洲成年人在线| 欧美日本高清| 日本欧美在线视频| 国产成人精品亚洲线观看| 亚洲一二三区在线| 欧美一级播放| 深夜视频在线观看| 国产精品理伦片| 欧美一级特黄视频| 亚洲成**性毛茸茸| 成年视频在线观看| 国产精品观看在线亚洲人成网| 国产一区福利| 日本精品福利视频| 久久丁香综合五月国产三级网站 | 亚洲特级片在线| 99re国产在线| 日韩av资源在线播放| 色综合999| 亚洲一区二区三区香蕉| 首页国产精品| 蜜臀av免费观看| 久久久久久电影| 可以免费在线观看的av| 精品国产露脸精彩对白| 色呦呦在线观看视频| 91视频8mav| 一区二区影视| 日韩av影视大全| 国产精品免费视频网站| 中文字幕 国产| 国产一区二区三区四区福利| 欧美7777| 午夜精品区一区二区三| 久久尤物视频| 中日韩精品一区二区三区| 精品福利在线看| 天堂影院在线| 国产成人高清激情视频在线观看 | 欧美成人精品网站| 亚洲视频一区二区三区| 色综合一本到久久亚洲91| 免费看成人av| 三级欧美韩日大片在线看| 亚洲一区二区自偷自拍 | 国产白浆在线观看| 精品国产一区二区三区久久狼黑人| 久久爱.com| 成人性做爰片免费视频| 国产成人av网站| 国产乡下妇女做爰毛片| 亚洲成人久久久| 蜜桃麻豆av在线| 日韩国产欧美一区| 久久超碰97中文字幕| 全网免费在线播放视频入口| 欧美成人a∨高清免费观看| 国模雨婷捆绑高清在线| 国产日韩欧美综合精品| 性欧美xxxx大乳国产app| 在线观看日本中文字幕| 欧美日韩性生活| free性欧美hd另类精品| 国产日韩欧美一区二区三区四区| 久久精品日产第一区二区| 免费黄色在线网址| 5566中文字幕一区二区电影| 丝袜美女在线观看| 狠狠色噜噜狠狠色综合久| 丝袜诱惑制服诱惑色一区在线观看 | 国产精品网站一区| 99视频在线观看免费| 97视频色精品| 欧美电影《轻佻寡妇》| 东京热av一区| 欧美视频日韩视频在线观看| 国产乱色在线观看| 国内成+人亚洲| 久久精品国产网站| 国产真人真事毛片| 亚洲日本成人网| 精品一区二区三区中文字幕| ww国产内射精品后入国产| 国产精品久久毛片av大全日韩| 亚洲av无码乱码国产麻豆| 欧美孕妇与黑人孕交| 婷婷亚洲五月色综合| 亚洲国产第一区| 777午夜精品免费视频| 色是在线视频| 看一级黄色录像| 国产色综合一区| 狠狠综合久久av一区二区| 国产精品视频精品视频| 亚洲电影成人| 日本在线一级片| 亚洲一级一级97网| 国产精品qvod|