騰訊Youtu Lab新突破：HiChunk如何用“分層分塊”讓RAG更聰明？

作者：Goldma 2025-09-22 09:17:48

騰訊優圖實驗室近期發布了新作 HiChunk——一個能“讀懂文檔結構”的分層分塊框架，還配套了專門的評估基準 HiCBench。下面來聊聊這兩個工具如何讓RAG分塊“更聰明”。

在AI領域，RAG（檢索增強生成）早已不是新鮮詞——它就像給大模型裝了一個“外部知識庫”，通過檢索真實文檔來回答問題，避免“瞎編亂造”。但很多人不知道，RAG的效果好壞，很多時候卡在一個看似基礎的環節上：文檔分塊，對于在實際落地中，文檔分塊也是一個令人非常頭疼的難題。

簡單說，“分塊”就是把長文檔切成小片段（比如每200詞一段），方便后續檢索。可問題來了：傳統分塊要么“一刀切”（不管語義邏輯，固定長度切分），要么“看局部”（只關注句子級關聯，忽略文檔的章節、子章節結構）。這就導致大模型檢索時，要么漏了關鍵信息，要么抓了一堆無關內容。

針對這個痛點，騰訊優圖實驗室近期發布了新作 HiChunk——一個能“讀懂文檔結構”的分層分塊框架，還配套了專門的評估基準 HiCBench。下面來聊聊這兩個工具如何讓RAG分塊“更聰明”。

一、先搞懂：為什么“分塊”對RAG這么重要？

在聊HiChunk之前，得先明確一個前提：分塊不是“切豆腐”，而是決定RAG質量的“第一道關卡”。

舉個例子：如果我們有一篇關于“氣候變化”的長文檔，里面包含“原因”“影響”“解決方案”三個章節，每個章節下還有子主題。

若用“固定長度分塊”（比如每200詞切一段），可能會把“氣候變化原因”的后半段和“影響”的前半段切到同一個塊里——檢索“原因”時，會把“影響”的內容也帶進來，干擾判斷；
若用傳統語義分塊（只看句子相似度），可能會把“解決方案”章節里的不同子主題拆成多個塊——檢索“解決方案”時，需要拼多個塊才能湊齊完整信息，效率低。

更關鍵的是，現有評估基準“不給力”：之前的數據集（比如Wiki-727、HotpotQA）要么把文檔切成“扁平的句子/段落”（不考慮章節層級），要么只關注“檢索器準不準”“回答對不對”，卻沒專門評估“分塊好不好”。就像老師批改作文，只看最終得分，卻不看草稿紙的邏輯是否清晰——根本沒法判斷“分塊”這個環節的問題在哪。

這就是HiChunk要解決的核心矛盾：現有分塊方法沒利用文檔層級，現有評估標準沒管好分塊質量。

針對上述問題，HiChunk給出了“一測一解”的方案：先用HiCBench基準把“分塊質量”的評估標準立起來，再用分層分塊框架+自動合并算法解決分塊本身的問題。

二、先有“尺子”：HiCBench基準——終于能精準評估分塊了

之前評估分塊，就像用“體重秤量身高”，工具不對。HiCBench則是一把專門的“分塊尺子”，它的核心思路是：讓QA對的證據“綁定”文檔層級，分塊好不好，看證據能不能完整召回。

比如傳統數據集里，一個問題的證據可能只在1-2個句子里——哪怕分塊切得亂，只要找到這兩個句子，回答就對了，根本測不出分塊的問題。而HiCBench專門設計了三種任務，精準覆蓋不同場景：

T0（稀疏證據）：證據只在1-2個句子里（對應日常簡單問答）；
T1（單塊密集證據）：證據全在一個完整語義塊里（比如一個章節下的“氣候變化原因”段落）；
T2（多塊密集證據）：證據分散在多個語義塊里（比如“解決方案”下的“政策”“技術”兩個子章節）。

舉個T1任務的例子：問題是“文檔中提到的氣候變化主要人為原因有哪些？”，證據全在“氣候變化原因”這個2000詞的語義塊里。如果分塊把這個塊切散了，哪怕找到部分句子，也會漏關鍵信息——這樣就能直接測出分塊的好壞。

為了保證質量，HiCBench還做了兩件關鍵事：

人工標層級：先給文檔標好“章節-子章節-段落”的層級，確保語義塊清晰；
嚴篩QA對：用大模型生成候選QA對后，反復驗證“證據是否完整”“回答是否符合事實”，最后只保留“證據占比超10%、事實準確率超80%”的樣本。

有了HiCBench，終于能說清：“這個分塊方法在密集證據場景下更好”“那個方法在超長文檔里不行”——評估不再是“憑感覺”。

三、再出“方案”：分層分塊框架——讓分塊懂文檔結構

有了評估標準，下一步就是解決分塊本身的問題。HiChunk的核心是“讓分塊像人讀文檔一樣，先看章節，再看段落”，具體分兩步：

第一步：用大模型“讀懂”文檔層級

傳統分塊要么靠規則（固定長度），要么靠相似度（相鄰句子像不像），而HiChunk直接用微調后的大模型（基于Qwen3-4B）“理解”文檔結構，輸出“分層分塊點”。

比如處理一篇論文，大模型會自動識別：

第1層級分塊點：摘要、引言、實驗、結論的分隔處；
第2層級分塊點：引言下“研究背景”“現有問題”的分隔處；
第3層級分塊點：“現有問題”下“分塊問題”“評估問題”的分隔處。

這樣一來，文檔就從“扁平的文本流”變成了“有樹狀結構的語義塊”，就像給文檔建了一個“目錄”，后續檢索能精準定位到“章節-子章節”級別。

針對超長文檔（比如50頁的報告），HiChunk還設計了“迭代推理”：先處理前N個句子，標出局部分塊點，再銜接下一部分，避免大模型“看不完長文檔”的問題。

第二步：自動合并算法——動態適配檢索需求

分層分塊解決了“結構問題”，但新問題來了：HiChunk 構建的分層樹結構具備語義完整性，但語義分塊方法導致的分塊長度分布差異可能引發語義粒度不一致問題，進而影響檢索質量。簡單來說，不同語義塊的長度不一樣（比如一個章節3000詞，一個子章節500詞），直接檢索可能要么“抓太多冗余”，要么“漏關鍵信息”。

為緩解這一問題，HiChunk 在分塊結果的基礎上采用固定大小分塊方式，得到分塊序列C[1:M]，并提出 自動合并（Auto-Merge）檢索算法，以平衡語義粒度差異與檢索分塊的語義完整性問題。

它的核心邏輯是：根據查詢需求和Token預算，動態把小分塊合并成大分塊，或保留小分塊。

舉個例子：假設檢索Token預算是4096詞，查詢是“文檔中氣候變化的解決方案有哪些？”，算法會這么做：

先檢索出和“解決方案”相關的小分塊（比如“政策方案”“技術方案”兩個子章節塊，各800詞）；
檢查條件：這兩個塊的父塊是“解決方案”（2000詞），且當前用了1600詞（沒超預算），滿足“子塊交集≥2個、長度夠、預算夠”的條件；
自動合并：把兩個子塊合并成“解決方案”父塊，這樣檢索到的信息更完整，還沒超預算。

如果查詢是“政策方案里提到的碳稅措施有哪些？”，算法則會保留“政策方案”這個小分塊，不合并——避免把“技術方案”的內容帶進來，減少冗余。

簡單說，這個算法讓RAG的檢索從“固定粒度”變成了“按需調整”，既不浪費Token，又能保證信息完整。

四、實驗說話：HiChunk到底好不好用？

HiChunk在多個數據集上做了對比實驗，結果很直觀——我們挑幾個關鍵結論看：

分塊更準：層級識別能力遠超傳統方法

在Qasper（學術論文數據集）和Gov-report（政府報告數據集）上，HiChunk的分塊點F1值（越接近1越準）比傳統語義分塊（SC、LumberChunker）高15%-20%。哪怕在沒見過的“域外數據集”（比如陌生領域的報告）上，優勢更明顯——說明它真的“懂”文檔結構，而不是死記硬背。

這些結果表明，HC 方法通過專注于分塊任務，有效提升了基礎模型在文檔分塊中的性能。

RAG效果更好：尤其在密集證據場景

在HiCBench的T1（單塊密集）和T2（多塊密集）任務中，HiChunk（HC200+AM）的回答F1值比固定分塊（FC200）高10%-12%，比傳統語義分塊（LC）高5%-8%。而在T0（稀疏證據）任務中，差距不大——這正好說明：在需要完整語義塊的場景下，HiChunk的優勢才真正凸顯，而這正是企業知識庫、學術檢索等核心場景的需求。

速度夠快：兼顧質量和效率

語義分塊LC 方法雖表現出較好的分塊質量，但其分塊速度遠慢于其他基于語義的分塊方法，處理一篇長文檔要好幾分鐘，這限制了其在實際應用中的適用性。而HiChunk的分塊速度是它的3-5倍，同時保持了更高的分塊質量。對企業來說，這意味著“既能保證回答準，又能讓用戶等得少”，落地性大大提升。

檢索 Token 預算的影響

結果表明，更大的檢索 Token 預算通常能帶來更優的響應質量，因此在相同的檢索 Token 預算下對比不同分塊方法十分必要。在各種檢索 Token 預算設置下，HC200+AM 方法始終保持著更優的響應質量，這些實驗結果進一步證實了 HC200+AM 方法的有效性。

文檔結構最大層級的影響

文檔結構的最大層級范圍設為 1 至 4，分別記為 L1 至 L4；其中 LA 代表不限制最大層級。通過實驗驗證HiChunk 所得到的文檔結構最大層級對實驗結果的影響。

結果顯示，在L1設置下（即僅保留第 1 層級分塊），由于分塊的語義粒度過于粗糙，自動合并（Auto-Merge）檢索算法會導致 RAG 系統性能下降；當最大層級從 1 增加到 3 時，證據召回率指標逐漸提升，且在層級達到 3 之后基本保持穩定。這些結果凸顯了文檔層級結構對提升 RAG 系統性能的重要性。

五、總結

HiChunk不只是一個技術框架，更給RAG落地提供了明確方向：

分塊要“懂結構”：別再只盯著“固定長度”或“句子相似度”，優先利用文檔的天然層級（章節、標題），HiChunk的分層思路可直接參考；
檢索要“動態調”：Auto-Merge算法的核心是“按需合并”，在設計檢索邏輯時，可加入“子塊數量”“Token預算”等條件，平衡召回率和冗余度；
場景優先選“密集證據”：HiChunk在企業知識庫、學術問答、法律文檔檢索等“需要完整語義塊”的場景中價值最大，可優先落地這些場景；
性能指標看“雙維度”：評估RAG產品時，別只看“回答準確率”，還要加“分塊完整性”（比如HiCBench的Fact-Cov指標），避免“分塊差導致的準確率低”被誤判為“檢索器不行”。

過去做RAG，很多人把精力放在“檢索器怎么調”“大模型怎么換”上，卻忽略了“分塊”這個基礎環節。HiChunk的價值在于：它讓“分塊”從“無差別切割”變成了“有結構的語義組織”，讓RAG的每一步都更“精準”。

對行業來說，這可能是一個信號：RAG的競爭正在從“堆模型、堆數據”走向“精細化優化”——誰能把分塊、檢索、生成的每個環節都打磨到位，誰就能做出更實用的AI產品。

最后，附上論文和項目地址，感興趣的同學可以深入研究：

論文地址：https://arxiv.org/pdf/2509.11552
項目地址（HiCBench數據集）：https://huggingface.co/datasets/Youtu-RAG/HiCBench

責任編輯：龐桂玉來源：小白學AI算法