精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

RAG 分塊新突破!LGMGC 框架讓抽取式問答效率翻倍?

人工智能
今天要為大家介紹的 Logits-Guided Multi-Granular Chunker(LGMGC)框架,正是針對這一痛點提出的創新解決方案,讓文檔分塊既 “懂語義” 又 “多粒度”,大幅提升抽取式問答效果。

在檢索增強生成(RAG)技術席卷開放域問答(ODQA)領域的當下,多數研究者的目光都聚焦在檢索算法優化與生成模型升級上,卻忽略了一個關鍵環節 —— 文檔分塊。看似簡單的分塊過程,實則是決定 RAG 性能的 “隱形基石”:若分塊缺乏上下文,檢索到的信息碎片化;若分塊包含過多無關內容,生成器又會被冗余信息干擾。今天要為大家介紹的 Logits-Guided Multi-Granular Chunker(LGMGC)框架,正是針對這一痛點提出的創新解決方案,讓文檔分塊既 “懂語義” 又 “多粒度”,大幅提升抽取式問答效果。

01、為什么 RAG 分塊需要 “重新被重視”?

在聊 LGMGC 之前,我們先搞清楚:為什么分塊環節值得投入精力研究?

RAG 的 “短板” 藏在分塊里

RAG 模型的工作流程可拆解為 “分塊 - 檢索 - 合成” 三步。前兩步中,檢索器負責從海量文檔中找相關信息,合成器(LLM)負責基于檢索結果生成答案。但如果分塊環節出了問題,后續環節再優秀也難以發揮作用:

  • 若分塊過小(如單句分塊),會丟失句子間的邏輯關聯,比如描述 “某實驗步驟” 的文本被拆分成多個孤立句子,檢索器無法捕捉完整流程;
  • 若分塊過大(如整段分塊),會混入大量與查詢無關的內容,比如在 “AI 醫療診斷” 查詢中,檢索到的分塊包含大量 AI 基礎理論,反而干擾答案提取。

現有分塊方法的 “兩難困境”

目前主流的分塊方法,始終面臨 “語義連貫性” 與 “效率成本” 的兩難:

  • 傳統分塊(遞歸分塊、語義分塊):遞歸分塊按固定長度切割文本,完全忽略語義;語義分塊雖能通過句子嵌入距離識別分隔點,但難以確定 “最優分塊粒度”,比如對學術論文和小說,最優分塊長度差異極大,傳統方法無法自適應。
  • LLM 直接分塊:近年來有研究用 GPT-4、Gemini-1.5 等大模型直接劃分文本,雖能保證語義完整,但成本極高 —— 企業處理百萬級文檔時,頻繁調用 LLM API 的費用難以承受;同時,將敏感文檔上傳至第三方 API,還會引發數據安全風險。

正是在這樣的背景下,LGMGC 框架應運而生,它既借助 LLM 的語義理解能力,又規避了高成本與安全風險,還能實現多粒度分塊,完美解決了現有方法的痛點。

02、LGMGC 框架:兩大模塊實現 “語義 + 多粒度” 分塊

LGMGC 的核心思路是 “先找完整語義塊,再拆多粒度子塊”,整個框架由Logits-Guided Chunker(基于 Logits 的分塊器) 和Multi-Granular Chunker(多粒度分塊器) 兩大模塊組成,二者協同工作,兼顧語義完整性與檢索靈活性。

圖片

模塊 1:Logits-Guided Chunker

該模塊的核心是 “利用預訓練 LLM 的 Logits 信息,識別文本中的完整語義單元”。簡單來說,LLM 能預測每個 token 的后續概率分布,而句子結束標記([EOS])的概率,恰好能反映當前句子是否構成 “完整語義”。

具體實現分為 4 步,邏輯清晰且易于部署:

  1. 預處理:固定長度初分:先將輸入文檔按固定長度 θ(如 200/300/500 個單詞)切割成初始塊,避免文本過長導致 LLM 處理壓力;
  2. 算概率:聚焦 [EOS] 標記:給每個初始塊加一個提示(如 “請判斷以下句子是否完整,若完整則輸出 [EOS]”),然后讓 LLM 計算每個句子末尾 [EOS] 標記的條件概率 p [EOS]—— 概率越高,說明該句子越完整,越適合作為語義邊界;
  3. 定分割:選最高概率點:在初始塊中,選擇 p [EOS] 最高的位置作為分割點,分割點之前的文本即為 “語義完整的父塊”,剩余內容則與下一個初始塊拼接,進入下一輪迭代;
  4. 迭代:直到滿足閾值:重復上述步驟,直到剩余文本長度低于設定閾值,最終得到一系列 “上下文連貫、語義獨立” 的父塊。

這里有個關鍵優勢:該模塊僅需 LLM 的一次前向傳播(即輸出 Logits 信息),無需讓 LLM 生成完整文本,因此可使用本地部署的量化 LLM(如 8 位量化的 Llama3-8b),既降低了成本,又避免了數據外傳,完美適配企業場景。

模塊 2:Multi-Granular Chunker

檢索和生成對分塊粒度的需求完全不同:

  • 檢索階段:需要小粒度塊 —— 塊越小,包含無關信息的概率越低,檢索精度越高;
  • 生成階段:需要大粒度塊 —— 塊越大,包含的上下文越豐富,生成的答案越全面。

Multi-Granular Chunker 模塊的核心就是 “解耦“檢索” 與 “生成” 的粒度需求”,在父塊基礎上拆分出多粒度子塊,具體操作如下:

  1. 父塊打底:以 Logits-Guided Chunker 生成的 “語義完整父塊” 為基礎,確保子塊的語義根源是完整的;
  2. 子塊拆分:將每個父塊按 “θ/2” 和 “θ/4” 的長度拆分成兩個粒度的子塊(比如父塊是 400 個單詞,子塊就是 200 個和 100 個單詞);
  3. 相似度聯動:推理時,父塊的相似度得分由其子塊的 “最高得分” 決定 —— 比如檢索 “某實驗的結論” 時,先計算所有子塊與查詢的相似度,取最高分作為對應父塊的得分;
  4. 選塊生成:最終選擇得分前 k 的父塊傳給 LLM 生成器,既保證了檢索精度(子塊篩選),又提供了完整上下文(父塊生成)。

整體流程:1+1>2 的協同效果

LGMGC 的整體流程可總結為 “兩步走”:

  1. 第一步:生成父塊:用 Logits-Guided Chunker 將文檔分割成語義完整的父塊,解決 “語義連貫性” 問題;
  2. 第二步:拆分多粒度子塊:用 Multi-Granular Chunker 將父塊拆分成不同粒度的子塊,解決 “檢索 - 生成粒度不匹配” 問題。

通過這種 “先整后分” 的邏輯,LGMGC 實現了 “1+1>2” 的效果:父塊保證了語義不破碎,子塊保證了檢索夠精準,二者結合讓后續的 RAG 流程效率大幅提升。

03、實驗驗證

為了驗證 LGMGC 的效果,研究者在段落檢索和開放域問答兩大任務中進行了對比實驗,選用了多個權威數據集和基線方法,結果證明 LGMGC 在所有指標上均表現最優。

實驗設置

數據集:

  • 檢索任務:GutenQA(“大海撈針” 型數據集,每個問題的答案僅 1-2 句話,考驗檢索精度);
  • 問答任務:LongBench 單文檔數據集(含 NarrativeQA 敘事文本、QasperQA 學術論文、MultifieldQA 多領域文本,覆蓋不同文本類型,用于評估端到端的 RAG 性能)。

評價指標:

  • 檢索任務:DCG@k(衡量檢索結果相關性與排名)、Recall@k(衡量檢索到相關證據的比例);
  • 問答任務:F1 分數(衡量預測答案與真實答案的匹配度)。

基線方法:遞歸分塊、語義分塊、段落級分塊、LumberChunker(LLM 直接分塊),以及 LGMGC 的兩個子模塊(LG Chunker、MG Chunker),確保對比的全面性。

段落檢索:語義連貫 + 多粒度 = 更高精度

實驗結果顯示,在不同塊大?。é?200/300/500)下,LGMGC 的表現始終碾壓基線:

  • Logits-Guided Chunker(LG Chunker)在不同塊大小(θ = 200、300、500 個單詞)下,始終優于Recursive Chunker、Semantic Chunker和Para Chunker。這表明 LG Chunker 在捕捉上下文連貫性和生成獨立、集中的語義塊方面具有顯著優勢。
  • LumberChunker在某些指標上略優于 LG Chunker,但 LG Chunker 更具成本效益且更易于部署。LumberChunker 需要遞歸調用 LLM API,而 LG Chunker 只需要一次前向傳播的 logits 信息,支持本地實現,避免了額外的計算成本和安全風險。
  • Multi-Granular Chunker(MG Chunker)也表現出顯著的性能提升,尤其是在多粒度分塊方面,能夠更好地適應不同類型的查詢需求。
  • LGMGC結合了 LG Chunker 和 MG Chunker 的優勢,在所有指標上均取得了最佳結果。LGMGC 不僅在語義連貫性方面表現出色,還在多粒度分塊方面展現了靈活性。

圖片

開放域問答:分塊優化讓 RAG 性能翻倍

在問答任務中,LGMGC 的優勢更明顯:

結果表明,與直接將整個文檔提供給生成器相比,應用RAG流程顯著提升了性能。關于分塊器的性能,結果與段落檢索評估中的結果一致。在使用最優塊大小的情況下,LGMGC在所有三個數據集上均表現出最高的性能,無論使用哪種檢索器和生成器。這表明,與現有基線相比,LGMGC在下游問答任務中能夠產生更優的結果。

圖片

04、總結

LGMGC 框架的創新之處,在于它跳出了 “要么重語義、要么重效率” 的傳統思維,通過 “Logits 引導語義分塊 + 多粒度適配需求” 的組合,為 RAG 分塊提供了全新范式。其核心價值可總結為三點:

  1. 語義更準:借助 LLM 的 Logits 信息,精準識別語義邊界,避免分塊碎片化;
  2. 成本更低:用本地量化 LLM 替代第三方 API,降低部署成本與安全風險;
  3. 適配性強:多粒度子塊能滿足檢索(小粒度)與生成(大粒度)的不同需求,適配學術、小說、新聞等多種文本類型。

當然,LGMGC 并非完美:目前它對超長篇文檔(如 10 萬字以上的書籍)的處理效率仍有提升空間;同時,塊大小 θ 的選擇仍需人工調試,未來若能實現 θ 的自適應調整,性能還能進一步提升。

但不可否認的是,LGMGC 為 RAG 技術的工程化落地提供了關鍵突破口 —— 對于企業而言,它既能提升問答系統的精度,又能控制成本與風險,是現階段分塊方案的優選。如果你正在搭建 RAG 系統,不妨試試 LGMGC,或許能讓你的系統性能實現 “質的飛躍”!

論文地址:https://arxiv.org/pdf/2501.09940


責任編輯:龐桂玉 來源: 小白學AI算法
相關推薦

2025-09-22 09:17:48

騰訊Youtu LabHiChunk

2025-11-04 04:15:00

RAG系統文本分塊

2025-07-17 09:35:26

RAG大模型人工智能

2025-10-29 16:16:49

Auto-RAGRAG大語言模型

2023-09-12 23:15:08

Shell腳本

2025-04-18 04:22:00

2024-12-02 18:16:56

2023-08-01 10:31:03

工具平臺插件化

2023-04-27 13:16:45

2025-04-08 03:45:00

2025-02-20 16:00:00

JavaScriptES2025

2024-09-06 08:02:52

2025-04-02 04:00:00

RAG分塊優化

2025-04-14 09:50:00

模型生成AI

2025-05-19 14:50:00

2025-09-22 09:23:24

2021-07-16 23:32:28

工具職場軟件

2021-06-25 10:20:07

Linux技巧命令

2025-02-27 09:10:00

MarkdownHTML前端

2025-11-12 07:43:00

點贊
收藏

51CTO技術棧公眾號

激情久久一区| 91嫩草精品| 中文字幕一区三区| 99精品99久久久久久宅男| 久久久久久久久久免费视频 | 中文字幕狠狠干| 九九热这里有精品| 天天色图综合网| 亚洲午夜精品福利| 日韩在线视频第一页| 美腿丝袜一区二区三区| 国内精品免费午夜毛片| 久久久久久久久福利| www.丝袜精品| 欧美日韩aaaaa| 日本中文字幕网址| 成人在线播放免费观看| 久久免费午夜影院| 国产成人免费电影| 国产又粗又猛又黄又爽无遮挡| 国产精品一国产精品k频道56| 久久九九全国免费精品观看| 欧美深性狂猛ⅹxxx深喉| 99久久久国产| 91久久国产最好的精华液| 欧美a级免费视频| 精品一二三区视频| 99视频一区二区三区| 91亚洲va在线va天堂va国| 一二三区免费视频| 日韩视频中文| 欧美伦理91i| 亚洲少妇xxx| 精品视频免费在线观看| 亚洲精品久久久久久久久久久久 | 国产精品无码一区二区桃花视频| 新67194成人永久网站| 欧美猛交免费看| 99久久99久久精品国产| 三上亚洲一区二区| 一区二区三区在线播放欧美| 久久久久久久久久久久| 欧美爱爱网站| 亚洲精品成人久久久| 日韩精品xxx| 日韩一区二区三区高清在线观看| 3d动漫精品啪啪| jizz18女人| 国产激情欧美| 欧美日韩成人一区| 手机av在线网| 99视频这里有精品| 在线成人午夜影院| 香蕉网在线视频| 精品99re| 精品国产一区二区三区忘忧草| 国产精品99久久久精品无码| 国产一区二区av在线| 日韩一区二区在线免费观看| 男插女视频网站| 一区二区三区高清在线观看| 精品黑人一区二区三区久久| 娇妻高潮浓精白浆xxⅹ| 牛牛精品成人免费视频| 精品视频在线播放色网色视频| 国产精品探花一区二区在线观看| 自拍视频一区| 日韩在线观看精品| 少妇aaaaa| 欧美激情自拍| 欧美一级片在线播放| 日本高清不卡码| 青青草原综合久久大伊人精品优势 | 亚洲色图 激情小说| 99国产精品一区二区| 欧美精品手机在线| 国产精品suv一区二区三区| 久久高清免费观看| 国产日韩精品入口| 亚洲精品综合久久| 久久只精品国产| 亚洲精品国产一区| 亚洲小说区图片| 黑人欧美xxxx| 亚洲精品综合在线观看| 粉嫩精品导航导航| 亚洲性av网站| 婷婷在线精品视频| 国产精品一区亚洲| 91色视频在线观看| 婷婷视频在线观看| **欧美大码日韩| 免费无码不卡视频在线观看| 久久夜夜久久| 日韩成人av在线| 女人裸体性做爰全过| 亚洲午夜在线| 国产精品自产拍在线观| 免费观看a视频| 女人黄色免费在线观看| av在线小说| 欧美私人免费视频| 亚洲精品第二页| 残酷重口调教一区二区| 久久久久久亚洲精品不卡| 亚洲av无码不卡| 国产盗摄女厕一区二区三区| 欧美一区二区三区电影在线观看| a黄色片在线观看| 色av成人天堂桃色av| 国产老头和老头xxxx×| 日韩精品免费一区二区在线观看| 久久久久久久久久久91| 国产精品乱码久久久| 久久综合九色欧美综合狠狠| 人妻无码一区二区三区四区| 成人全视频免费观看在线看| 日韩高清中文字幕| 欧美国产日韩在线观看成人| 美女在线观看视频一区二区| 久久99精品久久久水蜜桃| 在线观看男女av免费网址| 精品视频在线视频| 免费看污片的网站| 亚洲永久字幕| 精品视频一区在线| 午夜在线激情影院| 欧美一二三区在线| 疯狂试爱三2浴室激情视频| 日韩高清中文字幕一区| 蜜桃视频在线观看成人| 成人免费网站观看| 精品国产一区二区在线观看| 欧美高清视频一区二区三区| 久久成人羞羞网站| 亚洲v日韩v欧美v综合| 黑人巨大精品| 亚洲人成免费电影| 欧美啪啪小视频| 99久久久国产精品免费蜜臀| 91成人在线观看喷潮教学| 大香伊人久久精品一区二区| 欧美国产精品人人做人人爱| www.五月激情| 亚洲国产欧美在线| 久久久老熟女一区二区三区91| 黄色日韩在线| 国产欧美综合精品一区二区| 国内在线免费视频| 欧美精品一区二区三区蜜臀| 日韩精品视频免费看| av日韩在线网站| 黄色动漫网站入口| 自拍偷拍精品| 国产精品视频资源| 超碰免费公开在线| 欧美成人伊人久久综合网| 欧美精品99久久久| www.在线成人| 18岁视频在线观看| 久久国产电影| 9a蜜桃久久久久久免费| 123区在线| 精品一区二区电影| 亚洲精品国产欧美在线观看| 中文字幕五月欧美| 男人的天堂免费| 99香蕉国产精品偷在线观看| 日韩av高清在线播放| 日韩福利在线观看| 欧美黄色片视频| 青青操在线视频| 欧美日韩精品一二三区| 欧美三级 欧美一级| 成人精品免费视频| 日本精品一区二区三区四区 | 亚洲成人午夜在线| 国模大尺度视频一区二区| 久久久久久国产| 黄色片在线免费看| 91麻豆精品国产91久久久使用方法 | 草莓视频一区| 中文字幕在线免费观看视频| 中文字幕在线成人| 蜜桃91麻豆精品一二三区| 色狠狠一区二区三区香蕉| 国产色无码精品视频国产| www.色综合.com| www.com黄色片| 最新亚洲视频| 中文字幕一区二区三区精彩视频| 综合激情五月婷婷| 国产精品久久久久久久久久 | 四季av一区二区三区免费观看| 91视频最新| 素人一区二区三区| 欧美国产高跟鞋裸体秀xxxhd| 国产黄色片在线观看| 日韩欧美一级二级三级久久久| 波多野结衣 久久| 樱桃国产成人精品视频| 人妻少妇无码精品视频区| 国产大陆a不卡| 伊人色在线观看| 欧美综合二区| www.avtt| 亚洲精品一区二区妖精| 欧美日韩系列| 国产成人澳门| 99电影在线观看| 亚洲午夜国产成人| 欧美中文在线字幕| 九色91在线| 久久伊人免费视频| jizzjizz在线观看| 亚洲女人被黑人巨大进入| 亚洲av综合色区无码一区爱av| 欧美日本在线观看| 亚洲午夜无码久久久久| 欧美日韩在线视频一区| 国产性生活网站| 亚洲男人的天堂网| 午夜激情福利电影| 国产三级精品三级在线专区| 影音先锋黄色资源| 国产69精品久久777的优势| xxx国产在线观看| 日韩av一级电影| 乱子伦视频在线看| 亚洲男女自偷自拍| 北条麻妃在线视频观看| 亚洲大胆视频| 国产青青在线视频| 亚洲国产91| 免费看国产一级片| 国产欧美日本| 亚洲人成色77777| 久久在线精品| 美女网站视频黄色| 麻豆极品一区二区三区| 一个色综合久久| 狠狠色丁香婷婷综合| 久久撸在线视频| 精品一区二区三区在线观看国产 | 警花av一区二区三区| 91深夜福利视频| 95精品视频| av成人观看| 超碰成人在线观看| 国产另类自拍| 欧美三级电影在线| 欧美一区二区三区成人久久片 | 成人小视频在线观看免费| 欧美日韩一区自拍| 黄色大片中文字幕| 裸体素人女欧美日韩| 一区二区三区入口| 精品影视av免费| 精品国产乱码久久久久夜深人妻| 波多野结衣视频一区| 丰满少妇在线观看资源站| 国产免费成人在线视频| 成人无码精品1区2区3区免费看| 国产精品久久久久久久久晋中 | 成年人视频网站在线| 日韩在线观看免费高清| 主播国产精品| 45www国产精品网站| 九九九伊在线综合永久| 成人免费激情视频| 国产精品22p| 欧美午夜欧美| 欧美一区二区三区免费看| 日本福利视频一区| 日韩av网站在线观看| 特级黄色片视频| 99久久精品一区| 美女网站视频色| 香港成人在线视频| 日本一区二区三区久久| 日韩午夜在线观看视频| 深夜福利在线视频| www.欧美精品一二三区| 爱情岛亚洲播放路线| 国产精品大陆在线观看| 九九99久久精品在免费线bt| 久久久久成人精品免费播放动漫| 成人免费在线播放| 69sex久久精品国产麻豆| 日产国产欧美视频一区精品| 性xxxxxxxxx| 亚洲国产成人在线| 日本少妇激情视频| 欧美日韩在线三区| 亚洲欧洲综合在线| 欧美超级免费视 在线| 三级成人黄色影院| 成人欧美一区二区三区视频xxx| 国产在视频线精品视频www666| 激情五月六月婷婷| 奇米色777欧美一区二区| 自拍视频一区二区| 亚洲男人天堂av网| 中国女人一级一次看片| 亚洲激情视频网| 综合图区亚洲| 国产免费一区二区三区在线能观看| 九色丨蝌蚪丨成人| 亚洲区成人777777精品| 视频一区在线视频| 最近中文字幕无免费| 亚洲在线中文字幕| 91高潮大合集爽到抽搐| 亚洲图片欧洲图片av| 麻豆免费在线| 国产精品青青草| 在线观看国产精品入口| 亚洲欧美日本一区二区三区| 久久综合99re88久久爱| 日本视频免费在线| 精品少妇一区二区三区在线播放 | 91精品国产综合久久香蕉| 国产a久久精品一区二区三区| 久操网在线观看| 国产成人日日夜夜| 麻豆明星ai换脸视频| 欧美日韩国产美| av在线天堂| 国产精品久久久久久久久影视| 日韩欧美影院| 中文字幕日本最新乱码视频| 成人免费毛片a| 久草精品视频在线观看| 日韩欧美123| 丝袜国产在线| 成人羞羞视频免费| 欧美区亚洲区| 绯色av蜜臀vs少妇| 亚洲一区国产视频| 亚洲精品视频网| 午夜精品久久久久久久久久久久 | 北条麻妃国产九九精品视频| 久久香蕉精品视频| 日韩女优电影在线观看| 青草在线视频| 国产麻豆乱码精品一区二区三区| 精品福利电影| 在线免费观看污视频| 狠狠色狠狠色综合日日小说| 色视频在线观看| 欧美一区二区视频97| 国产91精品对白在线播放| 手机看片福利日韩| 国产精品国产三级国产三级人妇| 一级黄色片在线播放| 欧美成人免费播放| 国产在线播放精品| 亚洲熟妇av一区二区三区| 国产亚洲女人久久久久毛片| 国产三级理论片| 久热精品在线视频| 老汉色老汉首页av亚洲| av免费观看网| 国产欧美一区在线| 97超碰中文字幕| 欧美精品videosex极品1| 日本妇女一区| 亚洲第一狼人区| 亚洲精品伦理在线| 污污网站在线免费观看| 国产精品高精视频免费| 综合一区在线| 国产麻豆天美果冻无码视频| 欧美日韩中文精品| 欧美性爽视频| 色999日韩自偷自拍美女| 国产精品一区免费视频| 亚洲精品1区2区3区| 这里只有精品在线观看| 天堂精品久久久久| 漂亮人妻被中出中文字幕| 国产精品国产三级国产| 天天操天天爱天天干| 国产视频福利一区| 亚洲国产午夜| 日韩一卡二卡在线观看| 亚洲国产精品99久久| 国产成人福利夜色影视| av在线观看地址| 国产精品区一区二区三| 天天色综合久久| 91牛牛免费视频| 久久激情久久| 久久免费精彩视频| 在线观看日韩视频| 精品久久ai| 色婷婷一区二区三区在线观看| 色综合天天狠狠| 欧美极品少妇videossex| 亚洲成人一区二区三区|