精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Meta-Chunking:通過邏輯感知學習高效的文本分段

人工智能
Meta-Chunking是一種創新文本分段技術,利用LLMs的能力靈活地將文檔分割成邏輯連貫的獨立塊。方法是基于一個核心原則:允許塊大小的可變性,以更有效地捕捉和保持內容的邏輯完整性。

本文是由人大提出的,旨在解決在檢索增強生成(RAG)系統中,文本分段這一關鍵方面被忽視的問題。具體來說,傳統文本分段方法(如基于規則或語義相似性)在捕捉句子間深層語言邏輯聯系方面存在不足,導致在知識密集型任務(如開放域問答)中的性能受到影響。本文通過引入Meta-Chunking的概念及其兩種實現策略(邊際采樣分段和困惑度分段),解決了以下幾個關鍵問題:

邏輯連貫性問題

  • 問題:傳統文本分段方法往往基于規則或語義相似性,難以捕捉句子間的深層邏輯聯系(如因果、過渡、并行和漸進關系)。
  • 解決方案:Meta-Chunking通過利用LLMs的強大理解和推理能力,設計了邊際采樣分段和困惑度分段策略,精確識別文本分段邊界,確保分段后的文本塊具有邏輯連貫性。

資源和時間效率問題

  • 問題:現有的文本分段方法(如LumberChunker)需要使用高性能的LLMs(如Gemini模型),導致資源和時間成本顯著增加。
  • 解決方案:邊際采樣分段有效減少了文本分段對模型大小的依賴,使推理能力相對較弱的小型語言模型也能勝任此任務。困惑度分段進一步提高了處理效率,實現了資源和時間的節省。

細粒度和粗粒度分段的平衡問題

  • 問題:僅通過調整閾值來控制塊大小有時會導致塊大小不均勻,難以滿足用戶的多樣化分段需求。
  • 解決方案:提出了一種結合Meta-Chunking與動態合并的策略,旨在靈活應對不同的分段要求,在細粒度和粗粒度文本分段之間取得有效平衡。

長文本處理問題

  • 問題:處理較長文本時,傳統的分段方法可能導致上下文連貫性喪失或GPU內存溢出。
  • 解決方案:在困惑度分段中引入鍵值(KV)緩存機制,在保持句子間邏輯連貫性的前提下計算困惑度,從而優化GPU內存和計算準確性。

跨語言適應性問題

  • 問題:小模型在跨語言適應性方面存在局限性,難以直接應用于多語言文本分段。
  • 解決方案:通過實驗驗證,中等規模的模型(如1.5B參數級別)在處理不同長度的文本分段時能在性能和效率之間保持出色平衡。

通過上述解決方案,本文提出的Meta-Chunking方法顯著提升了基于RAG的單跳和多跳問答性能,同時在效率和成本節約方面表現出優越性能,解決了傳統文本分段方法在邏輯連貫性、資源和時間效率、細粒度和粗粒度分段平衡、長文本處理以及跨語言適應性等方面的不足。

Meta-Chunking

圖片

Meta-Chunking是一種創新文本分段技術,利用LLMs的能力靈活地將文檔分割成邏輯連貫的獨立塊。方法是基于一個核心原則:允許塊大小的可變性,以更有效地捕捉和保持內容的邏輯完整性。這種粒度的動態調整確保每個分段塊包含一個完整且獨立的表達,從而避免分段過程中邏輯鏈的中斷。這不僅增強了文檔檢索的相關性,還提高了內容清晰度。

如上圖所示,方法整合了傳統文本分段策略的優勢,如遵守預設塊長度約束和確保句子結構完整性,同時在分段過程中增強了保證邏輯連貫性的能力。關鍵在于引入了一個介于句子級和段落級文本粒度之間的新概念:Meta-Chunking。一個元塊由段落中順序排列的句子集合組成,這些句子不僅共享語義相關性,更重要的是包含深層語言邏輯聯系,包括但不限于因果、過渡、并行和漸進關系。這些關系超越了單純的語義相似性。為了實現這一目標,論文中設計和實現了以下兩種策略。

邊際采樣分段

給定一段文本,初始步驟將其分割成一系列句子,記為,最終目標是進一步將這些句子分割成若干塊,形成新集合,每個塊包含原始句子的連貫分組。該方法可以表述為:

其中表示二分類決策,表示在和之間形成指令,關于它們是否應合并,其中包含單個句子或多個句子。通過模型獲得的概率,我們可以推導出兩個選項之間的概率差異。隨后,通過將與閾值進行比較,可以得出兩個句子是否應分段的結論。對于的設置,我們最初將其賦值為0,然后通過記錄歷史的并計算其平均值進行調整。

困惑度分段

同樣,論文中將文本分割成句子,并使用模型計算每個句子基于前面句子的困惑度:

其中表示中的總token數,表示中的第個token,表示所有在之前的token。為了定位文本分段的關鍵點,算法進一步分析的分布特征,特別是識別最小值:

這些最小值被視為潛在的塊邊界。如果文本超出LLMs或設備的處理范圍,論文策略性地引入鍵值(KV)緩存機制。具體來說,文本首先根據token分成若干部分,形成多個子序列。隨著困惑度計算的進行,當GPU內存即將超過服務器配置或LLMs的最大上下文長度時,算法適當地移除先前部分文本的KV對,從而不會犧牲太多的上下文連貫性。

困惑度分段的理論分析

LLMs旨在學習一個分布¥Q¥,使其接近樣本文本的經驗分布。為了量化這兩個分布之間的接近程度,通常使用交叉熵作為度量。在離散場景下,相對于的交叉熵正式定義如下:

其中表示經驗熵,是和之間的Kullback-Leibler(KL)散度。LLMs的困惑度在數學上定義為:

需要注意的是,由于是不可優化的且有界,真正影響不同LLMs困惑度計算差異的是KL散度,它作為評估分布差異的度量。KL散度越大,兩個分布之間的差異越大。此外,高困惑度表明LLMs對真實內容的認知幻覺,這些部分不應被分段。

另一方面,Shannon(1951)通過函數近似任何語言的熵:

其中表示文本序列中的個連續token ,熵可以表示為:

然后,基于論文附錄A.1中的證明,對所有成立,可以推導出:

通過上面的公式可以觀察到對于大規模文本處理任務,增加上下文長度往往會降低交叉熵或困惑度,這一現象反映了LLMs在捕獲更廣泛的上下文信息后進行更有效的邏輯推理和語義理解的能力。

實驗

論文在十一個數據集上的廣泛實驗,驗證了Meta-Chunking策略在提升基于RAG的單跳和多跳問答性能方面的有效性。具體數據請參看原論文。

論文地址:https://arxiv.org/pdf/2410.12788

github: https://github.com/IAAR-Shanghai/Meta-Chunking

責任編輯:龐桂玉 來源: 簡單的機器學習
相關推薦

2021-08-30 09:25:25

Bert模型PyTorch語言

2024-01-19 09:27:28

2022-10-09 08:00:00

機器學習文本分類算法

2017-08-04 14:23:04

機器學習神經網絡TensorFlow

2025-10-30 00:00:00

2019-03-21 14:30:15

Linux文本分析命令

2019-11-06 16:40:31

awkLinux文本分析工具

2018-09-14 11:00:33

操作系統存儲管理

2023-11-28 09:00:00

機器學習少樣本學習SetFit

2023-08-03 07:24:40

MetaAI 語言模型

2024-10-30 16:59:57

Python機器學習

2021-03-06 07:00:00

awk文本分析工具Linux

2020-07-07 10:50:19

Python丄則表達文本

2020-12-31 05:37:05

HiveUDFSQL

2025-08-15 10:45:45

2020-03-23 08:00:00

開源數據集文本分類

2025-06-05 11:49:21

AI模型數據

2016-12-23 10:56:34

linuxshellawk

2010-01-05 16:55:44

JSON 文本

2025-06-25 07:08:09

grepsedawk
點贊
收藏

51CTO技術棧公眾號

欧美调教视频| 欧美hdxxx| 久久er精品视频| 欧美成人午夜激情在线| 人妻体内射精一区二区三区| 超碰一区二区| 亚洲欧美日韩精品久久久久| 国产在线播放一区二区| 日本视频www色| 欧美性色综合| 中文字幕欧美专区| 动漫av在线免费观看| 刘亦菲一区二区三区免费看| 国产精品久久久久久久久搜平片 | 久久精品视频网| 亚洲www永久成人夜色| 日韩少妇高潮抽搐| 日韩欧美精品一区| 亚洲精品av在线| 特黄视频免费观看| 最新日韩三级| 亚洲超碰97人人做人人爱| 亚洲欧美精品在线观看| 五月婷婷激情在线| 国产成人三级在线观看| 国产精品视频不卡| 黄色在线免费观看| 欧美日韩国产色综合一二三四| 亚洲欧洲一区二区三区在线观看 | 久久久久久久久亚洲| 久久精品国产亚洲AV成人婷婷| 久9re热视频这里只有精品| 欧美日韩电影在线播放| 黑鬼大战白妞高潮喷白浆| gogo高清午夜人体在线| 亚洲女与黑人做爰| 亚洲日本精品国产第一区| 麻豆影视在线| 99riav久久精品riav| 97超级碰碰| 97成人免费视频| 免费成人在线网站| 国产福利精品在线| 国产91精品一区| 一本久道久久久| 国内精品久久久久影院 日本资源| 韩国一级黄色录像| 日韩欧美大片| 中文字幕自拍vr一区二区三区| 能免费看av的网站| 亚洲成在人线免费观看| 日韩精品在线视频美女| 亚洲狠狠婷婷综合久久久久图片| 国产精品一区二区三区美女| 日韩精品中文字幕一区| 欧美人与性动交α欧美精品| 国产精品一级在线观看| 91精品国产综合久久精品app| 中文字幕第88页| 国产精品久久久久久吹潮| 在线看一区二区| 欧美性猛交久久久乱大交小说 | 91高清在线视频| 欧美极品少妇xxxxⅹ高跟鞋 | 欧美精品aa| 久久久久国产一区二区三区| 激情综合网五月婷婷| 精品动漫3d一区二区三区免费| 欧美久久久精品| 中文字幕影音先锋| 好看不卡的中文字幕| 久久久久国产精品免费网站| 亚洲一区二区91| 国产亚洲综合精品| 国产精品1234| 97人妻精品一区二区三区软件| 黄一区二区三区| www久久99| 桃花色综合影院| 欧美激情中文字幕| 亚洲区成人777777精品| 黑人另类精品××××性爽| 欧美午夜宅男影院在线观看| 午夜免费精品视频| 欧美高清hd| 日韩精品在线免费观看视频| 91社区视频在线观看| 香蕉久久网站| 1769国产精品| 中文在线观看免费高清| 国产精品一区二区久激情瑜伽| 99视频免费观看| 免费在线视频一级不卡| 最新不卡av在线| 免费 成 人 黄 色| 亚洲免费一区| 日韩精品视频观看| 成年人视频软件| 亚洲高清免费| 成人高h视频在线| 香蕉视频免费在线看| 亚洲欧洲美洲综合色网| 国产精品无码人妻一区二区在线| 无人区在线高清完整免费版 一区二| 欧美电影一区二区| 成人午夜福利一区二区| 小说区亚洲自拍另类图片专区| 91精品国产乱码久久久久久久久| 一级片视频播放| www.色精品| 无码人妻精品一区二区三区99v| 美女露胸视频在线观看| 91精品国产综合久久久久久久久久| 午夜不卡久久精品无码免费| 91精品啪在线观看国产81旧版 | 先锋影音网一区二区| 亚洲国产欧美一区| 国精品无码一区二区三区| 亚洲欧美日韩综合国产aⅴ| 亚洲永久免费观看| h网站视频在线观看| 婷婷国产在线综合| 亚洲最大视频网| 91亚洲国产成人久久精品| 91高清视频在线免费观看| 国产成a人亚洲精v品无码| 国产午夜精品美女毛片视频| 亚洲理论电影在线观看| 精品国产亚洲一区二区三区| 永久免费毛片在线播放不卡| 青青国产在线观看| 成人av电影在线网| 亚洲精品天堂成人片av在线播放 | 欧美日韩一级视频| 国产精品无码久久久久一区二区| 在线看片日韩| 国产精品嫩草在线观看| 日本一本在线免费福利| 7777精品伊人久久久大香线蕉| 九九九视频在线观看| 久久aⅴ国产紧身牛仔裤| 精品在线观看一区二区| 福利写真视频网站在线| 欧美成人r级一区二区三区| 中文字幕av播放| 国产主播一区二区| 在线无限看免费粉色视频| 九七影院97影院理论片久久| 主播福利视频一区| 亚洲一区二区三区高清视频| 欧美国产禁国产网站cc| 一区二区xxx| 日韩精品一区二区三区免费观影| 国产成人精品久久亚洲高清不卡| 免费在线观看污视频| 色哟哟一区二区三区| 国产 欧美 在线| 看国产成人h片视频| 一区二区视频国产| 电影一区二区三区久久免费观看| 久久精品国产久精国产思思| 一级特黄aaa大片| 亚洲三级在线看| 日本美女久久久| 韩国av一区| 久久一区二区精品| 亚洲日本在线观看视频| www.亚洲天堂| 成人福利小视频| 黄网动漫久久久| 美女脱光内衣内裤| 免费观看30秒视频久久| 中国成人亚色综合网站| 日本在线一区二区三区| 久久全国免费视频| 毛片网站在线观看| 91麻豆精品国产自产在线观看一区| 在线看的片片片免费| 成人免费看的视频| 99视频在线免费| 影音先锋日韩精品| 成人av免费电影| 亚洲永久av| 久久视频在线直播| 污视频在线免费观看| 欧美视频自拍偷拍| 欧美精品色哟哟| 久久天天做天天爱综合色| 国产无色aaa| 亚洲先锋成人| 日本精品一区二区| 日韩一区免费| 国产不卡av在线| 国产精品刘玥久久一区| 日韩电影大片中文字幕| 91影院在线播放| 婷婷六月综合亚洲| 亚洲精品卡一卡二| 91视频在线观看免费| 污网站免费在线| 一区久久精品| 亚洲一区二三| 香蕉视频一区二区三区| 成人午夜在线视频一区| 午夜av不卡| 精品自在线视频| 不卡在线视频| 亚洲国产又黄又爽女人高潮的| 中文字幕你懂的| 狠狠爱在线视频一区| 国产极品美女在线| 国产欧美视频一区二区| 免费看黄色片的网站| 久久成人久久鬼色| 日日摸天天爽天天爽视频| 国产精品av一区二区| 一区国产精品| 欧美日韩高清| 欧美极品色图| 成人三级av在线| 91香蕉亚洲精品| 巨胸喷奶水www久久久| 97在线精品视频| 欧美1234区| 欧美另类在线观看| 免费黄色在线看| 宅男66日本亚洲欧美视频| 欧美高清成人| 日韩精品视频在线观看免费| 亚洲精品久久久久久久久久| 91 com成人网| 亚洲天堂777| 欧洲在线/亚洲| 日韩欧美在线观看免费| 亚洲成在人线在线播放| 欧美被狂躁喷白浆精品| 一区二区中文字幕在线| 99自拍偷拍视频| 国产欧美精品区一区二区三区| 国产成人无码一区二区在线观看| 成人免费高清在线观看| 宇都宫紫苑在线播放| 精品亚洲免费视频| 日韩欧美中文在线视频| 精品一区二区三区久久久| 国产一伦一伦一伦| 久久成人18免费观看| 91小视频在线播放| 韩国成人精品a∨在线观看| 国产欧美一区二| 国产麻豆视频精品| 国偷自产av一区二区三区麻豆| 国产一区二区在线视频| www.偷拍.com| 国产电影一区在线| 亚洲成年人在线观看| 成人亚洲一区二区一| 欧美夫妇交换xxx| 91亚洲大成网污www| mm131美女视频| 中文字幕不卡的av| а天堂中文在线资源| 中文字幕一区在线| 美女的奶胸大爽爽大片| 亚洲综合男人的天堂| 国产午夜久久久| 日韩欧美视频一区二区三区| 国产99免费视频| 欧美日韩和欧美的一区二区| 国产美女明星三级做爰| 欧美本精品男人aⅴ天堂| 少妇又色又爽又黄的视频| 亚洲视频在线观看| 免费日本一区二区三区视频| 欧美日韩成人黄色| 咪咪网在线视频| 国产精品视频导航| 日韩欧美中文字幕一区二区三区| 国产伦精品一区二区三区视频孕妇 | 久久日韩视频| 久久久久久久电影一区| 亚洲综合电影| 91最新在线免费观看| 大奶在线精品| 亚洲成人在线视频网站| 欧美激情aⅴ一区二区三区| 91专区在线观看| 免费成人美女在线观看.| 香蕉视频1024| 国产日韩av一区| 免费网站看av| 欧洲国产伦久久久久久久| www.超碰在线.com| 亚洲香蕉在线观看| 黄页在线观看免费| 国产精品久久在线观看| 一区二区三区四区高清视频| 欧美精彩一区二区三区| 综合久久99| 日本久久精品一区二区| 丁香网亚洲国际| 91无套直看片红桃在线观看| 亚洲国产成人av网| 亚洲天堂视频网| 日韩风俗一区 二区| gogogogo高清视频在线| 国产99久久精品一区二区| 136导航精品福利| 中文精品一区二区三区| 国产亚洲高清视频| 在线播放第一页| 综合网在线视频| 波多野结衣黄色| 亚洲精品美女在线观看播放| av香蕉成人| 国产欧美一区二区白浆黑人| 亚洲毛片免费看| 成人精品视频在线播放| 激情综合亚洲精品| 91激情视频在线观看| 欧美日韩精品在线| 亚洲精品国产精品国| 久久视频在线看| 日韩福利在线观看| 日韩欧美一区二区在线观看| 亚洲每日更新| 国产人妖在线观看| 亚洲欧美偷拍卡通变态| 中文字幕网址在线| 国产亚洲精品久久久久久| 天堂电影一区| 九九九九九九精品| 亚洲久久视频| 69亚洲乱人伦| 亚洲午夜在线观看视频在线| 国产美女免费视频| 美日韩精品免费视频| 欧美视频精品| 一区二区三区四区视频在线观看| 人人精品人人爱| 快灬快灬一下爽蜜桃在线观看| 91久久精品一区二区三| 激情小视频在线| 国产精品你懂得| 国产精品99久久| 亚洲第一成肉网| 一区二区在线观看视频| 亚洲av少妇一区二区在线观看| 久久999免费视频| 国产精品视屏| 人妻内射一区二区在线视频| www久久精品| 亚洲精品一区二区二区| 在线看日韩欧美| 欧美一级做a| 超薄肉色丝袜足j调教99| 风间由美一区二区三区在线观看| 国产性猛交普通话对白| 亚洲精品理论电影| 欧美一区 二区 三区| 亚洲精品8mav| 国产剧情一区二区| 精品少妇一二三区| 日韩av在线网页| 日本综合久久| 中文字幕日韩精品一区二区| 国产在线播精品第三| 国产无遮无挡120秒| 亚洲天堂男人天堂女人天堂| 福利视频亚洲| 免费看黄色a级片| 久久综合狠狠综合| 亚洲一卡二卡在线观看| 欧美黑人巨大xxx极品| 啪啪激情综合网| 欧美日韩一区二区三区69堂| 亚洲激情网站免费观看| 深夜福利在线观看直播| 国产精品美女主播在线观看纯欲| 国产精品久久久久久影院8一贰佰| a级大片免费看| 欧美日韩在线视频一区| av天在线观看| 99久久一区三区四区免费| 亚洲中字黄色| 五月天免费网站| 亚洲精品91美女久久久久久久| 少女频道在线观看高清| 日本婷婷久久久久久久久一区二区| 蜜臀99久久精品久久久久久软件| 久久激情免费视频| 日韩激情av在线免费观看| 日韩一级特黄| 青春草国产视频| 国产精品久久久久国产精品日日| 国产日韩精品suv| 欧美做受高潮1| 亚洲a一区二区三区| 这里只有久久精品| 日韩欧美电影一区|