精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Unstructured專家分享RAG應用中文檔分塊(Chunking)的最佳實踐

發布于 2024-7-19 11:55
瀏覽
0收藏

近日,Maria Khalusova在Unstructured官方博客分享了有關分塊的最佳實踐。

Unstructured成立于2022年9月,致力于解決自然語言處理(NLP)和大型語言模型(LLM)應用中的數據預處理問題。公司總部位于美國,專注于將非結構化數據轉化為LLM可以處理的格式,當下流行的pdf解析庫就來自于它們,它們在數據預處理方面擁有非常前沿的技術和經驗。

分塊是文檔處理的一個步驟,當各種格式的文檔被解析變成文本文檔后,接下來就需要對文檔進行分塊。而這一步驟也直接會影響到后期檢索和模型推理總結的效果。這時候必然會帶來一些常見的問題如:為什么要分塊?最佳塊大小是多少?拆分文本的最佳方法是什么?等等。  在這篇文章里,博文作者將給出他們的實踐分享。

為什么需要分塊?

出于多種原因,在為 RAG 準備數據時,分塊是必不可少的預處理步驟。

1)上下文窗口限制

首先從基礎開始。檢索到的塊將直接作為上下文輸入到提示中,以便LLM生成響應。這意味著所有檢索到的塊的總長度至少不能超過LLM的上下文窗口。盡管當下許多LLM有相當大的上下文窗口,但實際上并不希望填滿上下文窗口,因為這些LLM會面臨“大海撈針”的問題(延伸閱讀:超長上下文窗口大模型的“照妖鏡”——大海撈針實驗,大模型“打假”必知必會)。另外,開發者可能還想以其他方式利用這個大上下文窗口,比如提供詳細的指令、角色描述或一些少樣本示例(few-shot)。

此外,如果打算使用相似性搜索并嵌入(embedding)文檔,必須考慮到嵌入模型也有一個有限的上下文窗口。這些模型不能嵌入超過其上下文窗口最大長度的文本。這個限制因具體模型而異,但可以在模型的描述中找到這些信息,例如在Hugging Face Hub上的模型卡片上。一旦知道將使用哪種模型來生成嵌入,就能確定文本塊的最大值(以token為單位,而不是字符或單詞)。嵌入模型通常在上下文窗口大小上的最大值約為8K token或更少,這相當于英語中的大約6200個單詞。為了直觀理解有多大,比如,整個《指環王》系列,包括《霍比特人》,大約有576,459個單詞,所以如果想利用這個語料庫進行RAG與相似性搜索,需要將其分成至少93個塊。

2)塊大小對檢索精度的影響

雖然嵌入模型對其可以嵌入的標記數量規定了硬性的最大限制,但這并不意味著分塊必須達到這個長度。這只是意味著它們不能超過這個長度。事實上,在許多情況下,使用每個分塊的最大長度(如 6200 字(8K 標記))可能會過長。這里有幾個令人信服的理由來選擇較小的語塊。

回想一下當我們嵌入一段文本以獲得嵌入向量時會發生什么。大多數嵌入模型都是編碼器類型的轉換器模型,輸入文本的最大長度為 768。不管你給模型的是 10 個字的句子還是 1000 個字的段落,得到的嵌入向量的維度都是一樣的,都是 768。其工作原理是,模型首先將文本轉換為token,在預訓練過程中為每個token學習了一個向量表征。然后,它將應用一個池化操作,將單個token表征平均為一個單向量表征。

常見的池化類型包括:

  • CLS池化:特殊CLS token的向量表征成為整個序列的表征
  • 平均池化:token向量表征的平均值作為整個序列的表征返回
  • 最大池化:具有最大值的token向量表征成為整個序列的表征

其目標是將細粒度的token級表征壓縮成單一的固定長度表征,其中包含整個輸入序列的含義。這種壓縮本身就是有損的。對于較大的塊,表征可能會變得過于粗糙,可能會掩蓋重要的細節。為確保精確檢索,文本塊必須擁有有意義且細致入微的表征。

現在,請考慮另一個潛在問題。一個大塊可能包含多個主題,其中一些可能與用戶查詢相關,而另一些則不相關。在這種情況下,單個向量中每個主題的表示可能會變得模糊,這同樣會影響檢索精度。

另一方面,較小的片段可以保持重點突出的上下文,從而可以更精確地匹配和檢索相關信息。通過將文檔分解成有意義的片段,檢索器可以更準確地找到特定段落或事實,從而最終提高 RAG 性能。那么,在保持上下文完整性的前提下,文件塊可以有多小?這取決于文檔的性質,可能需要進行一些試驗。通常情況下,250 個 token 左右的塊大小(相當于約 1000 個字符)是一個合理的實驗起點。

分塊的常見方法

1)字符級分塊

將大文檔分割成小塊的最基本方法是將文本分成 N 個字符大小的塊。通常在這種情況下,還會指定一定數量的字符,這些字符應在連續的文本塊之間重疊。這在一定程度上降低了句子或觀點在相鄰兩塊之間的邊界被突然切斷的可能性。不過,可以想象,即使有重疊,每個塊的固定字符數加上固定的重疊窗口,也不可避免地會導致信息流中斷、不同主題混合,甚至句子在一個詞的中間被分割。字符分割法完全不考慮文檔結構。

2)句子級分塊或遞歸分塊

字符分割是一種簡單化的方法,完全沒有考慮到文檔的結構。這種方法完全依賴于固定的字符數,經常會導致句子在中途甚至在詞的中間被拆分,效果并不好。

解決這一問題的方法之一是使用遞歸分塊法,這種方法有助于保留單個句子。使用這種方法,您可以指定一個有序的分隔符列表來指導分割過程。例如,以下是一些常用的分隔符:

  • "\n\n" - 雙換行符,通常表示段落斷開
  • "\n" - 單換行符
  • "." - 句號
  • " " - 空格

如果按照指定的順序使用上述分隔符,過程將是這樣的。首先,遞歸分塊會在每次出現雙新行("\n\n")時分解文檔。然后,如果這些分段仍然超過了所需的分塊大小,它將在新行處進一步分解它們("\n"),以此類推。

雖然這種方法大大降低了中途斷句的可能性,但仍然無法捕捉到復雜的文檔結構。文檔通常包含多種元素,如段落、章節頁眉、頁腳、列表、表格等,所有這些元素都有助于文檔的整體組織。然而,上述遞歸分塊法主要考慮的是段落和句子,而忽略了其他結構上的細微差別。

此外,文檔以多種本地格式存儲,因此必須為每種不同的文檔類型設計不同的分隔符。上面的列表可能對純文本很有效,但對于標記符,你需要一個更細致、更有針對性的分隔符列表;如果是 HTML 或 XML 文檔,還需要另一個列表,等等。將這種方法擴展到處理 PDF 和 PowerPoint 演示文稿等基于圖像的文檔,會帶來更多復雜性。如果使用場景涉及各種非結構化文檔,那么統一應用遞歸分塊很快就會成為一項繁重的任務。

使用Unstructured智能分塊

Unstructured提供了多種智能分塊策略,所有這些策略都比前面提到的方法有明顯優勢。一旦使用 Unstructured 對任何類型的文檔進行分區,分塊處理就會應用于一組單獨的文檔元素,這些元素代表原始文檔的邏輯單元并反映其結構,而不是處理一堵帶有隨機潛在分隔符的純文本墻。

Unstructured專家分享RAG應用中文檔分塊(Chunking)的最佳實踐-AI.x社區

這就意味著,你不必再想辦法區分文檔的各個部分。Unstructured 已經完成了這些繁重的工作,直接展示不同的文檔元素,這些元素封裝了文檔中的段落、表格、圖片、代碼片段和其他任何有意義的文本單元。在完成分區步驟后,文檔已經被劃分為更小的片段。這是否意味著文檔已經分塊?不完全是,但已經成功了一半!

分區后得到的某些文檔元素可能仍會超出嵌入模型的上下文窗口或所需的塊大小。這些需要進一步分割。相反,有些文檔元素可能太小,無法包含足夠的上下文。例如,一個列表被分割成單個的 ListItem元素,但你可以選擇將這些元素合并成一個單一的塊,只要它們仍然符合偏好設置的塊大小。

從系統劃分為離散元素的文檔開始,Unstructured 提供的智能分塊策略可以做到這一點:

  • 確保信息流不中斷,防止簡單的字符分塊造成的中途分詞。
  • 控制塊的最大和最小尺寸。
  • 保證不同的主題或想法,如不同主題的獨立章節,不會被合并。

智能分塊比遞歸分塊更進一步,它實際上考慮到了文檔的語義結構和內容。

智能分塊提供了四種策略,它們在保證分塊內容純凈度方面各有不同:

  • 基本分塊策略:這種方法可以在遵守最大分塊大小限制的前提下,將連續元素組合起來,最大限度地填充每個分塊。如果單個孤立的元素超過了最大硬限制,就會被分成兩個或更多塊。
  • 按標題分塊策略:該策略利用分區過程中識別的文檔元素類型來理解文檔結構,并保留章節邊界。這就意味著,單個數據塊永遠不會包含出現在兩個不同章節中的文本,從而確保主題保持自足,提高檢索精度。
  • 按頁面分塊策略(僅支持API調用):該策略專為每一頁都能傳遞獨特信息的文檔而設計,可確保來自不同頁面的內容絕不會混雜在同一個分塊中。當檢測到一個新頁面時,即使下一個元素可以放在之前的內容塊中,也會完成現有的內容塊并開始一個新的內容塊。
  • 按相似性分塊策略(僅支持API調用):當文檔結構無法提供明確的主題邊界時,可以使用 "通過相似性 "策略。該策略使用 "sentence-transformers/multi-qa-mpnet-base-dot-v1 "嵌入模型來識別在主題上相似的順序元素,并將它們組合成塊。

Unstructured 智能分塊策略的另一個優勢是可普遍適用于各種文檔類型。不需要像遞歸分塊那樣,為每個文檔硬編碼和維護分隔符列表。可以輕松嘗試分塊大小和分塊策略,為任何給定的使用場景找出最佳方案。

結論

分塊是任何 RAG 系統中必不可少的預處理步驟之一。設置時的選擇會影響檢索質量,進而影響系統的整體性能。以下是設計分塊步驟時需要注意的一些事項:

  • 嘗試不同的塊大小:雖然大塊可能包含更多上下文,但也會導致表述粗糙,對檢索精度產生負面影響。最佳塊大小取決于文檔的性質,但要在不丟失重要上下文的情況下優化較小的塊。
  • 利用巧妙的分塊策略:選擇分塊策略,在有語義意義的邊界上分隔文本,避免信息流中斷或內容混雜。
  • 評估分塊選擇對 RAG 整體性能的影響:為您的特定用例設置評估集,并跟蹤分塊大小和分塊策略實驗對整體性能的影響。無論文檔類型如何,您只需調整一兩個參數,非結構化技術就能簡化分塊實驗。

原文:https://unstructured.io/blog/chunking-for-rag-best-practices

本文轉載自?? AI工程化??,作者:ully

收藏
回復
舉報
回復
相關推薦
伊人天天综合| 成人美女大片| 丰满白嫩尤物一区二区| 亚洲2020天天堂在线观看| 香蕉视频污视频| 久久人体大尺度| 亚洲毛片av在线| 久久久久久久久久久久久久久久av| 青青国产在线视频| 午夜精品亚洲| 亚洲视频在线观看网站| 国内精品国产三级国产aⅴ久| 无遮挡爽大片在线观看视频 | 亚洲国产日韩综合久久精品| 欧美另类一区| 成人精品在线播放| 日本成人在线不卡视频| 久久久久久国产精品久久| 亚洲一二三精品| 日韩最新在线| 日韩精品一区二区三区老鸭窝| 成人3d动漫一区二区三区| 亚洲区欧洲区| 国产精品免费视频一区| 欧美成人第一区| www黄色在线观看| 美国三级日本三级久久99| 91av在线不卡| 国产一国产二国产三| 99精品一区| 伊人久久久久久久久久| av网站有哪些| 国产精品18hdxxxⅹ在线| 日韩一区国产二区欧美三区| 天堂在线资源视频| 吉吉日韩欧美| 日韩欧美黄色动漫| 少妇无码av无码专区在线观看| 国产黄色在线网站| 国产精品国模大尺度视频| 欧美日韩免费高清| 人成免费电影一二三区在线观看| 成人一级片网址| 成人午夜电影免费在线观看| 国产免费不卡视频| 韩国理伦片一区二区三区在线播放| 日本久久久久久久| 日韩精品在线免费视频| 亚洲精品精选| 久久久久亚洲精品| 日本少妇性高潮| 一区视频在线看| 久久久久久久国产精品| 欧美人妻精品一区二区免费看| 天天精品视频| 久久综合88中文色鬼| 久久久精品少妇| 91亚洲国产| www.精品av.com| 手机在线免费看毛片| 91精品国产91久久综合| 久久久电影免费观看完整版| 熟女少妇a性色生活片毛片| 一区二区三区在线电影| 欧美尺度大的性做爰视频| 久久久精品国产sm调教网站| 影音先锋国产精品| 久久免费精品视频| 国产午夜免费福利| 日本亚洲天堂网| 国产拍精品一二三| 精品国产亚洲av麻豆| 成人av网站免费| 免费毛片一区二区三区久久久| 你懂的免费在线观看视频网站| 国产调教视频一区| 一区二区不卡视频| 色综合999| 欧美日韩性生活视频| 免费国产成人av| 四虎国产精品免费久久5151| 欧美白人最猛性xxxxx69交| 制服丝袜在线第一页| 国产成人黄色| 久久在线视频在线| 毛片视频网站在线观看| 日韩激情视频在线观看| 亚洲一区二区三区xxx视频| 人人妻人人澡人人爽精品日本| 久久日一线二线三线suv| 亚洲三区在线| 97久久人人超碰caoprom| 色哟哟精品一区| 国模大尺度视频| 免费黄色成人| 久久久国产精品亚洲一区| 日韩伦理在线视频| 蜜桃视频一区二区三区| 国产女人水真多18毛片18精品 | 国产婷婷一区二区| 黄黄视频在线观看| 成年美女黄网站色大片不卡| 7777精品伊人久久久大香线蕉最新版 | 欧美一区二区免费观在线| 波多野结衣影院| 久久久9色精品国产一区二区三区| 久久理论片午夜琪琪电影网| 中文字幕 自拍偷拍| 丰满白嫩尤物一区二区| 影音先锋亚洲视频| 午夜影院在线观看国产主播| 欧美一区二区日韩一区二区| 手机看片福利视频| 在线日本高清免费不卡| 91在线直播亚洲| 黄色国产在线| 黑人与娇小精品av专区| 国产毛片久久久久久| 欧美精品久久久久久| 97香蕉超级碰碰久久免费的优势| 国产又粗又猛又黄又爽无遮挡| 久久综合国产精品| 日韩精品一区二区免费| 色综合一区二区日本韩国亚洲| 亚洲人成电影在线播放| 日本视频www| 国产精品一级黄| 亚洲精品8mav| 欧美电影免费观看高清完整| 亚洲第一精品福利| 一区二区视频免费看| 毛片av中文字幕一区二区| 日本不卡高清视频一区| 日韩精品丝袜在线| 日韩日韩日韩日韩日韩| 99精品美女视频在线观看热舞| 91浏览器在线观看| 极品少妇xxxx精品少妇偷拍| 亚洲精品第一区二区三区| 日本久久免费| 亚洲美女视频网站| 国产性xxxx高清| 成人毛片老司机大片| 亚洲天堂第一区| 久久九九精品视频| 另类天堂视频在线观看| 日本福利视频一区| 久久中文字幕无码| 经典三级在线一区| 亚洲最新在线| 青娱乐极品盛宴一区二区| 一区二区三区四区精品| 少妇又紧又色又爽又刺激视频| 久久久久国色av免费看影院| 久久精品99国产| 免费成人结看片| 国产精品久久久久秋霞鲁丝| 成人在线观看黄色| 欧美日韩综合色| 中日韩一级黄色片| 国产精品99久久久久| 福利在线一区二区| 久久香蕉精品香蕉| 热久久这里只有精品| 国内精品在线视频| 欧美日韩久久不卡| 少妇aaaaa| 9久草视频在线视频精品| 男人天堂网视频| 成人久久综合| 91网站在线免费观看| 韩国日本一区| 日韩经典第一页| 亚洲av综合一区| 亚洲免费在线电影| 国产一级二级视频| 日韩av不卡一区二区| 中文字幕一区二区三区最新| 午夜久久av| 日本高清久久天堂| 亚洲精品承认| 亚洲国产精品yw在线观看| 国产又大又黄又粗| 国产精品午夜在线观看| 国产黄色一区二区三区| 99精品国产在热久久婷婷| 亚洲成人在线视频网站| 日本亚州欧洲精品不卡| 91av视频导航| 免费在线你懂的| 日韩成人高清在线| 亚洲无码久久久久久久| 亚洲在线一区二区三区| 亚洲欧美va天堂人熟伦| 国产成人av影院| 成人黄色一区二区| 红桃视频国产精品| 视频二区一区| 成人三级av在线| 国产精品一区二区久久久| 性欧美videoshd高清| 亚洲欧美日本另类| 精品久久无码中文字幕| 欧美曰成人黄网| 国产一级一片免费播放| 国产精品久久久一区麻豆最新章节| 性生交大片免费看l| 日韩不卡在线观看日韩不卡视频| 久久免费一级片| 成人免费在线播放| 国产一区二区黄色| 国产精品美女久久久久| 国产999精品| 免费高潮视频95在线观看网站| 久久精品国产久精国产一老狼| 欧洲综合视频| 亚洲第一区在线观看| 国产人妻精品一区二区三| 在线观看视频一区二区| 亚洲精品视频在线观看免费视频| 1区2区3区国产精品| 一色道久久88加勒比一| 91影院在线观看| 日本xxxx免费| 精彩视频一区二区| 日本人69视频| 蜜臀久久99精品久久久久宅男| 欧美成人精品欧美一级乱| 极品少妇一区二区三区| 草草草视频在线观看| 一级欧洲+日本+国产 | 色天天色综合| 不卡一卡2卡3卡4卡精品在| vam成人资源在线观看| 国产精品午夜国产小视频| 成人视屏在线观看| 日本中文字幕不卡免费| 亚洲天堂电影| 日本欧美爱爱爱| 无遮挡爽大片在线观看视频| 91国产视频在线播放| 国产啊啊啊视频在线观看| 久久97久久97精品免视看 | 丝袜美腿一区二区三区动态图| 高清不卡一区二区三区| 中文字幕亚洲在线观看 | 一区二区三区免费播放| 日韩中文欧美在线| 毛片av免费在线观看| 久久亚洲影院| 看欧美ab黄色大片视频免费| 日韩1区2区3区| 在线观看免费视频高清游戏推荐| 免费成人av在线播放| 日本高清久久久| 国产一区二区在线电影| 少妇性l交大片7724com| 国产成人自拍高清视频在线免费播放| 激情小说欧美色图| 成人动漫在线一区| 中文字幕一区二区三区人妻不卡| 久久一二三国产| 午夜在线观看一区| 国产精品你懂的在线欣赏| 老熟妻内射精品一区| 一区二区三区在线视频免费观看| 久久久久久久久久99| 图片区小说区区亚洲影院| 亚洲欧美日韩激情| 欧美久久久久久久久中文字幕| av av片在线看| 亚洲第一区第一页| 国产九九在线| 久久精品夜夜夜夜夜久久| 欧美家庭影院| 国产成人精品免高潮在线观看| 国产成人毛片| 国产91精品入口17c| 九九久久电影| 少妇熟女一区二区| 在线免费观看欧美| 久久黄色免费看| 国产福利一区在线观看| 男人的天堂影院| 欧美国产精品一区| 久久久精品99| 在线一区二区视频| 精品久久久中文字幕人妻| 亚洲人成在线观看网站高清| 成人福利在线观看视频| 7777kkkk成人观看| 黄色成人在线观看网站| 国产女主播一区二区| 91欧美大片| 69堂免费视频| 国产精品自拍av| 永久免费成人代码| 一区二区三区精品视频| 欧美三级网站在线观看| 日韩女优av电影| 91精彩视频在线观看| 午夜精品久久久久久99热软件| 4438五月综合| 日产国产精品精品a∨| 亚洲电影在线| theporn国产精品| 国产色产综合色产在线视频| 青娱乐国产盛宴| 欧美日韩综合在线免费观看| 色av男人的天堂免费在线| 九九热精品视频| 啪啪av大全导航福利综合导航| 久久精品日产第一区二区三区精品版| 香蕉综合视频| 在线观看av日韩| 91在线免费播放| 久久久久久久久久99| 在线成人小视频| 91在线观看| 热久久免费视频精品| 露出调教综合另类| 99亚洲精品视频| 日韩成人精品在线| 国产av自拍一区| 福利微拍一区二区| 亚洲欧美国产高清va在线播放| 久久精品国产亚洲| 久久国产三级| 日韩妆和欧美的一区二区| 国产欧美日韩亚洲一区二区三区| 久久aaaa片一区二区| 亚洲欧洲精品一区二区精品久久久| 日本a级c片免费看三区| 亚洲电影在线观看| 免费看电影在线| 国产精品久久波多野结衣| 欧美韩日精品| 国产探花在线观看视频| 国产精品二区一区二区aⅴ污介绍| 精品久久久久久久久久久国产字幕| 日韩国产精品一区| av漫画网站在线观看| 国产91亚洲精品一区二区三区| 国产精品av久久久久久麻豆网| 91福利视频免费观看| 亚洲欧美国产77777| 精品女同一区二区三区| 美女av一区二区| 一区二区三区欧洲区| www.在线观看av| 成人av片在线观看| 成人免费视频毛片| 亚洲欧美日韩网| 欧美暴力调教| 亚洲一区免费看| 国产精品99久久久久久似苏梦涵| 免费在线观看黄视频| 亚洲第一黄色网| 欧美电影网址| 亚洲精品一区国产精品| 精品在线免费视频| 欧美又粗又大又长| 亚洲成av人影院在线观看| 999福利在线视频| 久久天堂国产精品| 日韩极品在线观看| 手机在线免费看毛片| 亚洲第一av网站| 成人勉费视频| 亚洲自拍偷拍二区| 国产91综合一区在线观看| 国产一级一片免费播放| 精品亚洲一区二区三区在线播放 | 欧美喷水视频| 一本色道综合久久欧美日韩精品 | 91精品成人久久| 国产欧美一区二区精品久久久| 在线观看高清免费视频| 亚洲欧美日韩人成在线播放| 人妻视频一区二区三区| 国产精品福利观看| 一级欧洲+日本+国产| 免费看黄色aaaaaa 片| 欧美性猛交xxxxxxxx| 色呦呦在线观看视频| 日本亚洲自拍| 国产宾馆实践打屁股91| 国产精品视频一区在线观看| 日日噜噜噜夜夜爽亚洲精品 | 久草视频在线免费看| 亚洲男人av电影| 国内精品视频| 日韩av片在线看| 亚洲日本中文字幕区| 亚洲欧洲综合在线| 91美女片黄在线观看游戏| 香蕉久久久久久久av网站| 暗呦丨小u女国产精品| 日韩精品中文在线观看| 国产剧情一区二区在线观看|