精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

RAG系列:切分優化 - 基于 Markdown 語法的文檔切分

人工智能
本文我們接著上篇文章解析轉換后的 Markdown 文件,介紹下基于 Markdown 語法的文檔切分方法。

引言

RAG系列:解析優化 - 不同文件類型統一轉換成Markdown一文中我們介紹了將不同文件類型統一解析轉換成 Markdown 文件的好處。本文我們接著這篇文章解析轉換后的 Markdown 文件,介紹下基于 Markdown 語法的文檔切分方法。

關于指標

RAG系列:系統評估 - 五個主流評估指標詳解一文中我們介紹了評估 RAG 系統的五個主流指標,從本文開始,我會根據不同優化階段來選擇要重點關注的指標,不必要每次都關注五個指標的表現,這樣可以讓我們的優化更聚焦,通過優化每個階段的重點指標,從而逐步優化系統的各個環節。

在不同優化階段需要重點關注的指標:

  • 問題優化:上下文召回率、答案正確性;
  • 切分優化:上下文召回率、上下文相關性、答案正確性;
  • 檢索優化:上下文召回率、上下文相關性、答案正確性;
  • 生成優化:答案忠實度、答案相關性、答案正確性。

代碼實踐

本文完整代碼地址[1]

基于換行符&空格等字符切分

在之前的示例中,我們用的切分方法是 langchainjs 的 RecursiveCharacterTextSplitter,這是默認推薦(常用)的切分方法。與簡單的基于字符計數或固定分隔符的分割方法不同,RecursiveCharacterTextSplitter 使用一種遞歸的方法來嘗試在多個級別的分隔符上進行分割,從而盡量保持文本的語義完整性。

RecursiveCharacterTextSplitter 默認分隔符序列是 ["\n\n", "\n", " ", ""],意味著它會先嘗試按段落分割,然后是句子,接著是單詞,最后是逐字符處理。

代碼實現:

async function splitDocuments_v50(docs) {
  const textSplitter = new RecursiveCharacterTextSplitter({
    chunkSize: 500, // 文本切分大小
    chunkOverlap: 50, // 文本切分重疊大小
  });
  const documents = await textSplitter.splitDocuments(docs);
  return documents;
}

使用該方法切分出來的文檔塊大小相對比較均勻,都比較接近設置的 chunkSize(500):

圖片

[379,425,396,376,425,206,495,400,248,299,304,335,314,484,485,425,474,479,352,378,441,443,460,400,398,211,481,346,307,476,414,358,494,480,412,367,383,485,421,407,494,487,334,448,493,397,443,410,400,388,460,492,423,55,484,498,488,422,485,414,382,361,431,157,482,485,192,271,332,424,150,456,410,427,491,477,379,202,461,456,48,39,494,235,474,407,405,248,472,473,134,351,407,102,491,413,486,478,210,495,476,163,383,421,406,486,431,224,488,488,93,487,442,388,496,169,487,485,361,412,468,357,421,362,489,445,468,251,495,477,101,202,498,211,494,328,470,422,332,246,295,393,264]

以下是我們用該方法對 《2024少兒編程教育行業發展趨勢報告.md》文件進行切分后的結果:

[
  {
    "pageContent":"# 少兒編程教育行業發展趨勢報告\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/1ccfc2f4eac2045a72ee79528246c81470330e1622704ae875d7fb6e6d3ad34c.jpg)\n\n多鯨教育研究院/ 2024 年 1 月\n\n## 少兒編程教育行業圖譜\n\n### To B / To G\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/52052abeaf37e79866428e4b7b524e27a924454c764f007ee95c2d061fc5bd96.jpg)",
},
{
    "pageContent":"![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/57e4a9a7aafc3cded2334132be39c9517a397bf8d5ff933b0514bc473467d7b5.jpg)\n\n## 專家觀點\n\n### 【童程童美 CEO/孫瀅】\n\n? 當前,素質教育市場比較分散,但包括少兒編程教育在內的市場規模仍將繼續擴大。人工智能浪潮越大,人們越可能認識到通過素質教育發展孩子其他能力的重要性,包括體育、藝術、編程等,因此素質教育將會繼續蓬勃發展。  \n? 鑒于提升學科成績的剛需長期持續存在,優質的教師資源將始終都是稀缺資源。有實力的大品牌和大公司會在素質教育發展的過程當中獲得更大的優勢。與此同時,市場里具有個性化特點的小公司也會蓬勃發展,最終呈現巨頭和小而美并存的共榮局面。\n\n### 【點貓科技創始人兼 CEO/李天馳】",
},
{
    "pageContent":"### 【點貓科技創始人兼 CEO/李天馳】\n\n? 點貓科技將以“為下一代提供更有價值的教育”為使命,持續聚焦工具和內容研發,培養青少年的計算思維以及用數字化的方法和手段解決實際問題的能力,幫助更多地區和學校開展人工智能編程教育服務,不斷為科技教育事業添磚加瓦,并為振興鄉村教育、助力教育公平貢獻自己的力量。\n\n### 【核桃編程創始人兼 CEO/曾鵬軒】\n\n? 未來教育的趨勢是以實操為主的教育方式。少兒編程是學習的工具,一種能夠實現主動學習的教育方式,也是一種未來教育的理念。核桃編程讓孩子通過編程來學習,而不是學習編程,而實操是對編程最有效的學習方式,也是核桃編程的核心理念。我們希望通過核桃編程帶來一種正向的學習理念,不只是為了學而學,而是為了用而學。我們要培養的孩子,是對科學充滿好奇、擁有無限創造力,最重要的是具有獨立思考與自主學習的能力。\n\n### 【斯坦星球 CEO/崔顯耿】",
}
  ...
]

然后對此進行評測,將該評測結果(v5.0)作為本文的基準:

圖片

基于 Markdown 語法切分

要基于 Markdown 語法進行切分,我們采用的是 langchainjs 提供的MarkdownTextSplitterMarkdownTextSplitterRecursiveCharacterTextSplitter的子類,也就是在RecursiveCharacterTextSplitter 默認分隔符序列的基礎上添加了一些 Markdown 特有的分隔符['\n## ', '\n### ','\n#### ', '\n##### ','\n###### ', '```\n\n','\n\n***\n\n', '\n\n---\n\n','\n\n___\n\n' ],這樣就意味著它會先嘗試按 Markdown 標題 分割,然后是代碼塊、接著是分割線,最后是按 RecursiveCharacterTextSplitter 方法切分,這樣就能夠識別并考慮 Markdown 文本中的不同元素(如標題、段落、列表項、代碼塊等),從而進行更加合理的切分。

代碼實現:

async function splitDocuments_v51(docs, config) {
  const textSplitter = new MarkdownTextSplitter({
    chunkSize: 500, // 文本切分大小
    chunkOverlap: 50, // 文本切分重疊大小
  });
  const documents = await textSplitter.splitDocuments(docs);
  return documents;
}

使用該方法切分出來的文檔塊大小分布的比較分散,最小的文檔塊大小只有 10:

圖片

[192,340,402,378,387,400,495,381,225,273,275,314,281,435,485,245,350,302,387,411,378,383,445,451,32,463,398,143,359,359,484,359,39,490,271,437,420,308,28,441,443,436,465,25,407,494,487,334,14,432,148,343,182,437,145,72,410,400,388,172,29,255,492,423,55,484,498,28,458,168,252,451,32,477,225,419,392,37,118,482,485,192,19,250,332,424,150,19,27,481,242,487,491,175,300,36,462,35,10,461,456,48,27,10,494,235,14,458,32,206,380,387,27,22,472,473,134,339,10,407,102,412,407,27,13,486,478,210,14,467,129,412,30,31,350,170,206,29,492,71,263,378,253,488,88,440,487,353,38,279,432,170,34,133,487,485,361,392,468,357,243,31,474,203,28,484,203,127,32,460,37,31,12,495,477,101,14,142,30,10,498,211,327,404,36,393,183,453,448,277,393,264]

我們再看下用該方法對 《2024少兒編程教育行業發展趨勢報告.md》文件進行切分的結果:

[
  {
    "pageContent":"# 少兒編程教育行業發展趨勢報告\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/1ccfc2f4eac2045a72ee79528246c81470330e1622704ae875d7fb6e6d3ad34c.jpg)\n\n多鯨教育研究院/ 2024 年 1 月",
},
{
    "pageContent":"## 少兒編程教育行業圖譜\n\n### To B / To G\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/52052abeaf37e79866428e4b7b524e27a924454c764f007ee95c2d061fc5bd96.jpg)\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/57e4a9a7aafc3cded2334132be39c9517a397bf8d5ff933b0514bc473467d7b5.jpg)",
},
{
    "pageContent":"### 【極客晨星創始人、CTO/張軍彪】\n\n? 2023 年以 AIGC 和大模型為代表的 AI 技術迅猛發展,如何為中小學生提供更加優質的科學教育、全面提高科學素質,成為一個急迫的時代命題,編程作為鏈接 AI 時代和創新人才的“鑰匙”越來越剛需,整個青少年編程市場也進入活躍期。編程教育的目標是要培養個性化、創新性人才。  \n? 編程教育最根本的是要立足課程體系,用科技加持的方法教好科技的課程,打造好的平臺和工具,為孩子們提供更加優質的教育資源,激發好奇心、培養創造力,實現個性化、創新性人才的培養,在助力科學教育做加法中的作用越來越突出。",
},
  ...
{
    "pageContent":"#### 各地積極響應國家政策號召,推動編程教育與人工智能的融合及普及國家戰略政策利好,少兒編程教育重要性逐步提升\n\n國家政策支持\n\n從教育部到各地方教育主管部門陸續出臺多項政策支持少兒編程教育普及推廣\n\n- 2018 -2019 年\n\n? 河南省建議在中小學開設 Scratch、Python 等程序設計課程,培養編程思維,普及編程教育。  \n? 天津市政府招生辦發布的《 2018 年天津科技特長生招生計劃》中,多所中學將信息學奧賽、信息技術、人工智能等納入了招生范疇。  \n? 重慶市教委發布《關于加強中小學編程教育的通知》,將編程列為重慶中小學必修課,要求小學三年級開始學編程。  \n? 北京市教育委員會將人工智能納入北京中小學社會實踐,明確了人工智能與教育融合發展在教育各學段主要任務。  \n? 山東省教育廳整合人工智能、編程教育、機器人教育等創客資源,著力打造創客教育課程體系。\n\n- 2020 -2021 年",
},
{
    "pageContent":"- 2020 -2021 年\n\n? 新疆烏魯木齊市教育局通知將在小學初中和高中年級里分別開展圖形化編程和 Python 課程,并附對課程及課時安排的具體要求,要求對老師進行線上與線下結合的編程培訓。  \n? 浙江省發布消息,八年級新增 Python 內容,五六年級按照教材規劃開始接觸大數據、人工智能、程序設計與算法。  \n? 北京市海淀區明確指出:將信息技術(包含編程)納入初中學業水平測試,考試不通過不予畢業。  \n? 上海市教委提出推進人工智能、編程技術等課程進中小學課堂,支持高校人工智能相關專業建設,提升師生信息素養。  \n? 長沙市發改委等部門指出,中小學新增“人工智能教育”和“編程教育”。  \n? 廣州市將“信息技術”列入初中學業水平考試錄取參考科目之一,示范性普通高中投檔考生的錄取參考科目成績均須達到 C 級及以上。\n\n- 2022 年",
}
]

該切分方法的評測結果(v5.1)如下:

圖片

從評測結果來看,該方法對各項指標有提升但不是很明顯,因此我們進一步分析下原因并優化。

合并過小的文檔塊

在使用 MarkdownTextSplitter 進行切分文檔的時候,我們可以看到切分后的文檔塊大小分布是比較分散的,最小的文檔塊大小只有 10,由于 MarkdownTextSplitter 切分方法的特性,這些小的文檔塊可能就是一個標題,比如:["##### 業務模式", "##### 課程體系", "##### 產品優勢"]。由于我們是根據向量距離檢索相關文檔的,由于更大的文本塊,其所涵蓋的信息量也增大,可能導致向量表示變得更加稀疏,往往我們檢索出來的是這些更小的文檔,但這些文檔往往不包含或包含很少答案所需的關鍵信息,從而影響到上下文召回率

因此我們需要將這些過小的文檔塊進行合并,由于這些過小的文檔塊是標題,所以簡單的方法就是將過小的文檔塊直接合并到下一個文檔塊上,代碼實現:

async functionsplitDocuments_v52(docs) {
// 在 splitDocuments_v51 的結果上進行處理
const documents = awaitsplitDocuments_v51(docs);
for (let i = 0; i < documents.length; i++) {
    const doc = documents[i];
    // 長度小于100的文檔
    if (doc.pageContent.length < 100) {
      // 如果不是最后一個元素,則合并到下一個元素
      if (i < documents.length - 1) {
        console.log('合并內容:', doc.pageContent, '到下一個');
        documents[i + 1].pageContent =
          doc.pageContent + '\n' + documents[i + 1].pageContent;
      }
      // 刪除當前元素
      documents.splice(i, 1);
      i--; // 回退索引以適應數組縮短的情況
    }
  }
return documents;
}

通過這樣的優化,我們看下評測結果(v5.2)如下:

圖片

此時我們可以看到,上下文召回率較 v5.1 有了比較明顯的提升。

給文檔塊補充標題

之所有要把不同的文件轉換成 Markdown 文件,其中的好處是 Markdown 文件能夠以純文本形式保留文檔的基本結構(標題、列表、代碼塊、表格),其中的標題提供了文檔的關鍵詞和上下文信息,能來用來幫助快速理解文檔內容,并在檢索時更準確地定位到與用戶提問相關的信息,這可以提高上下文相關性,因此給每個文檔塊補充標題是非常有必要的。

MarkdownTextSplitter切分后的結果:

[
  {
    "pageContent":"# 少兒編程教育行業發展趨勢報告\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/1ccfc2f4eac2045a72ee79528246c81470330e1622704ae875d7fb6e6d3ad34c.jpg)\n\n多鯨教育研究院/ 2024 年 1 月",
},
{
    "pageContent":"## 少兒編程教育行業圖譜\n\n### To B / To G\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/52052abeaf37e79866428e4b7b524e27a924454c764f007ee95c2d061fc5bd96.jpg)\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/57e4a9a7aafc3cded2334132be39c9517a397bf8d5ff933b0514bc473467d7b5.jpg)",
},
{
    "pageContent":"### 【極客晨星創始人、CTO/張軍彪】\n\n? 2023 年以 AIGC 和大模型為代表的 AI 技術迅猛發展,如何為中小學生提供更加優質的科學教育、全面提高科學素質,成為一個急迫的時代命題,編程作為鏈接 AI 時代和創新人才的“鑰匙”越來越剛需,整個青少年編程市場也進入活躍期。編程教育的目標是要培養個性化、創新性人才。  \n? 編程教育最根本的是要立足課程體系,用科技加持的方法教好科技的課程,打造好的平臺和工具,為孩子們提供更加優質的教育資源,激發好奇心、培養創造力,實現個性化、創新性人才的培養,在助力科學教育做加法中的作用越來越突出。",
},
  ...
{
    "pageContent":"#### 各地積極響應國家政策號召,推動編程教育與人工智能的融合及普及國家戰略政策利好,少兒編程教育重要性逐步提升\n\n國家政策支持\n\n從教育部到各地方教育主管部門陸續出臺多項政策支持少兒編程教育普及推廣\n\n- 2018 -2019 年\n\n? 河南省建議在中小學開設 Scratch、Python 等程序設計課程,培養編程思維,普及編程教育。  \n? 天津市政府招生辦發布的《 2018 年天津科技特長生招生計劃》中,多所中學將信息學奧賽、信息技術、人工智能等納入了招生范疇。  \n? 重慶市教委發布《關于加強中小學編程教育的通知》,將編程列為重慶中小學必修課,要求小學三年級開始學編程。  \n? 北京市教育委員會將人工智能納入北京中小學社會實踐,明確了人工智能與教育融合發展在教育各學段主要任務。  \n? 山東省教育廳整合人工智能、編程教育、機器人教育等創客資源,著力打造創客教育課程體系。\n\n- 2020 -2021 年",
},
{
    "pageContent":"- 2020 -2021 年\n\n? 新疆烏魯木齊市教育局通知將在小學初中和高中年級里分別開展圖形化編程和 Python 課程,并附對課程及課時安排的具體要求,要求對老師進行線上與線下結合的編程培訓。  \n? 浙江省發布消息,八年級新增 Python 內容,五六年級按照教材規劃開始接觸大數據、人工智能、程序設計與算法。  \n? 北京市海淀區明確指出:將信息技術(包含編程)納入初中學業水平測試,考試不通過不予畢業。  \n? 上海市教委提出推進人工智能、編程技術等課程進中小學課堂,支持高校人工智能相關專業建設,提升師生信息素養。  \n? 長沙市發改委等部門指出,中小學新增“人工智能教育”和“編程教育”。  \n? 廣州市將“信息技術”列入初中學業水平考試錄取參考科目之一,示范性普通高中投檔考生的錄取參考科目成績均須達到 C 級及以上。\n\n- 2022 年",
}
]

我們通過看 MarkdownTextSplitter切分后的結果,可以看到文檔塊所在的每一層級的標題是有缺失的,理想狀態下,該文檔塊需要有它所在的一級標題、二級標題、三級標題等等,所以在這里我們將對每個文檔塊的標題進行補充,實現代碼如下:

async functionsplitDocuments_v53(docs, config) {
// 在 splitDocuments_v52 的結果上進行處理
const documents = awaitsplitDocuments_v52(docs, config);
// 獲取每個文檔塊的標題并添加到元數據中
for (let i = 0; i < documents.length; i++) {
    const doc = documents[i];
    const lines = doc.pageContent.split('\n');
    const headers = [
      {
        key: 'header5',
        value: '##### ',
      },
      {
        key: 'header4',
        value: '#### ',
      },
      {
        key: 'header3',
        value: '### ',
      },
      {
        key: 'header2',
        value: '## ',
      },
      {
        key: 'header1',
        value: '# ',
      },
    ];
    headers.forEach((header) => {
      const { key, value } = header;
      doc.metadata[key] = [];

      // 提取每一行的標題
      for (const line of lines) {
        if (line.startsWith(value)) {
          doc.metadata[key].push(
            line.replace(newRegExp(`/^${value}/`), '').trim()
          );
        }
      }
      // 如果當前文檔沒有對應標題,則取前一個文檔的對應標題的第一個,并加入到當前文檔中
      if (i > 0) {
        if (doc.metadata[key].length === 0) {
          const preHeader = documents[i - 1].metadata[key][0];
          if (preHeader) {
            doc.pageContent = preHeader + '\n\n' + doc.pageContent;
            doc.metadata[key] = [preHeader];
          }
        }
      }
    });
  }
return documents;
}

這樣處理后,我們可以看到每個文檔塊都補充了每一級的標題:

[
  {
    "pageContent":"# 少兒編程教育行業發展趨勢報告\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/1ccfc2f4eac2045a72ee79528246c81470330e1622704ae875d7fb6e6d3ad34c.jpg)\n\n多鯨教育研究院/ 2024 年 1 月",
},
{
    "pageContent":"# 少兒編程教育行業發展趨勢報告\n\n## 少兒編程教育行業圖譜\n\n### To B / To G\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/52052abeaf37e79866428e4b7b524e27a924454c764f007ee95c2d061fc5bd96.jpg)\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/57e4a9a7aafc3cded2334132be39c9517a397bf8d5ff933b0514bc473467d7b5.jpg)",
},
{
    "pageContent":"# 少兒編程教育行業發展趨勢報告\n\n## 專家觀點\n\n### 【極客晨星創始人、CTO/張軍彪】\n\n? 2023 年以 AIGC 和大模型為代表的 AI 技術迅猛發展,如何為中小學生提供更加優質的科學教育、全面提高科學素質,成為一個急迫的時代命題,編程作為鏈接 AI 時代和創新人才的“鑰匙”越來越剛需,整個青少年編程市場也進入活躍期。編程教育的目標是要培養個性化、創新性人才。  \n? 編程教育最根本的是要立足課程體系,用科技加持的方法教好科技的課程,打造好的平臺和工具,為孩子們提供更加優質的教育資源,激發好奇心、培養創造力,實現個性化、創新性人才的培養,在助力科學教育做加法中的作用越來越突出。",
},
  ...
{
    "pageContent":"# 少兒編程教育行業發展趨勢報告\n\n## 少兒編程教育行業 十大趨勢\n\n### 01 國家戰略政策利好,少兒編程教育重要性逐步提升\n\n#### 各地積極響應國家政策號召,推動編程教育與人工智能的融合及普及國家戰略政策利好,少兒編程教育重要性逐步提升\n\n國家政策支持\n\n從教育部到各地方教育主管部門陸續出臺多項政策支持少兒編程教育普及推廣\n\n- 2018 -2019 年\n\n? 河南省建議在中小學開設 Scratch、Python 等程序設計課程,培養編程思維,普及編程教育。  \n? 天津市政府招生辦發布的《 2018 年天津科技特長生招生計劃》中,多所中學將信息學奧賽、信息技術、人工智能等納入了招生范疇。  \n? 重慶市教委發布《關于加強中小學編程教育的通知》,將編程列為重慶中小學必修課,要求小學三年級開始學編程。  \n? 北京市教育委員會將人工智能納入北京中小學社會實踐,明確了人工智能與教育融合發展在教育各學段主要任務。  \n? 山東省教育廳整合人工智能、編程教育、機器人教育等創客資源,著力打造創客教育課程體系。\n\n- 2020 -2021 年",
},
{
    "pageContent":"# 少兒編程教育行業發展趨勢報告\n\n## 少兒編程教育行業 十大趨勢\n\n### 01 國家戰略政策利好,少兒編程教育重要性逐步提升\n\n#### 各地積極響應國家政策號召,推動編程教育與人工智能的融合及普及國家戰略政策利好,少兒編程教育重要性逐步提升\n\n- 2020 -2021 年\n\n? 新疆烏魯木齊市教育局通知將在小學初中和高中年級里分別開展圖形化編程和 Python 課程,并附對課程及課時安排的具體要求,要求對老師進行線上與線下結合的編程培訓。  \n? 浙江省發布消息,八年級新增 Python 內容,五六年級按照教材規劃開始接觸大數據、人工智能、程序設計與算法。  \n? 北京市海淀區明確指出:將信息技術(包含編程)納入初中學業水平測試,考試不通過不予畢業。  \n? 上海市教委提出推進人工智能、編程技術等課程進中小學課堂,支持高校人工智能相關專業建設,提升師生信息素養。  \n? 長沙市發改委等部門指出,中小學新增“人工智能教育”和“編程教育”。  \n? 廣州市將“信息技術”列入初中學業水平考試錄取參考科目之一,示范性普通高中投檔考生的錄取參考科目成績均須達到 C 級及以上。\n\n- 2022 年",
}
]

通過這樣的優化,我們看下評測結果(v5.3)如下:

圖片

此時我們可以看到,上下文相關性較 v5.2 有了比較明顯的提升。

結語

通過對比基于通用字符遞歸切分方法與基于 Markdown 語法的文檔切分方法,我們可以看到基于 Markdown 語法的文檔切分方法對 RAG 系統的各項指標是有一定的提升作用,然后我們通過合并過小的文檔塊提升了上下文召回率,通過給文檔塊補充標題提升了上下文相關性

引用鏈接

[1] 本文完整代碼地址: https://github.com/laixiangran/ai-learn/blob/main/src/app/rag/05_document_split_optimize/route.ts

責任編輯:龐桂玉 來源: 燃哥講AI
相關推薦

2025-06-24 09:51:10

2024-09-04 09:11:42

2025-08-01 01:55:00

2022-01-07 14:00:35

分庫分表業務量

2025-06-23 09:21:53

2019-11-25 10:12:59

Python技巧工具

2011-08-18 16:03:48

數據切分MySQL

2024-08-05 10:23:36

2025-06-03 08:50:24

RAGMarkdown

2025-05-22 06:48:50

RAGAI應用開發框架DeepSeek

2017-07-17 14:45:43

數據庫DB分庫切分策略

2021-03-17 16:15:55

數據MySQL 架構

2017-12-08 10:42:49

HBase切分細節

2017-08-28 16:40:07

Region切分觸發策略

2024-06-24 14:32:33

2017-06-19 16:45:41

數據庫水平切分用戶中心

2025-05-26 09:57:46

2024-02-05 14:12:37

大模型RAG架構

2025-07-16 01:00:00

2023-10-10 14:03:47

swap排序解法
點贊
收藏

51CTO技術棧公眾號

成人免费aaa| 国产日韩欧美影视| 中文字幕丰满乱子伦无码专区| 高清免费电影在线观看| 寂寞少妇一区二区三区| x99av成人免费| 999热精品视频| 在线观看wwwxxxx| 国产精品综合在线视频| 欧美成年人在线观看| 久草福利在线观看| 毛片在线网站| 欧美国产日韩一二三区| 亚洲va欧美va国产综合久久| 久草综合在线视频| 国产精品一区二区三区美女| 日韩欧美有码在线| 在线视频一区观看| 人妻少妇精品视频一区二区三区| 日韩在线第三页| 卡通动漫亚洲综合| 另类图片第一页| 午夜精品久久久久| 国产va免费精品高清在线观看| 欧美激情视频二区| 亚洲**毛片| 美国欧美日韩国产在线播放| 亚洲免费高清视频| 久久成人免费观看| 免费黄色电影在线观看| 成人黄色a**站在线观看| 欧日韩不卡在线视频| 日韩成人av免费| 午夜激情在线观看| 久久性天堂网| 久久大大胆人体| 好吊日免费视频| 日韩成人影音| 岛国精品视频在线播放| 国产免费裸体视频| а天堂中文在线官网| 国产欧美日韩中文久久| 久中文字幕一区| 天堂中文字幕av| 成人一区在线观看| 91视频免费进入| 99国产在线播放| 久久精品国产一区二区| 国产成人免费av电影| www.com国产| 一区二区三区四区五区精品视频 | 国产精品美腿一区在线看| 日韩欧美中文字幕一区二区| 国产精品chinese| 欧美精品一区二区免费| 亚洲天堂一级片| 婷婷精品进入| 欧美床上激情在线观看| 2021亚洲天堂| 影音先锋亚洲精品| 国语自产精品视频在线看抢先版图片 | 国产黄色av网站| 国产乱码一区二区三区| 91天堂在线视频| 精品久久久久成人码免费动漫| 国产在线视频精品一区| 亚洲资源在线看| 亚洲精品久久久久久久久久| 懂色av一区二区三区免费观看| 超碰97网站| 天天综合在线视频| 久久午夜老司机| 婷婷精品国产一区二区三区日韩| av影片免费在线观看| 国产精品久久久久毛片软件| ijzzijzzij亚洲大全| 伊人影院蕉久影院在线播放| 亚洲综合色在线| 国产白丝袜美女久久久久| 都市激情综合| 欧美人牲a欧美精品| 肉色超薄丝袜脚交| 欧美18xxxx| 一本大道久久加勒比香蕉| а天堂中文在线资源| 欧美日本二区| 日韩av黄色在线观看| 一区二区三区午夜| 成人性生交大片| 清纯唯美一区二区三区| 久久精品视频观看| 亚洲国产精品精华液网站| 日韩av在线综合| 亚洲欧美一级| 亚洲精品99久久久久| 青青草自拍偷拍| 亚洲精品免费观看| 国产精品一区二区久久| 欧美视频一二区| 国产精品大尺度| 国产美女在线一区| 国产精品高潮久久| 亚洲第一福利网站| 成人午夜免费影院| 国产毛片一区| 3d动漫啪啪精品一区二区免费 | 日韩 欧美 视频| 国产成人精品一区二三区在线观看 | 国产精品69页| 国产成人夜色高潮福利影视| 中文字幕日韩精品在线| 日本免费一二三区| 精品夜夜嗨av一区二区三区| 久久av一区二区| 国产精品刘玥久久一区| 在线观看免费亚洲| 手机在线成人av| 中文字幕亚洲综合久久五月天色无吗''| 7777精品久久久久久| 99re只有精品| 国产精品麻豆久久久| 日本不卡在线观看视频| caoporn成人免费视频在线| 中文字幕亚洲一区二区三区| 可以免费看的av毛片| 国产电影一区二区三区| 亚欧精品在线| 欧美大片1688| 日韩成人av在线播放| 免费在线观看国产精品| 美女视频黄免费的久久| 日韩电影天堂视频一区二区| 久久男人天堂| 精品国内二区三区| www.毛片com| 久久精品国产99国产精品| 日本不卡一区二区三区在线观看| 国产在线88av| 亚洲黄色在线观看| 国产一级二级毛片| 国产成人综合亚洲网站| 在线视频不卡一区二区三区| a成人v在线| 一区二区三区黄色| 男人天堂av在线播放| av网站一区二区三区| 精品视频在线观看一区| 国产精品极品在线观看| 欧美激情区在线播放| 精品女同一区二区三区| 一区二区三区鲁丝不卡| wwwxxx色| 亚洲视频福利| 精品国产乱码久久久久久郑州公司 | 久久综合在线观看| 欧美成人有码| av资源站久久亚洲| 77thz桃花论族在线观看| 亚洲成人黄色在线观看| 国产亚洲精品av| 99久久精品国产麻豆演员表| 3d动漫一区二区三区| 香蕉视频一区二区三区| 热久久美女精品天天吊色| 国产日韩精品在线看| 欧美日韩免费一区二区三区视频| jizzjizz日本少妇| 国产精品正在播放| 97中文字幕在线| 欧美天堂社区| 国产精品美女免费视频| 国产二区三区在线| 亚洲国产精品大全| 久久久久久久亚洲| 国产精品电影一区二区三区| 曰本三级日本三级日本三级| 中文一区在线| 亚洲欧美日韩精品久久久| 国产精品1区在线| 91成人性视频| 在线中文资源天堂| 欧美mv日韩mv国产网站app| aaa人片在线| 中文字幕在线不卡国产视频| 日韩高清一二三区| 久久精品五月| 中文字幕の友人北条麻妃| 欧美交a欧美精品喷水| 国产成人精品免费视频| 超碰在线无需免费| 精品五月天久久| 国产精品欧美激情在线| 五月婷婷另类国产| 刘亦菲国产毛片bd| 成人h动漫精品一区二区 | 国产在线视频不卡二| 蜜臀av无码一区二区三区| 日韩a一区二区| 国产一区二区久久久| 欧美日韩va| 97精品在线视频| 1024免费在线视频| 日韩大陆欧美高清视频区| 97国产成人无码精品久久久| 激情av一区二区| 久艹在线观看视频| 久久综合久久综合亚洲| 性高潮久久久久久| 人禽交欧美网站| 日韩欧美视频网站| 亚洲人metart人体| 日本一区二区三区www| 国产精品网站在线看| 亚洲va久久久噜噜噜| 69堂免费精品视频在线播放| 91国在线精品国内播放 | 欧美中文字幕第一页| 26uuu亚洲电影在线观看| 国产午夜一区二区| 手机看片一区二区三区| 欧美变态口味重另类| 中文字幕一区二区三区免费看 | 天天操,天天操| 亚洲影院一区| av免费观看大全| 亚洲精品极品少妇16p| 日韩av影视| 在线看成人短视频| 精品国产综合| 国产成人一二片| 不卡一区二区三区视频| 欧美视频二区欧美影视| 成人欧美在线观看| 国产成人福利夜色影视| 国产精品成人免费电影| 亚洲天堂免费电影| 欧美一区二区色| 最近高清中文在线字幕在线观看1| 久久久久国产精品免费| 欧美家庭影院| 久久久久国产精品一区| 欧美xxxx少妇| 久久久久久久成人| 男人天堂亚洲天堂| 色综合天天综合网国产成人网| 自由的xxxx在线视频| 免费91在线视频| 91精品久久久久久粉嫩| 久久99亚洲热视| 丝袜美女在线观看| 欧美大片网站在线观看| 日韩av激情| 午夜精品久久久久久久久久久久久| 欧美videosex性极品hd| 国模私拍视频一区| 国产在线88av| 国产精品入口福利| 欧美jizz18| 91性高湖久久久久久久久_久久99| 国产一区二区高清在线| 成人免费在线看片| 欧美顶级毛片在线播放| 奇米影视首页 狠狠色丁香婷婷久久综合 | 日本一区二区三区精品视频| 成人激情视频| 欧美少妇一级片| 在线精品福利| 欧美 国产 小说 另类| 日本成人中文字幕在线视频| 日本人69视频| 成人黄色在线网站| 国产成人精品无码免费看夜聊软件| 中文字幕不卡在线播放| 一区二区国产精品精华液| 亚洲午夜在线电影| 久久免费激情视频| 欧美系列亚洲系列| 国内老熟妇对白xxxxhd| 亚洲国产免费av| yourporn在线观看视频| 欧美成人精品在线视频| 麻豆网站免费在线观看| 国产女精品视频网站免费| 97青娱国产盛宴精品视频| 蜜桃网站成人| 欧美一区免费| 91av在线免费播放| 国产一区二区三区观看| 好吊一区二区三区视频| 国产欧美视频一区二区三区| 久久久久久久9999| 91久久精品一区二区二区| 91激情在线观看| 日韩精品在线免费播放| 麻豆视频在线观看免费网站| 2019中文字幕在线| 成人豆花视频| 91精品视频观看| 国产毛片一区二区三区| 91国在线高清视频| 秋霞av亚洲一区二区三| 91热视频在线观看| 国产日韩欧美精品电影三级在线 | 精品成人一区| 9久久婷婷国产综合精品性色 | 色综合天天综合狠狠| 99久久精品国产色欲| 国产午夜精品免费一区二区三区| 国产精品—色呦呦| 91热福利电影| 红杏视频成人| 欧美一区二区三区综合| 麻豆国产欧美一区二区三区| 久久久久国产精品区片区无码| 亚洲欧美日韩在线| 中文字幕av资源| 精品亚洲一区二区| 日韩伦理av| 成人做爽爽免费视频| av永久不卡| 日批视频在线免费看| 成人蜜臀av电影| 天天操天天操天天操天天操天天操| 欧美最猛性xxxxx直播| 午夜成人鲁丝片午夜精品| 欧美黄色性视频| 中文字幕久久精品一区二区| 亚洲免费av网| 美国av一区二区| 国产午夜精品久久久久久久久| 色综合天天性综合| 天堂在线一二区| 992tv成人免费影院| 另类春色校园亚洲| 2018国产在线| 91在线一区二区三区| 日韩精品一卡二卡| 亚洲国产精品99| 国产网站在线| 国产专区一区二区三区| 亚洲韩日在线| 在线观看国产三级| 午夜成人免费视频| 四虎在线免费看| 日本精品久久电影| 女优一区二区三区| 国产精品无码一本二本三本色| 91麻豆精品秘密| 久久久久久久久黄色| 亚洲最新视频在线| 黑人一区二区三区| 亚洲日本精品国产第一区| 麻豆91精品视频| 国产高潮流白浆| 日韩欧美成人激情| 狠狠操一区二区三区| 久久精品日产第一区二区三区精品版 | 欧美福利小视频| 九色丨蝌蚪丨成人| 女人天堂av手机在线| 久久久久久毛片| 在线免费观看一级片| 久久影视免费观看| 亚洲视频精选| 2022亚洲天堂| 国产精品人成在线观看免费 | 国产精品一二一区| 国产在线视频99| 亚洲欧美成人精品| 欧美极品在线| 国产日韩亚洲欧美在线| www激情久久| 在线视频 中文字幕| 久久91精品国产| 日韩av午夜| 69久久久久久| 亚洲已满18点击进入久久| 午夜一区在线观看| 国产精品自拍网| 亚洲精品黄色| 最新av电影网站| 亚洲福利视频在线| 草民电影神马电影一区二区| 国产又粗又大又爽的视频| a美女胸又www黄视频久久| 尤物视频免费观看| 另类视频在线观看| 欧美一区一区| 成人在线观看黄| 亚洲日本一区二区| 欧美日本韩国一区二区| 91人成网站www| 久久一日本道色综合久久| 成人涩涩小片视频日本| 日韩精品高清在线观看| 免费一区二区三区四区| 日本一道本久久| 亚洲欧洲日韩在线| 亚洲欧洲精品视频| 999精品在线观看|