精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備 原創(chuàng) 精華

發(fā)布于 2024-11-13 09:10
瀏覽
1收藏

前言

在私有領(lǐng)域知識問答和企業(yè)知識管理領(lǐng)域,結(jié)合檢索增強(qiáng)型生成模型(Retrieval-Augmented Generation, RAG)大模型(Large Language Model, LLM)已成為一種趨勢。然而,在RAG系統(tǒng)的文檔預(yù)處理階段和檢索階段,經(jīng)常碰到三個(gè)主要問題。

  1. 企業(yè)內(nèi)部常常積累了大量包含PDF格式的文檔,這些文檔的解析精度不足,嚴(yán)重制約了基于專業(yè)知識的問答系統(tǒng)的性能。因此,提高這些PDF文件的解析質(zhì)量,對于構(gòu)建高效的RAG系統(tǒng)至關(guān)重要。
  2. 構(gòu)建起一個(gè)完備的智能文檔解析服務(wù)后,需要一個(gè)有效的評測工具來有評測文檔的解析質(zhì)量,而不是主觀的通過肉眼感知。
  3. 用戶查詢通過text embedding向量模型快速、準(zhǔn)確、有效從知識庫中檢索出相關(guān)知識片段,使得LLM回答準(zhǔn)確。

本文將先探討下文檔解析的準(zhǔn)確性對RAG系統(tǒng)的影響;然后介紹下智能文檔解析關(guān)鍵技術(shù),并介紹閉源的通用文檔解析服務(wù)——TextIn,還介紹了一款開源的文檔解析質(zhì)量評測工具-Markdown Tester,最后介紹下合合信息開發(fā)的向量表征模型-acge_text_embedding

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

RAG一般流程

一、文檔解析的準(zhǔn)確性對RAG系統(tǒng)的影響

在RAG的預(yù)處理階段,文檔解析的準(zhǔn)確性是至關(guān)重要的。如果文檔解析不準(zhǔn)確,這將直接影響到后續(xù)的檢索和生成階段,導(dǎo)致整個(gè)RAG系統(tǒng)的性能下降。以下是文檔解析不準(zhǔn)確可能帶來的具體問題及其影響:

  • 內(nèi)容識別錯誤:如果文檔中的文本、圖像或格式被錯誤識別,將導(dǎo)致原始信息的丟失或錯誤。例如:(1)表格數(shù)據(jù)可能被錯誤地解析為普通文本,表格的行列關(guān)系混亂等:導(dǎo)致表格數(shù)值類問題無法進(jìn)行精準(zhǔn)的回答和RAG系統(tǒng)可能無法正確理解數(shù)據(jù)間的關(guān)聯(lián)性。(2)圖像中的文字(OCR)被錯誤識別:如果文檔中的文本或圖像被錯誤識別,系統(tǒng)接收到的數(shù)據(jù)質(zhì)量會下降,這將影響系統(tǒng)生成的輸出質(zhì)量。
  • 布局信息丟失:PDF文件的布局信息,如頁面布局、段落、標(biāo)題層級等,在解析過程中可能會丟失,這會影響對文檔結(jié)構(gòu)的把握,進(jìn)而影響分塊(chunks)。為了適應(yīng)模型的輸入要求,文檔需要被分割成小塊。如果分塊策略不當(dāng),可能會導(dǎo)致語義信息的丟失,影響模型對文檔內(nèi)容的理解。
  • 編碼問題:PDF文件可能包含多種字符編碼、水印等,一些pdf解析工具不能正確處理這些編碼,可能會導(dǎo)致亂碼。亂碼的文本內(nèi)容如果解析出來混合在文本中,會給知識庫帶來大量的噪聲,這也會影響RAG系統(tǒng)的性能。
  • 文檔復(fù)雜性:(1)復(fù)雜的文檔結(jié)構(gòu),如多欄布局、閱讀順序恢復(fù)、混合文本和圖像等,可能會給解析帶來額外的挑戰(zhàn),增加解析錯誤的風(fēng)險(xiǎn)。(2)文檔元素的復(fù)雜性:文檔中包含各種元素類型,如:段落、表格、公式和圖表。錯誤的解析這些元素內(nèi)容,也會給RAG系統(tǒng)的知識庫帶來大量噪聲。

因此,對于C端文檔問答的RAG系統(tǒng)應(yīng)用產(chǎn)品,迫切的需要對文檔進(jìn)行精準(zhǔn)解析。理想情況下,文檔解析器應(yīng)具備以下關(guān)鍵特征:

  • 文檔結(jié)構(gòu)識別:能夠靈活地將頁面劃分為不同類型的內(nèi)容塊,如標(biāo)題、段落、表格、公式和圖表。這確保了劃分的文本塊是完整和獨(dú)立的語義單元
  • 文檔內(nèi)元素準(zhǔn)確解析:在文檔結(jié)構(gòu)識別之后,識別出來的內(nèi)容塊準(zhǔn)確解析,如:OCR準(zhǔn)確無誤的將標(biāo)題、段落解析成文本內(nèi)容;表格識別解析精確:尤其是數(shù)值類文檔問答敏感的場景;公式能夠準(zhǔn)確的解析成Latex格式。
  • 在復(fù)雜文檔布局中保持魯棒性:即使是在文檔頁面布局復(fù)雜的情況下也能保證解析效果,如多列頁面、無邊框表格甚至合并單元格的表格

二、文檔解析的技術(shù)路線

對于簡單的文檔解析,langchain 和 llama_index 中集成了各種基于規(guī)則引擎的解析工具(如:解析pdf的pdfplumber,pyPDF2等)或者簡單的開源的ocr工具(如:paddleocr),能夠?qū)Χ喾N文件類型進(jìn)行解析。

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

解析工具常出現(xiàn)的問題

對于復(fù)雜的文檔解析,常基于深度學(xué)習(xí)的方法進(jìn)行解析,在上篇文章中(《??【文檔智能 & RAG】RAG增強(qiáng)之路:增強(qiáng)PDF解析并結(jié)構(gòu)化技術(shù)路線方案及思路??》)也講解了文檔解析的一些關(guān)鍵的開源技術(shù)路徑及方案。

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

文檔內(nèi)容解析路徑

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

智能文檔(文本內(nèi)容)技術(shù)路線

然而,對于通用文檔解析而言還存在著一些挑戰(zhàn):

2.1 版式分析

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

版式分析

版面分析指的是對文檔進(jìn)行區(qū)域劃分,通過bounding box定位其中的關(guān)鍵區(qū)域,如:文字、標(biāo)題、表格、圖片等。

版式分析的優(yōu)勢

1.通過大量標(biāo)注的數(shù)據(jù),準(zhǔn)確的劃分出文檔關(guān)鍵區(qū)域。如:

  • 文本區(qū)域:頁眉、頁腳、標(biāo)題、段落、頁碼、腳注、圖片標(biāo)題、表格標(biāo)題等
  • 表格
  • 公式
  • 圖片

2.能對復(fù)雜的版式進(jìn)行區(qū)塊識別

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

復(fù)雜版式

版式分析的缺點(diǎn),目前基本都是通過目標(biāo)檢測的形式進(jìn)行版式分析,因此其挑戰(zhàn)也是伴隨著特定場景的標(biāo)注數(shù)據(jù),尤其是通用場景的版式分析,難度巨大。

2.2 表格識別與解析

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

表格識別與解析的難點(diǎn)一般如下:

  • 表格的多樣性和復(fù)雜性:表格的形式多種多樣,包括有線表、無線表和少線表,這使得檢測和分割單元格變得復(fù)雜 。
  • 表格單元格的合并與拆分:某些表格中的單元格可能跨行或跨列,甚至跨頁,需要準(zhǔn)確識別這些合并的單元格并將其恢復(fù)成標(biāo)準(zhǔn)單元格 。
  • 表格內(nèi)容的識別和解析:表格中可能包含圖像、公式、符號等非文本內(nèi)容,需要將它們轉(zhuǎn)換成文本或保留格式 。
  • 表格結(jié)構(gòu)的表示和輸出:不同的應(yīng)用場景可能需要不同的表格結(jié)構(gòu)表示方式,如 HTML、JSON、CSV 等,需要將識別結(jié)果轉(zhuǎn)換成適合目標(biāo)應(yīng)用的格式,并保留數(shù)據(jù)和樣式信息。

2.3 公式識別與解析

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

公式識別類型

數(shù)學(xué)公式識別與解析是一個(gè)技術(shù)挑戰(zhàn)性很高的領(lǐng)域,主要難點(diǎn)包括:

  • 公式結(jié)構(gòu)的復(fù)雜性:數(shù)學(xué)公式往往包含復(fù)雜的嵌套結(jié)構(gòu),這些結(jié)構(gòu)的識別需要算法能夠準(zhǔn)確理解公式的層次關(guān)系,例如多層的分?jǐn)?shù)、根號等 。
  • 形近字的識別難度:在手寫識別中,相似形狀的字符如大寫X和小寫x,大寫Z和數(shù)字2,希臘字母γ和字母r等容易混淆,增加了識別的難度 。
  • 非常規(guī)符號的識別:比賽中添加的非常規(guī)符號組合可能會與公式混淆,增加了識別的復(fù)雜度。

2.4 閱讀順序

由于文檔布局的復(fù)雜性,包括多欄、嵌套表格、不規(guī)則的文本框等,這增加了閱讀順序恢復(fù)的難度。往期中也介紹了閱讀順序相關(guān)內(nèi)容(《??【文檔智能】符合人類閱讀順序的文檔模型-LayoutReader及非官方權(quán)重開源??》)

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

多列布局閱讀順序恢復(fù)

小結(jié):以上文檔解析的每個(gè)環(huán)節(jié)無論是數(shù)據(jù)標(biāo)注、模型訓(xùn)練、實(shí)驗(yàn),都需要投入巨大的成本和精細(xì)化的優(yōu)化,在工業(yè)落地場景,在保證解析效果的同時(shí),還需要關(guān)注文檔的解析速度。尤其是OCR過程,文字密集型文檔的解析速度影響特別大。

三、TextIn

針對以上痛點(diǎn),筆者深度體驗(yàn)了一下合合信息自研文檔解析技術(shù)-TextIn。該技術(shù)深度融合了文字識別(OCR)、計(jì)算機(jī)圖形圖像技術(shù)以及智能圖像處理引擎,使得紙質(zhì)文檔或圖片中的文字信息能夠迅速、精準(zhǔn)地轉(zhuǎn)化為計(jì)算機(jī)易于處理的文本格式

TextIn文檔智能關(guān)鍵技術(shù)如下:

3.1 版面分析關(guān)鍵技術(shù) Layout-engine

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

3.2 文檔樹提取關(guān)鍵技術(shù) Catalog-engine

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

3.3 解析體驗(yàn)

測試樣例:

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

TextIn解析輸出:

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

TextIn解析結(jié)果

可以看到,TextIn將pdf文件解析成markdown格式,并將標(biāo)題、段落、行內(nèi)公式及行間公式準(zhǔn)確解析。

值得關(guān)注的是,標(biāo)題,段落的準(zhǔn)確解析、并按照閱讀順序進(jìn)行輸出,這是生成文檔目錄及文檔樹的基礎(chǔ)。

快速上手代碼:

import requests
import json

def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()

class TextinOcr(object):
    def __init__(self, app_id, app_secret):
        self._app_id = app_id
        self._app_secret = app_secret
        self.host = 'https://api.textin.com'

    def recognize_pdf2md(self, image, options):
        """
        pdf to markdown
        :param options: request params
        :param image: file bytes
        :return: response

        options = {
            'pdf_pwd': None,
            'dpi': 72,
            'page_start': 0,
            'page_count': 24,
            'apply_document_tree': 0,
            'markdown_details': 0,
            'table_flavor': 'md',
            'get_image': 'none',
            'parse_mode': 'auto',
        }
        """


        url = self.host + '/ai/service/v1/pdf_to_markdown'
        headers = {
            'x-ti-app-id': self._app_id,
            'x-ti-secret-code': self._app_secret
        }

        return requests.post(url, data=image, headers=headers, params=options)

def write_file(markdown_result, filepath = 'test.md'):
    f = open(filepath, 'w')
    f.write(markdown_result)
    f.close()

if __name__ == "__main__":
    textin = TextinOcr('app-id', 'app-secret')
    image = get_file_content('test.pdf')
    resp = textin.recognize_pdf2md(image, {
        'page_start': 0,
        'page_count': 14,
        'table_flavor': 'html',
        'parse_mode': 'auto',
        'apply_document_tree': 1,
        'markdown_details': 1,
        # 'get_image': 1,
    })
    print("request time: ", resp.elapsed.total_seconds())
    json_data = json.loads(resp.text)
    write_file(json_data['result']['markdown'], 'test2.md')

3.4 一個(gè)解析引擎速度的重要性

目前,基于多模態(tài)大模型技術(shù)的快速發(fā)展,文檔解析可以通過多模態(tài)大模型進(jìn)行解決,如:gpt-4o等,但是,基于多模態(tài)大模型的解決方案,成本大、非常耗時(shí)、容易產(chǎn)生幻覺問題,尤其是表格的解析,數(shù)值上的幻覺問題是災(zāi)難性的。

筆者在體驗(yàn)TextIn時(shí),感覺解析速度非常快,這對于RAG系統(tǒng)的增益可以從離線和在線兩個(gè)方面展開講:

  1. 離線模式
  • 數(shù)據(jù)預(yù)處理: 在離線模式下,解析引擎可以預(yù)先處理和索引大量文檔,為在線查詢做好準(zhǔn)備。
  • 定期更新知識庫:可以定期更新模型和索引,以適應(yīng)新的數(shù)據(jù)和需求變化。

2. 在線模式

  • c端用戶通過網(wǎng)頁知識空間上傳新的文件時(shí),在線模式允許解析引擎實(shí)時(shí)響應(yīng)用戶查詢,提供即時(shí)的文檔解析服務(wù)。
  • 用戶體驗(yàn): 用戶期望快速且準(zhǔn)確的響應(yīng),因此解析引擎的速度和準(zhǔn)確性在在線模式下尤為重要。

4、文檔解析評測工具-Markdown Tester

在文檔解析中,有了解析工具后,對于開發(fā)者,針對文檔解析的解析效果,需要一款比較好用的評價(jià)工具來客觀對解析效果進(jìn)行評價(jià);對于購買解析服務(wù)的c端客戶,同樣也需要評價(jià)文檔解析服務(wù)的效果,在自建數(shù)據(jù)集上先評測一下,然后有針對性的進(jìn)行解析服務(wù)選購。因此,下面介紹一下 Markdown Tester

該評測工具用于評價(jià)markdown文檔相似性,從段落、標(biāo)題、表格和公式四個(gè)維度進(jìn)行評價(jià),相關(guān)評價(jià)指標(biāo)的定義如下表:

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

段落、標(biāo)題、表格和公式四個(gè)維度定義

對于RAG中文檔解析,必須強(qiáng)調(diào)為什么使用markdown進(jìn)行表示:Markdown格式因其簡潔性和易于解析的特點(diǎn),?被廣泛認(rèn)為是LLM(?大型語言模型)?友好的文檔格式。?Markdown通過明確的標(biāo)記語法,?幫助模型更好地理解文檔結(jié)構(gòu)和內(nèi)容,?從而提高信息提取的準(zhǔn)確性和效率。?特別在存在大量公式、?表格的學(xué)術(shù)論文場景下,?Markdown可能是更合適的格式選擇。?這種格式選擇的原因主要包括:?

  • 結(jié)構(gòu)化信息的保留:?Markdown能夠很好地保留結(jié)構(gòu)化信息(非常適合需要保留標(biāo)題層級、?公式和表格等結(jié)構(gòu)信息的場景),?這對于需要精確提取和分析文本內(nèi)容的場景尤為重要。?
  • 易于解析:?Markdown的簡潔性和明確的標(biāo)記語法使得它易于被計(jì)算機(jī)程序解析和處理,?這對于自動化文檔處理和數(shù)據(jù)分析任務(wù)非常有利。?
  • 支持場景多:?Markdown作為一種輕量級標(biāo)記語言,?被廣泛用于編寫文檔、?筆記、?博客文章、?技術(shù)文檔等場景。

4.1 使用方法

  • step1:

git clone https://github.com/intsig/markdown_tester.git
cd markdown_tester
./install.sh
  • step2:
    Markdown Tester的倉庫中給出了一些22份文檔的grounding truth用于評測各種解析工具效果。待測評樣本按照下述方式放置:

dataset/
├── pred/
│   ├── gpt-4o/
│   ├── vendor_A/
│   ├── vendor_B/
│   ├── ...
├── gt/
  • step3:

python run_test.py --pred_path path_to_pred_md  --gt_path path_to_gt_md

4.2 運(yùn)行效果

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

對比表格

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

對比雷達(dá)圖-可視化

筆者在評測過程中發(fā)現(xiàn),自研模型對于識別準(zhǔn)確率較高,但召回率普遍不行。

五、text embedding在RAG環(huán)節(jié)的作用

由于LLM固有的問題,如:LLM的知識不是實(shí)時(shí)更新的;LLM無法回答私域知識問題。因?yàn)椋琇LM的專長在于生成和理解復(fù)雜的自然語言查詢。嵌入模型(比如Embedding)的專長在于將文本映射到高維空間中,以便進(jìn)行相似性比較;生成可用于高效檢索的密集向量。

因此,目前主流的實(shí)現(xiàn)方式都是通過RAG的方式對上述問題進(jìn)行解決。text embedding在RAG中充當(dāng)重要的角色,主要有以下幾個(gè)作用:

  1. 捕捉語義信息:文本嵌入將文本轉(zhuǎn)換為數(shù)值向量,這些向量能夠捕捉到文本的語義信息。
  2. 增強(qiáng)上下文理解:在RAG系統(tǒng)中,文本嵌入幫助模型掌握輸入查詢的上下文,并在NLP任務(wù)的檢索階段提取相關(guān)信息。通過這種方式,模型能夠更好地理解和處理非結(jié)構(gòu)化文本中的模糊性和可變性。
  3. 提高檢索性能:有效的文本嵌入能夠顯著提升RAG系統(tǒng)的性能。例如,不同的嵌入模型帶來的效果也不盡相同,選擇合適的嵌入模型可以優(yōu)化模型的檢索性能。此外,結(jié)合知識圖譜和文本嵌入,可以實(shí)現(xiàn)結(jié)構(gòu)化知識和非結(jié)構(gòu)化文本的無縫融合,從而產(chǎn)生信息更豐富、上下文相關(guān)的響應(yīng)。并且,文本嵌入增強(qiáng)了對自然語言中歧義和可變性的適應(yīng)能力,使RAG模型能夠更好地應(yīng)對模糊和多義的表達(dá)。這在處理開放域問答等復(fù)雜任務(wù)時(shí)尤為重要。

下面介紹一個(gè)效果比較好的文本向量嵌入的表征模型-acge_text_embedding

5.1 acge_text_embedding

acge_text_embedding是由合合信息研發(fā)的向量表征模型,技術(shù)架構(gòu)上,acge_text_embedding采用了俄羅斯套娃表示學(xué)習(xí)(Matryoshka Representation Learning,MRL)編碼不同粒度的信息,并讓一個(gè)編碼能夠適應(yīng)不同計(jì)算資源的下游任務(wù)。MRL的目的是學(xué)習(xí)許多個(gè)小于等于 的前  維表征,即總維度的前 維。在訓(xùn)練時(shí),MRL根據(jù)指定維度的向量來計(jì)算多個(gè)。

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

一種比較高效的做法是將每個(gè)投射頭看成是一個(gè)大投射頭的的一部分,即 ,這種做法在大輸出空間時(shí)尤其重要,稱之為Efficient Matryoshka Representation Learning (MRL–E)。

因此,該表示學(xué)習(xí)框架的核心思想是學(xué)習(xí)不同粒度的信息,允許一個(gè)嵌入向量在保持準(zhǔn)確性和豐富性的同時(shí),適應(yīng)不同計(jì)算資源的需求,并可以無縫地適應(yīng)大多數(shù)表示學(xué)習(xí)框架,并且可以擴(kuò)展到多種標(biāo)準(zhǔn)計(jì)算機(jī)視覺和自然語言處理任務(wù)。

acge_text_embedding通過應(yīng)用多模態(tài)表示學(xué)習(xí)(MRL)技術(shù),能夠?qū)崿F(xiàn)一次訓(xùn)練過程,從而獲得豐富多樣的表征維度。特別值得一提的是,自適應(yīng)粗粒度到細(xì)粒度表示(acge)模型,它采用了一種層次化的方法,從宏觀到微觀逐步深化表征的深度和精度。這種方法不僅在推理和部署階段無需額外成本,還提供了一種靈活且高效的表征方式。在具體的實(shí)踐應(yīng)用中,為了更好地適應(yīng)不同任務(wù)的需求,acge模型采用了策略學(xué)習(xí)的訓(xùn)練方法。這種方法通過針對性地調(diào)整學(xué)習(xí)策略,顯著提升了模型在檢索、聚類和排序等任務(wù)上的性能表現(xiàn)。此外,模型還引入了持續(xù)學(xué)習(xí)的訓(xùn)練機(jī)制,有效解決了神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中可能出現(xiàn)的災(zāi)難性遺忘問題。這使得模型能夠在訓(xùn)練迭代中達(dá)到更加優(yōu)秀的收斂狀態(tài),為持續(xù)優(yōu)化和提升模型性能奠定了基礎(chǔ)。

5.2 acge_text_embedding使用

  • 在sentence-transformer庫中的使用:

from sentence_transformers import SentenceTransformer

sentences = ["數(shù)據(jù)1", "數(shù)據(jù)2"]
model = SentenceTransformer('acge_text_embedding') # 替換成你下載的權(quán)重地址
print(model.max_seq_length)
embeddings_1 = model.encode(sentences, normalize_embeddings=True)
embeddings_2 = model.encode(sentences, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)
  • 在sentence-transformer庫中的使用方法,選取不同的維度

from sklearn.preprocessing import normalize
from sentence_transformers import SentenceTransformer

sentences = ["數(shù)據(jù)1", "數(shù)據(jù)2"]
model = SentenceTransformer('acge_text_embedding') # 替換成你下載的權(quán)重地址
embeddings = model.encode(sentences, normalize_embeddings=False)
matryoshka_dim = 1024
embeddings = embeddings[..., :matryoshka_dim]  # Shrink the embedding dimensions
embeddings = normalize(embeddings, norm="l2", axis=1)
print(embeddings.shape)
# => (2, 1024)

5.3 acge_text_embedding優(yōu)點(diǎn)總結(jié)

性能優(yōu)勢

  1. acge模型較小,占用資源少;
  2. 模型輸入文本長度為1024,滿足絕大部分場景的需求
  3. acge模型支持可變輸出維度,能夠根據(jù)具體場景去合理分配資源。

框架優(yōu)勢

  1. 對比學(xué)習(xí)技術(shù),通過最小化正對之間的距離和最大化負(fù)對之間的距離來呈現(xiàn)文本語義表示。
  2. 數(shù)據(jù)挖掘,構(gòu)造多場景、數(shù)量龐大的數(shù)據(jù)集提升模型泛化能力,挑選高質(zhì)量數(shù)據(jù)集加快模型收斂。
  3. 多任務(wù)混合訓(xùn)練,多l(xiāng)oss適配場景,適應(yīng)各種下游任務(wù)
  4. MRL訓(xùn)練,訓(xùn)練可變維度的嵌入,提高了處理速度,降低了存儲需求
  5. 持續(xù)學(xué)習(xí), 改善引入新數(shù)據(jù)后模型災(zāi)難性遺忘問題

總結(jié)

本文主要探討了檢索增強(qiáng)型生成模型(RAG)在私有領(lǐng)域知識問答和企業(yè)知識管理中的應(yīng)用,重點(diǎn)分析了文檔解析的準(zhǔn)確性對RAG系統(tǒng)性能的影響,介紹了智能文檔解析的關(guān)鍵技術(shù),并介紹了合合信息自研的文檔解析服務(wù)TextIn,以及開源的文檔解析質(zhì)量評測工具M(jìn)arkdown Tester。此外,還介紹了合合信息開發(fā)的文本向量嵌入模型acge_text_embedding,強(qiáng)調(diào)了其在RAG系統(tǒng)中的作用和優(yōu)勢。整體而言,文檔解析的準(zhǔn)確性、速度和質(zhì)量對RAG系統(tǒng)的性能至關(guān)重要,而TextIn和acge_text_embedding等工具能夠顯著提升文檔解析的效果和效率。

參考文獻(xiàn)

  • Markdown Tester:https://github.com/intsig/markdown_tester
  • TextIn:https://www.textin.com/experience/pdf_to_markdown?from=acg-github
  • acge_text_embedding:https://huggingface.co/aspire/acge_text_embedding


本文轉(zhuǎn)載自公眾號哎呀AIYA

原文鏈接:??https://mp.weixin.qq.com/s/T4CU19NeUf9tGNge8ls6Ow??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏 1
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
亚洲天堂av在线免费| 操你啦视频在线| 欧美日韩精品一区二区三区视频| 91亚洲一区| 精品人伦一区二区三区蜜桃网站 | 麻豆一区二区三区| 精品免费视频一区二区| 亚洲欧洲精品一区| 亚洲av成人片色在线观看高潮| 香蕉视频在线免费看| 亚洲高清资源| 欧美中文字幕一区| 久久久久久久久久码影片| 久久久香蕉视频| 天堂精品久久久久| 亚洲少妇中出一区| 成人激情av在线| 国产精品69久久久久孕妇欧美| 久久uomeier| 91麻豆精东视频| 97免费视频在线| 一级特级黄色片| 亚洲一区二区av| 国产精品久久久久久亚洲伦 | 国产精品99无码一区二区| 99视频这里有精品| 欧美日韩在线免费观看| 青草全福视在线| av网站免费大全| 亚洲最大黄网| 日韩欧美国产1| h无码动漫在线观看| 好吊色一区二区三区| 亚洲人成毛片在线播放女女| 色婷婷av一区二区三区久久| 91丨九色丨蝌蚪| 麻豆tv入口在线看| 国产精品18久久久久久久久久久久| 久久亚洲精品国产亚洲老地址| 精品亚洲视频在线| 三级资源在线| xnxx国产精品| 国产免费一区二区| www毛片com| 四虎成人av| 亚洲网站视频福利| 国产性生活一级片| 美女高潮在线观看| 日本一区二区三区高清不卡| 成人国产精品av| 中文字幕+乱码+中文| 亚洲国产不卡| 亚洲精品国产电影| 99热这里只有精品在线播放| 国产黄大片在线观看画质优化| 国产亚洲短视频| 51午夜精品| 中文字幕在线欧美| 亚洲欧美日韩国产综合精品二区| 国产亚洲精品激情久久| 中文字幕xxx| 99久久这里有精品| 欧美一个色资源| 国内外免费激情视频| 大地资源网3页在线观看| 国产精品福利一区| 精品国产乱码久久久久久88av| 国产一级片免费视频| 综合激情视频| 欧美国产日韩xxxxx| 亚洲一区二区观看| 视频精品在线观看| 精品少妇一区二区三区视频免付费| 日韩高清在线一区二区| 精品伊人久久| 在线观看区一区二| 亚洲人视频在线| 日本精品视频| 亚洲精品久久久久久下一站| 在线免费看黄视频| japanese色系久久精品| 欧美色视频在线| 欧美黑人经典片免费观看| 黄色片网站在线| 久久久久久97三级| 精品国产综合区久久久久久| 国产香蕉在线| 99re热这里只有精品视频| 亚洲一区二区三区乱码aⅴ| 波多野结衣一本一道| 另类小说欧美激情| 国产高清自拍一区| 99久久精品国产成人一区二区| 日韩**一区毛片| 欧洲美女免费图片一区| 久久久全国免费视频| 久久精品五月| 日本视频久久久| 日产精品久久久| 亚洲精选国产| 国产精品视频999| 波多野结衣激情视频| 国产一区二区三区精品视频| 成人激情在线观看| 手机看片1024日韩| 成人性生交大片免费| av一区观看| www五月婷婷| 国产成人精品影院| 欧美亚洲另类在线一区二区三区| 日本美女一级片| 成人网在线免费视频| 日韩啊v在线| av在线播放网| 91丝袜国产在线播放| 中文字幕中文字幕在线中一区高清 | 水蜜桃久久夜色精品一区的特点| 久久久久久久久国产| 加勒比av在线播放| 国内视频精品| 97精品一区二区三区| 91av久久久| 国产老女人精品毛片久久| 亚洲tv在线观看| 黄色软件在线观看| 国产精品久久国产精麻豆99网站| av在线播放亚洲| 另类视频一区二区三区| 综合av色偷偷网| 欧美精品久久久久久久久46p| 亚洲国产精品久久久久蝴蝶传媒| 日本久久久久久久| 天堂在线资源库| 亚洲午夜一区二区| 国产毛片视频网站| 日韩精品一区二区三区中文在线| 日韩一区二区欧美| 九九热只有精品| 乱一区二区av| 一区二区三区免费看| 亚洲七七久久综合桃花剧情介绍| 欧美图片一区二区三区| 红桃视频一区二区三区免费| 国产成人精品福利| 亚洲片av在线| 亚洲久久在线观看| heyzo一本久久综合| 日韩中文不卡| 日韩在线短视频| 日韩一区二区精品在线观看| 一级特黄曰皮片视频| 欧美精品日本| 日韩av片电影专区| 国产福利在线视频| 欧美亚州韩日在线看免费版国语版| 中文字幕成人动漫| 午夜精品久久| 日本精品视频在线播放| 五月婷婷伊人网| 最好看的中文字幕久久| 国内精品视频一区二区三区| 久久久免费人体| 日韩国产一区三区| 色婷婷在线视频观看| 免费欧美在线| 欧美性xxxx69| 久久亚洲人体| 九九热99久久久国产盗摄| 天天爱天天做天天爽| 国产午夜一区二区三区| 国产免费999| 鲁大师精品99久久久| 久久精品国产欧美激情| av网站中文字幕| 成人性生交大片免费看视频在线| 国产九九九九九| 国产成人手机高清在线观看网站| 久久福利网址导航| 日批视频免费观看| 99久久精品久久久久久清纯| 五月激情综合网| 亚洲毛片在线观看| 欧美亚洲色综久久精品国产| 日本女人一区二区三区| 中文字幕一区二区三区四区五区| 影音先锋欧美激情| 日韩亚洲综合在线| a级片免费观看| 午夜伦欧美伦电影理论片| 天天视频天天爽| 在线精品小视频| 久久国产精品久久精品国产| 欧美三级电影网址| 久久久久久久久久久久久久久久久久av| 手机看片国产1024| 欧美精品在线一区二区三区| 欧美大波大乳巨大乳| 精品一二三四在线| 天堂社区 天堂综合网 天堂资源最新版 | 偷拍视频一区二区| 一区二区三区在线免费看| 日本精品免费一区二区三区| a篇片在线观看网站| 国产丝袜精品视频| 精品少妇theporn| 国产亚洲一区二区三区| 女王人厕视频2ⅴk| 日韩专区在线视频| 欧美日韩综合网| 麻豆精品在线| 国产精品99蜜臀久久不卡二区| 日韩精品福利| 欧美性猛交xxxx免费看漫画| 在线观看国产网站| 精品一区二区三区在线观看| 日本高清xxxx| 日本在线成人| 国产精品嫩草视频| 男女羞羞在线观看| 欧美精品在线免费播放| 在线免费黄色| 亚洲欧洲在线看| 深夜福利在线视频| 91高清视频免费看| 久操视频在线观看免费| 美国欧美日韩国产在线播放| 国产欧美日韩网站| 在线精品小视频| 亚洲第一页在线视频| 亚洲精品视频一二三区| 国产精品主播视频| 国产cdts系列另类在线观看| 亚洲系列中文字幕| 亚洲欧美色视频| 日韩精品一区二区三区swag| 国产乱淫片视频| 亚洲精品日韩一| 欧美日韩人妻精品一区在线| 亚洲永久免费精品| 国产玉足脚交久久欧美| 五月综合久久| 国产精品揄拍一区二区| 精品无人乱码一区二区三区 | 亚洲成人1区| 欧美不卡视频一区发布| 亚洲免费视频一区二区三区| 亚洲天堂av在线免费| 国产精品影院在线| 国产一区二区黑人欧美xxxx| 成a人v在线播放| 在线观看国产精品淫| 精品久久国产视频| 欧美一区二区视频网站| 国产网友自拍视频| 亚洲图片欧美色图| 久久免费精彩视频| 偷偷要91色婷婷| 国产精品美女久久久久av爽| 婷婷一区二区三区| 亚洲成人第一网站| 欧美亚洲国产一区在线观看网站| 中文在线免费观看| 欧美日本一道本在线视频| 日本最新中文字幕| 国产精品乱码一区二区三区软件 | 欧美视频第一页| 依依成人综合网| 在线观看av不卡| 一级特黄aaaaaa大片| 3atv一区二区三区| 久久一区二区三区视频| 欧美日韩一区二区免费视频| 国产又大又粗又爽| 欧美日韩国产片| 国产福利小视频| 亚洲国产福利在线| 国产女人18毛片水18精| 日韩精品一区二区三区视频在线观看 | 欧美人与物videos另类| 成人羞羞视频播放网站| 国产乱码一区| 成人18视频在线观看| 97视频在线观看网址| 国产超碰精品| 91精品国产777在线观看| 成人av黄色| 性色av一区二区咪爱| 一二区成人影院电影网| 91久久精品国产91久久| 巨胸喷奶水www久久久免费动漫| 国产精品一香蕉国产线看观看| 日韩精品视频中文字幕| 久久久综合亚洲91久久98| 欧美亚洲在线日韩| 日b视频免费观看| 日本欧美久久久久免费播放网| 人妻巨大乳一二三区| 精品亚洲国内自在自线福利| 超碰caoprom| 国产精品女同互慰在线看| 久久影院一区二区| 欧美色涩在线第一页| 色偷偷在线观看| 久久激情五月丁香伊人| 女厕盗摄一区二区三区| 成人福利在线视频| 一本久久青青| 久久久久久一区| 91精品精品| 国产成人无码av在线播放dvd| 激情伊人五月天久久综合| 欧美精品黑人猛交高潮| 91在线免费播放| 日本a级片视频| 欧美性色欧美a在线播放| 手机在线不卡av| 久久综合电影一区| 日本综合视频| 欧美视频小说| 亚洲经典在线| 岛国大片在线免费观看| 国产精品久久久久久亚洲伦| 色老头在线视频| 欧美色综合网站| 婷婷伊人综合中文字幕| 萌白酱国产一区二区| 福利一区二区免费视频| 免费看成人av| 成人久久综合| 日韩a在线播放| 免费成人小视频| www.51色.com| 国产精品欧美极品| 欧美国产一级片| 亚洲人成网7777777国产| 波多野结衣中文字幕久久| 97av在线视频| 超碰成人免费| 精品人妻大屁股白浆无码| 国产伦精品一区二区三区免费迷 | 亚洲欧美另类久久久精品2019| 亚洲午夜在线播放| 国产一区二区三区三区在线观看| 中文字幕21页在线看| 国产精品久久久久久久久久久新郎 | 日本一卡二卡四卡精品| 2019精品视频| 在线亚洲人成| 精品日产一区2区三区黄免费 | 欧美肥婆姓交大片| 欧洲大片精品免费永久看nba| 中文字幕欧美人与畜| 久久er99精品| 午夜精品福利在线视频| 日韩一区二区在线观看| 污污的网站在线看| 国产v亚洲v天堂无码| 精品福利av| 西西大胆午夜视频| 欧美日韩一区二区在线播放| 青青草手机在线| 国产精品欧美一区二区| 色综合久久一区二区三区| 精品人妻人人做人人爽| 成人精品一区二区三区中文字幕 | 免费av在线网址| 亚洲伊人第一页| 亚洲小说欧美另类婷婷| 波多野结衣先锋影音| 日韩欧美在线视频日韩欧美在线视频| 欧美女子与性| 欧美国产视频日韩| 久久免费视频66| 国产日韩一区二区在线观看| 欧美国产一区视频在线观看| 国产精品久久久久久久久毛片| 久久国产精品久久精品| 欧美人成在线观看ccc36| 91嫩草国产丨精品入口麻豆| 成人性生交大合| 免费看污视频的网站| 久久精品国产电影| 丁香一区二区| 黄色免费网址大全| 亚洲精品视频观看| 精品亚洲综合| 91精品久久久久久蜜桃| 国产精品综合色区在线观看| 亚洲av熟女高潮一区二区| 欧美午夜精品在线| 久操视频在线免费播放| 国产欧美一区二区三区另类精品| 久久永久免费| 亚洲成人生活片| 亚洲天堂2020| 在线一区二区三区视频| 激情综合网俺也去| 久久蜜桃av一区精品变态类天堂 | 欧美一级片在线看| 亚洲第一av|