精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

HtmlRAG:利用 HTML 結構化信息增強 RAG 系統的知識檢索能力和準確性 原創 精華

發布于 2024-11-18 12:36
瀏覽
0收藏

01、概述

在大型語言模型(LLM)逐漸普及的今天,檢索增強生成(Retrieval-augmented Generation,簡稱RAG)技術逐漸成為提高AI知識處理能力、減少模型幻覺(hallucination)的關鍵手段。通過將外部知識庫和生成模型相結合,RAG為如ChatGPT等多種商業應用提供了重要支持。然而,當前RAG的實現方式仍面臨一項根本性挑戰,即在知識處理過程中對HTML網頁結構與語義信息的損失。

對于復雜的網頁內容來說,將HTML文檔簡單地轉換為純文本輸入往往會破壞原始格式,導致重要的上下文信息丟失,特別是表格類內容。這一問題長期以來困擾著RAG系統的優化。為了解決這個難題,中國人民大學高瓴人工智能學院和百川智能科技的研究團隊提出了一種創新的解決方案——HtmlRAG,它通過HTML格式而非純文本的方式來傳遞和處理檢索到的知識,從而保留更豐富的語義和結構信息。

那么,HtmlRAG究竟是如何突破傳統RAG系統的局限性,并帶來顯著性能提升的呢?本文將為大家深入剖析。

02、為什么現有RAG系統在處理HTML時捉襟見肘?

在傳統的RAG實現中,開發者會使用多種方法優化內容流入模型的質量。例如,LangChain和LlamaIndex等框架中常用的查詢改寫、檢索器、重排序器、精煉器、讀取器等組件,能夠增強文本檢索的準確性。然而,這些方法在處理HTML內容時卻面臨諸多瓶頸:

  • HTML結構的丟失:HTML具有豐富的結構化標簽,能夠傳遞表格、分區等語義信息,簡單轉換為純文本會破壞這些結構,使得模型在理解內容時喪失上下文。
  • 現有精煉器的不足:當前的內容精煉方法主要依賴文本的分塊處理(chunking),在面對長HTML內容時顯得力不從心,且需要消耗大量計算資源,難以高效處理。
  • 高昂的計算成本:長HTML內容需要大量的計算資源去精煉,而HTML中的CSS樣式、JavaScript代碼及注釋等非核心信息又會大大增加詞元數量,導致效率低下。

鑒于這些局限性,傳統RAG系統在面對復雜HTML內容時表現出明顯的不足。而HtmlRAG的創新之處在于,它不僅能夠保留HTML的原始語義和結構信息,還通過一套獨特的機制有效應對HTML文檔的高詞元負擔。

03、HtmlRAG的核心技術:從“純文本”到“HTML結構”的轉變

HtmlRAG的核心理念在于直接使用HTML格式作為知識檢索的輸入,以最大限度保留網頁內容的語義和結構細節。為了有效處理復雜的HTML文檔,研究團隊設計了一套創新的兩步式修剪機制,使系統能夠在不失去重要信息的前提下,將繁雜的HTML內容高效處理為適合模型使用的格式。

Step 1:HTML清洗與樹形結構轉換

首先,HtmlRAG將所有檢索到的HTML文檔進行整合,并通過Beautiful Soup解析為單一的DOM樹。與傳統的DOM樹結構相比,HtmlRAG采用了一種“塊樹”結構(block tree),通過maxWords參數控制粒度。這樣一來,系統能夠遞歸地將零碎的子節點合并為父節點,形成較大的信息塊,并嚴格遵循單詞數限制。通過這種方式,系統能夠有效減少節點數量,顯著降低了復雜HTML結構的處理難度。

Step 2:分步處理與語義精煉

在HTML文檔被清洗并轉換為塊樹結構后,系統會進入第二階段的處理。HtmlRAG首先利用嵌入模型對清洗后的HTML輸出進行處理,初步篩選出核心內容,接著通過生成模型對其進一步優化。這樣的分步處理方式既保留了HTML文檔的結構性信息,又能夠避免長文本造成的高計算消耗。

實驗數據:HtmlRAG在六個數據集上的表現勝出

在性能測試中,HtmlRAG表現出色,在六個數據集上全面超越了傳統的純文本處理方法。與常見的分塊精煉法(如LangChain的實現)相比,HtmlRAG在處理HTML文檔時顯得更加精準,同時顯著減少了對結構信息的損失。

研究表明,在重排序模塊中,基于嵌入的密集檢索器(dense retrievers)明顯優于稀疏檢索器BM25,尤其是基于編碼器的BGE表現尤為出色。相較之下,基于解碼器的e5-mistral效果則稍遜一籌。此外,傳統的精煉器在長HTML文檔的優化上存在明顯不足,尤其是像LongLLMLingua這樣的模型會在純文本轉換中丟失大量結構信息,而JinaAI-reader雖然可以從HTML輸入中生成Markdown,但在面對長序列時存在逐字解碼的計算瓶頸。

HtmlRAG:利用 HTML 結構化信息增強 RAG 系統的知識檢索能力和準確性-AI.x社區

這些實驗數據驗證了HtmlRAG利用HTML格式進行知識處理的有效性,并表明了其在不同數據集上的廣泛適應性。

04、HtmlRAG的應用前景:引領RAG系統的新方向

HtmlRAG的成功不僅在于提升了RAG系統的知識處理能力,更開辟了基于HTML格式的知識檢索和處理的新方向。這一技術對于有復雜信息處理需求的應用場景尤為關鍵。例如:

高結構化內容的AI應用:HtmlRAG能夠保留并理解表格、列表、導航欄等高結構化信息,使其在財務數據分析、法律文件解析等領域有廣泛的應用潛力。

內容復雜的網頁數據處理:在新聞、學術、技術文檔等信息密集型領域,HtmlRAG可以更好地保留內容的語義與上下文,提供更可靠的回答。

長文本的計算成本優化:通過減少非必要信息的參與,HtmlRAG實現了高效的內容處理,為開發者在構建AI應用時節省了大量資源。

面向未來的潛力

作為一種開創性的RAG方法,HtmlRAG提供了一個切實可行的解決方案,展示了HTML在AI應用中的獨特優勢。研究團隊不僅證明了HTML格式在知識檢索和生成中的價值,還為未來基于HTML的知識處理方法指明了方向。借助HtmlRAG,我們可以想象,未來的RAG系統會逐步整合更多的HTML處理工具,進一步提升內容解析的精準性和效率。

05、結語

HtmlRAG的推出標志著RAG系統在知識檢索與處理上的一次重要突破。通過直接使用HTML格式,HtmlRAG在提升語義保真度和結構信息保留方面表現出色,有效克服了傳統純文本方法的諸多缺陷。對于需要復雜信息處理的企業來說,這一技術不僅提供了即時的解決方案,更為未來的知識處理方式開辟了全新路徑。

可以預見,隨著HtmlRAG這一技術的深入應用和推廣,RAG系統在各行業的AI應用中將展現出更強大的實力。在知識無比豐富的互聯網世界中,HtmlRAG將引領RAG技術的升級和進化,讓AI在理解和處理復雜信息時更上一層樓。

參考:

  1. ??https://arxiv.org/abs/2411.02959??
  2. ??https://huggingface.co/papers/2411.02959??


本文轉載自公眾號Halo咯咯 作者:基咯咯

原文鏈接:??https://mp.weixin.qq.com/s/0djvZL-T_rJI_QhH2q1ZkQ??


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
標簽
收藏
回復
舉報
回復
相關推薦
久久不卡国产精品一区二区| 日韩制服一区| www.亚洲色图| 欧美一区在线直播| 林心如三级全黄裸体| 91精品国产色综合久久不卡粉嫩| 夜夜嗨av一区二区三区| 久久99精品国产一区二区三区| 成人免费视频国产免费| 亚洲精品一二三区区别| 亚洲国产精品va在看黑人| 能看的毛片网站| √天堂8在线网| 91网上在线视频| 成人欧美一区二区三区黑人孕妇| 国产精品第九页| 日韩综合在线| 亚洲男女性事视频| 99热这里只有精品2| 亚洲一区站长工具| 亚洲综合清纯丝袜自拍| 亚洲精品一区二区三区樱花| 天天操天天干天天干| 蜜臀91精品一区二区三区| 国内精品久久久久久久久| 国产精品久久久久久成人| 任你躁在线精品免费| 欧美丰满少妇xxxbbb| 久草青青在线观看| 国产区美女在线| 中文字幕日韩一区| 日韩av在线一区二区三区| 日韩一级片免费| 国产精品一区专区| 国产欧美在线视频| 精品国产乱子伦| 国产精品久久久久毛片大屁完整版| 日韩视频精品在线| 手机看片福利视频| 妖精一区二区三区精品视频| 亚洲成年人在线播放| 欧美激情第3页| 影视一区二区三区| 欧美性极品xxxx做受| 人人干视频在线| 丁香花在线影院| 亚洲三级在线免费| 一级二级三级欧美| 中文字幕在线播放| 国产精品久久久久9999吃药| 日韩欧美精品久久| 第一福利在线| 国产日韩欧美麻豆| 日韩欧美精品一区二区三区经典| 韩日视频在线| 91丨porny丨首页| 久久99精品国产99久久| 亚洲色图 校园春色| a美女胸又www黄视频久久| 国产精品免费一区二区三区在线观看 | 国产一区二区三区亚洲| 日韩三级中文字幕| 日韩精品xxx| 成人自拍在线| 亚洲国产精品高清久久久| 好吊色视频一区二区三区| 欧美三级自拍| 亚洲欧美在线看| 欧美福利第一页| 欧美激情电影| 久热精品视频在线| 久久久久久久9999| 国产精品乱看| 国产成人一区二区| 一区二区不卡视频在线观看| 国产一区二区中文字幕| 国产91视觉| 日本五码在线| 国产精品久久久久久亚洲毛片| 椎名由奈jux491在线播放| 成人影院在线看| 亚洲高清免费观看高清完整版在线观看| 青草网在线观看| 亚洲天堂导航| 欧美日韩国产成人在线91| 国产精品中文久久久久久| 91精品啪在线观看国产手机| 亚洲国产精品大全| 日本猛少妇色xxxxx免费网站| 香蕉综合视频| 69av成年福利视频| 在线观看黄色国产| 国产.精品.日韩.另类.中文.在线.播放| 精品欧美日韩在线| 伊人在线视频| 五月天精品一区二区三区| 免费无码av片在线观看| 日本电影久久久| 精品亚洲一区二区三区在线观看 | 亚洲免费电影在线| 91av资源网| 高清一区二区中文字幕| 日韩国产一区三区| 日韩激情小视频| 国产视频一区在线观看一区免费| 国产精品色悠悠| 人妻少妇一区二区三区| 国产清纯美女被跳蛋高潮一区二区久久w | 五月激情综合| 欧美一级大片在线免费观看| 国产精品毛片一区视频播| fc2成人免费人成在线观看播放| 亚洲乱码一区二区三区三上悠亚| 国产美女高潮在线观看| 欧美精品三级在线观看| 欧美色图亚洲激情| 欧美日韩国产综合网| 国产精品青青在线观看爽香蕉| 亚洲AV无码一区二区三区性| 中文字幕精品一区二区三区精品| 免费一级特黄特色毛片久久看| 亚洲精品无播放器在线播放| 亚洲欧美日韩高清| 国产真实乱人偷精品视频| 久久99精品久久久久久久久久久久| 精品无人区一区二区三区竹菊| 成人在线免费看片| 欧美色成人综合| 37p粉嫩大胆色噜噜噜| 亚洲一级二级| 亚洲专区在线视频| 麻豆系列在线观看| 欧美日韩欧美一区二区| av网站免费在线看| 在线亚洲成人| 精品蜜桃传媒| 91桃色在线| 日韩亚洲欧美高清| 国产成人av免费在线观看| 久久黄色级2电影| 日韩免费av电影| 欧美电影免费观看| 日韩精品在线视频| 九九热在线视频播放| www.66久久| 欧美精品一区二区三区三州| 亚洲一区二区三区中文字幕在线观看| 久久久精品免费| 一卡二卡在线视频| 亚洲女同一区二区| 日本成人xxx| 亚洲小说区图片区| 成人欧美视频在线| 密臀av在线| 亚洲激情在线观看| 青青国产在线观看| 久久婷婷国产综合精品青草| 国产综合免费视频| 国产中文精品久高清在线不| 国产精品久久久| 免费高清在线观看| 91精品国产综合久久久蜜臀图片| 国产盗摄一区二区三区在线| 国产一二三精品| 97免费视频观看| 久久人人爽人人爽人人片av不| 国内成人精品视频| 青青草视频免费在线观看| 色女孩综合影院| 特级西西人体高清大胆| 国内精品久久久久影院一蜜桃| 99久久久无码国产精品性色戒| 欧美日本三级| 欧洲成人在线视频| av中文在线| 日韩欧美一区二区久久婷婷| 日韩av在线播放观看| 久久综合九色综合欧美亚洲| 在线免费观看av的网站| 综合激情婷婷| 久久国产精品一区二区三区四区 | 狠狠综合久久| 久久国产精品一区二区三区 | 成人综合色站| 韩漫成人漫画| 欧美成人黑人xx视频免费观看| 国产成人三级在线观看视频| 91国产福利在线| 亚洲av鲁丝一区二区三区| 成人精品小蝌蚪| 九热视频在线观看| 欧美三级免费| 日产国产精品精品a∨ | 欧美激情第一页在线观看| 国产一区二区三区四区五区3d| 久久99精品久久久久久青青91| 视频一区二区三区在线看免费看| 欧美三级韩国三级日本三斤 | 悠悠资源网久久精品| 日本中文不卡| 极品尤物一区| 成人免费视频a| 久草在线资源福利站| 久久精品视频在线观看| 国产又爽又黄网站亚洲视频123| 欧美日韩午夜在线| 国产成人无码一区二区三区在线| 国产精品久久久久久亚洲毛片| 中文字幕乱视频| 精品中文字幕一区二区| 欧美牲交a欧美牲交| 综合久久99| 亚洲精品一区二区三区av| 秋霞蜜臀av久久电影网免费| 亚洲一区二区三区乱码aⅴ| 国产精品粉嫩| 国自在线精品视频| 黄色网在线免费观看| 亚洲天堂网站在线观看视频| 高潮毛片7777777毛片| 制服丝袜一区二区三区| 免费黄色av片| 日韩欧美国产黄色| 精品无码免费视频| 中文字幕综合网| 粉嫩精品久久99综合一区| 99在线视频精品| 中文字幕avav| 精品亚洲成a人在线观看| 日韩一级免费在线观看| 中文亚洲字幕| 人妻夜夜添夜夜无码av | 欧美精品久久一区二区 | 亚洲精品免费在线观看| 无码人妻精品一区二区三应用大全 | 人妻少妇精品无码专区久久| 日韩一区二区免费电影| 国产一区二区小视频| 欧美撒尿777hd撒尿| 夜夜爽妓女8888视频免费观看| 精品女同一区二区三区在线播放| 久久久久久久蜜桃| 亚洲最快最全在线视频| 91精品国产闺蜜国产在线闺蜜| 国产精品欧美经典| 五月婷婷婷婷婷| 国产精品免费久久| 一本在线免费视频| 国产精品久久国产精麻豆99网站| 日本精品久久久久中文| 中文乱码免费一区二区| 黄色激情小视频| 最新国产精品久久精品| 尤物在线免费视频| 亚洲精品成人少妇| 欧美日韩中文视频| 午夜精品福利一区二区蜜股av| 国产精品suv一区二区| 五月激情综合色| 国产农村妇女aaaaa视频| 一本大道久久a久久精二百| 波多野结衣家庭主妇| 欧美午夜在线观看| 国产影视一区二区| 欧美大黄免费观看| 神马一区二区三区| 亚洲男人天堂古典| 最近高清中文在线字幕在线观看| 精品国偷自产在线| 久草在线资源站资源站| 欧美最顶级的aⅴ艳星| 成人av色网站| 91成人免费在线观看| 欧美freesex8一10精品| 欧美久久久久久一卡四| 日韩国产一区| 青青青青在线视频| 久久亚洲色图| 国内av一区二区| 99久久精品国产精品久久| 中文字幕国产综合| **网站欧美大片在线观看| 久久人人爽人人爽人人| 色诱视频网站一区| 国产又黄又粗又长| 日韩精品中文在线观看| 77导航福利在线| 欧美极品第一页| 卡通欧美亚洲| 亚洲xxxx18| 伊人久久大香线蕉综合网站| 在线看无码的免费网站| 亚洲精品韩国| 手机av在线免费| 91香蕉视频在线| 三级黄色录像视频| 婷婷开心激情综合| 一二区在线观看| 日韩电影在线观看中文字幕| 免费大片在线观看www| 69久久夜色精品国产69乱青草| 久久99国产精品二区高清软件| 国产精品免费在线| 99久久亚洲精品蜜臀| 久久久999视频| 国产高清亚洲一区| 秋霞网一区二区三区| 性做久久久久久免费观看| 一级黄色免费片| 亚洲精品久久久久中文字幕二区| 免费的黄网站在线观看| 日韩美女写真福利在线观看| swag国产精品一区二区| 免费观看中文字幕| 久久一区二区三区四区五区 | 国产精品色哟哟网站| 中文字幕在线观看免费视频| 69久久99精品久久久久婷婷| 成年在线电影| 欧美亚洲第一区| xvideos.蜜桃一区二区| 日本一本草久p| 免费在线视频一区| 三上悠亚ssⅰn939无码播放| 亚洲电影一区二区| 99热这里是精品| xxxxxxxxx欧美| 国产美女久久| 日韩中文字幕av在线| 麻豆成人在线| 自拍视频一区二区| 亚洲一区二区三区四区五区黄| 国产精品久久久久久久久久久久久久久久久久 | 欧美日韩在线观看一区二区三区| 在线观看一区| av漫画在线观看| 亚洲精品成人在线| 99精品久久久久久中文字幕| 日韩有码在线播放| 懂色aⅴ精品一区二区三区| 欧美日韩综合网| 亚洲欧美日韩精品一区二区| 在线黄色免费网站| 亚洲国产视频一区| 亚洲乱码国产乱码精品精软件| 久热精品视频在线| 日本免费一区二区视频| 制服诱惑一区| 精品一二三四区| 国产日产精品一区二区三区的介绍| 欧美影院午夜播放| 91在线看黄| 国产日韩在线播放| 国产精品久久占久久| 波多野结衣网页| 亚洲一区二区在线视频| 欧美一级性视频| 国内精品在线一区| 四虎影视精品| 中文字幕在线观看第三页| 国产精品国产三级国产aⅴ无密码| 91久久精品国产91性色69| 久久精品中文字幕一区| 蜜桃在线一区| 国产精品久久久久7777| 99国产欧美另类久久久精品| 无码人妻丰满熟妇区五十路| 中文日韩在线观看| 国产精品色婷婷在线观看| 日韩欧美猛交xxxxx无码| 不卡一区二区在线| 日韩久久中文字幕| 在线电影欧美日韩一区二区私密| 伦一区二区三区中文字幕v亚洲| 可以在线看黄的网站| 成人黄色a**站在线观看| caoporn国产| 日韩在线视频国产| 91麻豆精品国产91久久久久推荐资源| 国产精品裸体瑜伽视频| 久久精品一区二区三区av| 国产精品国产三级国产普通话对白| 久久国产精品网站| 青青一区二区| 亚洲a级黄色片| 亚洲第一av色| av在线女优影院| 国产99在线播放| 日本欧美一区二区在线观看| 国产精品99久久久久久成人| 亚洲激情久久久| 亚洲精品一区二区在线播放∴| 老太脱裤让老头玩ⅹxxxx| 国产欧美一区二区三区网站| 99久久久久久久| 国产成人鲁鲁免费视频a| 在线看片不卡| 成人无码av片在线观看| 精品久久久久久久久久久久久久久| 天天免费亚洲黑人免费|