精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

RAG(五)BGE-M3,最流行的開源text embedding模型

人工智能 開源
text embedding作為檢索增強生成中至關重要的一環,今天來了解下最流行的開源text embedding模型,智源研究院發布的BGE-M3。

項目地址:https://huggingface.co/BAAI/bge-m3

圖片

首先說明下為什么需要text embedding?

Text Embedding 是一種將文本數據映射到高維向量空間的技術,這些向量能夠捕捉文本的語義信息。通過將文本嵌入到向量空間中,我們可以利用向量之間的距離或相似性來衡量文本之間的語義相關性。

在信息檢索領域,Text Embedding 的重要性尤為突出。傳統的基于關鍵詞匹配的檢索方法往往無法準確理解用戶的真實意圖,也無法處理語義相似但用詞不同的查詢。而通過 Text Embedding,我們可以將查詢和文檔都嵌入到同一個語義空間中,從而能夠更準確地檢索出與用戶查詢語義相關的文檔,而不僅僅是包含相同關鍵詞的文檔。

此外,隨著多語言內容的不斷增加,跨語言檢索的需求也日益增長。Text Embedding 能夠將不同語言的文本映射到一個統一的語義空間中,使得跨語言檢索成為可能。

智源發布的BGE-M3在多語言、多功能和多粒度方面展現出前所未有的通用性,能夠支持超過100種語言的語義檢索,并且可以處理從句子到長文檔的各種輸入。下面來詳細看下:

1、方法介紹

M3-Embedding 實現了三方面的多功能性,支持多種語言,并能夠處理不同粒度的輸入數據。此外,它還統一了文本嵌入的常見檢索功能。形式上,給定任意語言 x 中的查詢 q,它能夠從語料庫圖片中檢索出語言 y 中的文檔圖片

數據整理

BGE-M3-Embedding 需要一個大規模且多樣化的多語言數據集。為了構建這樣的數據集,從三個來源進行了全面的數據收集:

  1. 無監督數據:來源包括 Wikipedia、S2ORC、xP3、mC4、CC-News 和 MTP 等多語言語料庫。從這些語料庫中提取豐富的語義結構,例如標題-正文、標題-摘要、指令-輸出等。為了學習跨語言語義匹配的統一嵌入空間,引入了平行句子數據,來自 NLLB 和 CCMatrix 兩個翻譯數據集。總共整理出1.2 億個文本對,涵蓋 194 種語言和 2655 種跨語言對應關系
  2. 微調數據:
    英語:整合了 8 個數據集,包括 HotpotQA、TriviaQA、NQ、MS MARCO、COLIEE、PubMedQA、SQuAD 和 SimCSE 的 NLI 數據。
    中文:整合了 7 個數據集,包括 DuReader、mMARCO-ZH、圖片、LawGPT、CMedQAv2、圖片和 LeCaRDv2。
    其他語言:利用 Mr. TyDi 和 MIRACL 的訓練數據。
  3. 合成數據:為緩解長文檔檢索任務的短缺,生成了額外的多語言微調數據(稱為 MultiLongDoc)。從 Wikipedia、Wudao 和 mC4 數據集中抽取長篇文章,并從中隨機選擇段落。使用 GPT-3.5 根據這些段落生成問題,生成的問題和抽取的文章構成新的文本對

混合檢索

BGE-M3-Embedding 統一密集檢索、詞匯(稀疏)檢索和多向量檢索的具體實現如下:

  1. 密集檢索:輸入查詢q通過文本編碼器轉換為隱藏狀態圖片,使用特殊標記 "[CLS]" 的歸一化隱藏狀態表示查詢:圖片。同樣,段落p的嵌入為圖片。查詢和段落之間的相關性得分通過內積計算:圖片
  2. 詞匯檢索:輸出嵌入用于估計每個詞項的重要性,以促進詞匯檢索。對于查詢中的每個詞項t,詞項權重計算為圖片,其中圖片是將隱藏狀態映射到浮點數的矩陣。如果詞項t在查詢中出現多次,只保留其最大權重。查詢和段落之間的相關性得分通過查詢和段落中共存詞項的聯合重要性計算:圖片
  3. 多向量檢索:作為密集檢索的擴展,多向量方法利用整個輸出嵌入來表示查詢和段落:圖片,其中圖片是可學習的投影矩陣。使用延遲交互計算細粒度的相關性得分:圖片,其中N和M分別是查詢和段落的長度。

自知識蒸餾

圖片

嵌入模型被訓練為將正樣本與負樣本區分開,對于每種檢索方法,期望為查詢的正樣本分配比負樣本更高的得分。訓練過程旨在最小化 InfoNCE 損失,其一般形式為:

圖片

其中,圖片圖片分別表示查詢q的正樣本和負樣本;s(?)是圖片中的任意一個函數。

不同檢索方法的訓練目標可能會相互沖突。為了促進多種檢索功能的優化,在訓練Bge-M3時,提出在自知識蒸餾的基礎上統一訓練過程。具體步驟如下:

1. 集成預測得分:將不同檢索方法的預測得分整合為更準確的相關性得分:

圖片

2. 計算損失函數:計算圖片的加權和作為沒有自知識蒸餾的損失:

圖片

3. 修改損失函數:使用集成得分圖片作為教師,修改每個檢索方法的損失函數:

圖片

其中,p(?)是 softmax 激活函數;圖片圖片中的任意一個成員。

4. 最終損失函數:

  • 進一步整合并歸一化修改后的損失函數:

圖片

  • 最終損失函數為:
    圖片

訓練過程分為兩個階段:

  1. 預訓練階段:使用大規模無監督數據對文本編碼器(XLM-RoBERTa 模型,通過 RetroMAE 方法調整)進行預訓練,僅以對比學習的基本形式訓練密集檢索。
  2. 微調階段:應用自知識蒸餾,對嵌入模型進行微調,以建立三種檢索功能。在此階段使用標注數據和合成數據,并引入硬負樣本。

高效批處理

嵌入模型需要從多樣化和大規模的多語言數據中學習,以充分捕捉不同語言的通用語義。為了確保文本嵌入的區分性,模型需要盡可能保持大批量(引入大量批內負樣本)。然而,由于 GPU 內存和計算能力的限制,傳統的做法是將輸入數據截斷為短序列,以實現高訓練吞吐量和大批量。這種方法雖然有效,但對于BGE-M3-Embedding 來說并不適用,因為它需要同時處理短序列和長序列數據,以有效支持不同粒度的輸入。

為了克服上述挑戰,本文提出了一種高效的批處理策略,具體包括以下幾個關鍵步驟:

  • 按序列長度分組:訓練數據按序列長度分組,生成小批量時從同一組中采樣,顯著減少序列填充,提高了 GPU 的利用效率。
  • 固定隨機種子:在為不同 GPU 采樣訓練數據時,固定隨機種子,確保負載平衡并減少每個訓練步驟的等待時間。
  • 子批量處理:在處理長序列訓練數據時,將小批量進一步劃分為子批量,然后使用梯度檢查點(gradient checkpointing)技術,迭代編碼每個子批量,顯著減少內存占用的同時顯著增加了批量大小。
  • 跨 GPU 廣播:在分布式訓練環境中,將來自不同 GPU 的嵌入結果進行廣播,使每個 GPU 都可以獲取所有嵌入結果。通過廣播,每個 GPU 上的模型可以訪問更多的負樣本,從而顯著擴大了批內負樣本的規模,有助于提高嵌入的區分性,進一步提升模型的性能。

圖片


2、實驗結果

多語言檢索

使用 MIRACL,包含 18 種語言的臨時檢索任務,每個任務由同一語言的查詢和段落組成

  • Dense 方法:M3-Embedding 在密集檢索上表現出色,平均性能優于所有基線方法。例如,在英語上與 E5mistral-7b 相比,M3-Embedding 在其他語言上表現更好。
  • Sparse 方法:M3-Embedding 的稀疏檢索功能優于傳統的 BM25 方法。
  • Multi-vec 方法:多向量檢索進一步提升了性能,通過細粒度的交互計算相關性得分。
  • 混合方法:Dense+Sparse 和 All 方法通過結合不同方法的優勢,進一步提升了檢索性能,其中 All 方法表現最佳。

圖片

跨語言檢索

使用 MKQA,包含 25 種非英語語言的查詢,目標是從英文維基百科中檢索包含答案的段落

M3-Embedding 在跨語言檢索任務中表現出色,尤其是在密集檢索和多向量檢索方面。結合不同方法的混合檢索進一步提升了性能。此外,M3-Embedding 在低資源語言上的表現相對穩定。

圖片

多語言長文檔檢索

BGE-M3可以支持長達8192的輸入文檔,同時長文檔檢索的效果要顯著優于此前的基線模型。非常有意思的是,從實驗結果可以觀察到,稀疏檢索(Sparse)的效果要顯著高于稠密檢索(Dense),這說明關鍵詞信息對于長文檔檢索極為重要。

圖片

消融實驗

自知識蒸餾和多階段訓練對 M3-Embedding 的性能提升起到了關鍵作用。通過這些技術,M3-Embedding 在多語言檢索、跨語言檢索和長文檔檢索任務中均表現出色。

圖片


3、總結

BGE-M3-Embedding模型的目的是構建一個多功能、多語言、多粒度的文本嵌入模型,能夠高效地支持各種信息檢索和自然語言處理任務。它的意義在于:

  • 多功能性:統一了多種檢索功能,適應不同的檢索需求。
  • 多語言支持:支持超過100種語言,適用于全球化的信息檢索和多語言對話系統。
  • 多粒度處理:能夠處理從短句子到長文檔的不同粒度的輸入,適應各種文本長度的需求。
  • 實際應用:在搜索引擎、問答系統、推薦系統、文檔分析和多語言對話系統等領域具有廣泛的應用前景。

從評測結果來看,BGE-M3全面應用于檢索任務,包括訓練數據也全是檢索的相關任務,非常適合檢索增強任務。

在實際應用中,BGE-M3也是text-embedding模型中下載量最高的模型,是目前最適合檢索增強任務的開源文本嵌入模型之一。

責任編輯:龐桂玉 來源: 小白學AI算法
相關推薦

2024-07-01 08:56:14

2025-09-28 07:11:56

2025-03-06 08:20:00

RAG嵌入模型

2009-02-04 09:11:52

Web2.0術語FTW

2025-03-26 11:05:13

2010-05-25 15:12:59

Web

2018-08-09 09:22:55

開源web服務器

2023-10-17 18:07:36

2018-09-11 15:18:41

編程語言TJavaScriptJava

2014-02-04 19:44:23

編程語言開發

2014-02-19 10:34:48

JavaScript代碼規范

2017-10-28 23:35:08

CSS框架開發工具

2013-12-10 21:23:07

開源Ubuntu

2017-04-19 10:32:01

2024-10-14 10:58:13

2011-01-04 18:04:49

PHP

2011-03-21 13:01:10

2024-11-21 15:44:21

2025-03-19 09:30:00

2024-01-30 14:21:13

點贊
收藏

51CTO技術棧公眾號

澳门av一区二区三区| 欧日韩在线视频| 欧美自拍偷拍| 欧美一区二区三区视频在线观看| 久久精品久久久久久国产 免费| 一级特黄妇女高潮| 精品国产亚洲av麻豆| 在线播放日韩| 伊人青青综合网站| 国产视频精品视频| av网址在线免费观看| 成人网在线播放| 国产精品九九久久久久久久| 国精产品一区一区三区免费视频| 外国电影一区二区| 亚洲国产一二三| 四虎影院一区二区三区| 北条麻妃一二三区| 日本免费在线视频不卡一不卡二| 欧美激情第1页| 国产三级在线观看完整版| 136导航精品福利| 欧美日韩和欧美的一区二区| 3d动漫一区二区三区| 黄色片网站在线| 中文字幕第一页久久| 国产在线一区二区三区四区| 久久精品一区二区三| 国产精品片aa在线观看| 欧美亚洲一区二区三区四区| 国产尤物av一区二区三区| 国产三区四区在线观看| 日韩中文字幕av电影| 欧美裸体男粗大视频在线观看| japan高清日本乱xxxxx| 成人精品国产| 欧美日韩激情视频8区| 精品嫩模一区二区三区| a√在线中文网新版址在线| 久久成人免费网站| 久久成人精品一区二区三区| 欧洲美熟女乱又伦| 杨幂一区二区三区免费看视频| 亚洲第一区第一页| 黄页网站在线看| 精品视频在线一区| 在线不卡中文字幕| 国产精品自在自线| 免费一级欧美在线观看视频| 色婷婷狠狠综合| 动漫av网站免费观看| 成人在线免费观看| 久久久久九九视频| 蜜桃传媒视频第一区入口在线看| 欧美 日韩 国产 成人 在线| 成人精品一区二区三区四区| 99re6热在线精品视频播放速度| 国产区精品在线| 韩国欧美一区二区| 91精品国产一区二区三区动漫| a天堂在线视频| 国产精品亚洲视频| 999热视频在线观看| www.xxxx国产| 成人黄页毛片网站| 久久66热这里只有精品| 欧美伦理影视网| 狠狠狠色丁香婷婷综合久久五月| 国产美女扒开尿口久久久| 怡红院男人天堂| 精品中文字幕一区二区小辣椒 | 小嫩苞一区二区三区| 99成人在线视频| 欧美福利在线观看| 日韩精品视频播放| 久久久人人人| 国产在线视频2019最新视频| 国产av无码专区亚洲a∨毛片| 国产成人av电影在线| 精品欧美一区二区在线观看视频| 国内精品一区视频| 亚洲精品日产精品乱码不卡| 久久久久久久久久码影片| 亚洲 美腿 欧美 偷拍| 久久久天堂av| 在线观看亚洲视频啊啊啊啊| 精品精品导航| 91成人在线精品| 青娱乐精品在线| 亚洲图区在线| 久久的精品视频| 日韩精品人妻中文字幕| 蜜臀av性久久久久av蜜臀妖精| 91嫩草视频在线观看| 欧美捆绑视频| 亚洲激情av在线| 日韩视频免费在线播放| 欧美第一在线视频| 亚洲欧美精品伊人久久| 国产三级国产精品国产国在线观看| 99精品免费| 91探花福利精品国产自产在线| 午夜影院在线视频| 亚洲欧洲av在线| 不卡影院一区二区| 欧美大片91| 色哟哟网站入口亚洲精品| 91九色丨porny丨极品女神| 亚洲制服av| 成人免费在线一区二区三区| 无码精品黑人一区二区三区| 亚洲三级在线播放| 欧美 日韩 国产 激情| 超碰在线成人| 久久九九全国免费精品观看| 无码人妻黑人中文字幕| 成熟亚洲日本毛茸茸凸凹| 在线码字幕一区| 校园春色亚洲色图| 亚洲国产高清福利视频| 欧美黑人猛猛猛| 麻豆精品蜜桃视频网站| 欧美日韩在线高清| 国产区高清在线| 亚洲成人综合网站| 91精品国产三级| 色综合久久网| 国产精品久久久久99| 香蕉视频黄色片| 亚洲国产精品尤物yw在线观看| 久国产精品视频| av资源久久| 国产精品福利小视频| 天堂网www中文在线| 五月激情六月综合| 又色又爽又黄18网站| 亚洲精品tv久久久久久久久久| 国产精品女人久久久久久| 国产人成在线视频| 日本乱码高清不卡字幕| 88久久精品无码一区二区毛片| 中文日韩在线| 精品日韩电影| 午夜影院在线播放| 欧美日韩精品欧美日韩精品一 | 手机亚洲第一页| 午夜亚洲国产au精品一区二区| 欧美做受高潮中文字幕| 狠狠干综合网| 国产91一区二区三区| 欧美aaa免费| 精品国产污网站| 国产乡下妇女做爰视频| 不卡一区二区三区四区| 国自产拍偷拍精品啪啪一区二区| 盗摄牛牛av影视一区二区| 久久久久久12| 一级做a爰片久久毛片| 91尤物视频在线观看| 99精品视频在线看| 国产尤物久久久| 国产精品久久久亚洲| av女优在线| 日韩亚洲欧美在线| 好吊操这里只有精品| 精品一区在线看| 300部国产真实乱| 国产福利一区二区精品秒拍| 91成品人片a无限观看| 加勒比一区二区三区在线| 在线免费观看日韩欧美| 91麻豆精品久久毛片一级| 国产一区二区三区日韩| 一二三四视频社区在线| 九九热线有精品视频99| 午夜精品久久久久久99热| 天天操天天操天天| 欧美亚洲高清一区二区三区不卡| 青青操在线播放| 丰满岳乱妇一区二区三区| 国产h视频在线播放| 日韩综合一区| 国产91精品入口17c| 欧美黑人粗大| 久久这里只有精品视频首页| 色屁屁草草影院ccyycom| 日本道色综合久久| 国精品无码一区二区三区| 91片黄在线观看| 日韩av自拍偷拍| 国产视频一区欧美| 亚洲在线播放电影| 成人福利一区| 国产精品入口日韩视频大尺度| 欧美xxxx黑人又粗又长| 精品呦交小u女在线| 国产熟女一区二区三区五月婷| 粉嫩老牛aⅴ一区二区三区| 二区三区四区视频| 99久久久久久| 精品国产鲁一鲁一区二区三区| 亚洲欧美清纯在线制服| 亚洲成人动漫在线| 蜜乳av综合| 亚洲最大福利视频网| 久久精品女人天堂av免费观看| 欧美丰满少妇xxxxx| 2019中文字幕在线视频| 亚洲精品国产综合区久久久久久久| 国产乡下妇女做爰视频| 国产精品久久二区二区| 蜜臀av一区二区三区有限公司| 国产一区二区在线看| 欧美 日韩 国产 激情| 亚洲精品孕妇| 8x8ⅹ国产精品一区二区二区| 欧美一二区在线观看| 精品国产福利| 一区二区中文字幕在线观看| 国产日韩专区在线| 午夜av成人| 日本免费一区二区三区视频观看| heyzo在线| 日韩精品在线视频| 国产黄a三级三级看三级| 欧美特级限制片免费在线观看| 国产成人愉拍精品久久| 亚洲午夜av在线| 欧美丰满艳妇bbwbbw| 亚洲欧洲99久久| 91传媒免费观看| 日本一区二区不卡视频| 国产人妻大战黑人20p| 日韩av中文在线观看| 免费无码不卡视频在线观看| 伊人影院久久| www.激情网| 欧美日韩国产高清| 亚洲小视频在线播放| 在线中文字幕亚洲| 国产一区高清视频| 欧洲一区在线| 欧洲永久精品大片ww免费漫画| 国产乱子伦三级在线播放| 日韩成人av网| 亚州视频一区二区三区| 亚洲国产小视频在线观看| 日韩一区免费视频| 精品乱人伦一区二区三区| 成人午夜精品福利免费| 精品国产不卡一区二区三区| 日本免费一区视频| 亚洲国产毛片完整版| 日本电影一区二区在线观看| 亚洲男人天堂2019| 国产香蕉视频在线看| 中文字幕日韩在线播放| 麻豆视频在线| 日韩黄色在线免费观看| 视频福利在线| 一区二区三区视频免费| 免费大片黄在线观看视频网站| 日韩一区二区福利| 欧美天天影院| 欧美人成在线视频| 午夜激情在线播放| 国产美女高潮久久白浆| 日韩中文在线| 精品一卡二卡三卡四卡日本乱码| 亚洲综合图色| 中文字幕一区二区三区5566| 国产精品草草| 午夜肉伦伦影院| 热久久免费视频| 91网址在线观看精品| 成人三级在线视频| 美女脱光内衣内裤| 亚洲天堂久久久久久久| 豆国产97在线 | 亚洲| 欧美网站在线观看| 国产一区二区三区黄片| 亚洲二区在线播放视频| 成年人视频在线看| 色综合色综合久久综合频道88| 天堂av在线网| 成人黄在线观看| 老牛影视av一区二区在线观看| 日本一区免费看| 夜间精品视频| 欧美牲交a欧美牲交aⅴ免费下载| 精品亚洲欧美一区| 国产又黄又粗又猛又爽的视频| 国产精品妹子av| 日本一区二区三区四区五区| 欧美色爱综合网| 香蕉视频网站在线| 欧美成人精品三级在线观看| 电影网一区二区| av成人午夜| 久久大综合网| 国产av无码专区亚洲精品| 国产成人综合亚洲网站| 特黄特黄一级片| 久久久噜噜噜久久中文字幕色伊伊| 999精品视频在线观看播放| 大荫蒂欧美视频另类xxxx| 国产精品无码在线播放| 亚洲欧美激情精品一区二区| 亚洲性图自拍| 国产欧洲精品视频| 曰本一区二区三区视频| 久操网在线观看| 国产乱码一区二区三区| 成人免费视频入口| 色悠悠亚洲一区二区| 四虎精品一区二区三区| 欧美老少配视频| 亚洲精品第一| 日韩午夜视频在线观看| 亚洲永久字幕| 少妇精品一区二区| 亚洲一区自拍偷拍| 国产精品一区二区人人爽| 伊人青青综合网站| 欧美艳星kaydenkross| 久久久久九九九| 91久久视频| a级片在线观看视频| 亚洲黄色尤物视频| 国产乱淫av片免费| 色爱精品视频一区| 日本.亚洲电影| 日韩欧美国产二区| 日韩高清电影一区| 亚洲成人黄色av| 欧美唯美清纯偷拍| av在线播放网站| 国产精品亚洲第一区| 第四色成人网| 中文字幕第17页| 国产精品毛片久久久久久| 最近中文字幕在线观看视频| 欧美绝品在线观看成人午夜影视| 男女视频在线观看| 国产97在线亚洲| 国产一区二区欧美| 亚洲乱码国产一区三区| 国产欧美一区二区三区网站| 久草视频免费在线播放| 日韩欧美亚洲国产另类| 香蕉久久aⅴ一区二区三区| 91在线直播亚洲| 亚洲午夜精品久久久久久app| 91porn在线| 欧美日韩国产专区| 国产精品免费播放| 成人观看高清在线观看免费| 99精品视频在线| 免费黄色在线播放| 亚洲成人1区2区| 青青国产在线| 国产噜噜噜噜噜久久久久久久久 | 国产精品手机在线播放| 黄色一级免费大片| 国产精品高潮呻吟| a级片在线视频| 91精品国产网站| 精品国产一区二区三区久久久樱花| 91亚洲免费视频| 日韩专区欧美专区| 中文字幕在线精品| 精品人妻一区二区三区换脸明星| 爱福利视频一区| 亚洲va欧美va人人爽成人影院| 三上悠亚久久精品| 国产校园另类小说区| 91精品国自产| 久久久久久国产| 国产精品午夜一区二区三区| 污网站在线免费| 无码av中文一区二区三区桃花岛| 久久精品国产亚洲a∨麻豆| 国产欧美一区二区| 欧美fxxxxxx另类| 久久久欧美精品| 日本五十路女优| 亚洲精品一区二区三区福利| 亚洲成人短视频| 一二三四中文字幕| 91在线免费视频观看| 在线免费一级片| 91精品国产91久久久| 91视频一区| 91黄色免费视频| 在线播放日韩导航| 亚洲最大成人| 黄色特一级视频| 亚洲国产经典视频| 天天干天天干天天干| 成人观看高清在线观看免费|