精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Microsoft | 利用LLM本身訓練SoTA embedding模型

發布于 2024-11-1 15:19
瀏覽
0收藏

大家好,我是HxShine

今天分享一篇Microsoft公司的一篇文章,Title: Improving Text Embeddings with Large Language Models:使用大型語言模型改善文本嵌入。

這篇文章探索了直接利用LLM來做embedding模型,其只需要利用合成數據和少于1000次的訓練步驟就能獲得高質量文本表征。

該方法分為兩步:1)利用LLM生成文本embedding任務合成數據集:利用專有的大型語言模型(LLM)生成近100種語言的數十萬個文本嵌入任務的多樣化合成數據。2)對比損失微調:使用標準對比損失對開源的decoder-only LLM進行微調。

該方法特點總結如下:1)充分挖掘了大模型生成數據多樣性還不錯的特點,利用這個特點,可以利用LLM生成多樣性比較好、類型豐富、以及多語言的文本表征模型數據集。2)相對于之前例如SimCSE等模型,需要在大量語料上繼續做預訓練以及微調,本文發現自回歸的LLM只需少量監督數據就能獲得一個非常不錯的效果。3)多語言的檢索能力也不錯。

一、概述

Title:Improving Text Embeddings with Large Language Models
論文地址:???https://arxiv.org/abs/2401.00368??

1 Motivation

  • 現有的文本嵌入方法依賴于多階段預訓練和少量標注數據的微調【大量數據->弱監督預訓練,少量標注數據->fine-tuning】,需要構建復雜的訓練流程,且數據集通常受限于任務多樣性和語言覆蓋范圍。
  • 本文提出了一種新的方法:利用大型語言模型生成多樣化的合成數據,通過簡單但有效的訓練步驟改善文本嵌入的質量,特別在多種語言環境中效果非常不錯。

2 Methods

省流版總結:

  • 合成數據生成:分兩步生成合成數據,第一步生成檢索任務主題,第二步根據主題生成問題、正樣本、負樣本。其特點是生產的檢索任務多樣性不錯、同時還可以生成多語言的數據集。
  • 對比學習訓練:利用常規的對比學習loss InfoNCE函數訓練模型,只是用合成數據,只需要1k步左右訓練就能有一個不錯的效果,疊加監督數據效果更佳 。


2.1 利用LLM生成訓練樣本

通常訓練embedding模型強烈依賴正負樣本數據,標注成本比較高。這里本文嘗試利用專有LLM(如GPT-4)生成近100種語言的多樣化合成數據,用于訓練embedding模型。

背景:使用LLM合成數據,增強文本嵌入模型的多樣性和魯棒性。
方法:設計了多種任務類型和語言的模板,通過LLM生成合成數據。
特點:  能夠覆蓋廣泛的任務和語言類型,提高數據的多樣性和質量。

1)利用LLM列舉檢索任務:

Microsoft | 利用LLM本身訓練SoTA embedding模型-AI.x社區

2)針對每個任務,利用LLM按照要求生成訓練樣本:

Microsoft | 利用LLM本身訓練SoTA embedding模型-AI.x社區

2.2 模型訓練

Microsoft | 利用LLM本身訓練SoTA embedding模型-AI.x社區

要點一:需要指定任務task_definition,輸入用戶問題。其中合成的數據用2.1中第一步LLM生成的任務定義,其他數據集人工設置固定的模版。

要點二:相似度計算方式為cos相似度,并結合溫度系數超參數來調節具體值。

要點三:Loss函數為標準的InfoNCE函數,其懲罰了負樣本,提升正樣本的相似度分數。

3 Conclusion

結論1: 使用LLM生成的合成數據可以顯著提升文本嵌入的性能。

結論2: 方法在多語言環境下表現良好,特別是在BEIR和MTEB基準上。

結論3: 本方法提供了一種更高效的文本嵌入訓練策略,避免了復雜的多階段訓練。

4 Limitation

  1. 盡管在多種語言中表現良好,但對低資源語言的支持仍有待改進,利用LLM做文本embedding成本還比較高。
  2. 未來工作將探索使用開源LLM生成合成數據,并提高模型在長文本處理方面的效率。

二、詳細內容


2.1 合成數據的統計分析

Microsoft | 利用LLM本身訓練SoTA embedding模型-AI.x社區


結論1: 生成了500k個樣例,涵蓋了150k個獨特指令。包括非對稱任務(query和doc不對稱):short-long代表query是短文本,doc為長文本,其他可以反推。另一類任務是對稱任務(query和doc語義相近,但是不對等):sts代表單語言語義相似度計算、bitext代表雙語言檢索任務。

結論2: 生成數據中覆蓋93種語言。語言多樣性不錯,英語占大多數,其他語言占比也不少。

2.2 模型微調與評估

Microsoft | 利用LLM本身訓練SoTA embedding模型-AI.x社區

試驗設置:基座模型為Mistral-7b,微調方法為Lora,rank=16。

結論1: "E5mistral-7b + full data"模型在MTEB基準上超過先前最佳模型2.4分。
結論2: 使用混合數據微調的模型在MTEB基準上取得了最高平均得分。
結論3: w/synthetic data only代表僅使用合成數據訓練的模型表現仍然競爭力十足。

結論4: 該方法的實驗結果顯示了生成語言建模和文本嵌入之間的潛在聯系。

2.3 與商業閉源模型對比

Microsoft | 利用LLM本身訓練SoTA embedding模型-AI.x社區

結論:在BEIR Retrieval數據集和MTEB數據集都取得了SoTa。

2.4 LLM只需要少量數據做微調即可取得比較好的效果

Microsoft | 利用LLM本身訓練SoTA embedding模型-AI.x社區

結論一:傳統數據利用大量數據結合對比學習做無監督訓練可以帶來不錯的提升。

結論二:經過大量語料訓練的自回歸LLM模型已經不需要繼續做預訓練了,只需要少量的數據微調即可取得比較好的效果。

2.5 多語言任務上也非常有競爭力

Microsoft | 利用LLM本身訓練SoTA embedding模型-AI.x社區

結論一:高資源(數據量多)任務例如英語,效果比之前的mE5模型效果好,低資源任務效果相對mE5也非常有競爭力。

2.6 消融實驗:instruction設置比較關鍵

Microsoft | 利用LLM本身訓練SoTA embedding模型-AI.x社區

結論一:基座模型選擇也比較重要,選擇LLaMA-2的基座模型比Mistral-7b作為基座模型差。

結論二:instruction的設置也非常重要,對最終結果的影響可能差4個點以上。

2.7 context長度對檢索質量的影響:4k左右上下文文本表征都還不錯,隨后效果急劇下降。

Microsoft | 利用LLM本身訓練SoTA embedding模型-AI.x社區

結論:引入了一項名為個性化密碼檢索的新型合成任務,此任務需要在長上下文中將密鑰信息編碼到嵌入中。通過更改圖5中的滑動窗口大小和RoPE旋轉底座來比較不同變體的性能。結果顯示,帶有4k滑動窗口的默認配置在4k token數達到100%的準確性,但隨著上下文長度的增長,準確性會迅速下降。

三、總結

結論1:利用LLM生成的合成數據可以顯著提升文本嵌入的性能。 這種方法在處理多種語言時尤其有效,能夠生成高質量、多樣化的合成數據。

Microsoft | 利用LLM本身訓練SoTA embedding模型-AI.x社區


結論2:利用LLM訓練Embedding模型可以非常高效。 與現有多階段方法相比,其只需要少于1000次的訓練步驟就可以拿到比較好的效果,而現有方法可能要先利用大量數據做自監督訓練,然后再使用有監督數據訓練,效率不高。

結論3:本文利用LLM做embedding是一個突破,但產業界還不太適用。 本文首次探索LLM做embedding,效果還不錯,但模型大,推理成本也高,產業界實用性不高(bge相關模型只有400M左右,本文方法模型達到7B以上),后續可以探索LLM生成和挖掘正負樣本數據,利用傳統方法例如雙塔+SimCSE系列等模型進行訓練,然后再應用到產業界。

本文轉載自 ??NLP PaperWeekly??,作者: NLP PaperWeekly?

已于2024-11-1 16:15:52修改
收藏
回復
舉報
回復
相關推薦
一二三四中文字幕| 国产综合福利在线| 国产夫妻性爱视频| 88xx成人网| 亚洲欧洲国产日本综合| 91免费看网站| 久久国产视频一区| 久久人人88| 精品噜噜噜噜久久久久久久久试看 | 黄色激情在线视频| 青青草av免费在线观看| 麻豆国产精品一区二区三区 | 国产区美女在线| 久久免费的精品国产v∧| 国产精品视频中文字幕91| 青青草手机在线视频| 中文字幕精品影院| 日韩一区二区在线播放| av免费在线播放网站| 国产激情视频在线观看| 久久免费美女视频| 444亚洲人体| 亚洲av中文无码乱人伦在线视色| 亚洲天天影视网| 亚洲免费视频一区二区| 年下总裁被打光屁股sp| 视频精品导航| 欧美日韩国产精品专区| 激情五月五月婷婷| eeuss影院在线播放| 成人污污视频在线观看| 国产精品美女免费视频| 日韩欧美一级视频| 欧美韩日精品| 色偷偷av亚洲男人的天堂| 黄色a一级视频| 欧美视频二区欧美影视| 欧美日韩在线播放三区| 亚洲中文字幕无码专区| 欧美男男video| 中文字幕中文在线不卡住| 久久综合九色99| 亚洲男人第一天堂| 国产一区免费电影| 国产欧美日韩精品在线观看| 色av性av丰满av| 99精品国产在热久久| 精品少妇v888av| 伊人久久久久久久久久久久久久| 欧美一区二区三| 精品中文字幕久久久久久| 韩国三级视频在线观看| 国产一区二区三区免费在线| 欧美日韩午夜影院| 日本激情综合网| 日本美女一区| 91国产免费观看| 激情五月开心婷婷| 在线观看欧美日韩电影| 欧美性猛交xxxx富婆| 日韩国产一级片| sm捆绑调教国产免费网站在线观看| 亚洲精品欧美综合四区| 日本三日本三级少妇三级66| 黄色网址视频在线观看| 一区在线中文字幕| 超碰97免费观看| 国产在线观看a视频| 亚洲欧美一区二区久久| 国产日产欧美一区二区| 国产最新在线| 亚洲最新视频在线播放| 亚洲精品久久久久久久蜜桃臀| 欧美aaaxxxx做受视频| 亚洲综合清纯丝袜自拍| 黄页免费在线观看视频| 中文字幕在线直播| 日本二三区不卡| 欧美男女交配视频| 免费观看性欧美大片无片| 日韩欧美亚洲国产另类| 白嫩情侣偷拍呻吟刺激| 午夜a一级毛片亚洲欧洲| 亚洲美女中文字幕| 亚洲女人毛茸茸高潮| 综合久久十次| 国产69精品久久久久9| 成人免费区一区二区三区| 西西人体一区二区| 国产九九精品视频| 精品乱子伦一区二区| av一二三不卡影片| 亚洲va韩国va欧美va精四季| 国产最新在线| 红桃av永久久久| 亚洲国产高清av| 欧美三级一区| 亚洲欧美日韩直播| 日本精品人妻无码77777| 18成人免费观看视频| 国产精品激情av在线播放| 国产一区二区在线播放视频| 成人激情文学综合网| 日韩国产精品一区二区三区| h视频在线免费观看| 欧美日韩国产丝袜另类| 天天干天天色天天干| 国产日韩三级| 尤物精品国产第一福利三区| 国产精品9191| 蜜桃精品视频在线观看| 懂色一区二区三区av片 | 视频在线观看99| 日韩精品一区二区av| 久久精品国产免费看久久精品| 国产精品theporn88| 免费黄色在线观看| 欧美性猛交xxxx免费看| 26uuu国产| 成人影视亚洲图片在线| 91av网站在线播放| 国产毛片久久久久| 中文字幕第一区综合| 好吊妞无缓冲视频观看| 久久精品一级| 国产一区二区三区视频| 亚洲国产综合久久| 国产精品一卡二卡在线观看| 日韩中文一区二区三区| 精品人人视频| 欧美mv日韩mv| 蜜桃av.com| 久热精品视频| 久久久久久亚洲精品不卡4k岛国 | 国产伦精品一区二区三区千人斩| 欧美激情综合色综合啪啪五月| 亚洲天堂视频在线| 91麻豆福利精品推荐| 日本黄色片一级片| 欧美久久亚洲| 欧美成人在线免费视频| 97超碰人人模人人人爽人人爱| 久久精品在这里| 国产成人在线免费看| 国产精品网在线观看| 色综合视频一区中文字幕| 91高潮大合集爽到抽搐| 国产人成一区二区三区影院| 久久久久人妻精品一区三寸| 牛牛精品成人免费视频| 国产做受69高潮| 精品久久久免费视频| 尤物在线观看一区| 日本r级电影在线观看| 亚洲色图网站| 不卡一区二区三区视频| 欧美高清另类hdvideosexjaⅴ| 日韩精品中文字幕在线不卡尤物| 手机在线免费看片| 国产河南妇女毛片精品久久久| 免费看污污视频| 日韩在线亚洲| 午夜精品一区二区三区在线 | 国产伦精品一区二区三区在线观看| 亚洲精品白虎| www.久久久.com| 久久久精品久久久久| 国产欧美久久久精品免费| 亚洲精品欧美激情| 久草免费资源站| 国产精品普通话对白| 奇米影视首页 狠狠色丁香婷婷久久综合 | 国产成人澳门| 97在线看免费观看视频在线观看| 色偷偷在线观看| 色综合久久88色综合天天 | 中文字幕日韩精品一区| 色综合五月婷婷| 欧美日韩国产精品一区二区亚洲| 成人欧美一区二区三区视频| 91探花在线观看| 亚洲人精品午夜在线观看| 在线观看免费视频一区| 亚洲视频精选在线| 美女露出粉嫩尿囗让男人桶| 国产欧美日韩一区二区三区在线| 青青草成人激情在线| 国产精品国产三级在线观看| 91高清视频在线免费观看| 国产经典自拍视频在线观看| 在线电影一区二区三区| 国产主播在线观看| 国产午夜精品久久久久久免费视 | 天天干天天色天天爽| 97se亚洲| 国产成人一区二区三区| 老司机精品视频在线观看6| 亚洲福利在线看| 中文字幕二区三区| 亚洲一区二区三区三| 日本爱爱爱视频| 国产99久久久久久免费看农村| 成人综合视频在线| 先锋资源久久| 欧美国产二区| 97久久亚洲| 国产女人18毛片水18精品| 国产盗摄一区二区| 最新的欧美黄色| 天堂中文在线视频| 欧美一级xxx| 国产成人麻豆免费观看| 亚洲成人动漫精品| 中文字幕求饶的少妇| 久久久久久一二三区| 欧美69精品久久久久久不卡| 日日夜夜精品视频天天综合网| 成人午夜视频免费观看| 成人激情在线| 欧美二区三区在线| 99国产精品免费网站| 国产这里只有精品| 日本一道高清亚洲日美韩| 久久久久久久一区二区| a视频在线观看免费| 夜夜嗨av一区二区三区四区| 午夜视频福利在线| 亚洲风情亚aⅴ在线发布| 国产激情无套内精对白视频| 欧美日韩国产不卡| 中文字幕免费视频观看| 狠狠做深爱婷婷久久综合一区| 中文字幕在线观看成人| 国产精品久久久久久久久免费桃花| 性久久久久久久久久| 成人性生交大片免费看中文网站| 亚洲精品国产久| 久久精品国产免费| xxx国产在线观看| 热久久免费视频| 亚洲精品一二三四五区| 视频一区二区国产| 黄色片一级视频| 亚洲专区欧美专区| 日韩欧美亚洲天堂| 国产一区二区你懂的| 日本www在线视频| 99国产一区| 无码人妻丰满熟妇区96| 久久国产欧美| avav在线看| 日韩激情视频网站| 无码人妻精品一区二区三区66| 亚洲免费影视| 免费av网址在线| 久久久蜜桃一区二区人| 免费在线观看的毛片| 日韩精品亚洲一区二区三区免费| 十八禁视频网站在线观看| 日韩av不卡一区二区| www.99在线| 日本特黄久久久高潮| 亚洲免费一级视频| 久久精品999| 青青草精品在线| 成人国产免费视频| 女尊高h男高潮呻吟| 国产亚洲福利社区一区| 国产黄色录像视频| 亚洲欧美一区二区三区久本道91| 福利所第一导航| 午夜久久久久久| 久久国产黄色片| 欧美日韩在线三级| 国产a级免费视频| 亚洲激情 国产| 国产中文字幕在线观看| 日韩中文字幕网址| 免费在线看污片| 日本高清不卡在线| 日韩精品第二页| 国产精品自拍首页| 欧美色图在线播放| 激情六月天婷婷| 久久久噜噜噜久久狠狠50岁| 亚洲日本黄色片| 成人免费毛片app| 国产又黄又粗视频| 亚洲国产精品久久久男人的天堂| 国产精品自拍99| 在线成人高清不卡| 亚洲aaaaaaa| 久久亚洲精品成人| 天堂在线中文网官网| 成人午夜一级二级三级| 四虎5151久久欧美毛片| 国产精品无码乱伦| 亚洲自拍另类| 无码人妻一区二区三区在线视频| 91啪亚洲精品| 欧美视频www| 色天使久久综合网天天| 国产裸体永久免费无遮挡| 亚洲女人被黑人巨大进入| 中文字幕在线观看网站| 国产精品白丝jk喷水视频一区| 亚洲一区网址| 亚洲国产一区二区精品视频| 亚洲久色影视| 三级黄色片免费看| 国产日韩v精品一区二区| 久久成人国产精品入口| 欧美日韩一级片在线观看| 五月婷婷丁香网| 欧美精品中文字幕一区| 国产成人a视频高清在线观看| 国产自产精品| 欧美区日韩区| 婷婷中文字幕在线观看| 亚洲国产精品t66y| aaa在线视频| 亚洲国产天堂久久综合网| 成年人网站在线| 国产精品视频区| 精品国产精品国产偷麻豆| 久操网在线观看| 国产精品2024| 久久国产高清视频| 欧美日韩一区二区三区四区| 日本天堂在线| 91av网站在线播放| 国产精品香蕉| 亚洲中文字幕无码一区二区三区| 另类小说一区二区三区| japanese中文字幕| 日韩欧美一区二区三区久久| 人妻少妇精品无码专区| 久久久久久久一| 北条麻妃一区二区三区在线观看| 四虎永久免费网站| 国产一区在线看| 一区二区视频免费看| 欧美久久久久免费| 黄色网址在线免费| 亚洲va欧美va在线观看| 国产精品二区不卡| 91视频这里只有精品| 亚洲欧美怡红院| 91国内精品视频| 久久国产精品首页| 精品视频一区二区三区| 天堂av在线中文| 国产精品123| 国产一级二级三级| 亚洲国语精品自产拍在线观看| а√天堂8资源中文在线| 韩国成人av| 老鸭窝毛片一区二区三区 | 精品女同一区二区三区| 欧美伦理91i| 九九热播视频在线精品6| 少妇高潮喷水在线观看| 91免费看`日韩一区二区| 69视频免费看| 日韩综合视频在线观看| 日韩精品免费视频一区二区三区| 欧美极品少妇无套实战| 成人av免费网站| 伊人手机在线视频| 夜夜躁日日躁狠狠久久88av| 青青青国产精品| japanese在线播放| 99久久精品国产一区二区三区| 黑人精品无码一区二区三区AV| 亚洲日本aⅴ片在线观看香蕉| 日本精品网站| 日韩中文字幕亚洲精品欧美| 成人美女视频在线观看| 天堂а√在线中文在线新版 | 91成年人网站| 欧美日韩一本到| 国产偷倩在线播放| 日本一区免费看| 激情另类小说区图片区视频区| 久久久久久久久久91| 日韩精品在线免费播放| 成人在线免费| 国产美女永久无遮挡| 91丝袜美腿高跟国产极品老师| 91超薄丝袜肉丝一区二区| 久久久久久有精品国产| 精品毛片免费观看| 女教师高潮黄又色视频| 欧美伊人久久大香线蕉综合69| 在线观看中文字幕的网站| 欧美成熟毛茸茸复古| 国产专区欧美精品| 99超碰在线观看| 欧美黄色小视频| 欧美韩日高清|