精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

利用LLM本身訓(xùn)練SoTA embedding模型

發(fā)布于 2024-5-29 12:25
瀏覽
0收藏

大家好,我是HxShine

今天分享一篇Microsoft公司的一篇文章,Title: Improving Text Embeddings with Large Language Models:使用大型語言模型改善文本嵌入。

這篇文章探索了直接利用LLM來做embedding模型,其只需要利用合成數(shù)據(jù)和少于1000次的訓(xùn)練步驟就能獲得高質(zhì)量文本表征。

該方法分為兩步:1)利用LLM生成文本embedding任務(wù)合成數(shù)據(jù)集:利用專有的大型語言模型(LLM)生成近100種語言的數(shù)十萬個文本嵌入任務(wù)的多樣化合成數(shù)據(jù)。2)對比損失微調(diào):使用標準對比損失對開源的decoder-only LLM進行微調(diào)。

該方法特點總結(jié)如下:1)充分挖掘了大模型生成數(shù)據(jù)多樣性還不錯的特點,利用這個特點,可以利用LLM生成多樣性比較好、類型豐富、以及多語言的文本表征模型數(shù)據(jù)集。2)相對于之前例如SimCSE等模型,需要在大量語料上繼續(xù)做預(yù)訓(xùn)練以及微調(diào),本文發(fā)現(xiàn)自回歸的LLM只需少量監(jiān)督數(shù)據(jù)就能獲得一個非常不錯的效果。3)多語言的檢索能力也不錯。

一、概述

Title:Improving Text Embeddings with Large Language Models論文地址:https://arxiv.org/abs/2401.00368

1 Motivation

  • 現(xiàn)有的文本嵌入方法依賴于多階段預(yù)訓(xùn)練和少量標注數(shù)據(jù)的微調(diào)【大量數(shù)據(jù)->弱監(jiān)督預(yù)訓(xùn)練,少量標注數(shù)據(jù)->fine-tuning】,需要構(gòu)建復(fù)雜的訓(xùn)練流程,且數(shù)據(jù)集通常受限于任務(wù)多樣性和語言覆蓋范圍。
  • 本文提出了一種新的方法:利用大型語言模型生成多樣化的合成數(shù)據(jù),通過簡單但有效的訓(xùn)練步驟改善文本嵌入的質(zhì)量,特別在多種語言環(huán)境中效果非常不錯。

2 Methods

省流版總結(jié):

  • 合成數(shù)據(jù)生成:分兩步生成合成數(shù)據(jù),第一步生成檢索任務(wù)主題,第二步根據(jù)主題生成問題、正樣本、負樣本。其特點是生產(chǎn)的檢索任務(wù)多樣性不錯、同時還可以生成多語言的數(shù)據(jù)集。
  • 對比學習訓(xùn)練:利用常規(guī)的對比學習loss InfoNCE函數(shù)訓(xùn)練模型,只是用合成數(shù)據(jù),只需要1k步左右訓(xùn)練就能有一個不錯的效果,疊加監(jiān)督數(shù)據(jù)效果更佳 。

2.1 利用LLM生成訓(xùn)練樣本

通常訓(xùn)練embedding模型強烈依賴正負樣本數(shù)據(jù),標注成本比較高。這里本文嘗試利用專有LLM(如GPT-4)生成近100種語言的多樣化合成數(shù)據(jù),用于訓(xùn)練embedding模型。

背景:使用LLM合成數(shù)據(jù),增強文本嵌入模型的多樣性和魯棒性。方法:設(shè)計了多種任務(wù)類型和語言的模板,通過LLM生成合成數(shù)據(jù)。特點:  能夠覆蓋廣泛的任務(wù)和語言類型,提高數(shù)據(jù)的多樣性和質(zhì)量。

1)利用LLM列舉檢索任務(wù):

利用LLM本身訓(xùn)練SoTA embedding模型-AI.x社區(qū)

2)針對每個任務(wù),利用LLM按照要求生成訓(xùn)練樣本:

利用LLM本身訓(xùn)練SoTA embedding模型-AI.x社區(qū)

2.2 模型訓(xùn)練

利用LLM本身訓(xùn)練SoTA embedding模型-AI.x社區(qū)

要點一:需要指定任務(wù)task_definition,輸入用戶問題。其中合成的數(shù)據(jù)用2.1中第一步LLM生成的任務(wù)定義,其他數(shù)據(jù)集人工設(shè)置固定的模版。

要點二:相似度計算方式為cos相似度,并結(jié)合溫度系數(shù)超參數(shù)來調(diào)節(jié)具體值。

要點三:Loss函數(shù)為標準的InfoNCE函數(shù),其懲罰了負樣本,提升正樣本的相似度分數(shù)。

3 Conclusion

結(jié)論1: 使用LLM生成的合成數(shù)據(jù)可以顯著提升文本嵌入的性能。

結(jié)論2: 方法在多語言環(huán)境下表現(xiàn)良好,特別是在BEIR和MTEB基準上。

結(jié)論3: 本方法提供了一種更高效的文本嵌入訓(xùn)練策略,避免了復(fù)雜的多階段訓(xùn)練。

4 Limitation

  1. 盡管在多種語言中表現(xiàn)良好,但對低資源語言的支持仍有待改進,利用LLM做文本embedding成本還比較高。
  2. 未來工作將探索使用開源LLM生成合成數(shù)據(jù),并提高模型在長文本處理方面的效率。

二、詳細內(nèi)容

2.1 合成數(shù)據(jù)的統(tǒng)計分析

利用LLM本身訓(xùn)練SoTA embedding模型-AI.x社區(qū)

結(jié)論1: 生成了500k個樣例,涵蓋了150k個獨特指令。包括非對稱任務(wù)(query和doc不對稱):short-long代表query是短文本,doc為長文本,其他可以反推。另一類任務(wù)是對稱任務(wù)(query和doc語義相近,但是不對等):sts代表單語言語義相似度計算、bitext代表雙語言檢索任務(wù)。結(jié)論2: 生成數(shù)據(jù)中覆蓋93種語言。語言多樣性不錯,英語占大多數(shù),其他語言占比也不少。

2.2 模型微調(diào)與評估

利用LLM本身訓(xùn)練SoTA embedding模型-AI.x社區(qū)

試驗設(shè)置:基座模型為Mistral-7b,微調(diào)方法為Lora,rank=16。

結(jié)論1: "E5mistral-7b + full data"模型在MTEB基準上超過先前最佳模型2.4分。結(jié)論2: 使用混合數(shù)據(jù)微調(diào)的模型在MTEB基準上取得了最高平均得分。結(jié)論3: w/synthetic data only代表僅使用合成數(shù)據(jù)訓(xùn)練的模型表現(xiàn)仍然競爭力十足。

結(jié)論4: 該方法的實驗結(jié)果顯示了生成語言建模和文本嵌入之間的潛在聯(lián)系。

2.3 與商業(yè)閉源模型對比

利用LLM本身訓(xùn)練SoTA embedding模型-AI.x社區(qū)

結(jié)論:在BEIR Retrieval數(shù)據(jù)集和MTEB數(shù)據(jù)集都取得了SoTa。

2.4 LLM只需要少量數(shù)據(jù)做微調(diào)即可取得比較好的效果

利用LLM本身訓(xùn)練SoTA embedding模型-AI.x社區(qū)

結(jié)論一:傳統(tǒng)數(shù)據(jù)利用大量數(shù)據(jù)結(jié)合對比學習做無監(jiān)督訓(xùn)練可以帶來不錯的提升。

結(jié)論二:經(jīng)過大量語料訓(xùn)練的自回歸LLM模型已經(jīng)不需要繼續(xù)做預(yù)訓(xùn)練了,只需要少量的數(shù)據(jù)微調(diào)即可取得比較好的效果。

2.5 多語言任務(wù)上也非常有競爭力

利用LLM本身訓(xùn)練SoTA embedding模型-AI.x社區(qū)

結(jié)論一:高資源(數(shù)據(jù)量多)任務(wù)例如英語,效果比之前的mE5模型效果好,低資源任務(wù)效果相對mE5也非常有競爭力。

2.6 消融實驗:instruction設(shè)置比較關(guān)鍵

利用LLM本身訓(xùn)練SoTA embedding模型-AI.x社區(qū)

結(jié)論一:基座模型選擇也比較重要,選擇LLaMA-2的基座模型比Mistral-7b作為基座模型差。

結(jié)論二:instruction的設(shè)置也非常重要,對最終結(jié)果的影響可能差4個點以上。

2.7 context長度對檢索質(zhì)量的影響:4k左右上下文文本表征都還不錯,隨后效果急劇下降。

利用LLM本身訓(xùn)練SoTA embedding模型-AI.x社區(qū)

結(jié)論:引入了一項名為個性化密碼檢索的新型合成任務(wù),此任務(wù)需要在長上下文中將密鑰信息編碼到嵌入中。通過更改圖5中的滑動窗口大小和RoPE旋轉(zhuǎn)底座來比較不同變體的性能。結(jié)果顯示,帶有4k滑動窗口的默認配置在4k token數(shù)達到100%的準確性,但隨著上下文長度的增長,準確性會迅速下降。

三、總結(jié)

結(jié)論1:利用LLM生成的合成數(shù)據(jù)可以顯著提升文本嵌入的性能。 這種方法在處理多種語言時尤其有效,能夠生成高質(zhì)量、多樣化的合成數(shù)據(jù)。

利用LLM本身訓(xùn)練SoTA embedding模型-AI.x社區(qū)

結(jié)論2:利用LLM訓(xùn)練Embedding模型可以非常高效。 與現(xiàn)有多階段方法相比,其只需要少于1000次的訓(xùn)練步驟就可以拿到比較好的效果,而現(xiàn)有方法可能要先利用大量數(shù)據(jù)做自監(jiān)督訓(xùn)練,然后再使用有監(jiān)督數(shù)據(jù)訓(xùn)練,效率不高。結(jié)論3:本文利用LLM做embedding是一個突破,但產(chǎn)業(yè)界還不太適用。 本文首次探索LLM做embedding,效果還不錯,但模型大,推理成本也高,產(chǎn)業(yè)界實用性不高(bge相關(guān)模型只有400M左右,本文方法模型達到7B以上),后續(xù)可以探索LLM生成和挖掘正負樣本數(shù)據(jù),利用傳統(tǒng)方法例如雙塔+SimCSE系列等模型進行訓(xùn)練,然后再應(yīng)用到產(chǎn)業(yè)界。

本文轉(zhuǎn)載自?? NLP PaperWeekly??,作者: ??NLP PaperWeekly?? 

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
在线观看电影av| 美日韩一二三区| 亚洲精品aaa| 国产精品乱码人人做人人爱 | 日本丰满大乳奶| 亚洲图片小说视频| 欧美偷拍自拍| 在线电影院国产精品| 一本一道综合狠狠老| 91国在线观看| 日韩电影大全在线观看| 亚洲熟妇无码久久精品| 雨宫琴音一区二区三区| 亚洲福利影片在线| 天天操天天爱天天爽| 国产激情小视频在线| 成人三级在线视频| 国产精品久久久久久久久久久不卡| 999精品视频在线观看播放| 任我爽精品视频在线播放| 欧美日韩国产综合久久| 99福利在线观看| 欧美午夜大胆人体| 中文字幕在线不卡| 欧美欧美一区二区| 高清国产mv在线观看| 久久国产麻豆精品| 奇米成人av国产一区二区三区| 中文字幕亚洲欧美日韩| 欧美天天综合| 亚洲午夜未删减在线观看| 99精品一区二区三区无码吞精 | 久久裸体网站| 日韩精品亚洲精品| 欧美熟妇精品一区二区| avtt久久| 欧美日韩www| 日韩 欧美 高清| 毛片在线网站| 亚洲午夜三级在线| 男人的天堂视频在线| а天堂8中文最新版在线官网| 99久久精品免费看| 国产精品免费在线播放| www.看毛片| 国产一二精品视频| 亚洲一区二区三区sesese| 国产又大又黑又粗| 久草中文综合在线| 国产日韩换脸av一区在线观看| 91丨九色丨海角社区| 久久婷婷一区| 国产精品国产亚洲伊人久久| 特级西西444www大精品视频免费看| 亚洲国产专区校园欧美| 久久久久久久色| 国产精品成人网站| 亚洲国产高清一区二区三区| 欧美激情一区二区三区久久久| 美女福利视频在线观看| 欧美精品黄色| 久久久女人电视剧免费播放下载| 欧美日韩一级在线观看| 黄色av成人| 羞羞色国产精品| a v视频在线观看| 蘑菇福利视频一区播放| 国产精品1234| 国产又粗又猛又黄又爽| 国产精品一色哟哟哟| www.久久艹| 刘亦菲毛片一区二区三区| 不卡免费追剧大全电视剧网站| 国产高清精品一区二区三区| 欧美 日韩 综合| 91视频观看视频| 欧美一卡2卡3卡4卡无卡免费观看水多多 | 99精品久久久| 国产91精品网站| 亚洲一区中文字幕永久在线| 国产一区二区按摩在线观看| 国产欧美亚洲日本| 国产福利电影在线| 亚洲蜜臀av乱码久久精品蜜桃| 美女扒开大腿让男人桶| 涩涩网在线视频| 欧美性xxxxxxxx| 欧美污在线观看| 亚洲精品3区| 中文字幕视频一区二区在线有码 | 国产精品成人aaaaa网站| 一级特黄aaa| 成人一道本在线| 台湾成人av| 一区二区三区伦理| 日韩欧美精品网址| 日韩不卡的av| 久久99性xxx老妇胖精品| 欧美超级乱淫片喷水| 亚洲影院在线播放| 国产一区在线看| 欧美亚洲精品日韩| 国产啊啊啊视频在线观看| 在线区一区二视频| 国产香蕉精品视频| 色婷婷热久久| 国模精品系列视频| 91精品视频免费在线观看 | 91麻豆精品91久久久久同性| 中文字幕免费高清视频| 日韩一区亚洲二区| 欧美一区二区三区图| www.黄色片| 亚洲国产经典视频| 91成人在线观看喷潮教学| 亚洲日日夜夜| 亚洲免费av电影| 免费一级全黄少妇性色生活片| 日韩电影一区二区三区四区| 精品免费国产| 免费在线看电影| 欧美精品免费视频| 男人的天堂av网| 亚洲一区亚洲| 国产有色视频色综合| 97caopron在线视频| 欧美日韩一区 二区 三区 久久精品| 插我舔内射18免费视频| 欧美女人交a| 91精品视频免费看| 在线视频91p| 欧洲亚洲精品在线| 亚洲 小说 欧美 激情 另类| 最新亚洲视频| 国产精品日韩高清| 深夜国产在线播放| 日韩一二三四区| www.av免费| 精品综合久久久久久8888| 亚洲高清视频一区二区| 88xx成人免费观看视频库 | 欧美在线你懂得| 粉嫩av蜜桃av蜜臀av| 一区二区三区精品视频在线观看| 国产精品免费在线播放| av影视在线| 亚洲精品一区在线观看| 国产精品suv一区二区| 成人中文字幕合集| 日本xxxxxxxxxx75| 老牛国内精品亚洲成av人片| 97精品久久久| 视频二区在线| 日本精品一级二级| 中文天堂资源在线| 久久av资源站| 国产一区一区三区| 日韩精品一区二区三区免费视频| 美日韩精品视频免费看| 国内精品久久久久久久久久久| 亚洲男同1069视频| 国产女主播在线播放| 亚洲毛片av| 蜜桃传媒视频麻豆第一区免费观看 | 欧美激情在线视频二区| 国内精品久久久久久久久久| 亚洲成人综合视频| 熟女高潮一区二区三区| 日韩电影一区二区三区四区| 椎名由奈jux491在线播放| 日韩中文字幕在线一区 | www.久久.com| 久久中文久久字幕| 天堂在线视频观看| 一本色道综合亚洲| 日韩成人短视频| 国产91丝袜在线播放| 日韩av一二三四区| 久久亚洲国产| 国产精品三区四区| 最新欧美电影| 久久综合久久美利坚合众国| 深夜福利视频网站| 欧美日韩在线观看一区二区| 欧美黄色免费看| 久久蜜臀中文字幕| 91精品国产三级| 中日韩视频在线观看| 亚洲午夜激情| 欧美成人专区| 成人精品久久一区二区三区| 成人影音在线| 怡红院精品视频| 亚洲国产视频一区二区三区| 色屁屁一区二区| 日本少妇高清视频| 久久嫩草精品久久久精品一| 久久久久久国产精品日本| 久久aⅴ乱码一区二区三区| 亚洲免费视频播放| 视频国产一区| 国产成人精品免费视频大全最热| 日本不卡一二三| 欧美激情视频网| 天堂а√在线资源在线| 亚洲激情在线观看| 国产免费无遮挡| 在线观看免费亚洲| a v视频在线观看| 亚洲精品成人精品456| 一级黄色片网址| 97成人超碰视| 丰满饥渴老女人hd| 蜜桃av噜噜一区二区三区小说| 岛国大片在线播放| 91精品综合| 色综合666| 亚洲影院天堂中文av色| 91日韩久久| 国产 日韩 欧美| 国产精品视频久久久久| 黄色综合网址| 91精品国产高清| 欧美人与性动交α欧美精品图片| 中文字幕在线精品| 国产大学生校花援交在线播放| 亚洲第一二三四五区| 国产精品特级毛片一区二区三区| 在线中文字幕不卡| 久久精品视频1| 亚洲一区二区av在线| 午夜精品福利在线视频| 国产精品美女久久久久av爽李琼| 成人免费网站黄| 91视频精品在这里| www.超碰97| 99re这里只有精品6| av在线播放网址| 成人午夜视频福利| 女性生殖扒开酷刑vk| 国产成人高清在线| 三大队在线观看| 国产精品1024| 美国黄色一级视频| 丁香婷婷深情五月亚洲| 欧美xxxxx少妇| 99精品视频中文字幕| 国模无码视频一区| 99精品偷自拍| 干b视频在线观看| 国产视频不卡一区| 69精品无码成人久久久久久| 久久综合久久久久88| 欧美性xxxx图片| 久久蜜桃一区二区| 公肉吊粗大爽色翁浪妇视频| 久久五月婷婷丁香社区| 中文字幕 自拍| 欧美国产欧美亚州国产日韩mv天天看完整 | 91日韩一区二区三区| 中文字幕在线免费看线人| 久久久久久久精| 欧美福利第一页| 中文字幕日韩一区二区| 欧美国产在线看| 午夜成人免费视频| 亚洲欧美一二三区| 欧美乱妇23p| 亚洲国产成人精品一区二区三区| 欧美精品一区二区蜜臀亚洲| 三区在线视频| 日韩在线中文字| 欧美人与禽猛交乱配| 4388成人网| 欧美大片网站| 国产成人女人毛片视频在线| 欧洲精品一区| 亚洲在线视频一区二区| 好看的日韩av电影| 青青青在线播放| 国产一区二区成人久久免费影院| 一级少妇精品久久久久久久| 国产亚洲欧美中文| 天天操天天操天天操天天操天天操| 亚洲午夜一区二区| 亚洲无码精品一区二区三区| 日韩一级大片在线观看| 色综合成人av| 久久在线观看视频| 都市激情亚洲综合| 亚洲最大的免费| 在线日韩网站| av一区二区三区免费观看| 六月婷婷一区| 国产大学生av| 国产欧美日韩视频一区二区| 日韩免费一二三区| 欧美日韩日日夜夜| 国产91免费在线观看| 亚洲天堂2020| 久草在线视频福利| 国产在线精品成人一区二区三区| 成人涩涩网站| 天堂av免费看| 青青草精品视频| 国产+高潮+白浆+无码| 中文字幕中文在线不卡住| 国产www在线| 日韩免费福利电影在线观看| 草草影院在线观看| 69视频在线播放| 欧美成年网站| 夜夜爽www精品| 久久免费国产| 国产精品无码永久免费不卡| 亚洲精品视频免费观看| 做爰视频毛片视频| 日韩成人黄色av| 6699嫩草久久久精品影院| 亚洲最大的av网站| 久久久久久久久丰满| 99视频精品免费| 91亚洲国产成人精品一区二三| 91porn在线视频| 欧美精品精品一区| 在线观看完整版免费| 国产成人久久久精品一区| 香蕉久久夜色精品国产更新时间| 国产乱子伦精品无码专区| 激情图区综合网| 四虎地址8848| 欧美日韩和欧美的一区二区| av播放在线| 国产精品网红福利| 精品国产aⅴ| 激情婷婷综合网| 国产亚洲欧美日韩日本| 中文字字幕在线中文| 精品无人国产偷自产在线| 男人久久天堂| 另类视频在线观看+1080p| 99国产精品视频免费观看一公开 | 久久久精品中文字幕麻豆发布| 国产成人在线观看网站| 精品88久久久久88久久久| 三级资源在线| 国产高清精品一区| 亚洲毛片播放| 中文字幕一区二区人妻在线不卡| 欧美日韩性生活视频| 欧美色视频免费| 国产成人激情视频| 欧美裸体在线版观看完整版| 嫩草影院国产精品| 中文字幕中文乱码欧美一区二区| 亚洲综合一区中| 日韩视频亚洲视频| 蜜桃精品一区二区三区| 国产一区 在线播放| 成人av电影在线播放| 成人毛片在线播放| 中文字幕欧美专区| 精品91福利视频| 91动漫在线看| 久久精品视频网| 97精品人妻一区二区三区| 欧美日韩国产成人高清视频| 卡通动漫精品一区二区三区| av免费中文字幕| 成人欧美一区二区三区白人| www.黄色片| 日本久久久a级免费| 欧美jizz| 佐佐木明希电影| 色婷婷国产精品| 日本高清中文字幕在线| 国产精品视频一区二区三区经| 亚洲一卡久久| 久久福利免费视频| 亚洲大胆人体在线| 国产精品久久久久77777丨| 成人在线免费观看网址| 91农村精品一区二区在线| 亚洲一级特黄毛片| 国语自产精品视频在线看| 精品国产91久久久久久浪潮蜜月| 激情小说欧美色图| 色婷婷av久久久久久久| 国产精品久久麻豆| 欧美精品亚洲精品| 国产一区欧美日韩| 黄色片视频免费| 欧美肥婆姓交大片| 日本a级不卡| 精品无码人妻少妇久久久久久| 欧美色视频在线| 欧产日产国产精品视频| 欧美aaa在线观看| 久久欧美一区二区| 亚洲精品字幕在线|