精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

無需人工標注!LLM加持文本嵌入學習:輕松支持100種語言,適配數十萬下游任務

人工智能 新聞
使用LLM生成海量任務的文本數據,無需人工標注即可大幅提升文本嵌入的適用度,只需1000訓練步即可輕松擴展到100種語言。

文本嵌入(word embedding)是自然語言處理(NLP)領域發展的基礎,可以將文本映射到語義空間中,并轉換為稠密的矢量,已經被廣泛應用于各種自然語言處理(NLP)任務中,如信息檢索(IR)、問答、文本相似度計算、推薦系統等等,

比如在IR領域,第一階段的檢索往往依賴于文本嵌入來進行相似度計算,先在大規模語料庫中召回一個小的候選文件集,再進行細粒度的計算;基于嵌入的檢索也是檢索增強生成(RAG)的關鍵組成部分,使大型語言模型(LLM)可以訪問動態的外部知識,而無需修改模型參數。

早期的文本嵌入學習方法如word2vec,GloVe等大多是靜態的,無法捕捉自然語言中豐富的上下文信息;隨著預訓練語言模型的出現,Sentence-BERT和SimCSE等方法在自然語言推理(NLI)數據集上通過微調BERT來學習文本嵌入。

為了進一步增強文本嵌入的性能和魯棒性,最先進的方法如E5和BGE采用了更復雜的多階段訓練范式,先對數十億個弱監督文本對進行預訓練,然后再在數個標注數據集上進行微調。

現有的多階段方法仍然存在兩個缺陷:

1. 構造一個復雜的多階段訓練pipeline,需要大量的工程工作來管理大量的相關性數據對(relevance pairs)。

2. 微調依賴于人工收集的數據集,而這些數據集往往受到任務多樣性和語言覆蓋范圍的限制。

3. 大多數現有方法采用BERT-style的編碼器作為主干,忽略了訓練更好的LLM和相關技術(諸如上下文長度擴展)的最新進展。

最近,微軟的研究團隊提出了一種簡單且高效的文本嵌入訓練方法,克服了上述方法的缺陷,無需復雜的管道設計或是人工構建的數據集,只需要利用LLM來「合成多樣化的文本數據」,就可以為為近100種語言的數十萬文本嵌入任務生成高質量的文本嵌入,整個訓練過程還不到1000步。

圖片

論文鏈接:https://arxiv.org/abs/2401.00368

具體來說,研究人員使用兩步提示策略,首先提示LLM頭腦風暴候選任務池,然后提示LLM從池中生成給定任務的數據。

為了覆蓋不同的應用場景,研究人員為每個任務類型設計了多個提示模板,并將不同模板生成的數據進行聯合收割機組合,以提高多樣性。

實驗結果證明,當「僅對合成數據」進行微調時,Mistral-7B在BEIR和MTEB基準上獲得了非常有競爭力的性能;當同時加入合成和標注數據進行微調時,即可實現sota性能。

用大模型提升文本嵌入

1. 合成數據生成

利用GPT-4等最先進的大型語言模型(LLM)來合成數據越來越受到重視,可以增強模型在多任務和多語言上的能力多樣性,進而可以訓練出更健壯的文本嵌入,在各種下游任務(如語義檢索、文本相似度計算、聚類)中都能表現良好。

為了生成多樣化的合成數據,研究人員提出了一個簡單的分類法,先將嵌入任務分類,然后再對每類任務使用不同的提示模板。

非對稱任務(Asymmetric Tasks)

包括查詢(query)和文檔在語義上相關但彼此不互為改寫(paraphrase)的任務。

根據查詢和文檔的長度,研究人員進一步將非對稱任務分為四個子類別:短-長匹配(短查詢和長文檔,商業搜索引擎中的典型場景),長-短匹配,短-短匹配和長-長匹配。

對于每個子類別,研究人員設計了一個兩步提示模板,首先提示LLM頭腦風暴的任務列表,然后生成一個具體的例子的任務定義的條件;從GPT-4的輸出大多連貫一致,質量很高。

圖片

在初步實驗中,研究人員還嘗試使用單個提示生成任務定義和查詢文檔對,但數據多樣性不如上述的兩步方法。

對稱任務

主要包括具有相似語義但不同表面形式的查詢和文檔。

文中研究了兩個應用場景:單語種(monolingual)語義文本相似性(STS)和雙文本檢索,并且為每個場景設計了兩個不同的提示模板,根據其特定目標進行定制,由于任務的定義比較簡單,所以頭腦風暴步驟可以省略。

為了進一步提高提示詞的多樣性,提高合成數據的多樣性,研究人員在每個提示板中加入了幾個占位符,在運行時隨機采樣,例如「{query_length}」代表從集合「{少于5個單詞,5-10個單詞,至少10個單詞}」中采樣的。

為了生成多語言數據,研究人員從XLM-R的語言列表中采樣「{language}」的值,給予高資源語言更多的權重;任何不符合預定義JSON格式的生成數據都將在解析過程中被丟棄;還會根據精確的字符串匹配刪除重復項。

2. 訓練

給定一個相關的查詢-文檔對,先使用原始查詢q+來生成一個新的指令q_inst,其中「{task_definition}」是嵌入任務的一句話描述的占位符。

圖片

對于生成的合成數據,使用頭腦風暴步驟的輸出;對于其他數據集,例如MS-MARCO,研究人員手動創建任務定義并將其應用于數據集中的所有查詢,不修改文件端的任何指令前綴。

通過這種方式,可以預先構建文檔索引,并且可以通過僅更改查詢端來自定義要執行的任務。

給定一個預訓練的LLM,將一個[EOS]標記附加到查詢和文檔的末尾,然后饋送到LLM中,通過獲取最后一層[EOS]向量來獲得查詢和文檔嵌入。

然后采用標準的InfoNCE loss對批內negatives和hard negatives進行損失計算。

圖片

其中?表示所有negatives的集合,圖片用來計算查詢和文檔之間的匹配分數,t是一個溫度超參數,在實驗中固定為0.02

圖片

實驗結果

合成數據統計

研究人員使用Azure OpenAI服務生成了500k個樣本,包含150k條獨特指令,其中25%由GPT-3.5-Turbo生成,剩余由GPT-4生成,總共消耗了1.8億個token。

主要語言是英語,一共覆蓋93種語言;對于75種低資源語言,平均每種語言約有1k個樣本。

圖片

在數據質量方面,研究人員發現GPT-3.5-Turbo的部分輸出沒有嚴格遵循提示模板中規定的準則,但盡管如此,總體質量仍然是可以接受的,初步實驗也證明了采用這一數據子集的好處。

模型微調和評估

研究人員對預訓練Mistral-7B使用上述損失微調1個epoch,遵循RankLLaMA的訓練方法,并使用秩為16的LoRA。

為了進一步降低GPU內存需求,采用梯度檢查點、混合精度訓練和DeepSpeed ZeRO-3等技術。

在訓練數據方面,同時使用了生成的合成數據和13個公共數據集,采樣后產生了約180萬個示例。

為了與之前的一些工作進行公平比較,研究人員還報告了當唯一的標注監督是MS-MARCO篇章排序數據集時的結果,還在MTEB基準上對模型進行了評估。

主要結果

下表中可以看到,文中得到的模型「E5mistral-7B + full data」在MTEB基準測試中獲得了最高的平均分,比之前最先進的模型高出2.4分。

在「w/ synthetic data only」設置中,沒有使用標注數據進行訓練,但性能仍然很有競爭力。

圖片

研究人員還對幾種商業文本嵌入模型進行了比較,但由于這些模型缺乏透明度和文檔,因此無法進行公平的比較。

不過,在BEIR基準上的檢索性能對比結果中可以看到,訓練得到的模型在很大程度上優于當前的商業模型。

多語言檢索

為了評估模型的多語言能力,研究人員在MIRACL數據集上進行了評估,包含18種語言的人工標注查詢和相關性判斷。

結果顯示,該模型在高資源語言上超過了mE5-large,尤其是在英語上,性能表現更出色;不過對于低資源語言來說,該模型與mE5-base相比仍不理想。

研究人員將此歸因于Mistral-7B主要在英語數據上進行了預訓練,預測多語言模型可以用該方法來彌補這一差距。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-11-07 07:47:35

Topic線程PUSH

2013-02-19 09:56:26

2023-08-13 07:44:18

GPU模型英偉達

2014-11-09 10:28:04

2022-04-18 13:48:34

信息安全俄羅斯黑客

2010-09-03 15:05:30

2016-07-29 14:32:22

2009-07-03 09:39:12

2021-05-12 15:22:07

機器學習人工智能計算機

2022-12-29 08:17:57

AIAI人工標注ChatGPT

2012-04-13 16:46:17

2010-08-16 10:35:46

IT培訓機構

2015-05-07 09:51:33

小米亞馬遜AWS米粉節

2021-11-05 06:00:23

Google Ads加密貨幣網絡釣魚

2015-08-20 11:09:53

準入控制盈高

2019-06-05 13:53:13

2025-02-28 10:27:50

2015-07-17 18:40:53

2022-11-22 13:52:19

2015-11-09 10:07:12

彈性平臺Shopify20w
點贊
收藏

51CTO技術棧公眾號

一本一道人人妻人人妻αv| 西西444www无码大胆| 宅男网站在线免费观看| 粉嫩aⅴ一区二区三区四区五区| 国内精品一区二区三区| 国产综合精品一区二区三区| 影音先锋亚洲天堂| 久久国产电影| 欧美性极品xxxx做受| 成人免费视频网站入口| 无码人妻精品一区二| 亚洲网色网站| 国产亚洲欧美另类中文| www.日本久久| free欧美| 午夜精品久久久久久久蜜桃app| 视频在线精品一区| 少妇无码一区二区三区| 亚洲精品二区三区| 91精品在线免费| 18岁网站在线观看| 99视频免费在线观看| 久久久影视传媒| 99国产在线观看| 18岁成人毛片| 激情五月综合网| 亚洲国模精品一区| 欧美性猛交xx| 久草在线新免费首页资源站| 亚洲国产高清不卡| 国产精品一二三在线| 日本一级淫片免费放| 亚洲第一天堂| 视频在线观看99| 日韩 中文字幕| 岛国成人av| 日韩精品一区二区三区四区| 99热一区二区| 中文另类视频| 国产精品国产三级国产有无不卡 | 电影一区中文字幕| 中文字幕日韩一区二区| 欧美极品一区| 天堂中文资源在线| 日韩 欧美一区二区三区| 午夜精品福利视频| 久久久久久久久久久97| 亚洲一区二区三区| 久久视频精品在线| 国产免费美女视频| 亚洲国产一成人久久精品| 中文字幕不卡av| 国产成人免费观看网站| 精品国产123区| 亚洲三级免费看| 老熟妇一区二区| av中文字幕一区二区| 亚洲老头同性xxxxx| 亚洲av综合一区二区| 欧美日本成人| 91精品国产手机| 亚洲免费黄色网| 香蕉久久一区| 午夜欧美2019年伦理| 无码人妻精品一区二区蜜桃百度| 黄色免费在线网站| 99re这里都是精品| 欧美1o一11sex性hdhd| 邻家有女韩剧在线观看国语| 久久免费精品国产久精品久久久久| 精品久久久久久综合日本| 亚洲AV成人无码一二三区在线| 91在线国产观看| 日本免费一区二区三区| 日本在线免费网| 一区二区三区不卡视频在线观看| 欧美日韩精品免费看| 欧洲一区av| 中文字幕成人在线观看| 久久久久亚洲av无码专区喷水| 三级网站视频在在线播放| 久久久综合激的五月天| 青青草原亚洲| 精品视频在线一区二区| 亚洲永久精品大片| 六月丁香婷婷激情| 在线观看av免费| 午夜视频一区二区三区| 大香煮伊手机一区| 精品国产18久久久久久二百| 亚洲国产精品推荐| 免费黄色在线网址| 欧美日韩国产在线一区| 国产ts一区二区| 国产男女无套免费网站| 91天堂素人约啪| 亚洲人成人77777线观看| 色yeye免费人成网站在线观看| 欧美视频专区一二在线观看| 欧美在线aaa| 免费萌白酱国产一区二区三区| 亚洲一区av在线播放| 久久机热这里只有精品| 日韩激情视频在线观看| 国产精品久久久久久久久久直播 | 午夜久久久久久久久久影院| 精品亚洲porn| 久久久久资源| 18视频在线观看| 欧美最猛性xxxxx直播| 亚洲免费观看在线| 日韩精品诱惑一区?区三区| 欧美精品999| 在线播放精品视频| 久久综合九色综合欧美亚洲| 视色,视色影院,视色影库,视色网| 中文字幕在线视频久| 亚洲国产精品自拍| 日韩在线不卡一区| 亚洲涩涩av| 欧美极品少妇xxxxⅹ喷水| 伊人免费在线观看| 久久精品亚洲麻豆av一区二区 | 欧美男女性生活在线直播观看| 91精品又粗又猛又爽| 外国成人激情视频| 国产精品久久久久久久app | 成人精品国产福利| 五月天av影院| 懂色aⅴ精品一区二区三区| 亚洲精品视频免费在线观看| 国产精品1000| 日韩视频一区二区三区在线播放免费观看| 国产精品免费久久久| 青青色在线视频| 精品福利樱桃av导航| 日本少妇xxxx软件| 欧美私人啪啪vps| 91中文在线视频| 麻豆网在线观看| 欧美日韩美女一区二区| av网在线播放| 久久综合激情| 日本黑人久久| 三级成人黄色影院| 日韩激情片免费| 日韩久久久久久久久| 成人动漫av在线| 隔壁人妻偷人bd中字| 大奶在线精品| 国模吧一区二区| 天天干天天干天天干| 亚洲成av人影院在线观看网| 理论片大全免费理伦片| 在线 亚洲欧美在线综合一区| 成人av片网址| 8x8ⅹ拨牐拨牐拨牐在线观看| 精品日韩成人av| 亚欧视频在线观看| 日本aⅴ亚洲精品中文乱码| 欧美一区二区在线| 国产精品第一| 久久精品久久精品亚洲人| 国产精品久久影视| 一区二区三区国产豹纹内裤在线 | 久久精品视频在线看| 黄色片视频在线播放| 国产永久精品大片wwwapp| 国产精品男人的天堂| 免费人成在线观看播放视频| 欧美一区中文字幕| 日韩免费不卡视频| 久久午夜色播影院免费高清| 在线观看免费成人av| 激情亚洲小说| 一区二区三区天堂av| 精品欧美一区二区久久久久| 成人妖精视频yjsp地址| 高清在线观看免费| re久久精品视频| 亚洲va欧美va国产综合久久| 蜜臀av国内免费精品久久久夜夜| 日韩电影免费观看在线观看| 久久久蜜桃一区二区| 中文字幕中文字幕一区| www.四虎在线| 日韩一区精品视频| 日韩精品福利片午夜免费观看| 欧美亚洲tv| 成人女保姆的销魂服务| 高清日韩av电影| 日韩视频免费观看高清在线视频| 国产福利拍拍拍| 一区二区中文视频| 插我舔内射18免费视频| 蜜臀国产一区二区三区在线播放| 久久久久久久久影视| 伊人久久大香线蕉综合网蜜芽| 91精品国产综合久久久久久久久| aaa在线播放视频| 综合激情国产一区| 午夜国产在线视频| 制服丝袜国产精品| 无码人妻精品一区二区三区蜜桃91 | 色婷婷精品大视频在线蜜桃视频 | 999久久久亚洲| 精品欧美国产| 久久在线观看| 国产精品嫩草影院久久久| a国产在线视频| 久久精品91久久香蕉加勒比| 美州a亚洲一视本频v色道| 日韩一区二区三区高清免费看看| 亚洲高清视频免费观看| 亚洲国产精品尤物yw在线观看| 亚洲精品电影院| 26uuu国产在线精品一区二区| 国产裸体视频网站| 久久精品国产免费| 久久精品香蕉视频| 中国女人久久久| 乱熟女高潮一区二区在线| 91一区二区| 婷婷精品国产一区二区三区日韩| 日本午夜精品久久久| 国产精品久久国产精品| 99精品女人在线观看免费视频| 国产精品pans私拍| 擼擼色在线看观看免费| 久久久久国产一区二区三区| 成人a在线视频免费观看| 正在播放欧美视频| 国产高清自拍视频在线观看| 精品一区二区三区电影| 凸凹人妻人人澡人人添| 精品久久久三级丝袜| 精品乱子伦一区二区| 欧美一区二区三区日韩视频| 一级特黄录像免费看| 欧美日韩国产在线播放网站| 五月激情丁香网| 欧美亚洲动漫制服丝袜| 中文字幕久久熟女蜜桃| 欧美中文一区二区三区| 久久久蜜桃一区二区| 91国偷自产一区二区三区成为亚洲经典 | 亚洲成av人片一区二区三区| 欧美成人国产精品高潮| 亚洲乱码国产乱码精品精可以看| 日本福利片在线观看| 亚洲天堂精品视频| 国产av无码专区亚洲av毛网站| 亚洲日本va在线观看| 国产三级国产精品国产国在线观看 | 欧美精品777| 一区二区三区亚洲视频| 欧美一区二区三区四区视频| www.av日韩| 精品精品国产高清a毛片牛牛| 国产91色在线|| 久久高清内射无套| 亚洲欧美日韩电影| 青青草偷拍视频| 亚洲高清免费一级二级三级| 国产真实的和子乱拍在线观看| 亚洲国产精品久久不卡毛片 | 亚洲网址在线| 精品国产福利| 三级小说欧洲区亚洲区| 91亚洲va在线va天堂va国 | 精品久久久久久一区| 久久91麻豆精品一区| 亚洲精品人成| 天堂一区二区三区四区| 欧美高清一区二区| 日韩在线中文| 99国产精品白浆在线观看免费| 亚洲精品美女91| 免费观看成人在线视频| 精一区二区三区| 爆乳熟妇一区二区三区霸乳| 久久精品国产亚洲a| 男男一级淫片免费播放| 国产欧美日韩视频一区二区| 国产少妇在线观看| 欧美性xxxxx极品娇小| 夜夜躁狠狠躁日日躁av| 精品日韩欧美一区二区| www.在线播放| 欧美极品美女电影一区| 国产亚洲人成a在线v网站| 肥熟一91porny丨九色丨| japanese国产精品| 国产精品久久久久久久乖乖| 青青青伊人色综合久久| 麻豆短视频在线观看| 国产欧美一区二区精品仙草咪| 欧美成人aaa片一区国产精品| 91黄色免费版| 国产91久久久| 色婷婷综合久久久久| 理论不卡电影大全神| 亚洲在线视频观看| 欧美伦理影院| 黄色片网址在线观看| 国产一区亚洲一区| 亚洲精品视频网址| 激情久久av一区av二区av三区 | 亚洲精品日产| 91久久精品一区二区别| 麻豆国产一区二区三区四区| 免费av一区二区三区| 国自产拍偷拍福利精品免费一| 亚洲免费看av| 久久亚区不卡日本| 国产真实乱人偷精品视频| 欧美日本乱大交xxxxx| 久青草国产在线| 97成人在线视频| 91成人短视频| 好色先生视频污| 日韩电影在线观看电影| 欧美大片免费播放器| 亚洲一区二区在线播放相泽| 一级黄色短视频| 国产一区二区三区在线观看视频 | 法国空姐电影在线观看| 亚洲超丰满肉感bbw| 精品人妻aV中文字幕乱码色欲| 伊人久久大香线蕉av一区二区| 忘忧草在线日韩www影院| 国产高清一区视频| 午夜久久影院| 欧美高清精品一区二区| 亚洲色图另类专区| 91福利在线观看视频| 色综合伊人色综合网| 欧美亚洲福利| 亚洲一区二区三区午夜| 免费一区二区视频| 黑人狂躁日本娇小| 欧美日韩成人激情| 麻豆视频在线免费观看| 亚洲精品女av网站| 欧美精品一卡| 国产情侣久久久久aⅴ免费| 亚洲国产视频a| 乱精品一区字幕二区| 久久免费在线观看| 丝袜美腿一区二区三区动态图| 91专区在线观看| 久久精品亚洲一区二区三区浴池| 无码人妻aⅴ一区二区三区有奶水| 亚洲午夜小视频| 岛国精品在线| 国产又粗又硬又长| 国产成人精品一区二区三区四区 | 日韩一区二区免费看| 亚洲熟女乱综合一区二区三区| 狠狠做深爱婷婷久久综合一区| 嫩草研究院在线观看| 国产精品免费小视频| 香蕉av一区二区 | 久久久www成人免费毛片麻豆| 男操女视频网站| 日韩在线视频导航| 蜜桃在线一区| av高清在线免费观看| 国产亚洲自拍一区| 97精品人妻一区二区三区在线| 九九精品在线观看| 欧美日韩五区| 免费看啪啪网站| 成人久久18免费网站麻豆| 国产超碰人人爽人人做人人爱| 国产亚洲欧洲在线| 国产欧美日韩电影| 亚洲国产精品久久久久婷蜜芽| 国产日本一区二区| 国产特级黄色片| 欧美洲成人男女午夜视频| 日韩精品午夜| 亚洲图片欧美另类| 欧美最新大片在线看| 欧美24videosex性欧美| 日本福利一区二区三区| 国产成人亚洲精品狼色在线| 手机看片久久久| 操91在线视频| 九九综合在线| 秋霞午夜鲁丝一区二区| 一本色道久久综合亚洲91| 黄色国产网站在线播放| 欧美二区三区| 国产精品一区二区三区99| 啦啦啦免费高清视频在线观看| 久久精品亚洲94久久精品| 精品一区毛片| 国产高潮失禁喷水爽到抽搐 | 国产xxxxx视频|