精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

谷歌DeepMind發(fā)布Gecko:專攻檢索,與大7倍模型相抗衡

發(fā)布于 2024-4-7 14:07
瀏覽
0收藏

文本嵌入模型在自然語(yǔ)言處理中扮演著重要角色,為各種文本相關(guān)任務(wù)提供了強(qiáng)大的語(yǔ)義表示和計(jì)算能力。


在語(yǔ)義表示上,文本嵌入模型將文本轉(zhuǎn)換為高維向量空間中的向量表示,其中語(yǔ)義上相似的文本在向量空間中距離較近,從而捕捉了文本的語(yǔ)義信息,這種表示有助于計(jì)算機(jī)更好地理解和處理自然語(yǔ)言;在文本相似度計(jì)算上,基于文本嵌入的向量表示,可以輕松地計(jì)算文本之間的相似度,從而支持各種應(yīng)用,如信息檢索、問答系統(tǒng)和推薦系統(tǒng);在信息檢索上,文本嵌入模型可以用于改善信息檢索系統(tǒng),通過將查詢與文檔嵌入進(jìn)行比較,找到最相關(guān)的文檔或段落;在文本分類和聚類上,通過將文本嵌入到向量空間中,可以進(jìn)行文本分類和聚類任務(wù)。


不同于以往,最近的研究重點(diǎn)不是為每個(gè)下游任務(wù)構(gòu)建單獨(dú)的嵌入模型,而是尋求創(chuàng)建支持多個(gè)任務(wù)的通用嵌入模型。


然而,通用文本嵌入模型面臨這樣一個(gè)挑戰(zhàn):這些模型需要大量的訓(xùn)練數(shù)據(jù)才能全面覆蓋所需的領(lǐng)域,研究主要集中在使用大量的訓(xùn)練示例來(lái)解決所面臨的挑戰(zhàn)。


LLM 的出現(xiàn)提供了一種強(qiáng)大的替代方案,因?yàn)?LLM 包含跨各個(gè)領(lǐng)域的大量知識(shí),并且被認(rèn)為是出色的小樣本學(xué)習(xí)者。最近的研究已經(jīng)證明了使用 LLM 進(jìn)行合成數(shù)據(jù)生成的有效性,但重點(diǎn)主要是增強(qiáng)現(xiàn)有的人類標(biāo)記數(shù)據(jù)或提高特定領(lǐng)域的性能。


這就促使研究者開始審視這一問題:我們可以在多大程度上直接利用 LLM 來(lái)改進(jìn)文本嵌入模型。


為了回答這一問題,本文來(lái)自谷歌 DeepMind 的研究者提出了 Gecko,這是一種從 LLM 中蒸餾出來(lái)的多功能文本嵌入模型,其在 LLM 生成的合成數(shù)據(jù)集 FRet 上進(jìn)行訓(xùn)練,并由 LLM 提供支持。


通過將 LLM 的知識(shí)進(jìn)行提煉,然后融入到檢索器中,Gecko 實(shí)現(xiàn)了強(qiáng)大的檢索性能。在大規(guī)模文本嵌入基準(zhǔn)(MTEB,Massive Text Embedding Benchmark)上,具有 256 個(gè)嵌入維度的 Gecko 優(yōu)于具有 768 個(gè)嵌入尺寸的現(xiàn)有模型。具有 768 個(gè)嵌入維度的 Gecko 的平均得分為 66.31,在與 7 倍大的模型和 5 倍高維嵌入進(jìn)行比較時(shí),取得了相競(jìng)爭(zhēng)的結(jié)果。


谷歌DeepMind發(fā)布Gecko:專攻檢索,與大7倍模型相抗衡-AI.x社區(qū)


  • 論文地址:https://arxiv.org/pdf/2403.20327.pdf
  • 論文標(biāo)題:Gecko: Versatile Text Embeddings Distilled from Large Language Models?


方法介紹


Gecko 是一個(gè)基于 1.2B 參數(shù)預(yù)訓(xùn)練的 Transformer 語(yǔ)言模型,該模型經(jīng)歷了兩個(gè)額外的訓(xùn)練階段:預(yù)微調(diào)和微調(diào)。


谷歌DeepMind發(fā)布Gecko:專攻檢索,與大7倍模型相抗衡-AI.x社區(qū)


預(yù)微調(diào)


該研究使用兩個(gè)預(yù)微調(diào)數(shù)據(jù)集。首先是使用 Ni 等人提出的大規(guī)模社區(qū) QA 數(shù)據(jù)集,該數(shù)據(jù)集包括來(lái)自在線論壇和 QA 網(wǎng)站的文本對(duì)。接下來(lái),研究者從 Web 上抓取標(biāo)題 - 正文文本對(duì),這些文本對(duì)可以從網(wǎng)站上獲得。


對(duì)大量無(wú)監(jiān)督文本對(duì)進(jìn)行預(yù)微調(diào)已被證明可以提高小型雙編碼器在各種下游任務(wù)中的性能,包括文檔檢索和語(yǔ)義相似性 。預(yù)微調(diào)階段的目標(biāo)是讓模型接觸大量的文本多樣性,這對(duì)于訓(xùn)練緊湊型文本嵌入模型是必要的。


FRet :兩步蒸餾


使用 LLM 生成 FRet 的兩階段方法。一般來(lái)講,訓(xùn)練嵌入模型的傳統(tǒng)方法依賴于大型的、手動(dòng)標(biāo)記的數(shù)據(jù)集。然而,創(chuàng)建此類數(shù)據(jù)集既耗時(shí)又昂貴,并且常常會(huì)導(dǎo)致不良偏差和缺乏多樣性。在這項(xiàng)工作中,本文提出了一種生成合成數(shù)據(jù)來(lái)訓(xùn)練多任務(wù)文本嵌入模型的新方法,該方法通過兩步蒸餾可以全面利用 LLM 掌握的知識(shí)。生成 FRet 的整體流程如圖 2 所示:


谷歌DeepMind發(fā)布Gecko:專攻檢索,與大7倍模型相抗衡-AI.x社區(qū)


統(tǒng)一微調(diào)混合


接下來(lái),本文將 FRet 與其他學(xué)術(shù)訓(xùn)練數(shù)據(jù)集以相同的格式結(jié)合起來(lái):任務(wù)描述、輸入查詢、正向段落(或目標(biāo))和負(fù)向段落(或干擾項(xiàng)),從而創(chuàng)建一種新穎的微調(diào)混合。然后,本文使用這種混合與標(biāo)準(zhǔn)損失函數(shù)來(lái)訓(xùn)練嵌入模型 Gecko。


除了 FRet 之外,學(xué)術(shù)訓(xùn)練數(shù)據(jù)集包括:Natural Questions 、HotpotQA、FEVER、MedMCQA、MedMCQA、SNLI、MNLI 以及來(lái)自 Huggingface 的幾個(gè)分類數(shù)據(jù)集。對(duì)于多語(yǔ)言模型,本文添加了來(lái)自 MIRACL 的訓(xùn)練集。所有數(shù)據(jù)集都經(jīng)過預(yù)處理,具有統(tǒng)一的編碼格式,包含任務(wù)描述、查詢、正向段落和負(fù)向段落。


實(shí)驗(yàn)


該研究在 MTEB 基準(zhǔn)上評(píng)估了 Gecko。表 1 總結(jié)了 Gecko 和其他基線的比較結(jié)果。


Gecko 在每個(gè)文本嵌入任務(wù)上都顯著超越了所有類似大小的基線模型(<= 1k 嵌入尺寸,<= 5B 參數(shù))。與 text-embedding-3-large-256(OpenAI)、GTR 和 Instructor 研究相比,Gecko-1b-256 性能更好。Gecko-1b-768 通常可以匹配或超過更大模型的性能,包括 text-embedding-3-large (OpenAI)、E5-mistral、GRit 和 Echo 嵌入。值得注意的是,這些模型都使用 3-4k 嵌入維度并且參數(shù)均超過 7B。此外,該研究還觀察到 Gecko 在分類、STS 和摘要方面達(dá)到了新的 SOTA 水平。


谷歌DeepMind發(fā)布Gecko:專攻檢索,與大7倍模型相抗衡-AI.x社區(qū)


多語(yǔ)言檢索結(jié)果。表 2 總結(jié)了 Gecko 和其他基線在 MTEB 上的性能比較。


谷歌DeepMind發(fā)布Gecko:專攻檢索,與大7倍模型相抗衡-AI.x社區(qū)


表 3 總結(jié)了不同的標(biāo)記策略用于 FRet 的結(jié)果,實(shí)驗(yàn)過程中使用了不同的正樣本和負(fù)樣本段落。從結(jié)果可以發(fā)現(xiàn)使用 LLM 選擇的最相關(guān)段落總是優(yōu)于使用原始段落。表 5 也說(shuō)明了這種情況經(jīng)常發(fā)生。


谷歌DeepMind發(fā)布Gecko:專攻檢索,與大7倍模型相抗衡-AI.x社區(qū)


谷歌DeepMind發(fā)布Gecko:專攻檢索,與大7倍模型相抗衡-AI.x社區(qū)


FRet 提供了對(duì)多種任務(wù)的查詢結(jié)果,包括問答、搜索結(jié)果、事實(shí)檢查和句子相似度。表 4 測(cè)試了 FRet 的多樣性如何影響 MTEB 中任務(wù)之間的模型泛化性。首先,該研究使用來(lái)自特定任務(wù)(例如,F(xiàn)Ret 問答)的 30 萬(wàn)個(gè)數(shù)據(jù)來(lái)訓(xùn)練各個(gè)模型。此外,研究者還使用原始采樣分布或均勻采樣分布從所有四個(gè)任務(wù)中抽取的 300k 樣本(每個(gè)任務(wù) 75k;FRet-all-task)來(lái)訓(xùn)練模型。觀察到 FRet-all-tasks 模型的卓越性能,特別是當(dāng)任務(wù)被均勻采樣時(shí)。該研究還發(fā)現(xiàn)統(tǒng)一格式顯著影響嵌入的質(zhì)量,因?yàn)樗兄谀P透玫胤蛛x不同的任務(wù)。


表 4 的最后幾行展示了 Gecko 如何學(xué)習(xí)更好的語(yǔ)義相似性和分類。


谷歌DeepMind發(fā)布Gecko:專攻檢索,與大7倍模型相抗衡-AI.x社區(qū)


了解更多內(nèi)容,請(qǐng)參考原論文。


本文轉(zhuǎn)自 機(jī)器之心,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/5e_Py_Xm0RsmP1YMcikpaQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
一本色道**综合亚洲精品蜜桃冫 | 懂色av中文字幕一区二区三区 | 国产呦精品一区二区三区网站| 超碰97人人做人人爱少妇| 99久久久无码国产精品性波多| 亚洲精品**中文毛片| 国产精品乱码一区二三区小蝌蚪| 亚洲自拍欧美另类| 91青青草视频| 精品96久久久久久中文字幕无| 亚洲人成在线观| 日韩精品xxx| 国产精品毛片久久久久久久久久99999999| 亚洲激情成人在线| 亚洲日本japanese丝袜| 午夜av免费在线观看| 精品在线免费观看| 日本中文字幕久久看| 麻豆国产尤物av尤物在线观看 | 综合色婷婷一区二区亚洲欧美国产| 亚洲国产精品久久久久爰性色| 日精品一区二区三区| 欧美激情亚洲一区| 中文字幕资源站| 一道本一区二区三区| 日韩一区二区三区四区五区六区| 国产天堂在线播放| 在线观看网站免费入口在线观看国内| 亚洲精品自拍动漫在线| 亚洲成人18| 户外极限露出调教在线视频| 国产九色精品成人porny| 国产精品久久久久不卡| 91porny在线| 一区二区自拍| 欧美乱大交xxxxx| 波多野结衣欲乱| 国产99亚洲| 国产丝袜高跟一区| 污片免费在线观看| 哺乳挤奶一区二区三区免费看 | 国产精品嫩草69影院| 国产成人午夜性a一级毛片| 色欧美88888久久久久久影院| 成 年 人 黄 色 大 片大 全| 天堂av在线电影| 亚洲免费在线观看| 欧美日韩中文字幕在线播放| 精品孕妇一区二区三区| 国产精品久久福利| 亚洲综合第一| 国产原创精品视频| 亚洲精品国产无套在线观| www亚洲国产| 伊人精品影院| 一二三区精品视频| 欧美午夜性视频| 久久久男人天堂| 黄色一区二区三区| 欧美性久久久久| 3d性欧美动漫精品xxxx软件 | 国产精品自偷自拍| 狠狠色丁香婷综合久久| 亚洲最大的免费| www.av导航| 成人av在线播放网址| 久久青青草原| 国产黄色免费在线观看| 国产精品毛片a∨一区二区三区| 亚洲最新在线| 国产鲁鲁视频在线观看特色| 亚洲最大成人综合| 久久久久久久中文| 欧美日韩亚洲国产| 欧美精品18+| 精品美女在线观看| 香蕉久久夜色| 久久精品视频免费看| 亚洲精品免费在线| av动漫在线看| 久久xxx视频| 欧美一区二区视频观看视频| 污网站免费观看| 嫩草一区二区三区| 久久久www成人免费精品| 久久亚洲AV无码| 久久婷婷丁香| 91传媒免费看| 日本一本草久在线中文| **欧美大码日韩| 精品久久一二三| 美女视频一区| 亚洲国产美女精品久久久久∴| 天天躁夜夜躁狠狠是什么心态| 97精品一区二区| 亚州欧美日韩中文视频| 久久久久久久成人| 中文字幕在线观看成人| 午夜综合激情| 成人午夜黄色影院| 五月天婷婷在线播放| 国产精品久久久久婷婷| 婷婷无套内射影院| 国产精品xnxxcom| 亚洲欧洲日产国产网站| 国产三级国产精品国产国在线观看| 日韩午夜在线电影| 成人性生交xxxxx网站| 亚洲av电影一区| 亚洲欧美另类小说| 日韩av片网站| 亚洲69av| 国模视频一区二区| 国产三级在线观看视频| 久久一夜天堂av一区二区三区| 免费看日本黄色| 四虎地址8848精品| 国产性猛交xxxx免费看久久| 国产无码精品久久久| 久久99精品久久久久久久久久久久| 久久综合九色99| 欧洲黄色一区| 日韩一区二区中文字幕| 精品人体无码一区二区三区| 国产精品永久| 国内精品二区| 国产极品人妖在线观看| 在线成人免费观看| 欧美xxxooo| 日本中文在线一区| 欧美一区二区综合| 国模私拍一区二区国模曼安| 欧美成人精精品一区二区频| 日韩激情小视频| 久久激情综合网| 午夜精品一区二区在线观看的 | 亚洲.国产.中文慕字在线| 亚洲精品mv在线观看| 欧美xxxx中国| 91精品久久久久久久久不口人| 国产1区2区3区在线| 黑人巨大精品欧美一区二区一视频 | 日韩在线中文字幕视频| 久久国内精品视频| 亚洲自拍偷拍二区| 99久久这里有精品| 久久精品国产清自在天天线| 亚洲中文字幕在线一区| 国产精品亲子乱子伦xxxx裸| 日本激情视频在线播放| 日韩精品网站| 成人午夜激情网| 国产超级va在线视频| 91精品国产高清一区二区三区蜜臀| 91社区视频在线观看| 蜜臀va亚洲va欧美va天堂 | 亚洲经典自拍| 精品综合在线| 二区三区不卡| 正在播放亚洲1区| 国产精品久久久午夜夜伦鲁鲁| 亚洲天堂av一区| 韩国三级在线播放| 在线日韩欧美| 欧美精品一区在线| 欧洲精品久久久久毛片完整版| 久久久精品一区| 性欧美8khd高清极品| 国产乱码精品一区二区三区四区| 韩国v欧美v日本v亚洲v| 91偷拍精品一区二区三区| 女同一区二区免费aⅴ| 亚洲国产又黄又爽女人高潮的| 国产又大又黄又粗| 亚洲国产精品成人久久综合一区| 亚洲一区精品视频在线观看| 欧美一区二区三区另类| 久久久久se| 成人免费在线观看视频| 欧美理论片在线观看| 涩涩视频在线观看免费| 色嗨嗨av一区二区三区| 国精品无码一区二区三区| 成人国产在线观看| 精品日韩久久久| 亚洲狠狠婷婷| 亚洲视频欧美在线| 国产suv精品一区| 国产精品视频精品| 俺来俺也去www色在线观看| 亚洲午夜未删减在线观看| www夜片内射视频日韩精品成人| 午夜精品久久久久久久99水蜜桃| 中国女人特级毛片| 国产91精品一区二区麻豆亚洲| 久久无码高潮喷水| 亚洲一区二区日韩| 日韩高清dvd| www国产精品| 91精品久久久久久久久中文字幕| bbw在线视频| 久久久av电影| 精品电影在线| 亚洲国产精品va在线| 91免费视频播放| 日韩欧美福利视频| 久久久久久久久99| 国产精品久久久久影院老司| www.超碰97| 国产成人精品www牛牛影视| 在线观看亚洲色图| 噜噜噜在线观看免费视频日韩| 777久久精品一区二区三区无码| 国产一区二区电影在线观看| 国产精品一区二区三区不卡| 成人综合日日夜夜| 国产精品女人久久久久久| 精品人人视频| 久久久久久久久久久av| 国产激情小视频在线| 在线播放日韩精品| 每日更新av在线播放| 日韩av在线导航| 亚洲精品国产精品国| 欧美一区二区视频观看视频 | 国产情侣久久| 免费人成自慰网站| 欧美日韩亚洲一区| 中文字幕精品在线播放| 欧美激情另类| 亚洲午夜高清视频| 欧美熟乱15p| 先锋影音网一区| 加勒比久久综合| 日韩.欧美.亚洲| 欧美人与拘性视交免费看| 久久久久久国产精品免费免费 | 亚洲不卡1区| 国产成人短视频在线观看| 欧美在线一区二区三区四区| 香蕉视频一区| 蜜桃精品久久久久久久免费影院| 久久综合社区| 久久久久高清| 精品72久久久久中文字幕| 欧美日韩大片一区二区三区| 香蕉视频一区| 日本欧美色综合网站免费| 免费国产自久久久久三四区久久| 久久影院理伦片| 国产探花一区二区| 亚洲mv在线看| 亚欧美无遮挡hd高清在线视频| 欧美aaa在线观看| 欧美精品麻豆| 六月婷婷在线视频| 亚洲一卡久久| 超碰在线97免费| 久久国产综合精品| 亚洲精品乱码久久久久久9色| 国产99久久久国产精品潘金网站| 美女露出粉嫩尿囗让男人桶| av一区二区不卡| 国产精品无码一区二区三区| 亚洲视频分类| 日韩精品最新在线观看| 99re66热这里只有精品8| 中文字幕第50页| 欧美日本不卡| 人妻熟妇乱又伦精品视频| 久久久久91| 57pao国产成永久免费视频| 国产伦精一区二区三区| 日韩av无码一区二区三区不卡| 91蜜桃免费观看视频| 中文字幕第24页| 亚洲综合色自拍一区| 精品不卡一区二区| 7777女厕盗摄久久久| 亚洲 欧美 自拍偷拍| 在线观看日韩www视频免费| 91精品久久久久久粉嫩| 欧美有码在线视频| 在线视频成人| 狼狼综合久久久久综合网| 手机在线电影一区| 亚洲不卡中文字幕无码| 蜜桃av噜噜一区二区三区小说| 国偷自产av一区二区三区麻豆| 91首页免费视频| 在线看的片片片免费| 欧美午夜性色大片在线观看| 国产又粗又大又爽| 亚洲精品一区二区网址| 免费人成在线观看播放视频| 久久男人av资源网站| 精品肉辣文txt下载| 国产精品区一区二区三含羞草| 精品国产一区二区三区噜噜噜 | 欧美日韩免费一区二区| 色综合一区二区三区| 国产高清免费观看| 国产亚洲精品久久久久久| 丁香花在线观看完整版电影| 国产精品入口日韩视频大尺度| 精品欠久久久中文字幕加勒比 | 亚洲高清网站| 亚洲精品中文字幕乱码无线| 国产肉丝袜一区二区| 黄色小说在线观看视频| 91精品国产入口在线| yw193.com尤物在线| 欧美在线一区二区三区四| 一区二区免费| 中文字幕一区二区三区四区五区| 欧美在线综合| 亚洲图片综合网| 夜夜爽夜夜爽精品视频| 国产免费福利视频| 色偷偷亚洲男人天堂| 性欧美1819sex性高清| 久久99精品久久久久子伦| 欧美日韩中文| 国产chinesehd精品露脸| 国产精品久久久久aaaa| 国产精华7777777| 亚洲欧美日韩中文在线| 涩涩涩视频在线观看| 国产精品久久波多野结衣| 欧美二区视频| 亚洲丝袜在线观看| 成人免费在线视频| 国产一区二区在线视频观看| 色小说视频一区| 欧美性生活一级| 亚洲视频导航| 激情六月婷婷综合| 看免费黄色录像| 日韩一区二区三区视频| 成人看片免费| 96久久精品| 在线看片日韩| 野外性满足hd| 色狠狠色狠狠综合| 成人免费黄色网页| 国产精品久久久久久久久影视| 欧美人妖在线| 一级黄色特级片| 中文字幕在线不卡一区| 国产精品怡红院| 欧美日韩成人免费| 久久香蕉精品香蕉| 999香蕉视频| 国产精品久久久久久久久久久免费看 | 澳门黄色一级片| 精品免费视频一区二区| av漫画网站在线观看| 久久精品99| 视频一区二区三区在线| 九九热免费在线| 欧美福利一区二区| 最新国产在线拍揄自揄视频| 国产精品乱子乱xxxx| 国产亚洲毛片| 人成免费在线视频| 日韩一级片在线观看| 91桃色在线观看| 日韩福利二区| 国产麻豆精品95视频| 免费日韩一级片| 中文字幕精品视频| 一区中文字幕| 日韩网址在线观看| 国产精品精品国产色婷婷| www.久久色| 国产精品第七影院| 综合国产精品| 一区二区三区久久久久| 在线电影国产精品| 一根才成人网| 经典三级在线视频| 久久综合成人精品亚洲另类欧美 | 农村妇女一区二区| 国产成人艳妇aa视频在线| 2020日本不卡一区二区视频| 中文字幕在线观看国产| 欧美国产日韩一区二区三区| 久久91成人| 欧美精品色视频| 91极品美女在线| 伊人精品影院| 午夜精品一区二区在线观看| 国产69精品久久久久777| 波多野结衣激情视频| 欧美高清电影在线看| 精品免费视频| 精品国产av色一区二区深夜久久 | 亚洲精品承认| 久久精品人人做人人爽电影| 激情五月激情综合网|