谷歌放大招!EmbeddingGemma 免費(fèi)商用:200MB 內(nèi)存搞定 100 種語(yǔ)言 RAG,性能翻倍
在當(dāng)今數(shù)字化時(shí)代,人工智能技術(shù)正以前所未有的速度發(fā)展,其中文本嵌入模型作為自然語(yǔ)言處理領(lǐng)域的核心技術(shù)之一,扮演著至關(guān)重要的角色。谷歌作為人工智能領(lǐng)域的領(lǐng)軍者,近期開(kāi)源了一款名為EmbeddingGemma的文本嵌入模型,它專(zhuān)為移動(dòng)端等日常設(shè)備設(shè)計(jì),具有輕量化、高性能、多語(yǔ)言支持等諸多優(yōu)勢(shì),有望在眾多應(yīng)用場(chǎng)景中大放異彩。
一、項(xiàng)目概述
EmbeddingGemma是一款基于Gemma 3架構(gòu)的3.08億參數(shù)多語(yǔ)言文本嵌入模型,專(zhuān)為在手機(jī)、筆記本電腦和平板電腦等日常設(shè)備中使用進(jìn)行了優(yōu)化。它能夠生成文本的數(shù)值表示,廣泛應(yīng)用于信息檢索、語(yǔ)義相似度搜索、分類(lèi)和聚類(lèi)等下游任務(wù)。
二、核心功能
(一)多語(yǔ)言支持
EmbeddingGemma經(jīng)過(guò)100多種語(yǔ)言的訓(xùn)練,具備廣泛的語(yǔ)言數(shù)據(jù)理解能力,能夠滿(mǎn)足跨語(yǔ)言應(yīng)用的需求,如多語(yǔ)言語(yǔ)義搜索、跨語(yǔ)言信息檢索等。
(二)靈活的輸出維度
借助Matryoshka Representation Learning(MRL)技術(shù),EmbeddingGemma可以自定義輸出維度,從768維到128維可靈活調(diào)整,開(kāi)發(fā)者可根據(jù)實(shí)際需求在速度、存儲(chǔ)和質(zhì)量之間進(jìn)行權(quán)衡。
(三)2K詞元上下文
該模型支持最長(zhǎng)2048詞元的文本輸入,為處理長(zhǎng)文本數(shù)據(jù)和文檔提供了豐富的輸入上下文,有助于更好地理解文本內(nèi)容。
(四)節(jié)省存儲(chǔ)空間
通過(guò)量化技術(shù),EmbeddingGemma能夠在不到200MB的RAM上運(yùn)行,極大地降低了對(duì)設(shè)備存儲(chǔ)資源的要求。
(五)低延遲
在EdgeTPU上,生成嵌入向量的時(shí)間不到22毫秒,甚至對(duì)于256個(gè)詞元的輸入,推理時(shí)延可小于15毫秒,能夠?qū)崿F(xiàn)快速流暢的應(yīng)用體驗(yàn)。
(六)離線(xiàn)且安全
EmbeddingGemma直接在硬件上生成文檔的嵌入內(nèi)容,無(wú)需連接互聯(lián)網(wǎng)即可運(yùn)行,從而確保敏感數(shù)據(jù)的安全,特別適合對(duì)隱私保護(hù)要求較高的應(yīng)用場(chǎng)景。

三、技術(shù)揭秘
(一)基于Transformer架構(gòu)
EmbeddingGemma的核心基于Gemma 3的編碼器,采用標(biāo)準(zhǔn)Transformer編碼器堆疊加全序列自注意力機(jī)制,去掉了Gemma 3中面向多模態(tài)的雙向注意力層,專(zhuān)注于文本處理。這種架構(gòu)選擇既能保持對(duì)文本語(yǔ)義的強(qiáng)大表達(dá)能力,又避免了模型過(guò)于臃腫,使其更適合長(zhǎng)文檔檢索和RAG場(chǎng)景。
(二)Matryoshka表征學(xué)習(xí)(MRL)
MRL技術(shù)是EmbeddingGemma的一大亮點(diǎn)。它允許同一個(gè)嵌入向量根據(jù)需要進(jìn)行“切片”,變成不同維度的向量,而不會(huì)顯著影響效果。例如,在手機(jī)端可以用128維嵌入進(jìn)行快速匹配,而在服務(wù)器端則可使用全維度進(jìn)行精確計(jì)算,無(wú)需重新訓(xùn)練模型,大大提高了模型的靈活性和適用性。
(三)量化感知訓(xùn)練(QAT)
為了進(jìn)一步優(yōu)化模型的性能和資源消耗,EmbeddingGemma采用了量化感知訓(xùn)練技術(shù)。通過(guò)QAT,模型在保持較高性能的同時(shí),顯著降低了內(nèi)存使用量,使其能夠在資源受限的設(shè)備上高效運(yùn)行,實(shí)現(xiàn)了低延遲與極低資源占用的完美結(jié)合。
(四)端到端的文本處理
EmbeddingGemma在設(shè)備硬件上直接生成文檔嵌入,無(wú)需聯(lián)網(wǎng),確保了用戶(hù)數(shù)據(jù)的隱私和安全。同時(shí),它使用與Gemma 3n相同的分詞器進(jìn)行文本處理,進(jìn)一步優(yōu)化了RAG應(yīng)用的內(nèi)存占用。
四、基準(zhǔn)評(píng)測(cè)
在海量文本嵌入基準(zhǔn)(MTEB)上,EmbeddingGemma取得了優(yōu)異的成績(jī),成為500M參數(shù)以下模型的最高分。它在多語(yǔ)言和英文任務(wù)上的表現(xiàn)尤為突出,與幾乎兩倍大小的模型相比也毫不遜色,展現(xiàn)了其在小體量模型中的卓越性能。例如,在MTEB多語(yǔ)言v2的平均得分中,EmbeddingGemma達(dá)到了61.15,而在MTEB英文v2的平均得分中更是高達(dá)68.36。這些結(jié)果充分證明了EmbeddingGemma在文本嵌入領(lǐng)域的強(qiáng)大實(shí)力和高性?xún)r(jià)比。

五、應(yīng)用場(chǎng)景
(一)檢索增強(qiáng)生成(RAG)
EmbeddingGemma與Gemma 3n配合,能夠構(gòu)建移動(dòng)優(yōu)先的RAG管道,實(shí)現(xiàn)個(gè)性化、行業(yè)特定和離線(xiàn)支持的聊天機(jī)器人。例如,用戶(hù)可以在沒(méi)有網(wǎng)絡(luò)連接的情況下,通過(guò)手機(jī)上的聊天機(jī)器人獲取本地知識(shí)庫(kù)中的信息,為用戶(hù)提供更加便捷、高效和安全的交互體驗(yàn)。
(二)多語(yǔ)言應(yīng)用
其多語(yǔ)言支持能力使其在跨語(yǔ)言信息檢索和多語(yǔ)言聊天機(jī)器人等應(yīng)用中具有巨大潛力。比如,一個(gè)國(guó)際化的旅行應(yīng)用可以利用EmbeddingGemma為用戶(hù)提供多語(yǔ)言的旅游信息查詢(xún)和推薦服務(wù),打破語(yǔ)言障礙。
(三)端側(cè)AI
EmbeddingGemma低內(nèi)存占用和快速推理能力使其能夠在離線(xiàn)狀態(tài)下運(yùn)行,適用于移動(dòng)設(shè)備上的各種智能應(yīng)用。例如,用戶(hù)可以在飛機(jī)上使用手機(jī)上的離線(xiàn)翻譯應(yīng)用,快速翻譯個(gè)人文檔。
(四)文本分類(lèi)與聚類(lèi)
該模型可以幫助將文本數(shù)據(jù)進(jìn)行分類(lèi)或聚類(lèi),在數(shù)據(jù)挖掘和分析領(lǐng)域具有廣泛的應(yīng)用前景。例如,企業(yè)可以利用它對(duì)海量的客戶(hù)反饋文本進(jìn)行分類(lèi),以便更好地了解客戶(hù)需求和市場(chǎng)趨勢(shì)。
(五)語(yǔ)義相似度計(jì)算
EmbeddingGemma可用于文本相似度計(jì)算和推薦系統(tǒng),通過(guò)判斷文本語(yǔ)義的相似度,為用戶(hù)提供精準(zhǔn)的推薦。例如,一個(gè)新聞推薦應(yīng)用可以根據(jù)用戶(hù)的歷史閱讀記錄,利用該模型為用戶(hù)推薦語(yǔ)義相關(guān)度高的新聞。
六、快速使用
(一)安裝依賴(lài)
pip install -U sentence-transformers(二)模型加載
from sentence_transformers import SentenceTransformer
# Download from the ?? Hub
model = SentenceTransformer("google/embeddinggemma-300m")
# Run inference with queries and documents
query = "Which planet is known as the Red Planet?"
documents = [
"Venus is often called Earth's twin because of its similar size and proximity.",
"Mars, known for its reddish appearance, is often referred to as the Red Planet.",
"Jupiter, the largest planet in our solar system, has a prominent red spot.",
"Saturn, famous for its rings, is sometimes mistaken for the Red Planet."
]
query_embeddings = model.encode_query(query)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# (768,) (4, 768)
# Compute similarities to determine a ranking
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[0.3011, 0.6359, 0.4930, 0.4889]])七、結(jié)語(yǔ)
EmbeddingGemma的推出是谷歌在小型化、多語(yǔ)言和端側(cè)AI領(lǐng)域的一次重要突破。它不僅在性能上接近更大規(guī)模的模型,還兼顧了速度、內(nèi)存和隱私的平衡。隨著RAG、語(yǔ)義搜索等應(yīng)用不斷下沉至個(gè)人設(shè)備,EmbeddingGemma有望成為推動(dòng)端側(cè)智能普及的重要基石。對(duì)于廣大開(kāi)發(fā)者來(lái)說(shuō),EmbeddingGemma提供了一個(gè)強(qiáng)大的工具,使其能夠在保護(hù)用戶(hù)隱私的前提下,打造創(chuàng)新、高效且具有競(jìng)爭(zhēng)力的端側(cè)AI應(yīng)用。
項(xiàng)目地址
項(xiàng)目官網(wǎng):??https://developers.googleblog.com/zh-hans/embeddinggemma-mobile-first-embedding-model/??
HuggingFace模型庫(kù):???https://huggingface.co/collections/google/embeddinggemma-68b9ae3a72a82f0562a80dc4??
本文轉(zhuǎn)載自??小兵的AI視界??,作者:AGI小兵

















