精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

BM25Retriever 支持中文嗎?

發(fā)布于 2024-6-6 11:27
瀏覽
0收藏

llama_index 的BM25Retriever 基于Rank-BM25[1]的Okapi BM25。

Rank-BM25, 兩行代碼實(shí)現(xiàn)搜索引擎

Rank-BM25? 提供了多種BM25算法, 如Okapi BM25?, BM25L?, BM25+等。它的使用也非常簡單

安裝

pip install rank_bm25

初始化

以O(shè)kapi BM25為例

from rank_bm25 import BM25Okapi

corpus = [
    "Hello there good man!",
    "It is quite windy in London",
    "How is the weather today?"
]
# 分詞使用空格
tokenized_corpus = [doc.split(" ") for doc in corpus]

bm25 = BM25Okapi(tokenized_corpus)

查詢(文檔排名)

query = "windy London"
tokenized_query = query.split(" ")

doc_scores = bm25.get_scores(tokenized_query)
# array([0.        , 0.93729472, 0.        ])

??:Rank-BM25 不做任何文本預(yù)處理。如果想要做諸如轉(zhuǎn)換為小寫、停用詞移除、詞干提取等操作,需要自己實(shí)現(xiàn)。所以如果要進(jìn)行處理中文,就需要用到專業(yè)的中文分詞器了。

中文分詞器

分詞器是自然語言處理(NLP)中非常重要的工具,它們將連續(xù)的文本字符串分割成有意義的單元,通常是單詞或短語。中文分詞器的實(shí)現(xiàn)很多,如 jieba,SnowNLP,THULAC?, HanLP? 等,可以根據(jù)需要選擇,這里就以 jieba 為例。

安裝

pip install nltk jieba

下載停用詞

import nltk
nltk.download('stopwords')

import jieba
from typing import List

def chinese_tokenizer(text: str) -> List[str]:
    tokens = jieba.lcut(text)
    return [token for token in tokens if token not in stopwords.words('chinese')]

corpus = [
    "床前明月光",
    "疑是地上霜",
    "舉頭望明月",
    "低頭思故鄉(xiāng)",
]
tokenized_corpus = [chinese_tokenizer(doc) for doc in corpus]
bm25 = BM25Okapi(tokenized_corpus)
query = "床前明月光"
tokenized_query = chinese_tokenizer(query)

doc_scores = bm25.get_scores(tokenized_query)
doc_scores
# array([1.8621931, 0.       , 0.       , 0.       ])

BM25Retriever

BM25Retriever? 基于 Rank-BM25?,可以指定分詞方法,如果不指定,則使用默認(rèn)的tokenize_remove_stopwords。

from nltk.stem import PorterStemmer

def tokenize_remove_stopwords(text: str) -> List[str]:
    # lowercase and stem words
    text = text.lower()
    stemmer = PorterStemmer()
    words = list(simple_extract_keywords(text))
    return [stemmer.stem(word) for word in words]

如果想使用前面定義的chinese_tokenizer, 只需這樣做

from llama_index.retrievers.bm25 import BM25Retriever
from llama_index.core import Document
from llama_index.core.node_parser import SentenceSplitter
from llama_index.core.response.notebook_utils import display_source_node

documents = [Document(text="床前明月光"),
             Document(text="疑是地上霜"),
             Document(text="舉頭望明月"),
             Document(text="低頭思故鄉(xiāng)")]

splitter = SentenceSplitter(chunk_size=1024)
nodes = splitter.get_nodes_from_documents(documents)

retriever = BM25Retriever.from_defaults(
    nodes=nodes,
    similarity_top_k=2,
    tokenizer=chinese_tokenizer
)

nodes = retriever.retrieve("故鄉(xiāng)")
for node in nodes:
    display_source_node(node)

BM25Retriever 支持中文嗎?-AI.x社區(qū)

已知問題

昨天介紹了 DuckDBRetriever , 它基于DuckDB fts,于是不可避免地有以下幾個(gè)缺點(diǎn),

1. 不支持中文

2. 不能增量更新,只能重建索引BM25Retriever 的缺點(diǎn)是不能持久化,只能全部加載內(nèi)存中。

有沒有既可以持久化,又支持中文分詞,并且可以對索引進(jìn)行增加和刪除的呢?

BM25Retriever 支持中文嗎?-AI.x社區(qū)

BM25算法

Okapi BM25,一般簡稱 BM25 算法,在 20 世紀(jì) 70 年代到 80 年代,由英國一批信息檢索領(lǐng)域的計(jì)算機(jī)科學(xué)家發(fā)明。這里的 BM 是 “最佳匹配”(Best Match)的縮寫,Okapi 是第一個(gè)使用這種方法的信息獲取系統(tǒng)的名稱。在信息檢索領(lǐng)域,BM25 算法是工程實(shí)踐中舉足輕重的重要的 Baseline 算法。迄今為止距 BM25 的提出已經(jīng)過去三十多年,但是這個(gè)算法依然在很多信息檢索的任務(wù)中表現(xiàn)優(yōu)異,是很多工程師首選的算法之一。

BM25(Best Match 25)是一種用于信息檢索的統(tǒng)計(jì)算法,主要用于評估搜索詞(query)和文檔之間的相關(guān)性。它基于概率檢索模型,通過計(jì)算查詢詞與文檔之間的相關(guān)性得分來對文檔進(jìn)行排序。BM25算法的核心思想可以概括為以下幾點(diǎn):

1.查詢詞權(quán)重(IDF):BM25使用逆文檔頻率(Inverse Document Frequency,IDF)來衡量查詢詞的重要性。IDF的計(jì)算公式為:BM25Retriever 支持中文嗎?-AI.x社區(qū)

IDF公式其中,(N)是文檔集合中的文檔總數(shù),(n(qi))是包含查詢詞(qi)的文檔數(shù)量。IDF值越高,表示查詢詞在文檔集合中越稀有,其權(quán)重越大。

2.詞頻和文檔長度的標(biāo)準(zhǔn)化:BM25考慮到詞頻(TF)與相關(guān)性之間的關(guān)系是非線性的。為了平衡詞頻對得分的影響,引入了飽和函數(shù)和文檔長度因子。標(biāo)準(zhǔn)化后的詞頻公式為:

BM25Retriever 支持中文嗎?-AI.x社區(qū)

TF公式其中,(tf(qi, d))是查詢詞在文檔中的詞頻,(Ld)是文檔長度,(Lavg)是文檔集合中所有文檔的平均長度,(k1)和(b)是調(diào)節(jié)參數(shù)。

3.查詢詞頻率的加權(quán):如果查詢較長,某些詞在查詢中出現(xiàn)頻率較高,BM25還會(huì)考慮這些詞在查詢中的頻率,通過引入另一個(gè)調(diào)節(jié)參數(shù)(k3)來調(diào)整查詢詞頻率對得分的影響。

4.最終得分計(jì)算:BM25的最終得分是查詢中每個(gè)詞與文檔相關(guān)性得分的加權(quán)和。公式為:

BM25Retriever 支持中文嗎?-AI.x社區(qū)

Score其中,(R(qi, d))是查詢詞(qi)與文檔(d)的相關(guān)性得分。

BM25算法因其簡單、高效且效果良好,在搜索引擎和信息檢索系統(tǒng)中得到了廣泛應(yīng)用。它的參數(shù)(k1)、(b)和(k3)可以根據(jù)具體應(yīng)用場景進(jìn)行調(diào)整,以達(dá)到最佳的檢索效果。

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
在线视频免费一区二区| 自拍偷拍亚洲激情| 日本精品va在线观看| 蜜桃久久精品成人无码av| 亚洲精品69| 午夜电影一区二区三区| 日韩欧美三级一区二区| 国产女同91疯狂高潮互磨| 91久久亚洲| 久久精品国产2020观看福利| 最新版天堂资源在线| 99九九久久| 懂色aⅴ精品一区二区三区蜜月| 亚洲精品第一区二区三区| www日本在线| 青娱乐精品视频在线| 欧美国产视频一区二区| 天堂网av2018| 婷婷激情久久| 欧美不卡一区二区三区| 欧美午夜aaaaaa免费视频| av资源中文在线天堂| 国产精品久久久久一区二区三区 | 精品国产青草久久久久96| 欧美黄色一级视频| 中文字幕日韩综合av| 亚洲国产精品自拍视频| 一区二区三区日本视频| 色菇凉天天综合网| 国产乱子伦农村叉叉叉| 日本h片在线观看| 亚洲视频一二三区| 亚洲电影网站| 国产鲁鲁视频在线观看免费| youjizz国产精品| 99国产视频在线| 超碰10000| 九九视频在线观看| 午夜精品毛片| 日韩专区在线观看| 欧美激情视频二区| 欧美一区二区三区高清视频| 亚洲欧美国产高清va在线播| 最近中文字幕无免费| 北条麻妃一区二区三区在线| 欧美一激情一区二区三区| 欧美性受xxxxxx黑人xyx性爽| 国产韩日精品| 欧美日韩视频在线一区二区| 熟妇人妻无乱码中文字幕真矢织江 | 成人97精品毛片免费看| 欧美三级韩国三级日本一级| 动漫av免费观看| 欧美理论影院| 在线观看日韩高清av| 欧美伦理片在线看| 韩日精品一区| 在线播放/欧美激情| 日韩av加勒比| av男人一区| 亚洲激情视频网站| 大又大又粗又硬又爽少妇毛片| 日韩美女国产精品| 亚洲欧美中文在线视频| 婷婷综合在线视频| 国产精品传媒精东影业在线| 久久久av电影| 国产精品.www| 美女诱惑黄网站一区| 国产精品丝袜视频| 国产伦精品一区二区三区视频痴汉| 精品一区二区三区香蕉蜜桃 | 中文字幕佐山爱一区二区免费| 影音先锋男人的网站| 欧洲成人综合网| 精品国产1区2区| 妓院一钑片免看黄大片| 国产精品3区| 亚洲国产天堂久久综合| 欧美精品一区二区三区蜜臀| 国产美女在线一区| 综合久久2023| 7777精品伊人久久久大香线蕉的 | 国产激情综合| 欧美精品一区二区三区在线播放| 一本色道久久综合亚洲精品图片| 波多野结衣在线播放一区| 久久久国产成人精品| 国产一级做a爰片在线看免费| 久久av在线| 成人在线精品视频| 熟妇高潮一区二区三区| 亚洲国产激情av| 91免费国产精品| 欧美大片免费高清观看| 欧美一区二区三级| 精品少妇一区二区三区免费观| 久久婷婷蜜乳一本欲蜜臀| 久久久久久91香蕉国产| 国产精品成人久久久| 国产xxx精品视频大全| 欧美日韩一区二区三区在线观看免 | 一本大道伊人av久久综合| 国产盗摄精品一区二区三区在线| 久久免费看av| 91精品久久久久久粉嫩| 日本久久一区二区三区| 亚洲美女高潮久久久| 欧美美女视频| 2025国产精品视频| 成人av无码一区二区三区| 国产午夜精品一区二区三区嫩草| av在线观看地址| 日本一区二区中文字幕| 精品无人国产偷自产在线| 亚洲国产精品久| 日本vs亚洲vs韩国一区三区二区| 精品久久sese| 欧美极品少妇videossex| 欧美老肥妇做.爰bbww| 永久免费成人代码| 一道本一区二区| 夜夜爽夜夜爽精品视频| 亚洲一区二区三区视频播放| 国产午夜在线视频| 岛国av一区二区三区| 国产69视频在线观看| 91精品综合久久久久久久久久久 | 国产一区二区| 少妇久久久久久| 波多野结衣人妻| 久久久久久免费网| 欧美日韩黄色一级片| 精品欠久久久中文字幕加勒比| 欧美成人精品不卡视频在线观看| 亚洲专区第一页| 国产精品美日韩| 午夜免费看视频| 日本不卡高清| 国产在线视频欧美| 午夜视频在线观看网站| 欧美日韩国产美| 色婷婷粉嫩av| 国产精品一区二区不卡| 大陆极品少妇内射aaaaaa| 狂野欧美xxxx韩国少妇| 欧美成人免费视频| 丰满熟妇乱又伦| 亚洲成人综合网站| 制服丝袜第一页在线观看| 一本久道久久久| 玖玖玖精品中文字幕| 欧美大片1688| 日韩最新在线视频| 国产巨乳在线观看| 一区二区三区在线影院| 韩国三级在线看| 亚洲国产欧美国产综合一区| 狠狠色噜噜狠狠色综合久| 九色porny视频在线观看| 精品一区二区三区电影| 日韩一级片中文字幕| 国产精品久久久久一区二区三区共| 国产色视频在线播放| 91成人观看| 国产女主播一区二区三区| 性孕妇free特大另类| 国产亚洲欧美aaaa| 国产情侣av在线| 亚洲成av人影院| xxx在线播放| 97久久精品| 国产欧美精品一区| 国产男女在线观看| 成人在线一区| 成人av电影免费| 亚洲福利影院| 色婷婷久久av| 蜜桃久久一区二区三区| 在线观看av不卡| 精国产品一区二区三区a片| 91美女在线视频| 91亚洲精品久久久蜜桃借种| 影音先锋亚洲一区| 亚洲精品中文综合第一页| 九九99久久精品在免费线bt| 国产91成人video| 黄网站视频在线观看| 亚洲国产精品久久久久秋霞蜜臀 | 第84页国产精品| 播播国产欧美激情| 四虎精品在永久在线观看| 欧美日本在线播放| 国产成人精品片| 亚洲视频每日更新| 日本高清www| 国产精品99久久久久久久vr| 性欧美极品xxxx欧美一区二区| 午夜精品久久久久99热蜜桃导演 | 欧美疯狂性受xxxxx喷水图片| 久一视频在线观看| 国产精品卡一卡二卡三| 国产又粗又猛又色| 国产一区二区中文字幕| 国产精品少妇在线视频| 国产精品www994| 中文字幕不卡每日更新1区2区| 午夜精品影视国产一区在线麻豆| 91精品视频专区| 亚洲mmav| 91禁外国网站| 亚洲丝袜一区| 日韩资源在线观看| 国产乱子伦三级在线播放| 日韩av在线高清| 亚洲国产日韩在线观看| 欧美午夜精品久久久久久超碰| 圆产精品久久久久久久久久久| 亚洲精品美国一| 久久亚洲精品无码va白人极品| 亚洲第一页综合| 色婷婷综合五月| 日韩三级一区二区三区| 亚洲综合精品久久| 强乱中文字幕av一区乱码| 国产精品国产三级国产普通话99| 亚洲自拍偷拍一区二区| 91香蕉视频mp4| 先锋资源av在线| av电影在线观看一区| 精品人妻二区中文字幕| 国产精品一二三区| 日本黄色三级网站| 国产又粗又猛又爽又黄91精品| 三级a三级三级三级a十八发禁止| 日日夜夜一区二区| 午夜免费一区二区| 久久中文精品| 日韩精品一区二区三区不卡| 久久xxxx精品视频| 999香蕉视频| 免费观看久久久4p| jizz欧美性11| 国内精品免费在线观看| 三区视频在线观看| 国产一区二区在线观看免费| 亚洲一区二区偷拍| 国产乱码字幕精品高清av| 国产农村妇女精品久久| 国产精品乡下勾搭老头1| 伊人影院在线观看视频| 国产精品一二三四| 人妻 日韩 欧美 综合 制服| 成人网男人的天堂| 欧美大片免费播放器| 91在线精品一区二区| 国产精品成人一区二区三区电影毛片 | 这里只有精品在线| bt天堂新版中文在线地址| 亚洲黄色一区| 97在线免费公开视频| 日本欧美一区二区在线观看| 亚洲美女爱爱视频| 国产传媒久久文化传媒| 日韩aaaaa| 国产片一区二区| 一级黄色片日本| 洋洋av久久久久久久一区| 天天操天天爽天天干| 欧洲精品在线观看| 国产伦理吴梦梦伦理| 精品久久久久香蕉网| 丝袜视频国产在线播放| 深夜福利日韩在线看| 在线xxxx| 国产成人精品999| 久久99精品久久久野外观看| 精品欧美一区二区久久久伦 | www.av麻豆| 一本大道久久精品懂色aⅴ| 亚洲中文一区二区三区| 精品国产123| 波多野结衣在线网站| 欧美男插女视频| 亚洲人体影院| 91免费版网站入口| 西瓜成人精品人成网站| 亚洲一区二区免费视频软件合集| 欧美日韩国产高清| 日韩av在线综合| 国产精品一级在线| 美国黑人一级大黄| 亚洲高清免费观看 | 久久国产精品二区| 在线视频观看一区| 开心激情综合网| xvideos国产精品| 欧美亚洲日本精品| 亚洲最大av网站| 免费电影一区二区三区| 精品视频在线观看一区二区| 日本不卡123| 国产三级视频网站| 五月天精品在线| 精品久久久在线观看| 国产精品一级视频| 亚洲视频在线观看免费| 国产蜜臀av在线播放| 91久久精品在线| 欧洲福利电影| 少妇av一区二区三区无码| 国产麻豆91精品| 林心如三级全黄裸体| 色婷婷精品久久二区二区蜜臂av| 亚洲av无码国产精品久久不卡| 日韩中文字幕在线视频播放| 久久99久久99精品免观看软件| 国产美女精品在线观看| 自拍日韩欧美| 中文字幕一区二区在线观看视频| 欧美激情一区在线观看| 91精品国产高清一区二区三密臀| 欧美精品一区二区不卡| 污影院在线观看| 亚洲影院色在线观看免费| 欧美激情另类| 美女网站色免费| 国产精品乱码久久久久久| 免费黄色小视频在线观看| 亚洲另类xxxx| 在线观看的黄色| 欧美精品七区| 先锋影音久久| 巨胸大乳www视频免费观看| 精品久久久国产| 日韩精品福利片午夜免费观看| 日韩精品影视| 亚洲成色www.777999| 久久精品综合网| 国产女主播喷水视频在线观看| 亚洲一区二区三区免费| 日本一区二区三区在线视频| 亚洲精品视频啊美女在线直播| jjzz黄色片| 亚洲一区二区黄色| 日本免费网站视频| 狠狠久久五月精品中文字幕| 中文字幕乱码在线观看| 亚洲最大在线视频| 福利视频亚洲| 亚洲精品二区| 精品一区二区成人精品| 久久精品在线观看视频| 91精品一区二区三区久久久久久 | 99视频在线视频| 国产精品伦理在线| 国产片在线播放| 欧美激情中文字幕乱码免费| 牛牛影视久久网| 国产成人久久777777| 国产三区在线成人av| 在线观看中文字幕网站| 按摩亚洲人久久| 国产在线播放精品| 日韩激情免费视频| 日本一区二区三区久久久久久久久不 | 狠狠色狠狠色合久久伊人| 萌白酱视频在线| 日韩一区二区三区四区 | 亚洲欧美日韩国产综合在线| 精品人妻无码一区二区三区蜜桃一| 欧美精品videossex88| 九九久久电影| 一女二男3p波多野结衣| 亚洲影视在线观看| 九色在线免费| 成人黄色免费看| 亚洲国产午夜| 91精品国自产在线| 日韩三级视频在线看| 在线看片福利| 波多野结衣三级在线| 成人av网址在线| 中文字幕免费观看视频| 久久久久久999| 色婷婷热久久| 少妇精品一区二区| 3d动漫精品啪啪| 欧美办公室脚交xxxx| 在线视频精品一区| 91在线视频18| 国产成人三级一区二区在线观看一 | 国产欧美一区二区三区久久人妖| 水蜜桃久久夜色精品一区| 99久久久无码国产精品性波多| 欧美性生活久久| www.九色在线| 三年中国中文在线观看免费播放| 91性感美女视频| 99精品免费观看|