精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

深入解析 Elasticsearch IK 分詞器:ik_smart 和 ik_max_word 的區別與應用場景

云計算 分布式
最近在 git 上看看 ik 的相關問題,發現大家問的比較多的是 ik 分詞器的 ik_smart 和 ik_max_word 兩個分詞模式,以及它倆之間的分詞差異。

1、Elasticsearch ik 分詞器常見問題

最近在 git 上看看 ik 的相關問題,發現大家問的比較多的是 ik 分詞器的 ik_smart 和 ik_max_word 兩個分詞模式,以及它倆之間的分詞差異。

圖片圖片

圖片圖片

這里來集中解釋一波,期望對大家有幫助。

2、ik_smart 與 ik_max_word 的異同

首先來看下官方的FAQs

What is the difference between ik_max_word and ik_smart?

ik_max_word: Performs the finest-grained segmentation of the text. For example, it will segment "中華人民共和國國歌" into "中華人民共和國,中華人民,中華,華人,人民共和國,人民,人,民,共和國,共和,和,國國,國歌", exhaustively generating various possible combinations, suitable for Term Query.

ik_smart: Performs the coarsest-grained segmentation of the text. For example, it will segment "中華人民共和國國歌" into "中華人民共和國,國歌", suitable for Phrase queries.

Note: ik_smart is not a subset of ik_max_word.

官方這里簡單的描述了一下使用用途,即:

  • ik_smart 比較適合 match_phrase query,而 ik_max_word 更合適 term query。
  • ik_smart 的分詞結果并不是 ik_max_word 的分詞結果的子集。

那這兩個分詞器在具體實現上會有什么不一樣呢?

哪些場景兩個分詞器的分詞結果肯定不同呢?

造成分詞結果不一樣的原因是什么?

3、ik 分詞器源碼分析

3.1. 量詞處理源碼剖析

這里先看一下這段代碼。

private void compound(Lexeme result){

  if(!this.cfg.isUseSmart()){
   return ;
  }
     //數量詞合并處理
  if(!this.results.isEmpty()){

   if(Lexeme.TYPE_ARABIC == result.getLexemeType()){
    Lexeme nextLexeme = this.results.peekFirst();
    boolean appendOk = false;
    if(Lexeme.TYPE_CNUM == nextLexeme.getLexemeType()){
     //合并英文數詞+中文數詞
     appendOk = result.append(nextLexeme, Lexeme.TYPE_CNUM);
    }else if(Lexeme.TYPE_COUNT == nextLexeme.getLexemeType()){
     //合并英文數詞+中文量詞
     appendOk = result.append(nextLexeme, Lexeme.TYPE_CQUAN);
    }
    if(appendOk){
     //彈出
     this.results.pollFirst(); 
    }
   }
   
   //可能存在第二輪合并
   if(Lexeme.TYPE_CNUM == result.getLexemeType() && !this.results.isEmpty()){
    Lexeme nextLexeme = this.results.peekFirst();
    boolean appendOk = false;
     if(Lexeme.TYPE_COUNT == nextLexeme.getLexemeType()){
      //合并中文數詞+中文量詞
      appendOk = result.append(nextLexeme, Lexeme.TYPE_CQUAN);
     }  
    if(appendOk){
     //彈出
     this.results.pollFirst();       
    }
   }

  }
 }

這里由 smart 模式觸發的 合并英文數詞+中文量詞 的處理中,把 token 的屬性修改成了 TYPE_CQUAN (中文數量詞)。

這是 smart 模式下擁有而 max 模式下沒有的分詞方式和 token 類型。

舉個例子:“7天” 這個詞的分詞結果,結果中分別展示了位置:內容:類型

ik_max_word:
0-1 : 7 :  ARABIC
1-2 : 天 :  COUNT

ik_smart
0-2 : 7天 :  TYPE_CQUAN

也就是說 ik_max_word 與 ik_smart 在‘英文數詞+中文量詞’的分詞場景下,分詞結果必定不一樣。

3.2. 切分模式和歧義消除剖析

ik分詞器的算法原則還是基于中文字典進行字典樹的匹配。

也就是說詞元匹配的前提是豐富的中文字典庫(ik 已經默認加載了幾十萬的字典庫了)。

我們先來看 ik_max_word 的切分模式:執行文本的最細粒度分割,將分段詳盡地生成各種可能的組合。

來看下“中華人民共和國國歌”的例子,這里為了更加直觀的體現字典樹的匹配模式,我們把字典庫的內容也列出來。

文本:中華人民共和國國歌

字典庫:中華人民共和國國歌,中華人民,中華,華人,人民共和國,人民,共和國,共和,國國,國歌

ik_max_word 分詞結果:
0-9 : 中華人民共和國國歌 :  CN_WORD
0-4 : 中華人民 :  CN_WORD
0-2 : 中華 :  CN_WORD
1-3 : 華人 :  CN_WORD
2-7 : 人民共和國 :  CN_WORD
2-4 : 人民 :  CN_WORD
4-7 : 共和國 :  CN_WORD
4-6 : 共和 :  CN_WORD
6-8 : 國國 :  CN_WORD
7-9 : 國歌 :  CN_WORD

可以看出 ik_max_word 分詞器把所有的字典結果都匹配出來了,同時也看到了好幾個詞元的位置是有重疊的,比如:“中華人民”“中華”“華人”這幾個詞元,位置在0-4這段有著不同的重疊。

這也就是造成了代碼中所需要處理的“歧義”,我們這里可以把“歧義”理解為多個詞元組合去代表一段內容。

而 ik_smart 分詞器主要作用就是通過對詞元組合進行歧義裁決來消除詞元間的歧義,消除歧義后的直觀體現就是不再會有位置重疊的詞元(這也是 ik_smart 更適合 match_phrase 查詢的原因)。

ik_smart 遵循歧義裁決的主要原則順序如下:

  1. 比較有效文本長度,越長越好;
  2. 比較詞元個數,越少越好;
  3. 路徑跨度越大越好;
  4. 根據統計學結論,逆向切分概率高于正向切分,因此位置越靠后的優先;
  5. 詞元位置權重比較,詞長越平均越好。

同樣的文本內容,同樣的字典庫,ik_smart 的分詞結果如下:

ik_smart 分詞結果:
0-9 : 中華人民共和國國歌 :  CN_WORD

由于字典庫中“中華人民共和國國歌”可以覆蓋整個文本,并滿足上訴大多數條件,ik_smart 就只保留了第一個詞元。

為了更直觀的感受,我們把“中華人民共和國國歌”從詞庫中去除。

字典庫:中華人民,中華,華人,人民共和國,人民,共和國,共和,國國,國歌

ik_smart 分詞結果:
0-4 : 中華人民 :  CN_WORD
4-7 : 共和國 :  CN_WORD
7-9 : 國歌 :  CN_WORD

對于 ik_smart 歧義裁決原理有興趣的同學可以看源碼中 LexemePath 類的 compareTo 方法。

4、使用建議

  1. 召回要求高,對分詞詞元匹配精準的,使用 ik_max_word,并結合 term 查詢。
  2. 召回要求低,分詞切分要求較低,節省存儲,比如日志場景,可以考慮 ik_smart 進行 match_phrase查詢。
  3. 索引分詞器和搜索分詞器原則上保持一致,如果索引使用 ik_max_word 而搜索使用 ik_smart,則有詞元匹配失敗的可能。

作者介紹

金多安,Elastic 認證專家,Elastic資深運維工程師,死磕Elasticsearch知識星球嘉賓,星球Top活躍技術專家,搜索客社區日報責任編輯

責任編輯:武曉燕 來源: 銘毅天下Elasticsearch
相關推薦

2021-09-03 11:26:39

分詞器ElasticSear

2021-04-12 08:17:12

ElasticSear分詞中文

2017-05-04 10:11:51

ElasticsearJavaAnalyzeRequ

2012-03-16 10:07:30

IK AnalyzerJava

2025-08-01 03:11:00

Easysearch動態集群

2023-11-12 17:19:07

并行并發場景

2024-09-19 08:08:25

2018-05-25 13:04:21

UES應用場景

2025-04-02 00:35:00

CMS垃圾回收器

2024-11-12 06:27:16

Python列表元組

2023-10-12 08:57:23

故障排除監控

2023-01-28 07:59:24

2015-08-03 13:36:40

Docker技術優勢應用場景

2012-10-23 09:32:07

2014-05-15 09:43:11

CloudaMobile WebANodejs

2013-09-09 15:55:12

SDN應用場景

2021-06-12 18:37:56

Nodejs前端開發

2023-11-15 13:35:00

迭代器生成器Python

2016-09-18 23:56:51

Java開源中文分詞器

2023-08-28 16:49:08

物聯網傳感器
點贊
收藏

51CTO技術棧公眾號

亚洲欧洲国产日韩精品| 国产精品无av码在线观看| 国产日韩视频一区| 中文字幕影音在线| 综合亚洲深深色噜噜狠狠网站| 99国产高清| 亚洲成熟少妇视频在线观看| 91精品久久久久久久久久不卡| 精品国产一区二区精华| 日本久久精品一区二区| 在线xxxx| 国产精品网站在线| 精品国产乱码久久久久久108| 凹凸精品一区二区三区| 欧美激情视频一区二区三区在线播放| 日韩成人在线网站| 亚洲精品mv在线观看| 日韩欧美精品一区二区三区| 亚洲手机成人高清视频| 日本一区二区三区www| 国产jzjzjz丝袜老师水多| 久久精品天堂| 欧美激情欧美激情在线五月| 色婷婷国产精品免| 奇米影视777在线欧美电影观看| 9191久久久久久久久久久| 春日野结衣av| 1234区中文字幕在线观看| 亚洲欧洲日韩一区二区三区| 欧美极品色图| 韩国中文字幕hd久久精品| 日本大胆欧美人术艺术动态| 97成人精品视频在线观看| 日韩一级片大全| 国产最新精品| 亚洲欧美国内爽妇网| 久久久久亚洲av片无码v| 日韩在线观看不卡| 色拍拍在线精品视频8848| 无码av天堂一区二区三区| 精品孕妇一区二区三区| 国产精品人人做人人爽人人添| 久久久久久一区| 欧美在线精品一区二区三区| 国产精品亚洲第一区在线暖暖韩国| 国产精品免费福利| 无码人妻丰满熟妇区五十路 | 中文字幕欧美人与畜| 黄视频在线播放| www一区二区| 久久99精品久久久久久秒播放器 | 污污污污污污www网站免费| 日本中文字幕在线视频| 久久先锋影音av| 欧美精品在线一区| 黄色片在线看| 亚洲国产精品黑人久久久| 日本在线高清视频一区| 国际av在线| 国产日韩欧美亚洲| 视频一区二区精品| 午夜在线免费观看视频| 一区免费观看视频| 国产资源第一页| 女囚岛在线观看| 亚洲成av人片一区二区三区| 免费av手机在线观看| 亚洲美女尤物影院| 色综合久久久久久久久| 亚洲网站在线观看| 亚洲一卡二卡三卡四卡无卡网站在线看 | av鲁丝一区鲁丝二区鲁丝三区| 超碰精品在线观看| 亚洲精品v欧美精品v日韩精品| 日韩av无码一区二区三区不卡| 国产精品qvod| 国产亚洲精品激情久久| 999久久久国产| 欧美欧美全黄| 91高清在线免费观看| 日日骚av一区二区| 久久成人18免费观看| 999视频在线免费观看| 女人18毛片一区二区三区| 91免费精品国自产拍在线不卡| 欧美一区二区三区在线播放| 黄色在线免费网站| 亚洲一级二级在线| 夫妻免费无码v看片| 四虎成人在线| 日韩欧美国产综合一区 | 情侣黄网站免费看| 久久69成人| 精品日韩欧美在线| 国产人妻大战黑人20p| 羞羞答答成人影院www| 午夜精品99久久免费| 精品人妻一区二区三区潮喷在线| 国产在线精品一区二区夜色| 国产精品乱码视频| 99reav在线| 亚洲综合区在线| 爱情岛论坛vip永久入口| 日本一区二区三区视频在线看| 日韩毛片在线观看| 久久久久久久9999| 日本欧美一区二区三区| 国产91精品一区二区绿帽| 黄色在线播放| 亚洲va韩国va欧美va精品| 精品亚洲一区二区三区四区| 国产成人在线中文字幕| 久久久黄色av| 91视频久久久| 成人av在线电影| 综合视频免费看| 在线天堂资源| 欧美本精品男人aⅴ天堂| 毛片久久久久久| 国产精品人人爽人人做我的可爱| 147欧美人体大胆444| 国产在线视频网| 亚洲国产精品精华液网站| 中文av一区二区三区| 日韩最新在线| 午夜精品www| www.五月婷| 18成人在线观看| 日韩在线第三页| 亚洲老女人视频免费| 欧美精品videossex88| 国产免费视频一区二区三区| 亚洲国产岛国毛片在线| www.四虎成人| 亚洲电影一级片| 国外成人在线视频| 丰满熟妇乱又伦| 亚洲九九爱视频| 91网址在线观看精品| 日韩欧美高清| 国产精品久久久久久av福利| 欧美亚洲日本| 一本色道久久加勒比精品| 91精品啪在线观看国产| 亚洲二区免费| 韩国成人av| 日韩理论视频| 亚洲人av在线影院| 黄色在线视频网址| 久久久精品影视| www.日日操| 美日韩中文字幕| 国产精品精品视频| 二区三区在线| 欧美精选一区二区| 国产精品白丝喷水在线观看| 国产一区二区三区四区五区美女| 经典三级在线视频| 欧美日本三级| 97高清免费视频| 亚洲 精品 综合 精品 自拍| 一本到不卡精品视频在线观看| 在线免费看黄视频| 日本大胆欧美人术艺术动态| 四虎免费在线观看视频| 色悠久久久久综合先锋影音下载| 欧美激情视频在线| 日本精品999| 色偷偷久久一区二区三区| 亚洲一区 欧美| 久久99精品网久久| 日韩欧美不卡在线| 国产精品嫩模av在线| 国产精品免费久久久久久| 毛片在线视频| 精品国产乱码久久久久久老虎| 97免费在线观看视频| 国产视频在线观看一区二区三区| 中文字幕第100页| 欧美成人国产| 欧美高清视频一区| 91视频亚洲| 98视频在线噜噜噜国产| 国产视频精品久久| 日韩一区二区三区观看| 日本中文在线播放| 国产精品免费视频网站| 最新国产精品自拍| 久久亚洲风情| 欧美少妇在线观看| 亚洲高清极品| 亚洲自拍在线观看| 国模套图日韩精品一区二区| 久久久999精品| 日夜干在线视频| 欧美一级黄色大片| 日本丰满少妇做爰爽爽| 亚洲综合在线免费观看| 国产一二三四五区| 国产精品白丝jk黑袜喷水| 欧美私人情侣网站| 欧美精品播放| 日韩亚洲欧美精品| 菁菁伊人国产精品| 成人啪啪免费看| 欧美成人精品三级网站| 欧美激情三级免费| 成人高潮成人免费观看| 精品国产电影一区二区| 在线免费观看视频网站| 亚洲成人动漫精品| 波多野结衣不卡视频| 久久久精品影视| 午夜视频在线观看国产| 国内成人免费视频| 乌克兰美女av| 免费视频一区二区三区在线观看| 91国在线高清视频| 色喇叭免费久久综合网| 日本一区二区三区视频在线观看 | 日本成人在线网站| 国产成人精品一区二区三区| 国产经典三级在线| 久热精品视频在线观看| 色三级在线观看| 在线观看久久久久久| 欧美日韩免费做爰大片| 日韩欧美一级二级三级| 国产乱码一区二区| 欧美日韩亚洲综合| 欧美成人精品网站| 日韩欧美在线免费| 国产成人免费看| 天天综合色天天| 久久精品国产av一区二区三区| 亚洲欧美国产三级| 91麻豆精品成人一区二区| 国产色91在线| 色欲AV无码精品一区二区久久| 久久亚洲综合色| 黄色短视频在线观看| 99视频一区二区三区| 国产不卡一二三| av在线不卡免费看| 国产精品无码在线| 99视频精品在线| 一级特级黄色片| 91丨porny丨国产| 国产肉体xxxx裸体784大胆| 不卡免费追剧大全电视剧网站| 国产原创剧情av| 99精品热视频| 亚洲午夜福利在线观看| 91麻豆高清视频| 日韩免费成人av| 国产精品超碰97尤物18| 91高清免费观看| 亚洲综合激情网| 国产做受高潮漫动| 欧美日韩性视频| 波多野结衣绝顶大高潮| 欧美日本高清视频在线观看| 精品国产av一区二区| 欧美videos大乳护士334| 手机av在线免费观看| 日韩精品小视频| eeuss影院在线播放| 精品国偷自产在线视频| 免费在线国产视频| 欧美一区二区.| www.精品国产| 91亚洲va在线va天堂va国| 9l亚洲国产成人精品一区二三| 久热国产精品视频一区二区三区| 欧美精品久久久久久| 伊人久久大香线蕉精品| 韩国精品一区二区三区| 哪个网站能看毛片| 精品一区二区三区在线观看国产| 亚洲911精品成人18网站| 久久综合九色欧美综合狠狠 | 国产精品成人a在线观看| 美女av免费观看| 免费视频久久| 奇米777在线| 91丨porny丨最新| 九九精品视频免费| 亚洲成av人片一区二区三区| 亚洲视屏在线观看| 精品国产123| www 日韩| 国外色69视频在线观看| 婷婷丁香久久| 欧美日韩国产综合在线| 亚洲综合自拍| 亚洲熟妇av一区二区三区| 国产美女娇喘av呻吟久久| 国产精品一级黄片| 自拍偷在线精品自拍偷无码专区| 国产免费观看av| 3d动漫精品啪啪1区2区免费| 亚洲色欧美另类| 麻豆成人在线看| 日韩久久一区二区三区| 国产精品一级久久久| 999精品一区| 人妻熟女一二三区夜夜爱| 国产精品一区一区| 麻豆一区在线观看| 欧美日韩激情视频8区| 国产熟女一区二区三区四区| 国产亚洲精品高潮| 日韩在线伦理| 国产精品美女xx| 亚洲乱码电影| 中文字幕天天干| 久久综合久色欧美综合狠狠| 好吊色视频在线观看| 欧美日韩色一区| 男人天堂网在线观看| 欧美极品欧美精品欧美视频| 97色婷婷成人综合在线观看| 日韩在线导航| 美女爽到呻吟久久久久| 黄色a一级视频| 精品日韩美女的视频高清| 成人免费视频国产| 欧美日韩成人免费| 国产高清日韩| 欧美a级黄色大片| 国内外成人在线视频| 亚洲a∨无码无在线观看| 在线视频亚洲一区| 国产在线资源| 国产精品成人国产乱一区| 精品中文一区| av观看免费在线| 久久久久国色av免费看影院| 久久久久久少妇| 亚洲国产毛片完整版| 2018av在线| 久久综合婷婷综合| 久热综合在线亚洲精品| 中文字幕一二三四区| 色香蕉久久蜜桃| 国产剧情在线观看| 国产精品视频成人| 91一区二区| 中文字幕55页| 一区二区三区高清在线| 空姐吹箫视频大全| 91sa在线看| 国产精品一区二区三区av麻| 黄色一级免费大片| 国产精品激情偷乱一区二区∴| 中文字幕在线一| 久久不射电影网| 日韩免费高清视频网站| 大伊香蕉精品视频在线| 成人av电影在线网| 日本熟女毛茸茸| 中文字幕最新精品| 美女久久精品| 成人午夜精品久久久久久久蜜臀| 97久久精品人人做人人爽50路| 天天操天天操天天操天天| 国产午夜精品一区二区三区| 精品久久毛片| 欧美亚洲黄色片| 26uuu亚洲| 少妇又紧又色又爽又刺激视频| 色阁综合伊人av| 中文字幕日韩高清在线| 精品欧美一区免费观看α√| 国产视频一区在线播放| 97在线播放免费观看| 久久久久在线观看| 精品国产一区二区三区香蕉沈先生 | 日韩欧美99| 国产在线视频一区二区| 国产一级淫片a| 国产一区二区三区四区福利| 成人在线啊v| 熟女少妇在线视频播放| 亚洲欧洲av在线| 天天综合网在线| 成人欧美一区二区三区黑人| 99riav国产精品| 男人av资源站| 精品无码久久久久久国产| 欧美激情啪啪| koreanbj精品视频一区| 国产精品国产精品国产专区不蜜 | 蜜臀精品一区二区三区| 伦理中文字幕亚洲| 蜜桃一区二区| 国产吃瓜黑料一区二区| 在线亚洲精品福利网址导航| 黄色成人在线网| 亚洲欧美国产不卡|