精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

NLP入門干貨:手把手教你3種中文規則分詞方法

人工智能 語音識別
本文將講解中文自然語言處理的第一項核心技術——中文分詞技術,它是中文自然語言處理非常關鍵和核心的部分。

在自然語言理解中,詞(token)是最小的能夠獨立活動的有意義的語言成分。將詞確定下來是理解自然語言的第一步,只有跨越了這一步,中文才能像英文那樣過渡到短語劃分、概念抽取以及主題分析,以至自然語言理解,最終達到智能計算的最高境界。因此,每個NLP工作者都應掌握分詞技術。

1. 分詞的概念和分類

“詞”這個概念一直是漢語言學界糾纏不清而又揮之不去的問題。“詞是什么”(詞的抽象定義)和“什么是詞”(詞的具體界定)這兩個基本問題迄今為止也未能有一個權威、明確的表述,當今更是沒有一份令大家公認的詞表。

問題的主要難點在于漢語結構與印歐體系語種差異甚大,對詞的構成邊界很難進行界定。比如在英語中,單詞本身就是“詞”的表達,一篇英文文章的格式就是“單詞”加分隔符(空格)。

而在漢語中,詞以字為基本單位,但是一篇文章的語義表達卻仍然是以詞來劃分。因此,需要針對中文漢字,將其按照一定的方式進行組織,分成不同的詞。

中文分詞是讓計算機自動識別出句子中的詞,然后在詞間加入邊界標記符。這個過程看似簡單,然而實踐起來要復雜得多,主要困難在于分詞歧義。

下面以NLP分詞的經典場景為例進行說明,短語“結婚的和尚未結婚的”,應該分詞為“結婚/的/和/尚未/結婚/的”,還是“結婚/的/和尚/未/結婚/的”呢?對于這個問題,機器很難處理。此外,像未登錄詞、分詞粒度粗細等都是影響分詞效果的重要因素。

自中文自動分詞被提出以來,歷經近30年的探索,先后出現了很多分詞方法,可主要歸納為規則分詞、統計分詞和混合分詞(規則+統計)這3個流派。最近這幾年又興起了以深度學習的方式進行分詞,比如BILSTM+CRF。

規則分詞是最早興起的方法,主要通過人工設立詞庫,按照一定方式進行匹配切分,其實現簡單高效,但對沒有錄入詞庫的新詞很難進行處理。

隨后統計機器學習技術興起,應用于分詞任務上就有了統計分詞方法。該方法能夠較好地應對新詞發現等特殊場景。然而在實踐中,單純的統計分詞也有其缺陷:太過依賴語料的質量。因此實踐中多是采用規則分詞和統計分詞這兩種方法的結合,即混合分詞。

[[349010]]

2. 規則分詞

基于規則的分詞是一種機械分詞方法,需要不斷維護和更新詞典,在切分語句時,將語句的每個字符串與詞表中的每個詞進行逐一匹配,找到則切分,找不到則不予切分。

按照匹配劃分,主要有正向最大匹配、逆向最大匹配以及雙向最大匹配這3種切分方法。

1. 正向最大匹配

正向最大匹配(Maximum Match)通常簡稱為MM法,其執行過程如下所示。

  • 從左向右取待切分漢語句的m個字符作為匹配字段,m為機器詞典中最長詞條的字符數。
  • 查找機器詞典并進行匹配。若匹配成功,則將這個匹配字段作為一個詞切分出來。若匹配不成功,則將這個匹配字段的最后一個字去掉,剩下的字符串作為新的匹配字段,進行再次匹配,重復以上過程,直到切分出所有詞為止。

比如我們現在有個詞典,最長詞的長度為5,詞典中存在“南京市長”“長江大橋”和“大橋”3個詞。

現采用正向最大匹配對句子“南京市長江大橋”進行分詞,那么首先從句子中取出前5個字“南京市長江”,發現詞典中沒有該詞,于是縮小長度,取前4個字“南京市長”,詞典中存在該詞,于是該詞被確認切分。

再將剩下的“江大橋”按照同樣方式切分,得到“江”“大橋”,最終分為“南京市長”“江”“大橋”3個詞。顯然,這種結果不是我們所希望的。正向最大匹配法示例代碼如下。

  1. class MM(object): 
  2.     def __init__(self): 
  3.         self.window_size = 3 
  4.  
  5.     def cut(self,text): 
  6.         result=[] 
  7.         index=0 
  8.         text_length = len(text) 
  9.         dic = ['研究','研究生','生命','起源'] 
  10.         while text_length > index: 
  11.             for size in range(self.window_size+index,index,-1):#4,0,-1 
  12.                 piece = text[index:size] 
  13.                 if piece in dic: 
  14.                     index = size-1 
  15.                     break 
  16.             indexindex = index + 1 
  17.             result.append(piece) 
  18.         return result 

分詞的結果如下所示,這個結果并不能讓人滿意。

  1. text = '研究生命的起源' 
  2. tokenizer = MM() 
  3. print(tokenizer.cut(text)) 

輸出結果如下所示。

  1. ['研究生', '命', '的', '起源'] 

2. 逆向最大匹配

逆向最大匹配簡稱為RMM法。RMM法的基本原理與MM法大致相同,不同的是分詞切分的方向與MM法相反。

逆向最大匹配法從被處理文檔的末端開始匹配掃描,每次取最末端的m個字符(m為詞典中最長詞數)作為匹配字段,若匹配失敗,則去掉匹配字段最前面的一個字,繼續匹配。相應地,它使用的分詞詞典是逆序詞典,其中的每個詞條都將按逆序方式存放。

在實際處理時,先將文檔進行倒排處理,生成逆序文檔。然后,根據逆序詞典,對逆序文檔用正向最大匹配法處理即可。

由于漢語中偏正結構較多,若從后向前匹配,可以適當提高精確度。所以,逆向最大匹配法比正向最大匹配法的誤差要小。

統計結果表明,單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為1/245。比如之前的“南京市長江大橋”,按照逆向最大匹配,最終得到“南京市”“長江大橋”的分詞結果。

當然,如此切分并不代表完全正確,可能有個叫“江大橋”的“南京市長”也說不定。逆向最大匹配法示例代碼如下。

  1. class RMM(object): 
  2.     def __init__(self): 
  3.         self.window_size = 3 
  4.  
  5.     def cut(self, text): 
  6.         result = [] 
  7.         index = len(text) 
  8.         dic = ['研究', '研究生', '生命', '命', '的', '起源'] 
  9.         while index > 0: 
  10.             for size in range(index-self.window_size ,index): 
  11.                 piece = text[size:index] 
  12.                 if piece in dic: 
  13.                     index = size + 1 
  14.                     break 
  15.             indexindex = index - 1 
  16.             result.append(piece) 
  17.         result.reverse() 
  18.         return result 

分詞的結果如下所示,這個結果就很準確了。

  1. text = '研究生命的起源' 
  2. tokenizer = RMM() 
  3. print(tokenizer.cut(text)) 

輸出結果如下所示。

  1. ['研究', '生命', '的', '起源'] 

3. 雙向最大匹配

雙向最大匹配法是將正向最大匹配法得到的分詞結果和逆向最大匹配法得到的結果進行比較,然后按照最大匹配原則,選取詞數切分最少的作為結果。

據Sun M.S.和Benjamin K.T.研究表明,對于中文中90.0%左右的句子,正向最大匹配和逆向最大匹配的切分結果完全重合且正確,只有大概9.0%的句子采用兩種切分方法得到的結果不一樣,但其中必有一個是正確的(歧義檢測成功),只有不到1.0%的句子,或者正向最大匹配和逆向最大匹配的切分結果雖重合卻都是錯的,或者正向最大匹配和逆向最大匹配的切分結果不同但兩個都不對(歧義檢測失敗)。這正是雙向最大匹配法在實用中文信息處理系統中得以廣泛使用的原因所在。

前面列舉的“南京市長江大橋”采用雙向最大匹配法進行切分,中間產生“南京市/ 江/ 大橋”和“南京市/ 長江大橋”兩種結果,最終選取詞數較少的“南京市/ 長江大橋”這一結果。

雙向最大匹配的規則如下所示。

(1) 如果正反向分詞結果詞數不同,則取分詞數量較少的那個結果(上例:“南京市/江/大橋”的分詞數量為3,而“南京市/長江大橋”的分詞數量為2,所以返回分詞數量為2的結果)。

(2) 如果分詞結果詞數相同,則:

  • 分詞結果相同,就說明沒有歧義,可返回任意一個結果。
  • 分詞結果不同,返回其中單字較少的那個。比如前文示例代碼中,正向最大匹配返回的結果為“['研究生', '命', '的', '起源']”,其中單字個數為2個;而逆向最大匹配返回的結果為“['研究', '生命', '的', '起源']”,其中單字個數為1。所以返回的是逆向最大匹配的結果。

參考代碼如下所示。

  1. #統計單字成詞的個數 
  2. def count_singlechar(word_list): 
  3.     return sum(1 for word in word_list if len(word) == 1) 
  4.  
  5. def bidirectional_segment(text): 
  6.     mm = MM() 
  7. rmm = RMM() 
  8.     f = mm.cut(text) 
  9.     b = rmm.cut(text) 
  10.     if (len(f) < len(b)): 
  11.         return f 
  12.     elif (len(f) > len(b)): 
  13.         return b 
  14.     else: 
  15.         if (count_singlechar(f) >= count_singlechar(b)): 
  16.             return b 
  17.         else: 
  18.             return f 

最后我們驗證一下效果。

  1. print(bidirectional_segment('研究生命的起源')) 

輸出結果為:

  1. ['研究', '生命', '的', '起源'] 

基于規則的分詞一般都較為簡單高效,但是詞典的維護面臨很龐大的工作量。在網絡發達的今天,網絡新詞層出不窮,很難通過詞典覆蓋所有詞。另外,詞典分詞也無法區分歧義以及無法召回新詞。

在實際項目中,我們是否會考慮使用規則分詞?

雖然使用規則分詞的分詞準確率看上去非常高,但是規則分詞有幾個特別大的問題:

  • 不斷維護詞典是非常煩瑣的,新詞總是層出不窮,人工維護費時費力;
  • 隨著詞典中條目數的增加,執行效率變得越來越低;
  • 無法解決歧義問題。

 

責任編輯:趙寧寧 來源: 華章科技
相關推薦

2018-03-23 20:45:23

機器學習NLP文本數據

2019-10-22 14:30:11

機器學習人工智能計算機

2017-12-01 05:01:35

WiFi干擾無線網絡

2011-05-03 15:59:00

黑盒打印機

2011-01-10 14:41:26

2025-05-07 00:31:30

2021-07-14 09:00:00

JavaFX開發應用

2009-07-03 17:15:31

jsp上傳文件

2021-06-29 12:27:19

Spring BootCAS 登錄

2018-05-16 13:50:30

Python網絡爬蟲Scrapy

2011-02-22 13:46:27

微軟SQL.NET

2021-12-28 08:38:26

Linux 中斷喚醒系統Linux 系統

2021-02-26 11:54:38

MyBatis 插件接口

2023-04-26 12:46:43

DockerSpringKubernetes

2022-03-14 14:47:21

HarmonyOS操作系統鴻蒙

2022-12-07 08:42:35

2022-07-27 08:16:22

搜索引擎Lucene

2022-01-08 20:04:20

攔截系統調用

2022-06-30 08:13:44

PythonWeb編程語言

2020-04-14 10:20:12

MySQL數據庫死鎖
點贊
收藏

51CTO技術棧公眾號

影音先锋久久精品| www国产精品| 亚洲欧美自拍偷拍| 国产成人精品自拍| 亚洲男人的天堂在线视频| 免费欧美一区| 欧美日韩在线观看一区二区 | 亚洲色图欧洲色图婷婷| 亚洲一区久久久| 一级黄色免费网站| 久久久久国产| 亚洲摸下面视频| 久久精品久久99| 欧美裸体视频| 国产亚洲一区二区三区不卡| 欧美性猛交xxxx乱大交退制版| 国产一区一区三区| 天天操天天操天天干| 美腿丝袜亚洲三区| 国内精品免费午夜毛片| 国产性猛交xx乱| 国产精品jk白丝蜜臀av小说| 欧美日韩一区二区三区免费看 | 亚洲精选91| 色婷婷综合久久久久| 亚洲精品国产成人av在线| 国产亚洲精品精品国产亚洲综合| 亚洲图片一区二区| 亚洲综合五月天| 亚洲视频 欧美视频| 欧美黄污视频| 中文字幕日韩欧美在线视频| 日本japanese极品少妇| 欧美.com| 亚洲国产wwwccc36天堂| 亚洲制服中文| 欧美捆绑视频| www..com久久爱| 亚洲综合小说区| 中文字幕一区二区三区免费看| 99国产成+人+综合+亚洲欧美| 日韩欧美的一区| 黄色网络在线观看| www.中文字幕久久久| 26uuu精品一区二区在线观看| 国外成人免费在线播放 | 亚洲精品视频一区二区| 亚洲免费在线精品一区| 日本不卡免费播放| 91免费精品国自产拍在线不卡 | 亚洲小说图片视频| 欧美岛国在线观看| 麻豆精品国产传媒| 日本一区影院| 在线综合视频播放| 一级黄色片在线免费观看| 巨胸喷奶水www久久久免费动漫| 欧美日韩国产中字| 国产性xxxx18免费观看视频| 无遮挡在线观看| 久久久久国产精品人| 狠狠综合久久av| 四虎永久在线观看| 国产精品综合二区| 97伦理在线四区| 国产后入清纯学生妹| 久久97超碰色| 亚洲a一级视频| 亚洲国产精品国自产拍久久| 亚洲一区国产| 日韩av免费在线| 国产中文字幕视频| 久久久噜噜噜久久狠狠50岁| 国产成人极品视频| 一区二区视频播放| 极品美女销魂一区二区三区| 亚洲一区二区三区成人在线视频精品| 国产又黄又大又爽| 国产成人精品免费在线| 国产精品乱子乱xxxx| 天天操天天操天天操| 久久精品一二三| 亚洲一区3d动漫同人无遮挡| 国产在线观看a| 亚洲一区二区在线视频| 你懂的av在线| 四虎影视4hu4虎成人| 欧美日本一区二区三区| 成人在线观看一区二区| 精品三级在线| 日韩欧美一二三| 日本丰满少妇裸体自慰 | 激情综合色丁香一区二区| 成人免费视频a| 免费看日韩av| 精品亚洲国内自在自线福利| 亚洲中国色老太| 香港一级纯黄大片| 粉嫩av一区二区三区粉嫩| 国产在线播放一区二区| 国产福利在线视频| 亚洲激情图片小说视频| 国产裸体舞一区二区三区| 色成人综合网| 亚洲精品国产精品国产自| 日本视频在线免费| 99国产精品久久久久久久成人热| 国产欧美va欧美va香蕉在| 亚洲精品久久久久久无码色欲四季| 久久综合色鬼综合色| 在线观看18视频网站| 自拍网站在线观看| 日韩一二在线观看| 成人激情五月天| 伊人影院久久| 成人网在线视频| 免费国产在线观看| 亚洲一区二区不卡免费| 一区二区三区免费播放| 欧美大片1688网站| 亚洲国产成人精品电影| 蜜桃av.com| 久久久久久久欧美精品| 不卡一区二区三区视频| 91xxx在线观看| 精品日韩中文字幕| 无码人妻精品一区二区三区99不卡| 91亚洲成人| 国产精品免费电影| 天堂中文在线8| 久久久精品免费网站| 99re6这里有精品热视频| 欧美暴力调教| 亚洲欧美日韩综合| 国产视频91在线| 国产成人午夜视频| 潘金莲一级淫片aaaaa免费看| 日本高清不卡一区二区三区视频 | 日韩高清第一页| 欧美日韩爱爱| 奇米一区二区三区四区久久| 黄色福利在线观看| 亚洲精品一二三四区| 17c国产在线| 久久国产成人午夜av影院宅| 国产精品盗摄久久久| 国产午夜在线观看| 色老头久久综合| 第一次破处视频| 久久国产精品久久w女人spa| 久久伦理网站| 樱花草涩涩www在线播放| 亚洲国产欧美一区二区丝袜黑人| 麻豆视频在线观看| 国产99精品国产| 国产精品久久久久7777| 风间由美一区二区av101| 久久久久久久999精品视频| 国产chinasex对白videos麻豆| 亚洲日本护士毛茸茸| www.色就是色.com| 亚洲91中文字幕无线码三区| 91网站免费看| 日本三级在线观看网站| 精品国产伦一区二区三区观看体验 | 91原创在线视频| 欧美 日韩 国产在线观看| 人人鲁人人莫人人爱精品| 亚洲精品综合久久中文字幕| 中文字幕在线播| 国产精品一区二区视频| 水蜜桃在线免费观看| 一区中文字幕| 91精品国产乱码久久久久久久久 | 丁香啪啪综合成人亚洲小说 | 久久av无码精品人妻系列试探| 日韩在线观看一区 | 久久九九国产精品怡红院 | 亚洲第一天堂av| 日韩一区二区视频在线| 欧美激情在线看| 下面一进一出好爽视频| 91久久午夜| 日韩免费av电影| 久久免费精品| 欧美亚洲国产视频小说| 99草在线视频| 一区二区三区欧美久久| 亚洲黄色免费在线观看| 日韩成人免费看| 欧美另类videos| 亚欧日韩另类中文欧美| 91精品国产自产在线观看永久| 日本片在线看| 中文字幕成人在线| www.我爱av| 一本大道久久精品懂色aⅴ| 国产男女猛烈无遮挡在线喷水| 成人做爰69片免费看网站| 久久无码高潮喷水| 中文字幕一区二区三区欧美日韩| 精品国产一二| 在线欧美激情| 日本欧美中文字幕| 在线中文字幕视频观看| 亚洲天堂第二页| 午夜美女福利视频| 欧美性一区二区| 日韩 欧美 精品| 国产精品乱人伦| 中文字幕有码av| 欧美午夜在线| 亚洲欧洲精品一区二区三区波多野1战4| 日韩欧洲国产| 国产精品夜间视频香蕉| 欧美13videosex性极品| 两个人的视频www国产精品| 可以在线观看的av网站| 欧美大片免费久久精品三p| 瑟瑟视频在线免费观看| 午夜在线成人av| 91插插插插插插| 欧美激情一区二区在线| 最近中文字幕无免费| 国产一区二区三区视频在线播放| 日本丰满少妇黄大片在线观看| 欧美日韩一本| 欧洲精品在线视频| 亚洲无线看天堂av| 日韩一区二区三区在线播放| 国产中文字幕在线播放| 亚洲国产高潮在线观看| 午夜精品久久久久久久爽 | 欧美激情在线一区二区| 成人免费毛片糖心| bt7086福利一区国产| 亚洲午夜久久久久久久久| 国产一区三区三区| 欧美成年人视频在线观看| 久久亚洲一区| 日日摸天天爽天天爽视频| 日本不卡高清| 欧美人与性禽动交精品| 欧美黑人巨大videos精品| 成人免费在线看片| 中文字幕久久精品一区二区| 91青青草免费观看| 伊人久久一区| 91免费观看网站| 在线欧美激情| 亚洲综合av影视| 视频二区欧美毛片免费观看| 97se国产在线视频| 亚洲精品一区二区三区中文字幕| 亚洲曰本av电影| 久久伦理中文字幕| 豆国产97在线| 精品久久ai| 欧美日韩亚洲一区二区三区四区| 免费成人av| 色一情一区二区三区四区| 欧美一区三区| 一区二区精品免费视频| 91精品国产91久久久久久密臀| 亚洲国产精品女人| 亚洲午夜在线| 国产欧美在线一区| 日韩在线一区二区| 在线观看国产中文字幕| 激情深爱一区二区| 一二三区视频在线观看| 99久久er热在这里只有精品15 | 欧美亚洲另类色图| 亚洲女同在线| 91免费视频黄| 欧美国产另类| 蜜臀av无码一区二区三区| 国产精品美女久久久| 色七七在线观看| 国产在线不卡一区| 中文字幕乱视频| 国产午夜亚洲精品羞羞网站| 岛国片在线免费观看| 一区二区在线观看不卡| 久久不卡免费视频| 欧美亚洲国产一区二区三区| 国产手机精品视频| 欧美精品一区二区久久久| 久草在线免费福利资源| 久久黄色av网站| 九九色在线视频| 国产成人综合av| 国产亚洲字幕| 欧美日韩国产精品一区二区| 久久中文视频| 国产97在线 | 亚洲| 另类中文字幕网| 中文字幕第80页| 国产精品中文字幕欧美| 欧美深性狂猛ⅹxxx深喉| 国产精品狼人久久影院观看方式| 久草视频免费在线| 欧美亚洲自拍偷拍| 狠狠人妻久久久久久综合麻豆| 亚洲色图综合网| 日韩伦理电影网站| 国产精品pans私拍| 丁香婷婷成人| 自拍偷拍99| 蜜桃av综合| 麻豆短视频在线观看| 国产精品欧美一区喷水| 精品在线播放视频| 欧美疯狂性受xxxxx喷水图片| 你懂的在线看| 午夜精品久久久99热福利| 国产精品毛片无码| 日韩三级电影| 亚洲中字黄色| 性高潮免费视频| 亚洲日本va午夜在线影院| 国产精品高清无码| 亚洲精品在线91| 欧美亚洲天堂| 成人激情视频免费在线| 精品久久久久中文字幕小说| aa在线观看视频| 风间由美性色一区二区三区 | 色婷婷激情视频| 久久久91精品国产一区二区精品| 日本少妇全体裸体洗澡| 91精品国产色综合久久| 精品国产黄色片| 中文字幕v亚洲ⅴv天堂| 国产日韩另类视频一区| 免费在线成人av电影| 一区二区激情| 黄色免费视频网站| 久久久精品欧美丰满| 国产成人愉拍精品久久| 精品久久久久av影院| 性xxxxbbbb| 国产最新精品视频| 97久久综合区小说区图片区| 日日噜噜夜夜狠狠久久丁香五月 | 亚洲网友自拍偷拍| 成人福利小视频| 欧美成人免费一级人片100| 在线高清欧美| 99亚洲精品视频| 韩国三级在线一区| 亚洲国产123| 欧美一个色资源| 羞羞的网站在线观看| 亚洲xxxx3d| 欧美日韩三级电影在线| 日韩精品――色哟哟| 亚洲综合精品自拍| 日韩专区第一页| 欧美在线免费视频| 国产一区不卡| 三上悠亚在线一区| 亚洲色大成网站www久久九九| 国产精品探花视频| 欧美第一黄网免费网站| 日韩极品少妇| 成人中文字幕av| 亚洲婷婷国产精品电影人久久| 国产欧美久久久精品免费| 欧美日韩国产123| 丝袜美腿一区二区三区动态图| 国产成人av影视| 国产精品电影院| 亚洲乱码精品久久久久.. | av成人免费| 午夜探花在线观看| 成人精品一区二区三区四区| 自拍偷拍欧美亚洲| 在线播放日韩专区| 亚洲人成网站在线在线观看| 久久精品无码中文字幕| 久久这里只有精品6| 一区二区三区免费在线| 欧美多人乱p欧美4p久久| 免费久久久久久久久| 最新免费av网址| 亚洲va韩国va欧美va精品 | 国产片一区二区三区| 91影院在线播放| 午夜精品免费视频| 日韩免费久久| 亚洲美女高潮久久久| 日本高清不卡一区| av免费在线网站| 欧美福利一区二区三区| 国产在线不卡视频| 免费黄色av片| 欧美精品第一页在线播放| 九九综合在线| 永久看看免费大片|