精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

基于CNN的新詞發現算法

人工智能 深度學習
中文新詞發現這個問題,在業界已經有了較為成熟的解法。輸入是一些語料,將這些文本做NGram切分以后,產生候選片段。計算這些片段的一些統計特征,再根據這些特征判斷這個片段是不是一個詞。

?作者 | mczhao,攜程高級研發經理,關注自然語言處理技術領域。

概覽

隨著消費熱點和網紅新梗的不斷涌現,在電商平臺的NLP任務中,經常會出現一些之前沒有見過的詞。這些詞不在系統已有的詞庫中,被稱為"未登錄詞"。

一方面,詞庫中詞的缺失影響了一些基于詞庫的分詞器的分詞質量,間接影響了文本召回質量和高亮提示的質量,即用戶文本搜索的準確性和搜索結果的可解釋性。

另一方面,在主流NLP深度學習算法BERT/Transformer等等中,對中文處理時經常使用字向量來代替詞向量。理論上使用詞向量的效果應當是更好的,但是由于未登錄詞的原因,在實踐過程中使用字向量的效果更好。如果詞庫更加完善,那么使用詞向量的效果將優于使用字向量的效果。

綜上,新詞發現是我們當下需要解決的問題。

一、傳統無監督的方法

中文新詞發現這個問題,在業界已經有了較為成熟的解法。輸入是一些語料,將這些文本做NGram切分以后,產生候選片段。計算這些片段的一些統計特征,再根據這些特征判斷這個片段是不是一個詞。

業界主流的做法是統計和觀察這三個方面的指標:熱度、內聚度、左右鄰字豐富度。描述這三個指標的文章網上也有很多,這里簡單介紹一下,細節可以參考Hello NLP和Smooth NLP的兩篇新詞發現文章。

1.1 熱度

使用詞頻來表示熱度。統計所有語料的所有片段的出現次數,那些高頻的片段往往就是一個詞。

1.2 內聚度

使用點互信息衡量內聚度:

圖片

例如,我們判斷漢庭是不是一個詞,log(P("漢庭")/P("漢")P("庭"))。漢庭成詞的概率,和"漢庭"的熱度成正比,和"漢"、"庭"的單字熱度成反比。這個很好理解,像是漢字中最常出現的字"的",隨便一個漢字和"的"搭配的概率非常高,但是并不意味這"x的"或者"的x"就是一個詞,這里"的"的單字熱度就起了一個抑制的作用。

1.3 左右鄰字豐富度

左右鄰接熵來表示左右字的豐富程度。左右鄰接熵就是候選詞片段左邊或者右邊出現的字的分布的隨機性。可以拆開看左邊的熵和右邊的熵,也可以把兩個熵合并為一個指標。

圖片

例如,"香格里拉"這個片段其熱度和內聚度都非常高,對應其子片段"香格里"的熱度和內聚度也很高,但是因為"香格里"后面大部分情況都出現"拉"字,它的右鄰接熵很低,對其成詞起抑制作用,可以判斷出"香格里"三字不能單獨成詞。

二、經典方法的局限性

經典方法的問題在于需要人工設置閾值參數。一個NLP專家在了解當前語料中片段的概率分布以后,將這些指標通過公式組合或者獨立使用,然后設定閾值來作為判斷標準,使用這個標準判斷的結果也可以做到很高的準確度。

但概率分布或者說詞頻并不是一成不變的,隨著語料庫越來越豐富,或者語料的加權熱度(通常是對應的商品熱度)波動變化,專家設定的公式中的參數和閾值也需要不斷調整。這就浪費了很多人力,使人工智能工程師淪為調參俠。

三、基于深度學習的新詞發現

3.1 詞頻概率分布圖

上述業界已有算法的三個指標,根本來源的特征只有一個,就是詞頻。在統計學的方法中,通常會把一些簡單又關鍵的統計量以圖片的方式展示,比如直方圖、箱線圖等等,即使沒有模型介入,光憑人看,還是能夠一眼做出正確的判斷。可以把語料切出所有長度限定的片段,把片段的詞頻歸一化為0-255,映射為二維矩陣,行表示起始的字符,列表示終止的字符,一個像素點就是一個片段,像素點的明暗程度就是這個候選詞片段的熱度。

圖片

上圖是"浦東機場華美達酒店"這個短句的詞頻概率分布圖,我們驚喜地發現,光憑我們的肉眼,也大致可以分出一些較為明亮的、等腰直角三角形的區塊,比如:"浦東"、"浦東機場"、"機場"、"華美達酒店"等等。這些區塊可以判斷出對應的片段正是我們需要的詞。

3.2 經典圖像分割算法

通過觀察詞頻概率分布圖,我們可以把一個短句分詞問題轉變為一個圖像分割問題。早期的圖像分割算法,和上述的新詞發現算法差不多,也是基于閾值的檢測邊緣灰度變化的算法,隨著技術發展,現在一般使用深度學習算法,其中比較著名的是U-Net圖像分割算法。

圖片

U-Net的前半部分使用卷積下采樣,提取多層不同粒度的特征,后半部分上采樣,將這些特征在同一分辨率下concat起來,最后通過全連接層+Softmax得到像素級別的分類結果。

3.3 基于卷積網絡的新詞發現算法

對詞頻概率分布圖的切分和對圖的切分類似,都是將位置相鄰并且灰度相近的部分切出來。所以對短句的切分,也可以參考圖像分割算法,使用全卷積網絡來做。使用卷積來做的原因是,無論我們在切割短句或者圖像的時候,都更多的關注局部信息,就是靠近切割邊緣那些像素點。使用多層網絡的原因,多層的池化可以表現出對不同層特征的閾值判斷,例如我們對地圖地形切割的時候既要考慮坡度(一階導/差分)還需要考慮坡度的變化(二階導/差分),兩者分別取閾值并且組合方式不僅僅是簡單的線性加權而是串行的網絡。

對于新詞發現場景我們設計如下的算法:

  • 先把短句的詞頻分布圖用0填充到24x24;
  • 先有兩個3x3的卷積層,并輸出4通道;
  • 把兩個卷積層concat起來,再做一次3x3的卷積,并且輸出單通道;
  • 損失函數使用logistic=T,所以最后一層不用做softmax輸出即可用于分類;

圖片

相比于U-Net,有如下差異:

1)放棄了下采樣和上采樣,原因是一般用來分割的短句比較短,詞頻分布圖的分辨率本就不高,所以模型也隨之簡化了。

2)U-Net是三分類(分塊1、分塊2、在邊緣上),此算法只需要二分類(像素點是否是一個詞)。所以最后輸出的結果也是不一樣的,U-Net輸出一些連續的分塊和分割線,而我們只需要某個點是不是陽性的。

下圖是訓練完模型以后,用模型預測的結果。我們可以看到輸出結果中,"上海"(上這一行、海這一列)、"虹橋"、"商務區"這三個詞對應的像素點被識別了出來。

圖片

使用訓練好的模型,輸入攜程地標庫中的地標名稱,可以自動切分和發現出一些新詞,如下圖,雖然有個別badcase,總體上準確率還可以。

圖片

將這些詞導入到詞庫以后,搜索分詞的準確率上升,分詞結果的詞庫覆蓋率上升。因為搜索分詞中一般傾向過召回而杜絕漏召回,業界有更激進的按字分詞召回的做法,而準確率一般通過后續的排序解決。所以分詞準確率提升了,在用戶看來搜索結果準確率并沒有明顯提升。但是可以解決部分因分詞錯誤導致的高亮提示不正確的問題。

四、模型內部分析

如果想探究模型是怎么生效的,可以查看中間層的卷積核。我們先將模型卷積層的卷積核個數從4簡化到1,訓練以后,通過TensorFlow的API查看中間層:model.get_layer('Conv2').__dict__。我們發現Conv2層的卷積核如下:

圖片

可以看到第一行和第二行對模型的效果是相反的,對應了該像素點的上一行減掉當前行的差分(帶權重),如果灰度差異越大,這個像素點代表的字符串越有可能成詞。

還可以看到第一行第二列0.04505884的絕對值比較小,可能是因為第一行減第二行的正向參數和第三列減第二列的負向參數相互抵消。

五、優化空間

本文描述的是一個結構非常簡單的全卷積網絡模型,還有很大的提升空間。

一是擴展特征選取范圍。比如,本文中輸入特征只有詞頻,如果把左右鄰接熵也納入輸入特征,切分的效果會更加精準。

二是增加網絡深度。通過模型分析,發現第一層卷積主要是為了應對那些用0填充的像素點產生的case,實際關注真實熱度的卷積只有一層,如果是3x3的卷積核只能看到一階差分結果,當前像素的的前后第二行和第二列就沒有考慮到。可以適當擴大卷積核大小或者加深網絡,來使模型的視野更大。但加深網絡也會帶來過擬合的問題。

最后,這個模型不僅僅可以用來補充詞庫以提高分詞效果,并且可以直接用作分詞的參考,在分詞流程的候選詞召回和分詞路徑打分這兩個步驟中都可以應用這個模型的預測結果。

責任編輯:未麗燕 來源: 攜程技術
相關推薦

2020-10-30 08:00:00

PyTorch機器學習人工智能

2015-12-25 11:00:52

Zookeeper的Python

2011-06-21 10:11:39

Wireshark

2011-02-22 17:08:09

IT英文IT英文縮寫

2010-09-08 15:54:43

2024-08-21 08:21:45

CNN算法神經網絡

2024-07-30 08:08:49

2024-06-06 09:44:33

2024-07-19 08:21:24

2024-09-06 12:52:59

2014-08-18 10:34:40

僵尸病毒NewGOZ宙斯病毒

2019-03-28 10:11:51

瀏覽器 Chrome Google

2024-12-16 08:06:42

2020-11-11 14:32:11

代碼CNN解碼器

2017-08-31 10:48:59

CNN 模型壓縮算法

2019-01-09 09:34:22

2021-11-10 10:31:15

算法信息技術

2022-12-09 14:50:51

機器學習時間序列預測

2023-10-30 16:33:49

2015-12-15 10:25:10

點贊
收藏

51CTO技術棧公眾號

久久久久网址| 97av视频在线| 在线播放免费视频| 日本乱理伦在线| 99久久国产免费看| 国产精品av网站| 国产这里有精品| 一区二区三区韩国免费中文网站| 欧美日韩黄色影视| 国产肉体ⅹxxx137大胆| 毛片免费在线| 国产精品影视在线| 日韩av免费在线看| 免费在线一级片| 国产一区二区三区电影在线观看| 在线不卡的av| 日日摸日日碰夜夜爽av| av毛片在线看| 国产片一区二区三区| 国产成人免费观看| 久久久久精彩视频| 99成人精品| 另类美女黄大片| 亚洲第一综合网| 91精品导航| 7777女厕盗摄久久久| av免费在线播放网站| 色呦呦呦在线观看| 国产精品国产三级国产aⅴ原创 | 国产一区二区高清在线| 都市激情亚洲色图| 国产肉体ⅹxxx137大胆| 久操视频在线观看| 亚洲国产经典视频| 麻豆av一区二区| 国产 日韩 欧美 综合| 久久99在线观看| 国产精品精品久久久| 国产精品美女久久久久av爽| 国内精品久久久久久久影视蜜臀| 中文字幕亚洲自拍| 免费看裸体网站| 亚洲图区在线| 精品网站999www| 精品一区二区三区四区五区六区| 日本免费一区二区视频| 在线不卡的av| 国产999免费视频| 人人精品久久| 欧美精品色一区二区三区| 天天爽人人爽夜夜爽| 九九九伊在线综合永久| 色婷婷亚洲精品| 免费日韩中文字幕| 国产综合色区在线观看| 色网站国产精品| 亚洲色图38p| 日本.亚洲电影| 在线亚洲一区观看| 欧美精品久久久久久久久25p| 欧美精品资源| 欧美区视频在线观看| 国产3p在线播放| 成人在线分类| 欧美成人精品3d动漫h| 麻豆tv在线观看| 成人av婷婷| 日韩精品视频免费专区在线播放 | 欧美牲交a欧美牲交aⅴ免费真| av资源在线| 色呦呦日韩精品| 狠狠热免费视频| 日韩亚洲国产免费| 精品欧美乱码久久久久久| 9.1在线观看免费| 亚洲理论电影片| 一区二区福利视频| 希岛爱理中文字幕| 在线成人国产| 日韩免费av在线| 亚洲资源在线播放| 国产精品综合一区二区| 久久草视频在线看| av在线中文| 一区二区在线观看视频在线观看| 无码 制服 丝袜 国产 另类| 欧美自拍电影| 3d动漫精品啪啪一区二区竹菊| 中文字幕无人区二| 要久久电视剧全集免费| 色哟哟入口国产精品| 久久久久久久久久久97| 美女久久一区| 亚洲一区二区三区四区视频| 欧美性猛交 xxxx| 久久精品在线免费观看| 中文字幕中文字幕在线中心一区| 国产蜜臀一区二区打屁股调教| 日韩欧美999| 奇米777在线| 欧美女王vk| 精品综合久久久久久97| 国产91国语对白在线| 国产激情视频一区二区在线观看| 美女主播视频一区| 国产在线观看a| 精品国产91久久久久久老师| 国内外成人免费在线视频| 国产主播性色av福利精品一区| 自拍偷拍亚洲一区| 日韩精品国产一区二区| 狠狠色丁香九九婷婷综合五月| 久久综合婷婷综合| 丝袜中文在线| 欧美日韩免费观看一区二区三区 | 国产亚洲1区2区3区| 四虎4hu永久免费入口| japanese23hdxxxx日韩| 精品国产一区二区三区av性色| 日本精品久久久久中文| 国产精品入口| 国产成人亚洲欧美| free性欧美hd另类精品| 在线观看av不卡| 久久久国产精品无码| 亚洲精品久久| 国产欧美日韩专区发布| 户外极限露出调教在线视频| 香蕉影视欧美成人| 手机在线免费毛片| 天天射成人网| 国产精品老女人精品视频| av女名字大全列表| 亚洲成年人影院| 亚洲欧美一区二区三区不卡| 日韩电影一区| 国产成人精品最新| 久草在线青青草| 欧美日韩激情美女| 日本黄色动态图| 91久久夜色精品国产九色| 亚洲自拍另类欧美丝袜| 国产原创精品视频| 欧美高清视频不卡网| 日本人亚洲人jjzzjjz| 视频一区视频二区中文| 欧美日韩在线一区二区三区| 在线观看网站免费入口在线观看国内| 精品久久久久一区| 成人免费看片98| 成人一区二区三区视频在线观看| 97超碰在线视| japanese色系久久精品| 久久久综合av| 神宫寺奈绪一区二区三区| 亚洲高清免费一级二级三级| 中文字幕乱视频| 中文久久精品| 免费久久久一本精品久久区| 老司机成人影院| 夜夜嗨av色综合久久久综合网 | 欧美一级一区二区| 欧美色图亚洲视频| 国产一区欧美一区| 国产精品一线二线三线| 亚洲精品**不卡在线播he| 日本乱人伦a精品| 成人欧美一区| 在线综合视频播放| 免费视频网站www| av爱爱亚洲一区| 88av.com| 日韩理论在线| 不卡一区二区三区四区五区| 嗯啊主人调教在线播放视频| 亚洲欧美日韩精品久久亚洲区| 国产精品成人久久久| 国产精品国产a级| 亚洲美女精品视频| 国产模特精品视频久久久久| 日韩精品欧美一区二区三区| 国产色99精品9i| 2018日韩中文字幕| 午夜在线小视频| 精品国产一区二区三区不卡 | 国产精品一区二区三区99| 被灌满精子的波多野结衣| 国产主播一区二区三区四区| 天堂地址在线www| 日韩精品一区二区三区视频播放| 亚洲日本视频在线观看| 国产精品免费视频观看| 扒开伸进免费视频| 日韩精品久久理论片| 久久人妻无码一区二区| 九九热爱视频精品视频| 亚洲一区二区少妇| 亚洲天堂av在线| 久久精品在线视频| 视频国产在线观看| 777亚洲妇女| 97久久久久久久| 亚洲精品成人天堂一二三| 国产美女喷水视频| 国产精品一二三区| 成人亚洲视频在线观看| 欧美日韩免费| 亚洲人成网站在线观看播放| 伦理一区二区三区| 亚洲精品免费一区二区三区| 刘亦菲一区二区三区免费看| 久久99久久久久久久噜噜| av大片在线看| 日韩久久免费视频| 亚洲国产精品视频在线| 欧美日韩美女一区二区| 中文字幕国产在线观看| 亚洲尤物在线视频观看| 精品国产国产综合精品| 国产亚洲短视频| 亚洲最大的黄色网| 国产精品1区二区.| 99日在线视频| 日韩电影在线观看一区| 日韩a∨精品日韩在线观看| 伊人青青综合网| 精品国产无码在线| 日韩免费在线| 日韩欧美精品久久| 国产不卡一二三区| 久久综合毛片| 香蕉人人精品| 久久精品人人做人人爽电影| caoporn成人免费视频在线| 99视频免费观看蜜桃视频| 亚洲成a人片777777久久| 国产精品久久久久久一区二区| 欧亚在线中文字幕免费| 亚洲91精品在线| 碰碰在线视频| 欧美亚洲成人精品| 国产福利片在线观看| 久久久久久久久久久人体| 亚洲电影视频在线| 欧美裸身视频免费观看| 99热国产在线| 欧美国产亚洲精品久久久8v| 羞羞网站在线看| 欧美激情按摩在线| 爱情岛论坛亚洲品质自拍视频网站| 欧美黄色片免费观看| 国产精品探花在线| 性欧美xxxx交| 天堂av中文在线观看| 欧美中文在线观看| 亚洲wwww| 国产精品自拍偷拍视频| 电影中文字幕一区二区| 91成人免费看| 国产伦理久久久久久妇女 | 欧美极品少妇xxxxx| 精品精品导航| 欧美综合激情网| 日韩一区二区三区在线免费观看| 国产精品爽爽爽| 激情五月综合婷婷| 国产欧美精品一区二区三区| 人人网欧美视频| 丝袜美腿玉足3d专区一区| 亚洲成av人片乱码色午夜| 大片在线观看网站免费收看| 亚洲精品欧美| 色七七在线观看| 国产原创一区二区三区| 亚洲欧美日韩偷拍| 国产网红主播福利一区二区| 国产精品久久久免费看| 亚洲最大的成人av| 九九九在线观看| 欧美日韩国产系列| 丰满熟妇人妻中文字幕| 亚洲老头老太hd| 黄色小网站在线观看| 午夜精品福利电影| 日韩色淫视频| 91国产在线免费观看| 伊人久久大香线蕉综合网蜜芽| 日韩理论片在线观看| 欧美福利影院| 成年网站在线免费观看| 国产一区视频在线看| 右手影院亚洲欧美| 亚洲色图一区二区三区| 久久亚洲天堂网| 91精品国产综合久久精品性色| 手机看片国产1024| 精品国内自产拍在线观看| 98色花堂精品视频在线观看| 成人激情综合网| 色吊丝一区二区| 在线观看污视频| 日本v片在线高清不卡在线观看| 国产在线a视频| 国产精品视频看| 中文字幕亚洲高清| 欧美一卡二卡在线观看| 国产永久免费高清在线观看视频| 欧美精品中文字幕一区| 成人四虎影院| 噜噜噜噜噜久久久久久91| 亚洲最大黄网| 亚洲 欧美 日韩系列| 99久久久精品| 激情小说中文字幕| 欧美日韩视频专区在线播放| 天天干天天干天天干| 欧美成人在线网站| 欧美午夜三级| 精品不卡在线| 狠狠爱成人网| 国产精品探花在线播放| 国产午夜精品理论片a级大结局| 黄色小说在线观看视频| 91精品国产综合久久香蕉麻豆| 久草视频视频在线播放| 国产91精品不卡视频| 都市激情亚洲| 2022中文字幕| 国产精品资源在线| 超碰手机在线观看| 91麻豆精品国产91久久久使用方法 | 综合网五月天| 蜜臀精品一区二区三区在线观看| 国产成人av一区二区三区不卡| 性久久久久久久久久久久| 欧美一级片免费| 欧美黑人性猛交| 亚洲三级av| 91免费国产精品| 国产高清不卡二三区| 欧美成人精品欧美一| 欧美一区二区三区不卡| 国产素人视频在线观看| 成人在线一区二区| 久久久久亚洲| 中文字幕亚洲日本| 亚洲成人动漫一区| 亚洲 小说区 图片区 都市| 91国内在线视频| 青青一区二区| 欧美视频第一区| 久久久精品黄色| 少妇一级淫片日本| 伊人久久男人天堂| 黑人一区二区三区| 中文字幕日韩精品久久| 九九视频精品免费| 国内偷拍精品视频| 亚洲国产福利在线| 亚洲欧美一区二区三区| 欧美一区二区三区精美影视| 日韩精品高清不卡| 一二三四国产精品| 欧美精品精品一区| 日本一级理论片在线大全| 国产精品一区二区不卡视频| 亚洲一区二区三区高清不卡| 波多野吉衣中文字幕| 欧美色区777第一页| 成人高清免费在线| 国产日韩欧美综合精品| 鲁大师影院一区二区三区| 大吊一区二区三区| 日韩欧美中文一区二区| 毛片电影在线| 亚洲日本精品| 丁香一区二区三区| 黄色一级视频免费看| 久久久国产影院| 九九热播视频在线精品6| 成年人网站大全| 亚洲人成人一区二区在线观看 | 欧美激情中文字幕一区二区| av资源免费看| 日本韩国在线不卡| 久久久久美女| 国产亚洲无码精品| 欧美精品自拍偷拍| 女人让男人操自己视频在线观看| 亚洲一区二三| 99久久婷婷国产| 99久久久久久久| 日av在线播放中文不卡| 亚洲xxx拳头交| 国产美女喷水视频| 日韩欧美国产一区二区在线播放 | 午夜影院黄色片| 精品国产伦一区二区三区观看方式| 91成人抖音| 亚洲美免无码中文字幕在线|