精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

文本相似度判定

開發 后端
針對文本相似判定,本文提供余弦相似度和SimHash兩種算法,并根據實際項目遇到的一些問題,給出相應的解決方法。經過實際測試表明:余弦相似度算法適合于短文本,而SimHash算法適合于長文本,并且能應用于大數據環境中。

簡介

        針對文本相似判定,本文提供余弦相似度和SimHash兩種算法,并根據實際項目遇到的一些問題,給出相應的解決方法。經過實際測試表明:余弦相似度算法適合于短文本,而SimHash算法適合于長文本,并且能應用于大數據環境中。

余弦相似度

原理

        余弦定理:

wps4663.tmp                  wps46F1.tmp

圖-1 余弦定理圖示

         性質:

         余弦值的范圍在[-1,1]之間,值越趨近于1,代表兩個向量的方向越趨近于0°,他們的方向更加一致,相應的相似度也越高。需要指出的是,在文本相似度判定中,因為文本特征向量定義的特殊性,其余弦值范圍為[0,1],即向量夾角越趨向于90°,則兩向量越不相似。

向量空間模型

        VSM(Vector Space Model)把對文本內容的處理簡化為向量空間中的向量運算。

        概念:

        1)文檔(D):泛指文檔或文檔片段,一般表征一篇文檔。

        2)詞匯(T):文本內容特征的基本語言單位,包含字、詞、詞組或短語。

        3)權重(W):表征詞匯T的權重,在文檔D中的重要程度。

        權重:

        目前表征一個字詞在一個文本集或者語料庫中某篇文本中的重要程度的統計方法為TF-IDF(term frequency–inverse document frequency),詞匯的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降,詳細內容在此不贅述。但是本文在實際項目中面臨的問題是,文本集是變動的,而且變化速率比較快,因此并不適用于采用TF-IDF方法。本文采用非常簡單直觀的方法,即以詞頻來表征該詞匯在文本中的重要程度(即權重)。

        向量對齊:

        由于在實際應用中,表征文本特征的兩個向量的長度是不同的,因此必然需要對上述向量進行處理。目前存在兩種方法:1)剔除掉向量中不重要的詞匯,從而使得兩個向量長度保持一致,目前主要依靠經驗設定一些關鍵詞來處理,但是其準確率不可保證;2)歸并向量,并根據原向量是否在新向量(歸并后的向量)存在,若存在則以該詞匯的詞頻來表征,若不存在則該節點置為0,示例如下:

        Text1: 我/是/中國人/

        Text2: 我們/是/中國人/

        Vector: 我/是/中國人/我們/

        Vector1 = (1, 1, 1, 0)

        Vector2 = (0, 1, 1, 1)

        上述“/”為采用IK分詞,智能切分后的間隔符,則歸并后的向量如Vector所示,對齊后的向量分別為Vector1 和Vector2。之后則根據兩向量的余弦值確定相似度。

文本特例

        由于在實際項目中,本文發現了2個特例,并相應給出了解決方案。

        1)長句包含短句(無需完全包含):

        Text1:“貫徹強軍目標出實招用實勁 努力開創部隊建設新局面”

        Text2:“在接見駐浙部隊領導干部時強調 貫徹強軍目標出實招用實勁 努力開創部隊建設新局面”

        上述兩個文本為網絡上實際的網頁標題,若簡單以余弦相似度來判定,其誤判率是比較高的。本文解決方案為:若長句長度(中文切分后以詞匯為單位表征,并非以字符為單位)為短句的1.5倍,則針對長句選定短句長度的文本內容逐個與短句進行相似度判定,直至長句結束,若中間達到預設的閾值,則跳出該循環,否則判定文本不相似。

        2)文本中存在同義表述

        Text1:“臺灣居民明日起持臺胞證可通關 無需辦理簽注”

        Text2:“明起臺胞來京無需辦理簽注 電子臺胞證年內實施”

        上述兩個文本中“臺胞”和“臺灣居民”,“明日起”和“明起”為同義表述,可以理解為近義詞,但不完全為近義詞范疇。本文解決方案為引入同義詞詞典,鑒于中文詞匯的豐富性,其能在一定程度上緩解,仍然不是根本解決之法。

應用場景及優缺點

        本文目前將該算法應用于網頁標題合并和標題聚類中,目前仍在嘗試應用于其它場景中。

        優點:計算結果準確,適合對短文本進行處理。

        缺點:需要逐個進行向量化,并進行余弦計算,比較消耗CPU處理時間,因此不適合長文本,如網頁正文、文檔等。

 

  余弦相似度算法源程序:

[[152097]] Class Element
[[152097]] Class TextCosine

  備注:同義詞詞典“synonyms.dict”文件較大,完全可以自己構建,在此就不贅述了。

 

SimHash

        SimHash為Google處理海量網頁的采用的文本相似判定方法。該方法的主要目的是降維,即將高維的特征向量映射成f-bit的指紋,通過比較兩篇文檔指紋的漢明距離來表征文檔重復或相似性。

過程

        該算法設計十分精巧,主要過程如下:

        1.  文檔特征量化為向量;

        2.  計算特征詞匯哈希值,并輔以權重進行量化;

        3.  針對f-bit指紋,按位進行疊加運算;

        4.  針對疊加后的指紋,若對應位為正,則標記為1,否則標記為0。

  備注:此處f-bit指紋,可以根據應用需求,定制為16位、32位、64位或者其它位數等。

       如圖-2所示,為SimHash作者Charikar在論文中的圖示,本文結合實際項目解釋如下:Doc表征一篇文本,feature為該文本經過中文分詞后的詞匯組合,按列向量組織,weight為對應詞匯在文本中的詞頻,之后經過某種哈希計算得出哈希值,見圖中1和0的組合,剩余部分不再贅述。需要指出,Charikar在論文中并未指定需要采用哪種哈希函數,本文作者認為,只要哈希計算值能夠均衡化、分散化,哈希函數可以根據實際應用場景進行設計,本文在實際的項目中自行設計哈希函數,雖未經過完全驗證,但是測試結果表明,該函數當前能夠滿足需求。

wps46F2.tmp

圖-2 SimHash處理過程

漢明距離

        漢明距離應用于數據傳輸差錯控制編碼,它表示兩個(相同長度)字對應位不同的數量。鑒于SimHash***計算出的指紋采用0和1進行組織,故而用其來衡量文檔相似性或者重復性,該部分詳細內容在此不再贅述。

應用場景與優缺點

        本文目前將該算法應用于話題發現和內容聚合等場景中,同時也在嘗試其它應用場景。

        優點:文本處理速率快,計算后的指紋能夠存儲于數據庫,因此對海量文本相似判定非常適合。

        缺點:由于短文本的用于哈希計算的數據源較少,因此短文本相似度識別率低。

 

  SimHash算法源程序: 

[[152097]] Class TermDict
[[152097]] Class SimHash

  備注:源程序中“131313”只是作者挑選的一個較大的素數而已,不代表特別含義,該數字可以根據需求進行設定。

責任編輯:李英杰 來源: 博客園
相關推薦

2021-06-23 18:36:20

AI

2024-05-23 08:48:21

2025-01-14 13:51:44

2019-12-11 10:50:06

JS圖片前端

2021-12-07 09:51:06

神經網絡AI算法

2024-05-30 08:40:41

大型語言模型LLM人工智能

2023-11-21 16:06:04

計算機視覺人工智能

2010-03-09 16:26:08

Python列表

2023-10-10 15:33:55

機器學習相似性度量

2013-08-28 13:44:42

數據算法

2013-08-29 14:28:58

海量數據simhash

2025-08-04 09:42:42

2022-11-30 07:49:49

交互事件屏幕手勢識別

2019-09-20 13:34:35

蘇寧文本匹配自然語言

2024-08-29 09:03:56

2024-09-23 14:36:20

2024-12-31 08:20:00

暹羅網絡機器學習神經網絡

2010-02-01 16:32:49

Python腳本

2010-02-05 17:04:31

Android版本

2024-04-07 14:48:00

模型訓練
點贊
收藏

51CTO技術棧公眾號

天堂一区在线观看| 日韩免费观看在线观看| 992tv人人草| av免费在线免费| 精品不卡视频| 国产香蕉97碰碰久久人人| 久久久久久久久久久久91| 美女羞羞视频在线观看| 国产成人鲁色资源国产91色综| 九九热最新视频//这里只有精品| 中文字幕人妻一区二区三区| 性欧美18xxxhd| 日本一区二区视频在线观看| 91亚洲国产成人久久精品网站 | 国产成人综合自拍| 国模精品系列视频| 蜜桃av乱码一区二区三区| 91麻豆精品| 婷婷综合在线观看| 中文字幕在线观看一区二区三区| 亚洲精品97久久中文字幕| 一本色道久久| 久久视频在线看| 精品1卡二卡三卡四卡老狼| 日韩欧美一区二区三区免费观看| 亚洲美女在线国产| 免费一区二区三区在在线视频| 夜夜狠狠擅视频| 国产精品久久国产愉拍| 久久精品久久久久| 亚洲一区二区自偷自拍| 99精品国产高清一区二区麻豆| 色久综合一二码| 欧洲精品在线播放| 日韩精品黄色| 久久久久久久综合色一本| 国产精品极品美女粉嫩高清在线| 欧美一级特黄高清视频| 一本久久青青| 日韩欧美成人午夜| 深夜黄色小视频| 中文字幕高清在线播放| 亚洲线精品一区二区三区八戒| 亚洲国产婷婷香蕉久久久久久99| 女人18毛片一区二区三区| 乱一区二区av| 国产精品久久久久9999| aaa人片在线| 欧美日韩少妇| 伦理中文字幕亚洲| 五月婷婷综合在线观看| 在线观看视频一区二区三区| 欧美日韩免费视频| 99视频免费播放| 中国字幕a在线看韩国电影| 亚洲午夜在线电影| 久久香蕉视频网站| 免费看a在线观看| 国产精品网站在线播放| 免费一区二区三区在在线视频| 亚洲欧美另类一区| 国产99一区视频免费| 91久久精品日日躁夜夜躁国产| 亚洲午夜18毛片在线看| 亚洲伦理精品| 久久久久亚洲精品国产 | 亚洲午夜激情网页| 一区二区三区免费看| 高清av电影在线观看| 国产亚洲一区二区三区四区 | 国产.欧美.日韩| 成人欧美一区二区三区视频 | 欧美日韩亚洲综合| 三级视频中文字幕| 国内自拍亚洲| 在线电影院国产精品| 一级做a免费视频| 91成人福利社区| 欧美一区二区三区的| 91香蕉国产线在线观看| 国产一区二区三区免费在线| 欧美一区二区女人| www.四虎在线| 日韩欧美天堂| 亚洲欧美成人在线| 免费看裸体网站| av资源久久| 日韩在线观看av| 一区二区三区四区五区| 国内精品99| 91av国产在线| 日韩欧美一级大片| 激情六月婷婷久久| 国产精品久久久久久久久久直播 | 成人国产精品一级毛片视频| 日韩在线中文视频| 麻豆影视在线播放| 国语精品一区| 日本亚洲欧美成人| 91女人18毛片水多国产| 国产91在线观看丝袜| 久久国产主播精品| 三级在线观看| 中文字幕一区二区三区蜜月| www.欧美黄色| 激情都市亚洲| 欧美一级免费观看| 最近中文字幕免费视频| 欧美电影《睫毛膏》| 久久国产精品久久精品| 久久综合激情网| 日韩不卡免费视频| 国产精品久久久久久久小唯西川| 人妻91麻豆一区二区三区| 久久久另类综合| 无码人妻aⅴ一区二区三区日本| 极品视频在线| 欧美日韩国产综合一区二区 | 99久久精品免费精品国产| 日韩jizzz| 黄色成人在线网| 欧美性感一区二区三区| 天堂av2020| 亚洲素人在线| 欧美高清视频在线播放| 国产黄网在线观看| 成人av免费在线观看| 亚洲最新在线| 韩日精品一区二区| 欧美r级在线观看| 五月婷婷婷婷婷| 99成人精品| 91香蕉电影院| www.av在线播放| 日韩欧美福利视频| 亚洲av无一区二区三区久久| 日韩欧美精品| 欧美中文在线观看| 丁香六月色婷婷| 国产农村妇女毛片精品久久麻豆| 一本久道高清无码视频| 老司机精品视频网| 亚洲色在线视频| 好吊妞视频一区二区三区| 国产高清亚洲一区| 国产高清免费在线| 91九色综合| 亚洲品质视频自拍网| 日韩精品久久久久久久| 丁香网亚洲国际| 欧美少妇一级片| 青青在线精品| www.国产一区| 亚洲天堂网在线视频| 91丝袜美腿高跟国产极品老师| 成人一级生活片| 亚洲精品一区av| 中国日韩欧美久久久久久久久| 中文字幕视频网站| 久久综合中文字幕| 国产原创popny丨九色| 国产女人18毛片水真多18精品| 免费99精品国产自在在线| 亚洲怡红院av| 国产亚洲女人久久久久毛片| 欧美 日韩精品| 偷拍精品福利视频导航| 日韩免费不卡av| 国产日本在线| 欧美探花视频资源| 成人做爰69片免网站| 日韩成人午夜电影| 国产美女视频免费| 福利片一区二区| 国产成人精品综合久久久| 暖暖日本在线观看| 日韩免费在线观看| 黄色在线观看国产| 国产精品成人免费| 白嫩情侣偷拍呻吟刺激| 久久成人一区| 2025韩国大尺度电影| 九九热播视频在线精品6| 国产精品com| 1区2区3区在线视频| 日韩精品久久久久久久玫瑰园 | 奇米精品一区二区三区四区 | 日韩在线一区二区三区| 亚洲成人动漫在线| 欧美一级一片| 国产一区视频在线播放| 第一av在线| 国产一区二区三区在线观看视频| 国产高清免费观看| 日韩欧美综合在线视频| 亚洲色偷偷综合亚洲av伊人| 91在线国内视频| 在线免费看v片| 久久aⅴ国产紧身牛仔裤| 亚洲欧美日韩另类精品一区二区三区| 777久久精品| 国产精品一区专区欧美日韩| h片在线观看下载| www.久久撸.com| 欧洲亚洲在线| 亚洲电影成人av99爱色| 国产精品人人妻人人爽| 欧美午夜性色大片在线观看| 亚洲伦理一区二区三区| 国产欧美日韩在线看| 伊人网综合视频| 国产精品一区二区你懂的| 久久午夜夜伦鲁鲁一区二区| 亚洲少妇一区| 日韩久久久久久久久久久久| 青草国产精品| 久久亚洲午夜电影| 第四色中文综合网| www.成人av.com| 国产精品亚洲四区在线观看| 国产精品第七影院| 日韩性xxx| 97成人在线视频| 黄网站在线观| 久热精品在线视频| 免费观看在线午夜影视| 中文字幕精品av| 国产在线视频网| 日韩精品极品视频免费观看| 日本高清视频网站| 亚洲国产成人久久| 亚洲欧美黄色片| 欧美成人性战久久| h狠狠躁死你h高h| 91精品久久久久久久91蜜桃| 影音先锋国产资源| 欧美色综合网站| 国产精品成人无码| 欧美日韩一卡二卡三卡| 日韩精选在线观看| 欧洲一区二区三区免费视频| 日本中文字幕在线观看视频| 日韩欧美主播在线| 日韩中文字幕在线观看视频| 一本色道**综合亚洲精品蜜桃冫| 国产午夜在线播放| 欧美午夜精品久久久久久久| 天天操夜夜操视频| 在线视频你懂得一区| 成人黄色激情视频| 欧美性感一区二区三区| 91国在线视频| 欧美一区二区三区在线| 午夜精品在线播放| 亚洲国产毛片完整版| 桃花色综合影院| 伊人伊成久久人综合网小说| 免费黄色电影在线观看| 久久亚洲影音av资源网| 欧美极品少妇videossex| 欧美日本国产在线| 国产精品偷拍| 97在线看免费观看视频在线观看| 中文字幕乱码中文乱码51精品| 国产精品va在线播放| 欧美亚洲人成在线| 99在线免费观看视频| 欧美freesex8一10精品| 日韩三级在线播放| 亚洲精品久久久| 成人免费播放器| 丝袜国产日韩另类美女| 久久人人爽av| 不卡电影一区二区三区| 蜜桃传媒一区二区亚洲| 亚洲私人黄色宅男| 久久精品免费在线| 在线观看区一区二| 国产wwwxxx| 日韩国产在线播放| 欧美日韩视频在线播放| 欧美激情奇米色| 日本一道高清亚洲日美韩| 91探花福利精品国产自产在线| 久久动漫网址| 国产福利片一区二区| 国产日韩一区二区三区在线播放| 日本www.色| 国产成人激情av| 一级黄色录像毛片| 亚洲午夜一二三区视频| 最新黄色网址在线观看| 精品久久久久久久久久久院品网| 精品视频三区| 欧美片一区二区三区| 亚洲精品一级二级| 国产精品一区视频网站| 日韩精品水蜜桃| 99999精品视频| 国产精品自拍在线| 日本精品在线观看视频| 午夜一区二区三区视频| 亚洲一区二区人妻| 日韩毛片中文字幕| 男插女视频久久久| 成人免费黄色网| 奇米亚洲欧美| 精品久久久久久久久久中文字幕| 美国三级日本三级久久99| 国产中文字幕一区二区| 亚洲卡通动漫在线| 亚洲天堂网在线观看视频| 亚洲免费精彩视频| 97蜜桃久久| 亚洲尤物视频网| 久久一区91| 亚欧在线免费观看| av网站一区二区三区| 久久久久久国产精品免费播放| 欧美日韩免费视频| 黄网站在线观看| 日本亚洲欧洲色α| 亚洲小说图片| 中文字幕无码精品亚洲35| 国产成人免费在线观看不卡| 欧美a级片免费看| 欧美色图12p| 成人在线免费电影| 国产精品国内视频| 欧美自拍偷拍| 国产视频一区二区视频| 久久先锋影音av| 亚洲欧美自拍视频| 亚洲欧美激情视频| 欧美成人黑人| 欧美日韩一区二区三区在线视频 | 97免费视频在线播放| jazzjazz国产精品久久| 国产在线无码精品| 国产成人av一区| 麻豆视频在线观看| 精品91在线| 亚洲 激情 在线| 国产精品九色蝌蚪自拍| 在线免费看91| 精品国模在线视频| 999精品嫩草久久久久久99| 一区二区视频国产| 精品中文字幕一区二区| a一级免费视频| 51午夜精品国产| 日韩三级电影视频| 国产精品加勒比| 国产一区二区三区久久| 一本加勒比北条麻妃| 91久久精品日日躁夜夜躁欧美| 久草在现在线| 国产精品视频男人的天堂| 午夜精品一区二区三区国产| 色91精品久久久久久久久| 亚洲欧美日韩在线| 丰满熟女一区二区三区| 欧美重口另类videos人妖| 国产精品欧美三级在线观看| 三级在线视频观看| 亚洲情趣在线观看| 少妇人妻一区二区| 国产成人91久久精品| 91亚洲一区| 91超薄肉色丝袜交足高跟凉鞋| 婷婷成人激情在线网| 国产在线观看免费| 亚洲一区二区三区成人在线视频精品| 欧美视频网站| 毛片网站免费观看| 欧美美女一区二区在线观看| 在线中文字幕第一页| 精品国产一区二区三| 蜜桃在线一区二区三区| 一区二区视频免费看| 亚洲精品国产精品国自产在线| 香蕉久久免费电影| 中文字幕第50页| 久久久综合激的五月天| 国产男男gay体育生网站| 91精品国产自产91精品| 久久亚洲专区| 亚洲av无码一区二区三区观看| 欧美亚洲国产一区二区三区| 色呦呦久久久| 性刺激综合网| av一区二区三区在线| 一级做a爱片性色毛片| 91国内精品久久| 亚州av乱码久久精品蜜桃 | 99精品国产一区二区三区2021| 欧美 日韩精品| 亚洲一区二区不卡免费| 91精品国产综合久久久久久豆腐| 成人影片在线播放|