精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

向量化與HashTrick在文本挖掘中預處理中的體現

人工智能 深度學習
在(文本挖掘的分詞原理)中,我們講到了文本挖掘的預處理的關鍵一步:“分詞”,而在做了分詞后,如果我們是做文本分類聚類,則后面關鍵的特征預處理步驟有向量化或向量化的特例Hash Trick,本文我們就對向量化和特例Hash Trick預處理方法做一個總結。

[[201071]]

前言

在(文本挖掘的分詞原理)中,我們講到了文本挖掘的預處理的關鍵一步:“分詞”,而在做了分詞后,如果我們是做文本分類聚類,則后面關鍵的特征預處理步驟有向量化或向量化的特例Hash Trick,本文我們就對向量化和特例Hash Trick預處理方法做一個總結。

詞袋模型

在講向量化與Hash Trick之前,我們先說說詞袋模型(Bag of Words,簡稱BoW)。詞袋模型假設我們不考慮文本中詞與詞之間的上下文關系,僅僅只考慮所有詞的權重。而權重與詞在文本中出現的頻率有關。

詞袋模型首先會進行分詞,在分詞之后,通過統計每個詞在文本中出現的次數,我們就可以得到該文本基于詞的特征,如果將各個文本樣本的這些詞與對應的詞頻放在一起,就是我們常說的向量化。向量化完畢后一般也會使用TF-IDF進行特征的權重修正,再將特征進行標準化。 再進行一些其他的特征工程后,就可以將數據帶入機器學習算法進行分類聚類了。

詞袋模型的三部曲:

  • 分詞(tokenizing);
  • 統計修訂詞特征值(counting);
  • 標準化(normalizing);

與詞袋模型非常類似的一個模型是詞集模型(Set of Words,簡稱SoW),和詞袋模型***的不同是它僅僅考慮詞是否在文本中出現,而不考慮詞頻。也就是一個詞在文本在文本中出現1次和多次特征處理是一樣的。在大多數時候,我們使用詞袋模型,后面的討論也是以詞袋模型為主。

當然,詞袋模型有很大的局限性,因為它僅僅考慮了詞頻,沒有考慮上下文的關系,因此會丟失一部分文本的語義。但是大多數時候,如果我們的目的是分類聚類,則詞袋模型表現的很好。

BoW之向量化

在詞袋模型的統計詞頻這一步,我們會得到該文本中所有詞的詞頻,有了詞頻,我們就可以用詞向量表示這個文本。這里我們舉一個例子,例子直接用scikit-learn的CountVectorizer類來完成,這個類可以幫我們完成文本的詞頻統計與向量化,代碼如下:

  1. from sklearn.feature_extraction.text import CountVectorizer   
  2. corpus=["I come to China to travel",  
  3.    "This is a car polupar in China",           
  4.    "I love tea and Apple ",    
  5.    "The work is to write some papers in science"]  
  6. print vectorizer.fit_transform(corpus) 

 

我們看看對于上面4個文本的處理輸出如下:

  1. (0, 16)1 
  2.  (0, 3)1 
  3.  (0, 15)2 
  4.  (0, 4)1 
  5.  (1, 5)1 
  6.  (1, 9)1 
  7.  (1, 2)1 
  8.  (1, 6)1 
  9.  (1, 14)1 
  10.  (1, 3)1 
  11.  (2, 1)1 
  12.  (2, 0)1 
  13.  (2, 12)1 
  14.  (2, 7)1 
  15.  (3, 10)1 
  16.  (3, 8)1 
  17.  (3, 11)1 
  18.  (3, 18)1 
  19.  (3, 17)1 
  20.  (3, 13)1 
  21.  (3, 5)1 
  22.  (3, 6)1 
  23.  (3, 15)1 

 

可以看出4個文本的詞頻已經統計出,在輸出中,左邊的括號中的***個數字是文本的序號,第2個數字是詞的序號,注意詞的序號是基于所有的文檔的。第三個數字就是我們的詞頻。

我們可以進一步看看每個文本的詞向量特征和各個特征代表的詞,代碼如下:

  1. print vectorizer.fit_transform(corpus).toarray() 
  2.  
  3. print vectorizer.get_feature_names() 

 

輸出如下:

  1. [[0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 2 1 0 0] 
  2.  
  3. [0 0 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0] 
  4.  
  5. [1 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0] 
  6.  
  7. [0 0 0 0 0 1 1 0 1 0 1 1 0 1 0 1 0 1 1]] 
  8.  
  9. [u'and', u'apple', u'car', u'china', u'come', u'in', u'is', u'love', u'papers', u'polupar', u'science', u'some', u'tea', u'the', u'this', u'to', u'travel', u'work', u'write'

 

可以看到我們一共有19個詞,所以4個文本都是19維的特征向量。而每一維的向量依次對應了下面的19個詞。另外由于詞”I”在英文中是停用詞,不參加詞頻的統計。

由于大部分的文本都只會使用詞匯表中的很少一部分的詞,因此我們的詞向量中會有大量的0。也就是說詞向量是稀疏的。在實際應用中一般使用稀疏矩陣來存儲。將文本做了詞頻統計后,我們一般會通過TF-IDF進行詞特征值修訂。

向量化的方法很好用,也很直接,但是在有些場景下很難使用,比如分詞后的詞匯表非常大,達到100萬+,此時如果我們直接使用向量化的方法,將對應的樣本對應特征矩陣載入內存,有可能將內存撐爆,在這種情況下我們怎么辦呢?***反應是我們要進行特征的降維,說的沒錯!而Hash Trick就是非常常用的文本特征降維方法。

Hash Trick

在大規模的文本處理中,由于特征的維度對應分詞詞匯表的大小,所以維度可能非常恐怖,此時需要進行降維,不能直接用我們上一節的向量化方法。而最常用的文本降維方法是Hash Trick。說到Hash,一點也不神秘,學過數據結構的同學都知道。這里的Hash意義也類似。

在Hash Trick里,我們會定義一個特征Hash后對應的哈希表的大小,這個哈希表的維度會遠遠小于我們的詞匯表的特征維度,因此可以看成是降維。具體的方法是,對應任意一個特征名,我們會用Hash函數找到對應哈希表的位置,然后將該特征名對應的詞頻統計值累加到該哈希表位置。如果用數學語言表示,假如哈希函數h使第i個特征哈希到位置j,即h(i)=j,則第i個原始特征的詞頻數值ϕ(i)將累加到哈希后的第j個特征的詞頻數值ϕ¯上,即:

 

 

 

 

但是上面的方法有一個問題,有可能兩個原始特征的哈希后位置在一起導致詞頻累加特征值突然變大,為了解決這個問題,出現了hash Trick的變種signed hash trick,此時除了哈希函數h,我們多了一個哈希函數:

 

這樣做的好處是,哈希后的特征仍然是一個無偏的估計,不會導致某些哈希位置的值過大。

在scikit-learn的HashingVectorizer類中,實現了基于signed hash trick的算法,這里我們就用HashingVectorizer來實踐一下Hash Trick,為了簡單,我們使用上面的19維詞匯表,并哈希降維到6維。當然在實際應用中,19維的數據根本不需要Hash Trick,這里只是做一個演示,代碼如下:

  1. from sklearn.feature_extraction.text import HashingVectorizer  
  2. vectorizer2=HashingVectorizer(n_features = 6,norm = None)print vectorizer2.fit_transform(corpus) 

 

輸出如下:

  1. (0, 1)2.0 
  2.  
  3. (0, 2)-1.0 
  4.  
  5. (0, 4)1.0 
  6.  
  7. (0, 5)-1.0 
  8.  
  9. (1, 0)1.0 
  10.  
  11. (1, 1)1.0 
  12.  
  13. (1, 2)-1.0 
  14.  
  15. (1, 5)-1.0 
  16.  
  17. (2, 0)2.0 
  18.  
  19. (2, 5)-2.0 
  20.  
  21. (3, 0)0.0 
  22.  
  23. (3, 1)4.0 
  24.  
  25. (3, 2)-1.0 
  26.  
  27. (3, 3)1.0 
  28.  
  29. (3, 5)-1.0 

 

和PCA類似,Hash Trick降維后的特征我們已經不知道它代表的特征名字和意義。此時我們不能像上一節向量化時候可以知道每一列的意義,所以Hash Trick的解釋性不強。

小結

在特征預處理的時候,我們什么時候用一般意義的向量化,什么時候用Hash Trick呢?標準也很簡單。

一般來說,只要詞匯表的特征不至于太大,大到內存不夠用,肯定是使用一般意義的向量化比較好。因為向量化的方法解釋性很強,我們知道每一維特征對應哪一個詞,進而我們還可以使用TF-IDF對各個詞特征的權重修改,進一步完善特征的表示。

而Hash Trick用大規模機器學習上,此時我們的詞匯量極大,使用向量化方法內存不夠用,而使用Hash Trick降維速度很快,降維后的特征仍然可以幫我們完成后續的分類和聚類工作。當然由于分布式計算框架的存在,其實一般我們不會出現內存不夠的情況。因此,實際工作中我使用的都是特征向量化。 

責任編輯:龐桂玉 來源: 36大數據
相關推薦

2011-06-19 08:59:59

錨文本

2018-10-11 10:38:31

前端JavaScript編程語言

2009-12-29 14:58:31

WPF優點

2012-08-24 09:58:09

ReactorDSSC

2024-10-22 15:41:47

NumPyPython

2021-11-03 09:00:00

深度學習自然語言機器學習

2021-03-28 08:57:57

Python 文本數據

2009-12-29 14:00:02

WPF Dispatc

2020-12-23 11:08:10

Python代碼文本

2024-05-09 08:11:04

OllamaGo訓練文本

2009-12-04 17:31:32

PHP編碼轉換

2016-05-23 15:42:07

數據挖掘

2025-01-26 10:21:54

2023-11-14 16:29:14

深度學習

2010-03-03 17:52:31

Python線程同步

2021-11-09 20:18:21

數字化

2010-05-05 16:17:27

Oracle安全策略

2010-01-08 18:02:33

VB.NET事件

2024-12-20 13:00:00

Python文本清洗預處理

2017-01-19 14:45:34

數據挖掘Google再營銷
點贊
收藏

51CTO技術棧公眾號

天堂社区 天堂综合网 天堂资源最新版 | 你懂得视频在线观看| 外国电影一区二区| 亚洲精品老司机| 青青草久久网络| 97人妻精品一区二区三区视频| 黄色亚洲在线| 色爱av美腿丝袜综合粉嫩av| 97精品人人妻人人| 视频91a欧美| 欧美日韩加勒比精品一区| 台湾成人av| 亚洲欧美日韩精品永久在线| 精品一区二区影视| 欧美综合第一页| 麻豆亚洲av熟女国产一区二| 欧美日韩精品一区二区视频| 精品久久久久一区二区国产| 日本激情视频在线播放| 福利写真视频网站在线| 国产精品成人免费在线| 免费一区二区三区| 人人妻人人澡人人爽精品日本| 毛片不卡一区二区| 欧美整片在线观看| 日干夜干天天干| 亚洲综合色网| 久久精品小视频| 精品人妻中文无码av在线| 欧美美女在线直播| 欧美成人一区二区三区片免费 | 亚洲最新视频在线| 亚洲av网址在线| 精品国产乱子伦一区二区| 欧美一区二区视频网站| 天天爽天天爽夜夜爽| 欧美xoxoxo| 色综合婷婷久久| 黄色动漫在线免费看| 国产精品原创| 午夜免费久久看| av免费观看大全| av在线加勒比| 亚洲成av人片一区二区| 日韩中字在线观看| 3344国产永久在线观看视频| 一区二区三区四区视频精品免费 | 日韩中文字幕视频在线| 中文字幕被公侵犯的漂亮人妻| 欧美美女在线直播| 亚洲国产精品大全| 亚洲第九十七页| 偷窥自拍亚洲色图精选| 亚洲国产精品久久久久| 荫蒂被男人添免费视频| 老牛精品亚洲成av人片| 亚洲韩国日本中文字幕| 免费a在线观看播放| 农村少妇一区二区三区四区五区| 精品电影一区二区三区| 欧美性生交xxxxx| 日韩av午夜| 亚洲免费一在线| 91网站免费视频| 不卡一区2区| www.日韩不卡电影av| 小泽玛利亚一区二区免费| 亚洲mv大片欧洲mv大片| 欧美黑人性生活视频| 久久久久久激情| 亚洲精华国产欧美| 国产精品扒开腿做爽爽爽的视频| 国产精品suv一区| 美腿丝袜在线亚洲一区| 91精品视频观看| 国产高清在线免费| 99精品黄色片免费大全| 日韩福利在线| 黄色一级大片在线免费看产| 亚洲免费色视频| 日韩精品视频久久| 白嫩亚洲一区二区三区| 亚洲丁香久久久| 日韩精品无码一区二区三区久久久| 色欧美自拍视频| 国内精品在线一区| 波多野结衣在线电影| 国产老肥熟一区二区三区| 国产免费一区二区三区| 国产精品二线| 亚洲国产成人av| 杨幂毛片午夜性生毛片| 91蜜桃臀久久一区二区| 国产视频一区在线| 91香蕉视频在线播放| 国产手机视频一区二区| 国产视频999| 欧美新色视频| 一区二区三区中文在线观看| aaaaaa亚洲| 日韩中文字幕一区二区高清99| 精品五月天久久| 91嫩草|国产丨精品入口| 午夜在线视频一区二区区别| 亚洲www永久成人夜色| 头脑特工队2在线播放| 亚洲欧美韩国综合色| 日韩精品一区二区三区久久| 韩国一区二区三区视频| 亚洲视频在线播放| 国产一级理论片| 国产尤物一区二区| 四虎一区二区| 日本精品不卡| 亚洲国产欧美一区二区三区同亚洲| 久草手机视频在线观看| 亚洲综合日韩| 国产一区二区视频在线免费观看| caoporn国产精品免费视频| 黄色成人在线播放| 国产精品日日摸夜夜爽| 日韩在线视频精品| 国产精品成人v| 欧美日韩免费做爰大片| 亚洲成人免费观看| www.欧美com| 91精品国产自产在线观看永久∴ | 欧美精品成人网| 人妖一区二区三区| 九九热视频这里只有精品| 亚洲天堂久久久久| 国产拍揄自揄精品视频麻豆| 九九九九免费视频| 欧美日韩导航| 欧美激情一二三| 精品久久久无码中文字幕| 一区在线播放视频| 在线观看日本一区二区| 欧美系列电影免费观看| 欧洲中文字幕国产精品| 亚洲欧美日韩动漫| 黑人巨大精品欧美一区二区三区| 黄色免费视频网站| 中文日韩欧美| 精品高清视频| 伊人成综合网站| 日韩国产高清视频在线| 免费在线不卡视频| 91亚洲男人天堂| 欧美黄色免费影院| 国产免费久久| 国产日本欧美一区| av片在线观看免费| 欧美tk—视频vk| 日韩精品在线免费看| 91麻豆精东视频| 乱子伦视频在线看| 欧美手机视频| 国产欧美日韩精品在线观看| 国产一区精品| 777久久久精品| 欧美日韩免费做爰视频| 高清不卡在线观看av| 久久久久久久9| 精品视频高潮| 8050国产精品久久久久久| 手机看片福利在线观看| 欧美视频在线播放| 欧美特级一级片| 97aⅴ精品视频一二三区| 国产日韩一区二区在线| 成人一区二区| 999精品视频一区二区三区| 91视频欧美| 这里只有视频精品| 国产绿帽一区二区三区| 亚洲精品视频自拍| 成人免费看aa片| 捆绑调教一区二区三区| 日b视频免费观看| 免费黄色成人| 91麻豆国产语对白在线观看| 欧美14一18处毛片| 亚洲精品中文字幕女同| 亚洲特级黄色片| 午夜视频在线观看一区二区| 亚洲成人网在线播放| 国产一区二区中文字幕| 99久久国产综合精品五月天喷水| 你微笑时很美电视剧整集高清不卡| 国产精品中文字幕在线| 国产白浆在线免费观看| 日韩在线视频网| 天堂成人在线| 欧美一二三四区在线| 欧美a∨亚洲欧美亚洲| 亚洲婷婷在线视频| 亚洲熟妇无码av| 国产一区不卡视频| wwwxxx黄色片| 亚洲国产欧美国产综合一区| 亚洲电影一二三区| 精品久久对白| 92福利视频午夜1000合集在线观看 | 超碰人人人人人人| 欧美中文字幕一区| 日本网站在线播放| 亚洲人成在线观看一区二区| 波多野结衣一本| 成人性生交大片免费看视频在线 | 欧美日韩一级黄色片| 一区二区三区在线免费播放 | 天堂а√在线8种子蜜桃视频| 欧美一级欧美三级在线观看| 久久久精品毛片| 亚洲午夜久久久久中文字幕久| 久久视频一区二区三区| 久久综合给合久久狠狠狠97色69| 不许穿内裤随时挨c调教h苏绵| 蜜桃传媒麻豆第一区在线观看| 日本免费黄视频| 99国产精品久久久久久久成人热 | 免费亚洲一区| www.av毛片| 黄色综合网站| 免费看日b视频| 97视频热人人精品免费| 视频一区视频二区视频三区视频四区国产 | 欧美人与性动交α欧美精品济南到 | 多野结衣av一区| 欧美国产日韩一区二区在线观看| 黄色网址在线免费播放| 色爱精品视频一区| 9i精品一二三区| 中文字幕精品久久久久| 国产视频二区在线观看| 亚洲人成网站777色婷婷| 亚洲欧洲综合在线| 日韩高清免费在线| 你懂的在线播放| 亚洲欧美激情精品一区二区| 欧洲亚洲在线| 国产亚洲a∨片在线观看| 国产三级视频在线看| 国产丝袜精品视频| 五月婷婷丁香六月| 精品在线欧美视频| 国产在线电影| 日韩在线观看免费全集电视剧网站| 黄色网址在线播放| 国产一区av在线| 888av在线| 久热99视频在线观看| 在线电影福利片| 久久久伊人日本| 中文字幕在线直播| 国产精品久久久999| 精品福利在线| 91精品久久久久久蜜桃| 99a精品视频在线观看| 国产有色视频色综合| 欧美有码在线| 日韩午夜视频在线观看| 国产精品91一区二区三区| av中文字幕av| 亚洲免费高清| 欧美黑人又粗又大又爽免费| 日韩电影一二三区| 污免费在线观看| 99视频有精品| 国产美女网站视频| 一区二区成人在线| 亚洲欧美精品一区二区三区| 日本大香伊一区二区三区| 亚洲在线视频播放| 欧美mv日韩mv国产网站app| 三级在线观看| 久久精品久久久久久| 98色花堂精品视频在线观看| 国产999精品久久久影片官网| 久久精品嫩草影院| av一区二区在线看| 国产中文精品久高清在线不| 中文字幕综合在线观看| 最新亚洲视频| 在线不卡一区二区三区| 白白色亚洲国产精品| 一本在线免费视频| 亚洲成人动漫av| 亚洲天堂视频网| 亚洲国产欧美一区二区三区同亚洲| 高h视频在线| 色综合久综合久久综合久鬼88| 美女福利一区二区| 亚洲最大福利网站| 国产欧美久久一区二区三区| 妞干网这里只有精品| 麻豆久久婷婷| 图片区偷拍区小说区| 亚洲国产成人自拍| 91在线看视频| 欧美大片国产精品| 秋霞午夜在线观看| 欧美最猛黑人xxxx黑人猛叫黄| 国产日韩在线观看视频| 日本精品视频一区| 亚洲乱码久久| 久久发布国产伦子伦精品| 欧美激情一区二区三区在线| 精品小视频在线观看| 欧美乱熟臀69xxxxxx| 香蕉人妻av久久久久天天| 最近更新的2019中文字幕| 波多野结衣乳巨码无在线观看| 国产男人精品视频| 国产一区2区| 欧美牲交a欧美牲交aⅴ免费真 | 日韩一区二区a片免费观看| 亚洲午夜精品一区二区三区他趣| 亚洲一区二区影视| 中文字幕亚洲第一| 欧美天堂视频| 久久综合久久久| 一区二区三区精品视频在线观看| 少妇伦子伦精品无吗| 亚洲日本护士毛茸茸| 一卡二卡在线视频| 中文一区二区视频| 激情亚洲影院在线观看| 鲁丝一区鲁丝二区鲁丝三区| 一级成人国产| 亚洲综合自拍网| 欧美三级免费观看| 天天操天天操天天操| 久久久这里只有精品视频| 99精品中文字幕在线不卡| 精品无码国产一区二区三区av| 国产成人在线视频网站| 福利所第一导航| 91麻豆精品国产综合久久久久久| 免费的黄网站在线观看| 国产剧情日韩欧美| 香蕉久久网站| 小早川怜子一区二区三区| 日韩一区在线播放| 国产日韩欧美视频在线观看| 久久精品视频播放| 一区二区亚洲视频| 91专区在线观看| 久久久久久久综合日本| www.久久精品视频| 亚洲视频自拍偷拍| 巨大黑人极品videos精品| 亚洲图片欧洲图片日韩av| 黄页视频在线91| 免费在线观看黄视频| 亚洲高清久久网| 电影网一区二区| 午夜一区二区三区| 久久97超碰色| 免费网站观看www在线观| 亚洲精品在线观| 中文字幕资源网在线观看免费| 色噜噜一区二区| 国内精品视频一区二区三区八戒| 免费在线观看av网址| 日韩久久午夜影院| 久久免费影院| 成人一区二区av| 久久久久久久性| 91成人国产综合久久精品| 欧美精品xxx| 视频国产一区| 在线免费观看av网| 天天av天天翘天天综合网色鬼国产| 国产粉嫩一区二区三区在线观看 | 欧美熟妇交换久久久久久分类| 欧美在线视频一区二区| 日韩精品dvd| 日本泡妞xxxx免费视频软件| 精品久久中文字幕久久av| 国产三级在线免费观看| 99国产高清| 奇米四色…亚洲| 日韩欧美亚洲国产| 中文字幕无线精品亚洲乱码一区| 一区二区日韩| 牛夜精品久久久久久久| 亚洲va国产va欧美va观看| av电影在线观看一区二区三区| 国产精品久久久久久久免费大片 | 极品白嫩少妇无套内谢| 色婷婷久久久久swag精品 | 肉丝一区二区| 亚洲在线视频观看| 视频一区在线视频| 麻豆一区二区三区精品视频| 一本大道亚洲视频| 国产精品丝袜在线播放| av亚洲天堂网|