精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

數據挖掘:基于機器學習方法的POI品類推薦算法

大數據 算法
在美團商家數據中心(MDC),有超過100w的已校準審核的POI數據(我們一般將商家標示為POI,POI基礎信息包括:門店名稱、品類、電話、地址、坐標等)。如何使用這些已校準的POI數據,挖掘出有價值的信息,本文進行了一些嘗試:利用機器學習方法,自動標注缺失品類的POI數據。例如,門店名稱為“好再來牛肉拉面館”的POI將自動標注“小吃”品類。

前言

在美團商家數據中心(MDC),有超過100w的已校準審核的POI數據(我們一般將商家標示為POI,POI基礎信息包括:門店名稱、品類、電話、地址、坐標等)。如何使用這些已校準的POI數據,挖掘出有價值的信息,本文進行了一些嘗試:利用機器學習方法,自動標注缺失品類的POI數據。例如,門店名稱為“好再來牛肉拉面館”的POI將自動標注“小吃”品類。

機器學習解決問題的一般過程:


機器學習模型

本文將按照:1)特征表示;2)特征選擇;3)基于Naive Bayes分類模型;4)分類預測,四個部分順序展開。

特征表示

我們需要先將實際問題轉換成計算機可識別的形式。對于POI而言,反應出POI品類的一個重要特征是POI門店名稱,那么問題轉換成了根據POI門店名稱判別POI品類。POI名稱字段屬于文本特征,傳統的文本表示方法是基于向量空間模型(VSM模型)[1]:


向量空間模型

空間向量模型需要一個“字典”,這個字典可以在樣本中產生,也可以從外部導入。上圖中的字典就是[好, 賓館, 海底, 拉面, 冰雪, ....... ,館]。我們對已校準的POI,先利用Lucene的中文分詞工具SmartCn[2]對POI名稱做預分詞處理,提取特征詞,作為原始粗糙字典集合。

有了字典后便可以量化地表示出某個文本。先定義一個與字典長度相同的向量,向量中的每個位置對應字典中的相應位置的單詞。然后遍歷這個文本,對應文本中的出現某個單詞,在向量中的對應位置,填入“某個值”(即特征詞的權重,包括BOOL權重,詞頻權重,TFIDF權重)。考慮到一般的POI名稱都屬于短文本,本文采用BOOL權重。

在產生粗糙字典集合時,我們還統計了校準POI中,每個品類(type_id),以及特征詞(term)在品類(type_id)出現的次數(文檔頻率)。分別寫入到表category_frequency和term_category_frequency,表的部分結果如下:

category_frequency表:

category_frequency

term_category_frequency表:

category_frequency

分別記:

這些統計量,將在后續的計算中發揮它們的作用。

特征選擇

現在,我們得到了一個“預輸入字典”:包括了所有已校準POI名稱字段的特征詞,這些特征詞比如:“88”、“11”, “3”、“auyi”、“中心”、“中國”、“酒店”、“自助餐”、“拉面”等。直觀感覺,“88”、“11”, “3”、“auyi”、“中國”這些詞對判斷品類并沒有多大幫助,但“酒店”、“自助餐”、“拉面”對判斷一個POI的品類卻可能起到非常重要作用。

那么問題來了,如何挑選出有利于模型預測的特征呢?這就涉及到了特征選擇。特征選擇方法可以分成基于領域知識的規則方法和基于統計學習方法。本文使用統計機器學習方法,輔助規則方法的特征選擇算法,挑選有利于判斷POI品類的特征詞。

基于統計學習的特征選擇算法

基于統計學習的特征選擇算法,大體可以分成兩種:

1.基于相關性度量(信息論相關)

2.特征空間表示(典型的如PCA)

文本特征經常采用的基于信息增益方法(IG)特征選擇方法[3]。某個特征的信息增益是指,已知該特征條件下,整個系統的信息量的前后變化。如果前后信息量變化越大,那么可以認為該特征起到的作用也就越大。
那么,如何定義信息量呢?一般采用熵的概念來衡量一個系統的信息量:

當我們已知該特征時,從數學的角度來說就是已知了該特征的分布,系統的信息量可以由條件熵來描述:

該特征的信息增益定義為:

信息增益得分衡量了該特征的重要性。假設我們有四個樣本,樣本的特征詞包括“火鍋”、“米粉”、“館”,我們采用信息增益判斷不同特征對于決策影響:

米粉(A) 火鍋(B) 館(C) 品類
1 1 0 火鍋
0 1 1 火鍋
1 0 0 小吃
1 0 1 小吃

整個系統的最原始信息熵為:

分別計算每個特征的條件熵:

利用整個系統的信息熵減去條件熵,得到每個特征的信息增益得分排名(“火鍋”(1) > “米粉”(0.31) > “館”(0)) ,按照得分由高到低挑選需要的特征詞。

本文采用IG特征選擇方法,選擇得分排名靠前的N個特征詞(Top 30%)。我們抽取排名前20的特征詞:[酒店, 賓館, 火鍋, 攝影, 眼鏡, 美容, 咖啡, ktv, 造型, 汽車, 餐廳, 蛋糕, 兒童, 美發, 商務, 旅行社, 婚紗, 會所, 影城, 烤肉]。這些特征詞明顯與品類屬性相關聯具有較強相關性,我們將其稱之為品類詞。

基于領域知識的特征選擇方法

基于規則的特征選擇算法,利用領域知識選擇特征。目前很少單獨使用基于規則的特征選擇算法,往往結合統計學習的特征選擇算法,輔助挑選特征。

本文需要解決的是POI名稱字段短文本的自動分類問題,POI名稱字段一般符合這樣的規則,POI名稱 = 名稱核心詞 + 品類詞。名稱核心詞對于實際的品類預測作用不大,有時反而出現”過度學習“起到負面作用。例如”好利來牛肉拉面館“, ”好利來“是它的名稱核心詞,在用學習算法時學到的很有可能是一個”蛋糕“品類(”好利來“和”蛋糕“品類的關聯性非常強,得到錯誤的預測結論)。

本文使用該規則在挑選特征時做了一個trick:利用特征選擇得到的特征詞(絕大部分是品類詞),對POI名稱字段分詞,丟棄前面部分(主要是名稱核心詞),保留剩余部分。這種trick從目前的評測結果看有5%左右準確率提升,缺點是會降低了算法覆蓋度。

分類模型

建模

完成了特征表示、特征選擇后,下一步就是訓練分類模型了。機器學習分類模型可以分成兩種:1)生成式模型;2)判別式模型。可以簡單認為,兩者區別生成式模型直接對樣本的聯合概率分布進行建模:

生成式模型的難點在于如何去估計類概率密度分布p(x|y)。本文采用的樸素貝葉斯模型,其"Naive"在對類概率密度函數簡化上,它假設了條件獨立:

根據對p(x|y)不同建模形式,Naive Bayes模型主要分成:Muti-variate Bernoulli Model (多項伯努利模型)和Multinomial event model(多項事件模型)[4]。一次伯努利事件相當于一次投硬幣事件(0,1兩種可能),一次多項事件則相當于投色子(1到6多種可能)。我們結合傳統的文本分類解釋這兩類模型:

多項伯努利模型
已知類別的條件下,多項伯努利對應樣本生X成過程:遍歷字典中的每個單詞(t1,t2...t|V|),判斷這個詞是否在樣本中出現。每次遍歷都是一次伯努利實驗,|V|次遍歷:



 其中1(condition)為條件函數,該函數表示當條件成立是等于1,不成立時等于0;|V|則表示字典的長度。

多項事件模型

已知類別的條件下,多項事件模型假設樣本的產生過程:對文本中第k個位置的單詞,從字典中選擇一個單詞,每個位置k產生單詞對應于一次多項事件。樣本X=(w1,w2...ws)的類概率密度:



 

采用向量空間模型表示樣本時,上式轉成:



其中N(ti,X) 表示特征詞i在樣本X出現的次數。

參數估計

好啦,一大堆無聊公式的折磨后,我們終于要見到勝利的曙光:模型參數預估。一般的方法有***似然估計、***后驗概率估計等。本文使用的是多項伯努利模型,我們直接給出多項伯努利模型參數估計結論:

還記得特征表示一節中統計的term_category_frequency和category_frequency兩張表嗎?此時,就要發揮它的作用了!我們,只需要查詢這兩張表,就可以完成參數的估計了,是不是很happy? 過程雖然有點曲折,但是結果是美好的~ 具體參數意義可以參見特征表示一節。

接下來的coding的可能需要關注的兩個點:

  • 參數平滑
    在計算類概率密度p(X | Cj)時,如果在類Cj下沒有出現特征ti ,p(ti | Cj)=0,類概率密度連乘也將會等于0,額,對于一個樣本如果在某條件下某個特征沒有出現,便認為她產生的可能等于零,這樣的結論實在是過武斷,解決方法是加1平滑:

    其中,|C|表示樣本的類別數據。

  • 小數溢出
    在計算類概率密度時多個條件概率(小數)連乘,會存在著超過計算機能夠表示的最小數可能,為避免小數溢出問題,一般將類概率密度計算轉成成對數累和的形式。

    另外,如果在計算p(ti | Cj)時過小,取對數后將會得到一個負無窮的值,需要對p(ti | Cj)截斷處理:小于某個閾值(如1E-6)時,采用該閾值替代。

算法預測

本節將結合前面三節內容,給出算法具體的計算預測過程。為簡化問題,我們假設字典為:[拉面,七天,牛肉,館],并且只有火鍋和快餐兩個品類,兩類樣本的數量均為8個。以“好 利 來 牛肉 拉面 館為例”:

  • 對測試樣本做中文分詞,判斷”牛肉“屬于品類詞,丟棄品類詞”牛肉“前面的部分,并提取樣本的特征詞集合得到:[牛肉 拉面 館]
  • 根據字典,建立向量空間模型:x = [1, 0, 1, 1]
  • 利用Naive Bayes模型分類預測,我們給出火鍋和快餐兩類樣本的term_category_frequency統計:
特征詞\品類 火鍋(C1) 快餐(C2)
拉面 0 5
七天 2 0
牛肉 4 2
2 1

樣本屬于快餐的概率高于屬于火鍋概率4倍,預測樣本屬于快餐置信度明顯高于火鍋概率。

算法隨機抽取2000條未校準的POI數據進行評測,算法的評測指標有兩個:覆蓋度和準確率。覆蓋度是指算法可預測的樣本數量在整個測試樣本集中的比例。由于采用特征選擇后,一些POI名稱因不包含特征詞集合而無法預測,算法的評測的覆蓋度為84%。算法的準確率是指,可預測正確樣本在整個測試樣本集中的比例,算法評測的正確率為91%。

總結

  • 機器學習解決問題最關鍵的一步是找準問題:這種問題能否用機器學習算法解決?是否存在其他更簡單的方法?簡單的如字符串匹配,利用正則就可以簡單解決,才機器學習方法反而很麻煩,得不償失。
  • 如果能機器學習算法,如何去表示這個機器學習問題,如何抽取特征?又可能歸類哪類機器模式(分類、聚類、回歸?)
  • 找準問題后,可以先嘗試一些開源的機器學習工具,驗證算法的有效性。如果有必要,自己實現一些機器算法,也可以借鑒一些開源機器學習算法實現。
 

 

責任編輯:李英杰 來源: 美團技術部
相關推薦

2016-12-28 15:19:22

大數據機器學習銷售預測

2023-03-10 08:57:31

機器學習電商數據挖掘

2014-07-16 16:54:38

2010-09-16 11:27:19

2023-02-16 12:14:19

2012-08-06 09:04:01

決策樹建模

2017-05-08 23:02:56

敏捷學習GitHubissue

2021-07-01 15:56:42

深度學習人工智能互聯網

2021-04-01 12:20:10

機器學習AI人工智能

2016-09-30 15:33:02

集成學習機器學習算法

2009-09-28 10:40:28

.NET學習

2010-04-20 11:41:55

Oracle數據庫

2018-03-26 20:28:24

深度學習

2018-03-15 15:40:39

廣告點擊率PaddlePaddlTensorflow

2023-01-12 12:28:52

2016-11-15 14:08:02

機器學習數據挖掘

2009-06-17 15:06:39

Java 學習方法

2024-02-05 09:30:10

推薦算法深度學習內容過濾

2009-09-16 10:16:29

CCNA學習方法CCNA

2009-09-08 09:25:46

思科認證學習方法思科認證
點贊
收藏

51CTO技術棧公眾號

欧洲国产精品| 88xx成人精品| 中文字幕在线播放一区二区| 欧美性受ⅹ╳╳╳黑人a性爽| 成人免费黄色大片| 国产成人精品网站| 曰本女人与公拘交酡| 久久97精品| 欧美日韩久久一区| 日韩五码在线观看| 免费黄色在线观看| 9色porny自拍视频一区二区| 成人h视频在线| 在线能看的av| 一区二区不卡| 亚洲三级 欧美三级| 1314成人网| 美女色狠狠久久| 亚洲国产乱码最新视频| 日本一区视频在线观看免费| 亚洲奶汁xxxx哺乳期| 蜜臀精品一区二区三区在线观看 | 国产精品福利视频| 无码日韩精品一区二区| 国产综合亚洲精品一区二| 自拍偷拍免费精品| 久久中文字幕人妻| 中文字幕一区二区三区中文字幕| 欧美日韩一级二级| 久久久久久久久久久久久国产精品| av网站在线看| 欧美激情一区三区| 精品蜜桃一区二区三区| 精品国产99久久久久久宅男i| 石原莉奈一区二区三区在线观看| 久久久免费电影| 久操免费在线视频| 亚洲h色精品| 中文字幕欧美国内| 欧美三级视频网站| 久久不见久久见中文字幕免费| 欧美成人精品福利| 色欲欲www成人网站| 亚洲高清影院| 欧美精品丝袜中出| 美女在线视频一区二区| 欧洲成人一区| 欧美午夜在线观看| 成人性生生活性生交12| 成人黄色免费短视频| 黑人精品xxx一区一二区| 成人黄色大片网站| 操人在线观看| 午夜精彩视频在线观看不卡| 久色视频在线播放| 成年人视频免费在线播放| 亚洲一区中文在线| 欧美黄网在线观看| 精灵使的剑舞无删减版在线观看| 亚洲男人天堂av| 草草草视频在线观看| av免费在线观| 亚洲午夜久久久久久久久电影院| 大陆av在线播放| 性欧美18xxxhd| 色婷婷亚洲精品| 天天操天天爱天天爽| 欧美性www| 日韩欧美一卡二卡| 亚洲图片综合网| 西野翔中文久久精品国产| 亚洲欧美资源在线| 久久久久亚洲AV成人无在| 欧美电影免费观看高清| 久久久精品在线| 久久久久久天堂| 一区二区三区国产盗摄 | 国产高清中文字幕| 免费不卡在线视频| av免费观看久久| 午夜国产在线观看| 国产精品国产三级国产aⅴ原创 | 日韩成人午夜电影| 成人免费视频97| 亚洲精品一级片| 久久久久久一级片| 中文字幕99| 高清在线视频不卡| 欧美曰成人黄网| 免费欧美一级片| 亚洲肉体裸体xxxx137| 日韩一区二区三区在线播放| 国产在线视频二区| 日日噜噜夜夜狠狠视频欧美人| 亚洲一区二区在线| 亚洲色图 校园春色| 国产精品久久久久久妇女6080| 日b视频免费观看| 日韩av大片站长工具| 在线成人免费视频| 亚洲自拍偷拍一区二区| 91精品综合| 欧美一级黄色网| 国产精品人人爽| 久久久亚洲精品一区二区三区 | 国产区欧美区日韩区| 91精彩在线视频| 精品久久久视频| 亚洲欧美日韩一二三区| 欧美**字幕| 欧美激情亚洲国产| 97免费观看视频| 久久综合久久综合亚洲| 国产女教师bbwbbwbbw| 成人免费福利| 亚洲黄色www| 九九久久免费视频| 精品一区二区三区av| 麻豆成人在线播放| av2020不卡| 欧美一区二区三区在线观看视频 | 日本韩国免费观看| 亚洲精品免费一二三区| 熟妇人妻无乱码中文字幕真矢织江| 91精品国产乱码久久久竹菊| 北条麻妃在线一区二区| 中文字幕+乱码+中文乱码www| 99精品国产91久久久久久| 黄色一级片国产| 99精品女人在线观看免费视频| 亚洲欧美日韩另类| 国产午夜福利一区二区| 韩国精品在线观看| 亚洲无玛一区| 日韩不卡视频在线观看| 亚洲欧美在线x视频| 日本污视频在线观看| 国产不卡视频在线观看| 国产手机视频在线观看| 亚洲精品一区二区在线播放∴| 亚洲欧美国产另类| 中文字幕激情小说| 91免费看`日韩一区二区| 日本福利视频在线| 亚洲裸色大胆大尺寸艺术写真| 性欧美在线看片a免费观看| 欧美性猛交 xxxx| 亚洲18色成人| 在线观看av中文字幕| 国产精品日韩久久久| 精品国产一区二区三区四区vr| av毛片午夜不卡高**水| 亚洲精品乱码久久久久久金桔影视 | 亚洲第一天堂在线观看| 一区二区久久久久| 欧美xxxx日本和非洲| 国产精品videosex极品| 国产伦精品一区二区三毛| av在线最新| 亚洲女人天堂视频| 中日韩av在线| 亚洲精品视频一区| 蜜桃色一区二区三区| 亚洲人成毛片在线播放女女| 麻豆av一区二区三区| 78精品国产综合久久香蕉| 日韩中文在线中文网三级| 国产精品亚洲欧美在线播放| 亚洲一区中文在线| 免费在线观看成年人视频| 亚洲综合日本| 亚洲图片欧洲图片日韩av| 免费精品一区| 91精品国产网站| 二区三区在线播放| 欧美一级电影网站| 91av在线免费视频| 中文字幕av一区二区三区| 欧美日韩理论片| 亚洲深夜福利| 亚洲精品影院| silk一区二区三区精品视频| 欧美在线视频免费| 二区三区在线观看| 国产视频丨精品|在线观看| 中文字幕在线视频免费| 亚洲综合成人网| 国产精品20p| 国产一二精品视频| 日韩 欧美 高清| 亚洲女同一区| 欧美精品一区二区视频| 精品中文字幕一区二区三区| 欧美亚洲伦理www| 欧美13一16娇小xxxx| 亚洲第一精品夜夜躁人人爽| 亚洲熟妇无码久久精品| 精品magnet| 肉色超薄丝袜脚交69xx图片| 不卡一区二区三区四区| 色播五月综合网| 国产精品色网| 无颜之月在线看| 精品国产91乱码一区二区三区四区| 91午夜理伦私人影院| 波多野结衣亚洲一二三| 欧美第一淫aaasss性| 成人亚洲综合天堂| 亚洲精品国产欧美| 精品欧美在线观看| 欧美日韩精品专区| 一级片视频在线观看| 亚洲午夜久久久久久久久电影院| 性少妇xx生活| 久久久精品欧美丰满| 中文字幕18页| 国产伦精一区二区三区| www.亚洲高清| 日本少妇一区二区| 欧美日韩在线中文| 日韩午夜黄色| 国产 日韩 欧美在线| 91精品国产乱码久久久久久| 色噜噜狠狠一区二区三区| 欧美在线关看| 精品国产第一页| swag国产精品一区二区| 99一区二区三区| 欧美高清xxx| 国产精品视频永久免费播放 | 很黄很黄激情成人| 神马午夜伦理影院| 中文字幕亚洲精品乱码| www.亚洲一区二区| 999久久久亚洲| 亚洲午夜精品久久久久久浪潮| 国产一区99| 日韩经典在线视频| 国内黄色精品| 午夜欧美一区二区三区免费观看| 免费久久精品| 日本一区二区不卡高清更新| 亚洲精品播放| 日本亚洲导航| 色爱综合网欧美| 亚洲一区二区三区免费观看| 日韩久久视频| 综合网五月天| 综合在线一区| 欧美黄网在线观看| 亚洲欧洲日本mm| 日本一本二本在线观看| 久久一日本道色综合久久| 999精品网站| 美国av一区二区| 国产欧美精品一二三| 国产99精品视频| 99re久久精品国产| 欧美91在线| 一本大道综合伊人精品热热 | 成人乱色短篇合集| 在线观看欧美| 51国偷自产一区二区三区的来源| 亚洲一区 二区| 国产三区精品| 亚洲精品456| 致1999电视剧免费观看策驰影院| 欧美一区二区三区久久精品茉莉花 | 欧美日韩综合在线| 国产精品一区二区人人爽| 欧美成人aa大片| 西西人体44www大胆无码| 亚洲午夜色婷婷在线| 蜜桃视频在线观看免费视频网站www| 久久精品人人做人人爽| 丰满诱人av在线播放| 国产精品99一区| 亚洲一区有码| 精选一区二区三区四区五区| 成人亚洲一区二区| 免费的一级黄色片| 日韩在线卡一卡二| 亚洲一级片免费观看| 91在线视频免费观看| 超碰人人人人人人人| 亚洲一级在线观看| 无码久久精品国产亚洲av影片| 欧美一区二区视频网站| 欧洲天堂在线观看| 久久久精品在线观看| 欧美激情20| 亚洲r级在线观看| 国产探花在线精品| 国产 欧美 日韩 一区| 久久久久久穴| 精品久久久久久无码人妻| 久久精品欧美一区二区三区不卡 | 色影视在线观看| 97超视频免费观看| 国产一区二区三区| 久久一区免费| 欧美日韩国产一区精品一区| 15—17女人毛片| 97se狠狠狠综合亚洲狠狠| av激情在线观看| 欧美色图一区二区三区| 少妇无码一区二区三区| 久久久999精品免费| 亚洲三级欧美| 国产99午夜精品一区二区三区| 色喇叭免费久久综合网| 欧美一级在线看| 国产成人av电影在线| 内射毛片内射国产夫妻| 日韩欧美亚洲成人| 日本黄色免费视频| 久久午夜a级毛片| 福利一区二区免费视频| 欧美日韩视频在线一区二区观看视频| 欧美日韩精品| 国产精品熟女一区二区不卡| 日本一区二区三区国色天香| 一本一道无码中文字幕精品热| 亚洲精品第一国产综合精品| 欧美亚洲系列| 成人在线免费网站| 一区二区三区四区日韩| 五月婷婷之婷婷| 日本一区二区成人| 亚洲 欧美 中文字幕| 精品无人区乱码1区2区3区在线| 免费电影视频在线看| 97超级碰碰| 欧美精品导航| 久久黄色一级视频| 亚洲蜜臀av乱码久久精品| 国产又粗又长又黄| 日韩中文字幕国产| 国产精品久久乐| 亚洲欧美综合一区| 麻豆一区二区三区| 国产小视频你懂的| 欧美精品一级二级三级| 国产高清一区二区三区视频| 91亚洲精品久久久| 欧美激情1区| 日批视频免费看| 亚洲成人午夜电影| 少妇av在线播放| 4438全国成人免费| 国产探花在线精品| 在线黄色免费观看| 亚洲色图制服诱惑| www.com欧美| 97视频免费看| 亚洲人成网亚洲欧洲无码| 日本激情视频在线| 中文字幕一区二区三| 国产一区二区自拍视频| 久久97精品久久久久久久不卡| 成人资源在线| 黑人糟蹋人妻hd中文字幕 | 国内偷拍精品视频| 亚洲第一免费播放区| 中文字幕乱码中文乱码51精品| 视频一区不卡| 国产一区二区三区香蕉| 久久久久无码国产精品| 日韩黄色高清视频| 韩国女主播一区二区| 欧美日韩一级在线| hitomi一区二区三区精品| 一级片免费在线播放| 久久久精品日本| 精品淫伦v久久水蜜桃| 国产精品wwwww| 综合在线观看色| 天天操天天干天天爱| 国产激情999| 91精品国产福利在线观看麻豆| 色婷婷精品久久二区二区密| 色婷婷久久久综合中文字幕| a免费在线观看| 欧美男人的天堂| 国产激情精品久久久第一区二区| 国产精品6666| 日日噜噜噜夜夜爽亚洲精品| 国产精品极品在线观看| 一区二区三区韩国| 亚洲自拍偷拍九九九| 国产综合在线观看| 97久久天天综合色天天综合色hd| 亚洲在线观看| www.色小姐com| 亚洲一区二区精品| 岛国精品一区| 国产欧美激情视频| 色综合咪咪久久| 色女人在线视频| 亚洲精品二区|