精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

數據缺失的坑,無監督學習這樣幫你補了

大數據
無監督學習(UL)有很多沒開發的潛力。它是一門從“未標記”數據中推導一個函數來描述其隱藏結構的藝術。但首先,從數據中找到其結構是什么意思呢?

無監督學習(UL)有很多沒開發的潛力。它是一門從“未標記”數據中推導一個函數來描述其隱藏結構的藝術。但首先,從數據中找到其結構是什么意思呢? 讓我們來看以下兩個例子:

數據缺失的坑,無監督學習這樣幫你補了

Blobs

氣泡狀分布:這個簡單。任何人看到這張圖都會認為它是由三個不同的簇組成的。如果你對統計學非常熟悉,你可能還會猜想它由三個隱藏的高斯分布構成。對一個新的數據樣本,查看它的位置,人們就能推斷出它屬于哪一簇。

數據缺失的坑,無監督學習這樣幫你補了

Wavy hi

波浪分布:這個就有難度了。它有明確的結構,但我怎么教計算機提取出這一結構呢?為了讓你更好地理解這個問題,想象一下我找來1000人,問他們在這張圖中看到了幾個簇。結果很可能是這樣,回答2的人最多,也有人回答3、4,甚至1!

所以說對數據的結構,連人都無法達成共識,那怎么可能教計算機學會呢?這里的癥結在于,對于什么是簇,或者廣義地說什么是“結構”,沒有統一的定義。人們可以研究一下日常生活的某個方面,看它有沒有結構,但這也會根據環境或其中涉及的人的變化而變化。

很多著名的無監督學習算法,比如層次聚類,K-Means,混合高斯模型或隱馬爾可夫模型,對同一問題可能得到不同的答案,依我拙見,對于找結構問題,沒有所謂更好的或更正確的普適方法(真的嗎?又是沒有免費的午餐定理?)

那么讓我們動手探索吧——

聚類方法

  • K-Means(scikit learn)
  • 模糊K-Means(scikit fuzzy)
  • 混合高斯模型(scikit learn)

用K-Means算法產生簇通常被稱為“硬劃分”,因為對一個樣本和一個簇,只有屬于和不屬于兩種關系。K-Means的改進版模糊K-Means算法是“軟劃分”或“模糊”,因為一個樣本對每個簇都有隸屬度。基于這些隸屬度來更新簇的質心。

混合高斯模型https://github.com/abriosi/gmm-mml

這個包是論文Unsupervised learning of finite mixture models(有限混合模型的無監督學習)中提出的方法,用一個算法實現估計和模型選擇。

數據集

1. 占有率檢測:

這是一個沒有缺失值的時間序列數據集,因此要人為刻意地進行空缺數據補全。

這一數據集相對較小,有20560個樣本和7個特征,其中一個模型預測變量為是否占有。(二元分類問題)。

2. Sberbank俄羅斯房價市場數據集:

這也是一個時序數據集,來自數月前結束的Kaggle競賽。

將訓練數據與俄羅斯宏觀經濟和金融部門的數據合并后,得到30471個樣本,389個特征,其中一個是要預測的價格(回歸問題)。

它有93列有缺失數據,有些NaNs(非指定類型數據)占比很大(> 90%)。

3.子宮頸癌(危險因素)數據集:

這一數據集有858個樣本和32個特征,4個目標變量(不同醫學測試指標的二元輸出)取眾數轉化成1個目標變量。

它有26個特征有空缺值,有些NaNs(非指定類型數據)占比很大(> 90%)。

數據缺失值補全過程

先刪去訓練集和測試集中所有含有缺失數據的特征。利用留下的特征,對訓練集應用聚類算法,并預測兩組中每個樣本的簇。加上刪去的列,計算按照簇分組后每個特征的平均值(或均值,如果是定性的話)。所以現在我們有了每個簇未補全時的特征的平均值。

數據缺失的坑,無監督學習這樣幫你補了

“普通”和加權補全方法:

  • 這里“普通補全”指的是每個樣本都用以計算其所屬簇的平均值/眾數。
  • 加權方法則用樣本對每個簇的“歸屬度”。比如,在混合高斯模型(GMM)中,歸屬度是樣本屬于各個簇的可能性,在K-Means方法中,歸屬度基于樣本與各個簇的質心的距離。

評分方法

  • 除標準化之外,幾乎沒對數據集做任何處理。
  • 對于時間序列數據集,從***個樣本算起對時間標記排序,在占有率檢測數據集中轉化成按秒計數,同理在俄羅斯房價市場數據集中按天計數。
  • 完成插補后,用XGBoost在測試集進行評分。用負對數損失和均方誤差作為評分度量。

得到簇的數目

最初考慮了“肘”或者說“膝”方法。當簇的數量取值在一定范圍內時,畫出不同聚簇方法的得分并從圖中尋找肘部。

數據缺失的坑,無監督學習這樣幫你補了

比如,上圖的肘部在8到12之間。缺點是這種方法需要人的參與來選擇肘部,而實際應用上應該自動。但自動選擇肘部效果并不理想,因此可以考慮一種新方法。

通過交叉驗證,得到了一種比較有效但計算成本昂貴的方法。它是怎么工作的呢?首先選擇一個分類器,然后對于一系列質心數目,進行無監督插補,并用該分類器進行K-fold交叉驗證。***選擇在交叉驗證中表現更好的質心數目。

結果

在條形圖中,用紅線標記平均值插補的分數,以便進行比較。

占有率檢測數據集:

誠如之前提到的,這個數據集并沒有缺失數據,所以只能模擬補缺行為。

對將要補缺的數據特征和樣本應當謹慎挑選。不僅特別選擇了數據特征,而且對是否選擇樣本設定了概率。如果概率為0.5,有50%的機會該樣本將被丟棄。由于每次填補缺失值的樣本選擇都不同,我們將每三輪不同樣本補缺的評分結果取均值,***再對所有結果取均值。

數據缺失的坑,無監督學習這樣幫你補了

數據缺失的坑,無監督學習這樣幫你補了

 

\

房產市場數據集:

由于該數據集的數據量過大,怎樣在有限的內存中完成聚類分析值得研究一番。我們放棄了使用全量數據做歸類計算的打算,隨機抽取了適合電腦內存的樣本數據量(本次測試我選用了5000條記錄)。

在原始數據集中使用隨機抽樣的方法抽取樣本,也盡量保持了數據的時間結構。樣本的數據量越大,反映的時間結構越準確。

數據缺失的坑,無監督學習這樣幫你補了

子宮頸癌數據集:

數據缺失的坑,無監督學習這樣幫你補了

結果分析

根據結果,在數據分群的基礎上選擇補缺方式的表現比一般方法要好。

對于占有率檢測數據集,表現最優的是GMM_MML分類算法,而對于房產市場數據和宮頸癌數據集,K_Means聚類算法更好。我們并沒有對房產市場數據使用GMM_MML算法,因為它包含太多特征,而協方差的計算對于多特征數據比多樣本量數據更加困難。

在增加占有率檢測數據集的缺失數據后,整體上可以觀測到,無監督的補缺方法比均值補缺表現要好。因此,當數據集有缺失值占比較高時,先探索數據結構再補缺方法反而形成一種優勢。

大家會注意到,當使用檢測數據集的缺失數據特征從2個增加到4個,且用于聚類的特征數量減少時,無監督補缺方法比均值補缺表現稍好。這種反常的現象可能是由于特定的數據集和選擇的特征造成的。

同時,自然的,當缺失數據占比增加時,評分與基線分數的差距越來越大。

在三種K_Means算法中,普通型表現優于其他兩種。這種算法每次迭代的計算量也最小,是較佳選擇。

基于GMM方法的表現優于K-Means算法,這一現象十分合理,因為K-Means算法是GMM算法在歐式距離計算上的啟發式算法。歐式距離能有效測量低維數據,但在高維空間上,其含義開始失真。如想了解更多信息,請看這里(https://stats.stackexchange.com/questions/99171/why-is-euclidean-distance-not-a-good-metric-in-high-dimensions/)。GMM算法是基于樣本所屬概率密度函數的可能性,能更好的衡量高維空間距離。

結論

盡管基于聚類的缺失值補充算法沒有明顯高過其他算法的優勝者,我們還是建議選擇基于GMM的算法。

想找到模型混合的較佳數量,使用交叉驗證法會更好。盡管AIC準則和BIC準則需要大量計算,他們可以用于檢測模型混合數量的范圍。較佳數量會令準則值達到最小。

計算協方差矩陣有很多方法。這里介紹兩種最常使用的:

數據缺失的坑,無監督學習這樣幫你補了

  • 對角協方差:每個部分都有自己的對角矩陣。
  • 全協方差:這種協方差用于統計檢測。每個部分有自己的廣義協方差矩陣。

數據集中如果特征維度太多,使用GMM算法計算協方差矩陣,可能因為樣本量不足計算錯誤,也可能因為使用全量數據耗時太久。因此建議使用對角協方差,更加平衡模型大小和計算質量。

如果數據量大大超過內存容量,應當從訓練集中生成隨機樣本做聚類分析。

均值補缺的表現沒有比基于聚類補缺方法差很多,因此也可以考慮使用。

后續工作

數據整理也可以嘗試新方法:不再丟棄有缺失數據的特征,可以用均值或中位數填補缺失值,對修改后的數據集使用聚類分析。補缺可以在每個樣本被標記后完成。

Finite Mixture Models (McLachlan和Peel著)這本書中提到NEC和ICL都是很好的方法。

也有更多無監督方法值得研究檢測,例如,不同距離度量方法下的分級聚類。當然,普適的方法可能并不存在,畢竟沒有免費的午餐。

責任編輯:未麗燕 來源: 網絡大數據
相關推薦

2023-11-23 15:54:01

人工智能監督學習無監督學習

2020-04-28 17:26:04

監督學習無監督學習機器學習

2017-06-12 14:04:45

深度學習人工智能

2022-06-14 07:07:57

網絡威脅無監督數據泄露

2019-03-29 14:10:35

無監督學習機器學習人工智能

2017-10-09 23:21:08

無監督學習機器學習人工智能

2023-11-28 12:03:46

人工智能無監督學習算法

2018-07-11 08:45:19

機械硬盤機器學習

2022-05-13 11:05:00

網絡威脅無監督學習網絡攻擊

2020-08-16 11:34:43

人工智能機器學習技術

2020-08-14 11:00:44

機器學習人工智能機器人

2019-10-14 10:40:03

機器學習人工智能非監督學習

2015-10-12 10:37:42

學習算法檢測

2023-11-13 15:01:28

機器學習

2024-08-16 08:15:02

2022-07-17 15:46:24

機器學習無監督學習算法

2017-09-11 09:20:14

機器學習無監督學習聚類

2017-08-29 14:30:34

2020-11-11 09:00:00

機器學習技術人工智能

2022-05-17 16:38:40

數據訓練
點贊
收藏

51CTO技術棧公眾號

天天色天天综合| 凹凸国产熟女精品视频| www.香蕉视频| 国产精品久久777777毛茸茸 | 亚洲影院污污.| 国产一国产二国产三| 亚洲自拍电影| 欧美一区三区二区| 国产xxxxx在线观看| 黄色在线免费网站| 91在线视频网址| 91久久久亚洲精品| 一区二区三区在线观看av| 亚洲精品二区三区| 国产亚洲精品美女久久久| 欧美一级片在线免费观看| 3d性欧美动漫精品xxxx软件| 亚洲精品乱码久久久久久日本蜜臀| 欧美久久在线| 韩国av免费在线| 久久国产生活片100| 欧美亚州一区二区三区| caoporn91| 成人影院在线| 亚洲欧美变态国产另类| 国产51自产区| 国产区一区二| 欧美日韩一本到| 激情内射人妻1区2区3区| 黑森林国产精品av| 一区二区三区四区精品在线视频| 亚洲国产午夜伦理片大全在线观看网站 | 亚洲综合在线播放| 又污又黄的网站| 天堂在线亚洲视频| 欧美一级电影久久| 日韩 欧美 精品| 国精品一区二区| 久久不射热爱视频精品| 精品日韩在线视频| 国产一卡不卡| 亚洲欧洲美洲在线综合| 中文字幕一区二区久久人妻网站| julia中文字幕一区二区99在线| 51精品秘密在线观看| wwwwww.色| 韩国精品主播一区二区在线观看| 色综合天天综合在线视频| 免费av手机在线观看| 国产黄色大片在线观看| 亚洲国产欧美日韩另类综合 | 黑鬼狂亚洲人videos| 日韩欧美大片| 搡老女人一区二区三区视频tv| 美女爆乳18禁www久久久久久| 要久久电视剧全集免费| 精品视频偷偷看在线观看| 在线观看国产免费视频| 国产欧美视频一区| 丝袜老师在线| 日本黄色一区二区| 欧洲熟妇精品视频| 成人精品动漫| 91麻豆精品国产91久久久久久| 一区二区三区欧美精品| 国产精品va视频| 精品少妇一区二区三区视频免付费| 亚洲视频在线不卡| 1204国产成人精品视频| 日韩成人久久久| 日韩丰满少妇无码内射| 91麻豆精品国产91久久久平台| 色婷婷**av毛片一区| 希岛爱理中文字幕| 在线精品福利| 日本一本a高清免费不卡| 欧美在线视频精品| 国产麻豆精品久久一二三| 国产精品区一区二区三在线播放 | 成人国产一区二区三区精品| 精品免费视频123区| 国产98在线| 亚洲人成网站色在线观看| 国产精品久久久久久久乖乖| 怡红院成人在线| 在线播放中文一区| 性色av蜜臀av浪潮av老女人| 欧美男gay| 久久久成人精品| 国产无遮挡又黄又爽| 日韩在线一区二区| 99视频免费观看| 毛片免费在线观看| 亚洲激情男女视频| 激情网站五月天| 日本久久伊人| 亚洲天天在线日亚洲洲精| 性色av无码久久一区二区三区| 99伊人成综合| 成人有码在线视频| 欧美一区二区少妇| 亚洲在线一区二区三区| 一道本视频在线观看| 精品丝袜久久| 日韩在线视频网站| 成人毛片在线播放| 国产激情视频一区二区在线观看| 欧洲av一区| 少女频道在线观看免费播放电视剧| 色94色欧美sute亚洲13| 日本人妻一区二区三区| 久久一本综合| 日本老师69xxx| www三级免费| 中文在线资源观看网站视频免费不卡| 99色这里只有精品| av在线精品| 一本色道久久88亚洲综合88| 国产成人在线免费观看视频| 国产精品亚洲第一| 中文字幕一区二区三区精彩视频 | 成人激情视频免费在线| 你懂的免费在线观看视频网站| 亚洲综合激情另类小说区| 狠狠干狠狠操视频| 国产探花一区| 青青草国产精品一区二区| 国产 欧美 自拍| 亚洲欧美日韩国产综合| 自拍偷拍21p| jlzzjlzz亚洲女人| 热门国产精品亚洲第一区在线| 免费av网站观看| 一区二区三区四区不卡在线 | 成人免费视频91| 亚洲高清999| 久久视频在线免费观看| 亚洲综合精品视频| 国产精品视频免费看| 亚洲乱码国产一区三区| 亚洲资源网你懂的| 热99在线视频| 国产高清一区在线观看| 一本色道a无线码一区v| 久久精品无码一区| 日韩在线a电影| 欧洲精品在线一区| 成人在线视频播放| 亚洲欧美国产精品专区久久| 日本中文字幕久久| 国产色综合久久| 丰满少妇在线观看| 日韩黄色大片| 91夜夜揉人人捏人人添红杏| 永久免费在线观看视频| 欧美浪妇xxxx高跟鞋交| 99久久99久久精品国产| 国产伦精品一区二区三区免费迷| 欧美日韩中文字幕在线播放| 91成人精品在线| 97视频在线免费观看| 你懂的好爽在线观看| 欧美在线播放高清精品| 成人一级黄色大片| 国产69精品久久99不卡| 成人一区二区免费视频| 五月激激激综合网色播| 国产精品第二页| 黄色在线论坛| 亚洲高清一二三区| 日本黄色中文字幕| 国产精品国产自产拍在线| 伦伦影院午夜理论片| 亚洲国产精品第一区二区三区| 精品乱码一区二区三区| 成人免费在线观看视频| 久久中文字幕国产| 亚洲日本国产精品| 欧美日韩aaaaaa| 久久黄色免费视频| 国产三级久久久| 国产大片一区二区三区| 亚洲一区二区三区高清| 一区一区视频| 神马久久影院| 成人xxxx视频| 东京一区二区| 免费不卡欧美自拍视频| 日本中文字幕一区二区有码在线 | 可以直接在线观看的av| 欧美高清你懂得| 欧美精品二区三区| 亚洲欧美在线另类| 国产精品嫩草av| 韩国av一区二区| 久草精品在线播放| 中文字幕人成人乱码| 日本成人黄色免费看| 视频二区欧美| 国产精品扒开腿做爽爽爽的视频| 女人天堂av在线播放| 一本一本久久a久久精品牛牛影视 一本色道久久综合亚洲精品小说 一本色道久久综合狠狠躁篇怎么玩 | 欧美xxxx老人做受| 做爰视频毛片视频| 亚洲成av人片| www.av免费| 久久久精品免费网站| 久久久久国产免费| 久久99精品久久只有精品| 国产h视频在线播放| 久久久久久久久久久9不雅视频| 久久人人九九| 911亚洲精品| 成人中文字幕+乱码+中文字幕| 成人片免费看| 午夜欧美大片免费观看| 99热国产在线中文| 俺去啦;欧美日韩| 国产三级在线免费| 亚洲老司机av| 天堂在线观看av| 欧美zozozo| 国产黄色美女视频| 69久久夜色精品国产69蝌蚪网| 狠狠人妻久久久久久综合| 亚洲一区二区精品3399| 欧美激情图片小说| 亚洲婷婷综合色高清在线| 欧美波霸videosex极品| 久久青草国产手机看片福利盒子 | 日韩中文字幕组| 一本综合久久| 欧美精品自拍视频| 黑人一区二区三区四区五区| 玖玖精品在线视频| 91精品二区| 在线观看18视频网站| 欧美第一精品| 黄瓜视频免费观看在线观看www | 欧美精品情趣视频| 91福利国产在线观看菠萝蜜| 久久天天躁狠狠躁夜夜爽蜜月 | 一区二区小说| 精品一区二区三区自拍图片区| 激情av综合| 精品午夜一区二区| 亚洲精品动态| 欧美男人的天堂| 凹凸成人精品亚洲精品密奴| 欧洲亚洲一区二区| 日韩啪啪电影网| 美国av在线播放| 欧美.日韩.国产.一区.二区| 97在线免费视频观看| 亚洲高清资源| 2022亚洲天堂| 日本美女视频一区二区| 91欧美视频在线| 国产一区二区不卡| 又色又爽又黄18网站| 不卡区在线中文字幕| www.av欧美| 国产精品久久久99| 欧美精品久久久久性色| 精品久久久久久久中文字幕| 免费看一级视频| 欧美片网站yy| 国产sm主人调教女m视频| 亚洲а∨天堂久久精品9966 | 精品精品国产毛片在线看| 欧美一区三区二区在线观看| 欧美一站二站| 毛片在线视频观看| 性伦欧美刺激片在线观看| 日韩大片一区二区| 国产91丝袜在线播放| 在线免费观看日韩av| 国产精品午夜久久| 九九热这里有精品视频| 欧美性猛交99久久久久99按摩| 亚洲无码久久久久| 亚洲精品在线三区| 1024国产在线| 97在线观看视频| 欧美aaa级| 精品伦精品一区二区三区视频 | 久久久高清一区二区三区| 国产三级精品三级观看| 亚洲成av人片在线| 在线免费av网| 亚洲精品456在线播放狼人| 自拍视频在线| 2018日韩中文字幕| 91精品福利观看| 精品一区二区不卡| 中文字幕一区二区三区欧美日韩 | 神马影院午夜我不卡| 狠狠色丁香久久综合频道| 欧美综合在线观看视频| 国产成人综合在线| 日日操免费视频| 五月天精品一区二区三区| 91亚洲精品国偷拍自产在线观看| 亚洲精品www久久久久久广东| 亚洲成人三级| 欧美制服第一页| 欧美国产亚洲精品| 亚洲乱码国产乱码精品天美传媒| 亚洲日本黄色| 性色av浪潮av| 国产精品久久久久久久裸模| 日韩特黄一级片| 欧美一级淫片007| 69视频在线| 国产成人久久久| 亚洲ab电影| 国产精品久久..4399| 国产伦精一区二区三区| 中文字幕精品亚洲| 91国偷自产一区二区三区观看| 男人天堂av网| 欧美多人乱p欧美4p久久| 亚洲欧洲日韩精品在线| 新呦u视频一区二区| 日韩精品国产精品| 全黄一级裸体片| 午夜电影网一区| 国产 欧美 自拍| 欧美激情亚洲另类| 欧美黄色一级| 欧美一二三不卡| 国产精品中文字幕欧美| 希岛爱理中文字幕| 7777精品伊人久久久大香线蕉的| 最新国产在线观看| 国产美女久久久| 久久在线免费| 亚洲综合欧美激情| 国产欧美久久久精品影院| 中文字幕黄色片| 国产亚洲一区精品| 国产第一精品| 自拍偷拍99| 国产精一品亚洲二区在线视频| 一级片一级片一级片| 91精品国产免费久久综合| 怡红院在线观看| 成人激情av| 亚洲理伦在线| 日韩av一二区| 色菇凉天天综合网| 国产精品视频一区二区久久| 国产精品中文久久久久久久| 日韩理论电影院| 亚洲男人天堂2021| 夜夜精品视频一区二区| 色综合免费视频| 欧美中文字幕在线观看| 国产精品视频一区二区三区四蜜臂| 天天操天天爱天天爽| 国产精品国产自产拍高清av| av小说天堂网| 韩国19禁主播vip福利视频| 精品一区在线| 99re精彩视频| 亚洲资源中文字幕| 四虎在线视频| 国产精品久久婷婷六月丁香| 亚洲欧洲中文字幕| 亚洲精品无码一区二区| 欧美性xxxxxx| 美女免费久久| 国产亚洲欧美一区二区三区| 视频一区国产视频| 国产极品美女在线| 亚洲成人久久电影| 欧美va视频| 色哟哟免费网站| 99久久精品免费看国产 | 老汉av免费一区二区三区| 免费在线一区二区三区| 亚洲免费一级电影| 国产va免费精品观看精品| 欧美激情 国产精品| 国产精品天干天干在线综合| 亚洲国产成人一区二区| 2020久久国产精品| 婷婷激情综合| 成人精品在线观看视频| 欧美日韩成人综合| 欧美伦理91| 男人草女人视频| 久久九九国产精品| 亚洲精品一级片| 国产精品久久999| 在线国产日韩| 999精品在线视频| 亚洲女成人图区| 7777精品| 手机av在线网站|