精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

缺失數據別怕!這里有份強大的初學者指南

大數據 數據分析
根據很多專業人士的經驗,對數據清理涉及的過程有充分的認知總是好的。了解流程、流程的重要性以及流程中可使用的技巧,將減少執行數據清理任務所需的時間。

實際上,數據科學家80%到90%的工作是數據清理,而這項工作的目的是為了執行其余10%的機器學習任務。沒有什么比完成數據集分析后的收獲更讓人興奮的了。如何減少清理數據的時間?如何為至關重要的10%的工作保留精力?

根據很多專業人士的經驗,對數據清理涉及的過程有充分的認知總是好的。了解流程、流程的重要性以及流程中可使用的技巧,將減少執行數據清理任務所需的時間。

[[273918]]

良好數據的重要性

好的數據被定義為準確、完整、符合、一致、及時、獨特且有效的數據。機器學習算法依賴于“好數據”來構建模型,執行和概括性能。對于實際數據,當意識到ML算法不起作用或者ML算法的性能無法在更大的數據集中推廣時,通常會發現數據問題。

在第一次數據科學的過程中找到所有數據問題幾乎是不可能的。需要做好以下準備:數據清理的迭代過程 - >數據建模 - >性能調整。在迭代過程中,通過從一開始就獲得基本面,可以大幅縮短時間。

在統計學中,經常會發現有人將數據分析過程比作約會。在最初的約會中,了解伴侶(即數據)至關重要。是否有可能在后期出現的交易破壞者?這些交易破壞者是你一開始就要抓住的,它們將使數據有失偏頗。

數據中最大的交易破壞者之一是“數據缺失”。

了解缺失的數據

缺失的數據可以有各種形狀和大小。它們可能類似于下面第1行的數據,其中只有胰島素欄有所缺失。它們也可以是第2行中丟失的許多欄數據。它們還可以是第3行中包含0的許多欄數據。需要知道它們有許多變體??梢暬苛袛祿荒艿酱藶橹埂T谙渚€圖中可視化每欄數據以查找異常值?;蛘呤褂脽釄D來可視化數據,突出顯示缺失的數據。

吳軍的糖尿病缺失數據

在Python中:

  1. import seaborn as sb 
  2. sb.heatmap(df.isnull(),cbar=False

如何對缺失數據進行分類?

[[273919]]

在可視化缺失數據后,第一件事是對丟失的數據進行分類。

有三類缺失數據:完全缺失隨機(MCAR),缺失隨機(MAR),缺失不隨機(MNAR):

MCAR—缺失值完全隨機丟失。數據點丟失的傾向與其假設值和其他變量的值無關。

MAR—由于某些觀察到的數據而缺少缺失值。數據點丟失的傾向與丟失的數據無關,但它與一些觀察到的數據有關。

MNAR—缺失的值不是隨機丟失的,而是有原因的。通常,原因在于缺失值取決于假設值,或者取決于另一個變量的值。

缺失的數據是隨機的嗎?

如果數據隨機丟失,則將以不同于隨機丟失的數據的方式來處理數據。使用Little’sMCAR測試來確定數據是否隨機丟失。

Little’sMCAR的原假設:數據完全隨機缺失。根據測試結果,你可以拒絕或接受此原假設。

在SPSS中:使用Analyze - > Missing Value Analysis - > EM

在R中,使用BaylorEdPsych集合中的LittleMCAR()函數。

傳送門:https://rdrr.io/cran/BaylorEdPsych/man/LittleMCAR.html?source=post_page

LittleMCAR(df)#df是不超過50個變量的數據幀

解釋:如果sig或統計顯著性大于0.05,則沒有統計學意義。這意味著要接受“數據完全隨機缺失”的原假設。

如果是MAR和MCAR,則刪除。

反之,估算。

刪除方法

列表刪除—此方法是指移除包含一個或多個缺失數據的整個數據記錄。

缺點—統計能力依賴于高樣本量。在較小的數據集中,列表刪除可以減少樣本量。除非確定該記錄絕對不是MNAR,否則此方法可能會給數據集引入偏差。

在Python中:

  1. nMat <-cov(diabetes_data,use =“complete.obs”) 

成對刪除—在分析基礎上,利用變量對之間的相關性來最大化可用數據的方法。

在Python中:

  1. nMat <-cov(diabetes_data,use =“pairwise.complete.obs”) 

缺點—由于不同數量的觀察結果對模型的不同部分有貢獻,難以解釋模型的各個部分。

刪除變量—這一方法是指,在數據缺少60%的情況下刪除變量。

  1. diabetes_data.drop('column_name',axis = 1,inplace = True) 

缺點—難以知曉丟棄的變量如何影響數據集中的其他變量。

如果不能刪除,那么估算則是另一種方法。

缺失數據插補的方法

分類變量—這些變量具有固定數量的可能值。這些變量組成的一個例子是性別=男性,女性,不適用。

對于分類變量,有 3種方法來估算數據。

  • 從缺失值中創建新級別
  • 使用邏輯回歸、KNN等預測模型來估計數據
  • 使用多個插補

連續變量—這些變量具有位于某個區間的實際值。其中的一個例子是支付金額= 0到無窮大。

對于連續變量,可以使用3種方法來估算數據。

  • 使用均值、中位數、模式
  • 使用線性回歸,KNN等預測模型來估算數據
  • 使用多個插補

從缺失的值中創建新的級別

如果沒有大量缺失值,那么為缺失值創建新級別的分類變量是處理缺失值的好方法。

在Python中:

  1. import pandas as pd 
  2.   
  3. diabetes=pd.read_csv('data/diabetes.csv') 
  4. diabetes["Gender"].fillna("No Gender", inplace=diabetes 

平均值、中位數、模式

該方法涉及使用平均值,中位數或模式來估算缺失的數據。這種方法的優點是它很容易實現。但同時也有許多缺點。

在Python中:

  1. df.Column_Name.fillna(df.Column_Name.mean(),inplace = True) 
  2. df.Column_Name.fillna(df.Column_Name.median(),inplace = True) 
  3. df.Column_Name.fillna(df.Column_Name.mode(),inplace = True) 

平均值、中位數、模式估算的缺點—它減少了估算變量的方差,也縮小了標準誤差,這使大多數假設檢驗和置信區間的計算無效。它忽略了變量之間的相關性,可能過度表示和低估某些數據。

邏輯回歸

以一個統計模型為例,它使用邏輯函數來建模因變量。因變量是二進制因變量,其中兩個值標記為“0”和“1”。邏輯函數是一個S函數,其中輸入是對數幾率,輸出是概率。(例如:Y:通過考試的概率,X:學習時間.S函數的圖形如下圖)

圖片來自維基百科:邏輯回歸

在Python中:

  1. from sklearn.pipeline import Pipeline 
  2. from sklearn.preprocessing import Imputer 
  3. from sklearn.linear_model import LogisticRegression 
  4.  
  5. imp=Imputer(missing_values="NaN"strategy="mean"axis=0
  6. logmodel = LogisticRegression() 
  7. steps=[('imputation',imp),('logistic_regression',logmodel)] 
  8. pipeline=Pipeline(steps) 
  9. X_train, X_test, Y_train, Y_test=train_test_split(X, y, test_size=0.3,random_state=42
  10. pipeline.fit(X_train, Y_train) 
  11. y_pred=pipeline.predict(X_test) 
  12. pipeline.score(X_test, Y_test) 

邏輯回歸的缺點:

  • 由于夸大其預測準確性的事實,容易過度自信或過度擬合。
  • 當存在多個或非線性決策邊界時,往往表現不佳。
  • 線性回歸

以一個統計模型為例,它使用線性預測函數來模擬因變量。因變量y和自變量x之間的關系是線性的。在這種情況下,系數是線的斜率。點到線形成的距離標記為(綠色)是誤差項。

圖片來自維基百科:線性回歸

圖片來自維基百科:線性回歸

在Python中:

  1. from sklearn.linear_model import LinearModel 
  2. from sklearn.preprocessing import Imputer 
  3. from sklearn.pipeline import Pipeline 
  4.  
  5. imp=Imputer(missing_values="NaN"strategy="mean"axis=0
  6. linmodel = LinearModel() 
  7. steps=[('imputation',imp),('linear_regression',linmodel)] 
  8. pipeline=Pipeline(steps) 
  9. X_train, X_test, Y_train, Y_test=train_test_split(X, y, test_size=0.3,random_state=42
  10. pipeline.fit(X_train, Y_train) 
  11. y_pred=pipeline.predict(X_test) 
  12. pipeline.score(X_test, Y_test 

線性回歸的缺點:

  • 標準錯誤縮小
  • x和y之間需具有線性關系

KNN(K-近鄰算法)

這是一種廣泛用于缺失數據插補的模型。它被廣泛使用的原因是它可以處理連續數據和分類數據。

此模型是一種非參數方法,可將數據分類到最近的重度加權鄰居。用于連續變量的距離是歐幾里德,對于分類數據,它可以是漢明距離(Hamming Distance)。在下面的例子中,綠色圓圈是Y。它和紅色三角形劃分到一起而不是藍色方塊,因為它附近有兩個紅色三角形。

圖片來自維基百科:KNN

  1. from sklearn.neighbors import KNeighborsClassifier 
  2. from sklearn.preprocessing import Imputer 
  3. from sklearn.pipeline import Pipeline 
  4.  
  5. k_range=range(1,26) 
  6.   
  7. for k in k_range: 
  8.  imp=Imputer(missing_values=”NaN”,strategy=”mean”, axis=0
  9.  knn=KNeighborsClassifier(n_neighbors=k
  10.  steps=[(‘imputation’,imp),(‘K-NearestNeighbor’,knn)] 
  11.  pipeline=Pipeline(steps) 
  12.  X_train, X_test, Y_train,Y_test=train_test_split(X, y, test_size=0.3, random_state=42
  13.  pipeline.fit(X_train, Y_train) 
  14.  y_pred=pipeline.predict(X_test) 
  15.  pipeline.score(X_test, Y_test) 

KNN的缺點:

  • 在較大的數據集上耗費時間長
  • 在高維數據上,精度可能會嚴重降低

多重插補

多個插補或MICE算法通過運行多個回歸模型來工作,并且每個缺失值均根據觀察到(非缺失)的值有條件地建模。多次估算的強大之處在于它可估算連續,二進制,無序分類和有序分類數據的混合。

多重插補的步驟是:

  • 用鼠標輸入數據()
  • 使用with()構建模型
  • 使用pool()匯集所有模型的結果

在R中,MICE集提供多個插補。

  1. library(mice) 
  2. imp<-mice(diabetes, method="norm.predict"m=1
  3. data_imp<-complete(imp) 
  4. imp<-mice(diabetes, m=5
  5. fit<-with(data=imp, lm(y~x+z)) 
  6. combine<-pool(fit) 

MICE的缺點:

  • 不像其他估算方法一樣具有理論依據
  • 數據的復雜性

處理缺失的數據是數據科學家工作的最重要部分之一。算法中擁有干凈的數據意味著你的機器學習算法的性能會更好。在數據清理過程開始時,區分MCAR,MAR,MNAR是必不可少的。雖然有不同的方法來處理缺失的數據插補,但KNN和MICE仍然是處理連續和分類數據的最受歡迎的方法。

 

責任編輯:趙寧寧 來源: 讀芯術
相關推薦

2018-01-29 13:41:06

數據庫區塊鏈比特幣

2022-04-24 15:21:01

MarkdownHTML

2010-06-13 11:13:38

UML初學者指南

2022-07-22 13:14:57

TypeScript指南

2022-10-10 15:28:45

負載均衡

2023-07-28 07:31:52

JavaScriptasyncawait

2021-05-10 08:50:32

網絡管理網絡網絡性能

2023-07-03 15:05:07

預測分析大數據

2022-03-28 09:52:42

JavaScript語言

2022-09-05 15:36:39

Linux日志記錄syslogd

2010-08-26 15:47:09

vsftpd安裝

2018-10-28 16:14:55

Reactreact.js前端

2023-02-10 08:37:28

2012-03-14 10:56:23

web app

2021-05-06 09:00:00

JavaScript靜態代碼開發

2024-12-25 08:00:00

機器學習ML管道人工智能

2014-04-01 10:20:00

開源Rails

2023-02-19 15:31:09

架構軟件開發代碼

2020-08-16 13:10:46

TensorFlow深度學習數據集

2024-04-28 10:56:34

Next.jsWeb應用搜索引擎優化
點贊
收藏

51CTO技術棧公眾號

www插插插无码视频网站| 91免费在线观看网站| 不卡一区二区在线观看| 欧美aaa视频| 1区2区3区欧美| 国产99在线播放| 6080午夜伦理| 伊人青青综合网| 亚洲毛片在线免费观看| 在线不卡一区二区三区| 91精品国产黑色瑜伽裤| 中文字幕精品一区二区三区精品| 91精品久久久久久蜜桃| 探花视频在线观看| 女人香蕉久久**毛片精品| 日韩精品在线观看视频| 欧美一级特黄aaa| 免费看男女www网站入口在线| 国产精品久久99| 精品一区二区三区视频日产| 一级特黄色大片| 免费日韩av| 欧美激情一级精品国产| 国产精品1区2区3区4区| 免费观看成人www动漫视频| 欧美日韩亚洲综合在线| 国产肥臀一区二区福利视频| sm国产在线调教视频| 国产校园另类小说区| 国产91精品一区二区绿帽| 亚洲无码精品在线观看| 久久精品女人天堂| 韩国精品美女www爽爽爽视频| 亚洲欧美卡通动漫| 国产一区二区三区四区五区传媒| 亚洲国产精品美女| 污污视频网站在线| 日韩av首页| 欧美日韩一区二区免费视频| 日韩成人三级视频| 26uuu亚洲电影在线观看| 欧美激情在线一区二区| 欧洲av一区| 亚洲区小说区图片区| 国产91精品入口| 国产一区二区香蕉| 亚洲天天综合网| 男女激情视频一区| 国产精品草莓在线免费观看| 久久青青草视频| 校园春色综合网| 97视频在线观看亚洲| 日本中文字幕免费| 亚洲精品偷拍| 欧美在线视频一二三| 日韩 欧美 综合| 激情文学一区| 性欧美亚洲xxxx乳在线观看| 国产乡下妇女做爰视频| 亚洲黄色影院| 欧美亚洲成人免费| 亚洲无码精品一区二区三区| 日韩av在线发布| 国产精品丝袜白浆摸在线| 成人免费一区二区三区| 久久成人精品无人区| 91精品国产综合久久香蕉的用户体验 | 国产人妻人伦精品| 神马午夜伦理不卡 | 欧美精品一二三四区| 国产精品乱看| 国产精品91免费在线| 真实新婚偷拍xxxxx| 久久精品久久99精品久久| 成人精品视频99在线观看免费| 中文字幕人妻一区二区三区视频| 久久97超碰国产精品超碰| 91九色国产社区在线观看| 国产欧美一级片| 国产成人av一区二区三区在线 | 性xxxxbbbb| 久久久不卡网国产精品二区| 亚洲v欧美v另类v综合v日韩v| 国产成人l区| 一区二区成人在线视频| 91视频最新入口| 伊人亚洲精品| 精品成人一区二区| 国产又大又粗又爽的毛片| 午夜av一区| 992tv成人免费影院| 波多野结衣高清在线| 国产精品一级二级三级| 久久精品成人一区二区三区蜜臀| porn视频在线观看| 亚洲国产欧美在线| 9久久婷婷国产综合精品性色| 欧美.com| 国产一区二区三区网站| 激情综合网五月天| 日韩不卡免费视频| 国产一区不卡在线观看| 在线免费看a| 午夜影视日本亚洲欧洲精品| 国产性生活毛片| 欧美巨大xxxx| 日韩色av导航| 亚洲AV无码成人精品区东京热| 蜜桃av噜噜一区| 国产精品久久久一区二区三区| 青青操在线视频| 亚洲欧美日韩国产成人精品影院| 久久精品视频16| 精品国产亚洲一区二区在线观看 | 欧洲乱码伦视频免费| 欧美成人国产va精品日本一级| 岛国av中文字幕| 国产成人高清在线| 艳色歌舞团一区二区三区| 成人在线黄色电影| 91精品国产91久久久久久一区二区| 欧美做受喷浆在线观看| 欧美精品黄色| 国产一区二区丝袜高跟鞋图片| 台湾av在线二三区观看| 一区二区三区视频在线看| 免费看国产黄色片| 天堂俺去俺来也www久久婷婷| 欧美成人精品h版在线观看| 在线观看亚洲黄色| 26uuu精品一区二区三区四区在线| 91麻豆天美传媒在线| 美女视频一区| 一本色道久久综合亚洲精品小说 | 免费高清完整在线观看| 色香蕉成人二区免费| 88av在线播放| 亚洲大胆在线| 成人羞羞视频免费| av观看在线| 制服丝袜一区二区三区| 亚洲天堂av中文字幕| 日韩高清一级片| 欧美三级网色| 日韩三级影视| 亚洲天堂男人的天堂| 国产精品久久久久久久久久精爆| 99国产精品久久久久久久久久久 | 日韩精品免费专区| 欧美一区二区影视| 日本国产欧美| 日韩在线免费av| 中文字幕在线播放不卡| 欧美国产1区2区| 男人添女人下面免费视频| 日韩大片在线| 亚洲精品免费网站| 性爱视频在线播放| 精品欧美一区二区三区精品久久 | 欧美性久久久| 国产66精品久久久久999小说| 免费在线国产视频| 亚洲国产成人av在线| 色网站在线播放| 91丨porny丨首页| www.亚洲天堂网| 精品国产aⅴ| 国产自产女人91一区在线观看| 免费网站看v片在线a| 91精品婷婷国产综合久久性色| 538精品在线视频| 成人永久看片免费视频天堂| www.日本在线播放| 亚洲精品国产动漫| 国产剧情久久久久久| 日本在线观看高清完整版| 亚洲第一av网| 懂色av中文字幕| 亚洲婷婷综合色高清在线| 中国男女全黄大片| 国产模特精品视频久久久久| 日韩高清av| 日韩有吗在线观看| 欧美中文在线观看| 69久久久久| 精品国产123| 欧美国产一级片| 一区二区三区毛片| 五月婷婷综合在线观看| 麻豆成人综合网| 99色这里只有精品| 日韩欧美大片| 国模一区二区三区私拍视频| 欧美日韩亚洲国产| 欧美丰满少妇xxxxx做受| 免费在线视频一级不卡| 3d成人动漫网站| 亚洲视频 欧美视频| 亚洲天堂2016| 波多野结衣一本| 国产91丝袜在线观看| 激情五月婷婷久久| 亚洲茄子视频| 最新视频 - x88av| 欧美美女在线| 国产精品嫩草在线观看| 六九午夜精品视频| 日本道色综合久久影院| 亚洲奶水xxxx哺乳期| 中文字幕日韩在线观看| 日本国产在线观看| 3d动漫精品啪啪| 久久精品偷拍视频| 天天操天天干天天综合网| 尤物在线免费视频| 亚洲国产高清不卡| 亚洲欧美日本一区| 高清国产午夜精品久久久久久| 一道本视频在线观看| 99热这里只有成人精品国产| 欧美日韩亚洲国产成人| 欧美综合另类| 蜜桃视频在线观看成人| 99久久香蕉| 亚洲一区二区免费| 粉嫩91精品久久久久久久99蜜桃| 2019日本中文字幕| jizz一区二区三区| 欧美夫妻性生活视频| 黄色大片在线播放| 日韩中文字幕视频在线观看| 国产一级网站视频在线| 日韩精品中文在线观看| 色哟哟国产精品色哟哟| 日韩美一区二区三区| 国产手机精品视频| 欧美美女喷水视频| 92久久精品一区二区| 欧美视频一二三区| 亚洲精品一区二区二区| 欧美性大战久久| 性高潮视频在线观看| 在线这里只有精品| 中文字幕免费视频观看| 在线视频国内自拍亚洲视频| 欧美日韩综合一区二区三区| 欧美视频在线观看 亚洲欧| 青青草成人av| 日韩欧美国产成人| 手机看片久久久| 91久久精品一区二区| 亚洲成人av网址| 欧美性猛交一区二区三区精品 | 蜜桃精品在线观看| 最新中文字幕免费视频| 免费看欧美美女黄的网站| 亚洲综合欧美激情| 国产精品一品视频| 91超薄肉色丝袜交足高跟凉鞋| 粉嫩蜜臀av国产精品网站| 欧美日韩人妻精品一区在线| av中文字幕在线不卡| 中国黄色a级片| 久久蜜臀中文字幕| 日本理论中文字幕| 成人免费视频在线观看| 久久久久久久九九九九| 精品久久久久久久久久久| 亚洲天堂视频网站| 欧美日韩亚洲国产综合| xxxwww在线观看| 日韩二区三区在线| 永久免费av在线| 精品中文字幕乱| 国产v日韩v欧美v| 国产精品国产三级国产专播精品人| 欧美天堂一区| 国产伦精品一区二区三区视频黑人| 日韩av黄色在线| 亚洲欧美久久234| 欧美日韩岛国| 日韩中文字幕二区| 国产福利一区在线观看| 中文人妻一区二区三区| 国产精品嫩草99a| 精品处破女学生| 色天天综合久久久久综合片| 97在线视频人妻无码| 亚洲精品一区二区三区蜜桃下载 | 国产裸体舞一区二区三区| 麻豆成人免费电影| 99久久人妻精品免费二区| 中文无字幕一区二区三区 | 日本中文字幕在线观看| 久久久久久久影院| 国产精品亚洲成在人线| 国产精品免费在线| 久久性感美女视频| 成人精品视频在线播放| 日韩不卡一区二区三区| 任你躁av一区二区三区| 久久美女高清视频| 欧美精品乱码视频一二专区| 在线观看日韩高清av| 高h放荡受浪受bl| 中文字幕亚洲欧美| 亚洲国产欧美日本视频| 成人高清在线观看| 色中色综合网| 精品久久久久av| 成人午夜短视频| 久久久久久视频| 欧美性视频一区二区三区| 亚洲日本国产精品| 欧美国产亚洲视频| www.久久99| 亚洲精品二区| 日欧美一区二区| 免费观看一级一片| 亚洲一卡二卡三卡四卡无卡久久 | 精品国产乱码久久久久久蜜臀 | 亚洲区小说区图片区qvod按摩| 日韩成人手机在线| 国产毛片精品视频| 任我爽在线视频| 欧美日韩一区二区三区免费看| 天天av综合网| 久久久爽爽爽美女图片| 欧美影院视频| 日韩精品免费一区| 寂寞少妇一区二区三区| 少妇太紧太爽又黄又硬又爽小说| 日韩欧美aaa| 狠狠色伊人亚洲综合网站l| 2021国产精品视频| 青青草原在线亚洲| 日本韩国欧美在线观看| 99视频超级精品| 久久久久久久久久影院| 日韩av在线网页| 日本а中文在线天堂| 久久本道综合色狠狠五月| 亚洲日韩成人| 国产精品无码网站| 欧美性xxxxxxxxx| 久久电影视频| 国产精品美女免费视频| 黑丝美女一区二区| chinese少妇国语对白| 国产人久久人人人人爽| 黄色片视频免费| 在线播放精品一区二区三区| 高清电影一区| 亚洲人成人77777线观看| 久久99蜜桃精品| 亚洲一二三在线观看| 欧美一级在线免费| xxxx另类黑人| 久久99热只有频精品91密拍| 亚洲免费综合| 调教驯服丰满美艳麻麻在线视频 | 欧美最猛性xxxxx亚洲精品| 亚洲色图美女| 一区二区三区韩国| 日韩理论在线观看| 性欧美8khd高清极品| 97av在线视频| 精品日本12videosex| 手机av在线网| 亚洲图片欧美一区| 日本在线视频1区| 国产主播欧美精品| 国产一区美女| 国产精品扒开腿做爽爽| 欧美精品乱人伦久久久久久| av在线影院| 久久久久高清| 麻豆久久久久久久| 久久亚洲AV无码| 亚洲视频axxx| 少妇精品在线| 欧美日韩大尺度| 一区二区三区在线观看动漫| 日本电影一区二区在线观看| 国产精品永久在线| 激情综合亚洲| 免费观看特级毛片| 亚洲高清色综合| 999精品视频在线观看| 日韩中文字幕在线视频观看| 国产农村妇女毛片精品久久麻豆 | 欧美成人网在线| 日本午夜精品| 中文字幕第三区| 一本色道久久加勒比精品| 免费大片黄在线| 欧美日韩一区二区三区在线视频| 国产在线精品免费| 秋霞av一区二区三区| 欧美激情视频播放|