精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

機器學習中處理缺失值的9種方法

人工智能 機器學習
在這個文章中,我將分享處理數據缺失的9種方法,但首先讓我們看看為什么會出現數據缺失以及有多少類型的數據缺失。

數據科學就是關于數據的。它是任何數據科學或機器學習項目的關鍵。在大多數情況下,當我們從不同的資源收集數據或從某處下載數據時,幾乎有95%的可能性我們的數據中包含缺失的值。我們不能對包含缺失值的數據進行分析或訓練機器學習模型。這就是為什么我們90%的時間都花在數據預處理上的主要原因。我們可以使用許多技術來處理丟失的數據。在這個文章中,我將分享處理數據缺失的9種方法,但首先讓我們看看為什么會出現數據缺失以及有多少類型的數據缺失。

 

[[349617]]

不同類型的缺失值

缺失的值主要有三種類型。

  • 完全隨機缺失(MCAR):當數據為MCAR時,如果所有觀測的缺失概率都相同,則一個變量完全隨機缺失,這意味著數據缺失與數據集中任何其他觀察到的或缺失的值完全沒有關系。換句話說,那些缺失的數據點是數據集的一個隨機子集。
  • 丟失數據不是隨機的(MNAR):顧名思義,丟失的數據和數據集中的任何其他值之間存在某種關系。
  •  隨機丟失(MAR):這意味著數據點丟失的傾向與丟失的數據無關,但與數據集中其他觀察到的數據有關。

數據集中缺少值的原因有很多。例如,在數據集的身高和年齡,會有更多年齡列中缺失值,因為女孩通常隱藏他們的年齡相同的如果我們準備工資的數據和經驗,我們將有更多的薪水中的遺漏值因為大多數男人不喜歡分享他們的薪水。在更大的情況下,比如為人口、疾病、事故死亡者準備數據,納稅人記錄通常人們會猶豫是否記下信息,并隱藏真實的數字。即使您從第三方資源下載數據,仍然有可能由于下載時文件損壞而丟失值。無論原因是什么,我們的數據集中丟失了值,我們需要處理它們。讓我們看看處理缺失值的9種方法。

這里使用的也是經典的泰坦尼克的數據集

讓我們從加載數據集并導入所有庫開始。

 

  1. import pandas as pd 
  2. df=pd.read_csv("data/titanic.csv",usecols=['Age','Cabin','Survived']) 
  3. df.isnull().mean() 
  4. df.dtypes 

運行上述代碼塊后,您將看到Age、Cabin和裝載裝載包含空值。Age包含所有整數值,而Cabin包含所有分類值。

1、均值、中值、眾數替換

在這種技術中,我們將null值替換為列中所有值的均值/中值或眾數。

平均值(mean):所有值的平均值

 

  1. def impute_nan(df,column,mean): 
  2.     df[column+'_mean']=df[column].fillna(mean) ##NaN -> mean 
  3.      
  4. impute_nan(df,'Age',df.Age.mean()) ##mean of Age(29.69) 

 

機器學習中處理缺失值的9種方法

中值(median):所有值的中心值

 

  1. def impute_nan(df,column,median): 
  2.     df[column+'_mean']=df[column].fillna(median) 
  3. impute_nan(df,'Age',df.Age.median()) ##median of Age(28.0) 

 

機器學習中處理缺失值的9種方法

眾數(mode):最常見的值

 

  1. def impute_nan(df,column,mode): 
  2.     df[column+'_mean']=df[column].fillna(mode) 
  3. impute_nan(df,'Age',df.Age.mode()) ##mode of Age(24.0) 

 

機器學習中處理缺失值的9種方法

優點

  • 易于實現(對異常值健壯)
  • 獲得完整數據集的更快方法

缺點

  • 原始方差的變化或失真
  • 影響相關性
  • 對于分類變量,我們需要眾數。平均值和中位數都不行。

2、隨機樣本估算

在這種技術中,我們用dataframe中的隨機樣本替換所有nan值。它被用來輸入數值數據。我們使用sample()對數據進行采樣。在這里,我們首先取一個數據樣本來填充NaN值。然后更改索引,并將其替換為與NaN值相同的索引,最后將所有NaN值替換為一個隨機樣本。

優點

  • 容易實現
  • 方差失真更小

缺點

  • 我們不能把它應用于每一種情況

用隨機樣本注入替換年齡列NaN值

 

  1. def impute_nan(df,variable): 
  2.     df[variable+"_random"]=df[variable] 
  3.     ##It will have the random sample to fill the na 
  4.     random_sample=df[variable].dropna().sample(df[variable].isnull().sum(),random_state=0) 
  5.     ##pandas need to have same index in order to merge the dataset 
  6.     random_sample.index=df[df[variable].isnull()].index #replace random_sample index with NaN values index 
  7.     #replace where NaN are there 
  8.     df.loc[df[variable].isnull(),variable+'_random']=random_sample 
  9.     col=variable+"_random" 
  10.     df = df.drop(col,axis=1) 
  11.  
  12. impute_nan(df,"Age"

 

機器學習中處理缺失值的9種方法

3、用新特性獲取NAN值

這種技術在數據不是完全隨機丟失的情況下最有效。在這里,我們在數據集中添加一個新列,并將所有NaN值替換為1。

優點

  • 容易實現
  •  獲取了了NaN值的重要性

缺點

  • 創建額外的特性(維度詛咒)

 

  1. import numpy as np 
  2. df['age_nan']=np.where(df['Age'].isnull(),1,0) 
  3. ## It will create one new column that contains value 1 in the rows where Age value is NaN, otherwise 0.  

4、End of Distribution

在這種技術中,我們用第3個標準偏差值(3rd standard deviation)替換NaN值。它還用于從數據集中刪除所有異常值。首先,我們使用std()計算第3個標準偏差,然后用該值代替NaN。優點

  • 容易實現。
  • 抓住了缺失值的重要性,如果有的話。

缺點

  • 使變量的原始分布失真。
  • 如果NAN的數量很大。它將掩蓋分布中真正的異常值。
  • 如果NAN的數量較小,則替換后的NAN可以被認為是一個離群值,并在后續的特征工程中進行預處理。

 

  1. def impute_nan(df,variable,median,extreme): 
  2.     df[variable+"_end_distribution"]=df[variable].fillna(extreme) 
  3.      
  4. extreme=df.Age.mean()+3*df.Age.std() ##73.27--> 3rd std deviation  
  5. impute_nan(df,'Age',df.Age.median(),extreme) 

 

機器學習中處理缺失值的9種方法

 

機器學習中處理缺失值的9種方法

 

機器學習中處理缺失值的9種方法

5、任意值替換

在這種技術中,我們將NaN值替換為任意值。任意值不應該更頻繁地出現在數據集中。通常,我們選擇最小離群值或最后離群值作為任意值。

優點

  • 容易實現
  • 獲取了缺失值的重要性,如果有的話

缺點

  • 必須手動確定值。

 

  1. def impute_nan(df,var): 
  2.     df[var+'_zero']=df[var].fillna(0) #Filling with 0(least outlier) 
  3.     df[var+'_hundred']=df[var].fillna(100) #Filling with 100(last
  4.  
  5. impute_nan(df,'Age'

 

機器學習中處理缺失值的9種方法

 

機器學習中處理缺失值的9種方法

6、頻繁類別歸責

該技術用于填充分類數據中的缺失值。在這里,我們用最常見的標簽替換NaN值。首先,我們找到最常見的標簽,然后用它替換NaN。

優點

  • 容易實現

缺點

  • 由于我們使用的是更頻繁的標簽,所以如果有很多NaN值,它可能會以一種過度表示的方式使用它們。
  • 它扭曲了最常見的標簽之間的關系。

 

  1. def impute_nan(df,variable): 
  2.     most_frequent_category=df[variable].mode()[0] ##Most Frequent 
  3.     df[variable].fillna(most_frequent_category,inplace=True
  4.      
  5. for feature in ['Cabin']:           ##List of Categorical Features 
  6.     impute_nan(df,feature) 

 

機器學習中處理缺失值的9種方法

 

機器學習中處理缺失值的9種方法

 

機器學習中處理缺失值的9種方法

7、nan值視為一個新的分類

在這種技術中,我們只需用一個新的類別(如Missing)替換所有NaN值。

  1. df['Cabin']=df['Cabin'].fillna('Missing') ##NaN -> Missing 

8、使用KNN填充

在這項技術中,我們使用sklearn創建一個KNN imputer模型,然后我們將該模型與我們的數據進行擬合,并預測NaN值。它被用來計算數值。這是一個5步的過程。

  • 創建列列表(整數、浮點)
  • 輸入估算值,確定鄰居。
  • 根據數據擬合估算。
  • 轉換的數據
  • 使用轉換后的數據創建一個新的數據框架。

優點

  • 容易實現
  • 結果一般情況下會最好

缺點

  • 只適用于數值數據

我們在上篇文章中已經有過詳細的介紹,這里就不細說了

在python中使用KNN算法處理缺失的數據

9、刪除所有NaN值

它是最容易使用和實現的技術之一。只有當NaN值小于10%時,我們才應該使用這種技術。

優點:

  • 容易實現
  • 快速處理

缺點:

  • 造成大量的數據丟失
  1. df.dropna(inplace=True) ##Drop all the rows that contains NaN 

總結

還有更多處理丟失值的其他技術。我們的目標是找到最適合我們的問題的技術,然后實施它。處理丟失的值總是一個更好的主意,但有時我們不得不刪除所有的值。它基本上取決于數據的類型和數量。

最有,所有的代碼在這里都能找到:https://github.com/Abhayparashar31/feature-engineering

責任編輯:未麗燕 來源: 今日頭條
相關推薦

2020-11-02 10:54:18

機器學習技術人工智能

2024-10-18 07:10:43

2024-07-29 08:00:00

2021-04-12 09:00:00

機器學習深度學習技術

2022-08-30 00:31:12

機器學習超參數調優算法

2020-11-27 15:57:28

Github應用速度

2023-03-16 15:13:41

缺失值據集中數據分析

2022-09-20 23:38:24

機器學習工具數字優化

2022-01-16 09:30:34

Ansible自動化工具開源

2023-09-25 15:08:43

Python方離群值

2020-08-10 00:30:55

備份密碼iPhone移動安全

2021-04-01 22:19:54

機器學習模型數據

2021-11-02 07:54:40

List分片Java

2022-08-30 18:13:38

機器學習

2021-01-20 15:43:01

機器學習深度學習科學

2016-03-31 14:16:56

2023-05-16 17:00:06

機器人人工智能

2023-10-30 17:41:29

機器人自動化

2019-03-27 08:51:38

機器學習類失衡算法

2023-05-22 14:23:26

機器人安全
點贊
收藏

51CTO技術棧公眾號

欧美捆绑视频| 18精品爽视频在线观看| 日本欧美一区| 国产精品国产三级国产aⅴ入口| 国产欧美亚洲精品| 久久久精品一区二区涩爱| 美女一区2区| 欧美综合在线视频| 男人日女人的bb| 三级无遮挡在线观看| 老司机精品视频一区二区三区| 欧美成人精品激情在线观看| 魔女鞋交玉足榨精调教| 电影91久久久| 欧美视频在线视频| 色爽爽爽爽爽爽爽爽| 牛牛影视精品影视| 狠狠色狠狠色综合系列| 日本中文字幕成人| 久久伊人成人网| jiujiure精品视频播放| 日韩欧美电影在线| 亚洲精品性视频| 麻豆蜜桃在线观看| 一区二区三区中文在线| 亚洲欧美久久久久一区二区三区| 天天操天天爱天天干| 精彩视频一区二区三区| 欧美伊久线香蕉线新在线| 日本精品人妻无码77777| 免费欧美一区| 亚洲国产精品va在线| 亚洲欧美天堂在线| 成人影院入口| 亚洲第一精品在线| 国内自拍中文字幕| 秋霞午夜在线观看| 国产亚洲精品免费| 久久久久久精| 日韩在线视频免费| 国内欧美视频一区二区| 国产精品老女人精品视频| 成人精品免费在线观看| 欧美日韩四区| 久热精品视频在线观看一区| 又色又爽的视频| 精品一区二区三| 亚洲乱码国产乱码精品精天堂| 大桥未久恸哭の女教师| 911精品国产| 日韩精品一区二区三区四区| 污视频网址在线观看| 日韩毛片一区| 在线观看日韩毛片| 人妻无码视频一区二区三区| 亚洲天堂电影| 日韩欧美黄色动漫| 国产亚洲天堂网| 深夜成人在线| 欧美三级xxx| 国产aaa一级片| 欧美电影免费观看网站| 一本大道av伊人久久综合| 国产一区亚洲二区三区| 高清电影一区| 欧美色视频在线观看| 亚洲黄色小视频在线观看| 在线视频 中文字幕| av成人激情| 91精品国产高清久久久久久91| 国产真人真事毛片| 亚洲经典在线看| 2019中文在线观看| 久久久久久少妇| 久久免费高清| 国产区精品视频| 国产特黄一级片| 国产成人av福利| 精品人伦一区二区三区| 欧美人体大胆444www| 国产亚洲欧美日韩在线一区| 一区二区免费在线视频| a视频在线观看免费| 亚洲图片欧美综合| 熟妇人妻va精品中文字幕| 99久久久国产精品免费调教网站| 91麻豆精品国产91久久久更新时间| 91aaa精品| 动漫av一区| 亚洲人成毛片在线播放| 成年人免费视频播放| 国产一区清纯| 国产精品狠色婷| 国产黄色av片| 久久一区二区视频| 一区二区三区四区国产| 韩国日本一区| 欧美性猛片aaaaaaa做受| 午夜激情视频网| 日本亚洲不卡| 精品激情国产视频| 日韩精品在线不卡| 久久99国产精品久久| 高清视频一区二区三区| 不卡在线视频| 亚洲成a人片在线不卡一二三区| 午夜视频在线瓜伦| 亚洲网址在线观看| 国产一区二区三区久久精品| 毛片aaaaa| 日本中文字幕不卡| 大波视频国产精品久久| 国产一级免费在线观看| 亚洲国产精品麻豆| 亚洲欧美日韩精品一区| 日韩精品福利一区二区三区| 久久久精品一区| 青娱乐在线免费视频| 成人免费视频网站在线观看| 伊人色综合久久天天五月婷| 一区二区三区短视频| 日韩欧美中文字幕制服| www亚洲色图| 在线一区免费观看| 97人人模人人爽人人少妇| 成人高清在线| 欧美日韩国产色| 波多野结衣三级视频| 色琪琪久久se色| 日韩av手机在线| 欧美综合视频在线| 亚洲精品久久嫩草网站秘色| 午夜免费看毛片| 欧洲乱码伦视频免费| 91精品国产91久久久久久不卡| 国产日韩一级片| 国产精品理伦片| 日本三区在线观看| 亚洲美女15p| 91sao在线观看国产| 亚洲av无码片一区二区三区| 综合久久综合久久| 小明看看成人免费视频| 欧洲杯什么时候开赛| 国产成人欧美在线观看| av女名字大全列表| 五月婷婷色综合| 老熟女高潮一区二区三区| 在线中文一区| 成人网页在线免费观看| 成人国产免费电影| 3d动漫精品啪啪一区二区竹菊| jizzjizzjizz国产| 老司机一区二区| 日韩色妇久久av| 日韩国产网站| 国产亚洲激情在线| 亚洲 国产 日韩 欧美| 久久久精品tv| 人人爽人人av| 欧美伦理影院| 国产中文字幕91| 黄色动漫在线| 日韩三级视频在线看| 九九视频在线观看| 丁香婷婷深情五月亚洲| 日本中文字幕亚洲| 台湾亚洲精品一区二区tv| 欧美洲成人男女午夜视频| 精品视频二区| 欧美日韩一本到| 日韩欧美综合视频| 成人av在线一区二区| 日韩中文字幕三区| 日韩国产一区| 91在线播放国产| 不卡av免费观看| 日韩美女av在线| 少妇又紧又色又爽又刺激视频 | 婷婷开心激情综合| 51调教丨国产调教视频| 日韩二区在线观看| 久久天天东北熟女毛茸茸| 精品欠久久久中文字幕加勒比| 51久久精品夜色国产麻豆| 国产精品麻豆一区二区三区| 在线不卡一区二区| 日韩精品视频免费看| 欧美国产日本韩| 午夜免费一级片| 亚洲一区欧美激情| 自拍视频一区二区三区| 精品久久97| 国产日韩精品在线| a级片免费在线观看| 在线丨暗呦小u女国产精品| 国产黄色一区二区| 在线欧美日韩国产| 欧美日韩国产精品一区二区三区 | 亚洲ⅴ国产v天堂a无码二区| 国产在线视视频有精品| 黄色免费福利视频| 婷婷久久综合| 欧美午夜免费| 66精品视频在线观看| 国产精品视频久久久| 黄色在线网站噜噜噜| 久久久成人的性感天堂| 瑟瑟在线观看| 日韩欧美国产三级| 中文字幕观看在线| 狠狠躁18三区二区一区| 青青青在线免费观看| 亚洲国产精品激情在线观看| 性农村xxxxx小树林| 精品在线一区二区三区| 播放灌醉水嫩大学生国内精品| 欧美黄在线观看| 亚洲成人18| 在线看成人短视频| 国产成人精品免费视频大全最热| 欧美97人人模人人爽人人喊视频| 欧美野外猛男的大粗鳮| 五月天激情在线| 日韩天堂在线视频| 成全电影播放在线观看国语| 精品视频在线播放| 国模私拍视频在线| 91精品国产综合久久婷婷香蕉| 亚洲天堂日韩av| 亚洲激情欧美激情| 国产极品美女在线| 中文一区在线播放| 天天操天天干天天操天天干| 99精品视频在线观看免费| 日韩av成人网| 国产精品亚洲成人| av在线免费看片| 麻豆传媒一区二区三区| 免费看黄色一级大片| 免费亚洲婷婷| 男人天堂网视频| 久久午夜精品| 久久久精品在线视频| 国产日韩欧美一区| 国产精品久久中文字幕| 亚洲电影成人| 131美女爱做视频| 99伊人成综合| 国内外成人激情视频| 国产精品综合| 国产免费一区二区三区视频| 亚洲永久免费精品| 久久国产成人精品国产成人亚洲| av成人黄色| av免费在线播放网站| 视频一区二区三区中文字幕| 成年人在线观看视频免费| 蜜臀精品一区二区三区在线观看 | 亚州一区二区三区| 国产精品福利在线观看| 91大神在线观看线路一区| 国产精品久久久久久久久影视 | 伊人天天综合| 免费黄色福利视频| 老司机午夜精品视频| 九色91popny| 久久福利资源站| 四川一级毛毛片| k8久久久一区二区三区| 老牛影视av老牛影视av| 国产精品国产三级国产普通话三级| 五月综合色婷婷| 亚洲国产综合人成综合网站| 6080午夜伦理| 欧美四级电影网| av中文字幕免费在线观看| 亚洲电影免费观看高清完整版在线| 香蕉久久国产av一区二区| 亚洲视频专区在线| 国产一二三区在线观看| 91禁国产网站| 欧美视频第一| 国产精品视频福利| 国产不卡av一区二区| 香蕉精品视频在线| 亚洲精品日本| 欧美成人福利在线观看| 成人国产视频在线观看| 天天操天天干天天操天天干| 亚洲一区二区在线免费看| 亚洲综合久久网| 欧美精品日日鲁夜夜添| 少妇av一区二区| 日韩中文字幕在线播放| а√天堂8资源中文在线| 国产精品自产拍在线观看| 粉嫩精品导航导航| 先锋影音亚洲资源| 国产色综合网| 在线成人免费av| 久久久久国产一区二区三区四区| 朝桐光av在线| 在线日韩av片| 香蕉久久一区二区三区| 欧美精品制服第一页| 97精品国产99久久久久久免费| 国产乱码一区| 久久久国产精品| 久久九九国产视频| 不卡的看片网站| 成人在线观看免费完整| 欧美在线观看一区二区| 日批视频免费播放| 九九精品视频在线| 国产精品久久久久77777丨| 精品无人区一区二区三区竹菊| 一区二区三区四区电影| 亚洲第一狼人区| 91麻豆国产福利在线观看| 久久精品一级片| 欧美精品18+| 搞黄视频免费在线观看| 97在线视频免费看| 日韩一区二区三区精品视频第3页| 视频一区亚洲| 久久综合伊人| 人妻无码一区二区三区| 亚洲国产精品久久一线不卡| 国产高清第一页| 精品国产一区二区三区久久久狼 | 影音先锋亚洲电影| 亚洲一级片免费观看| 国产精品成人免费在线| 色老头在线视频| 亚洲精品视频中文字幕| 女厕盗摄一区二区三区| 国产乱码精品一区二区三区日韩精品 | 日韩美女一区| 久久久xxx| 在线观看福利片| 欧美日韩亚洲一区二区| 水中色av综合| 97人人模人人爽人人喊中文字| 蜜桃在线一区| 精品一区二区三区无码视频| 国产精品亚洲专一区二区三区| 国产黄色的视频| 日韩欧美不卡在线观看视频| 色图在线观看| 国产伦精品一区二区三区四区免费 | 国产一卡二卡在线播放| 日韩精品中文字幕一区二区三区| 在线观看电影av| 国产精品久久久久久久天堂第1集| 国内揄拍国内精品久久| 欧美丰满熟妇bbb久久久| 无吗不卡中文字幕| 色视频免费在线观看| 日韩免费在线看| 超碰成人久久| 日韩av片专区| 亚洲一区自拍偷拍| 天天操天天射天天| 国产999精品久久久影片官网| 俺要去色综合狠狠| 三级一区二区三区| 亚洲一区精品在线| 十八禁一区二区三区| 国产精品∨欧美精品v日韩精品| 欧美激情偷拍自拍| 一区二区在线免费观看视频| 婷婷丁香激情综合| 国产日韩精品在线看| 91性高湖久久久久久久久_久久99| 欧美精品福利| 无套内谢大学处破女www小说| 在线观看91精品国产入口| 免费a在线看| 大波视频国产精品久久| 爽好多水快深点欧美视频| 久久久精品少妇| 精品国产百合女同互慰| av在线日韩| 日韩精品在线观看av| 国产欧美精品国产国产专区| 精品国产伦一区二区三| 日本精品va在线观看| 一本精品一区二区三区| 久久久久久久久免费看无码 | 国模精品系列视频| 狠狠色丁香婷婷综合影院| 天堂在线精品视频| 欧美日韩国产页| 久久综合网导航| 精品产品国产在线不卡| 国产资源在线一区| 亚洲欧美偷拍一区| 欧美精品做受xxx性少妇| 亚洲美女久久|