精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

嚴把數據質量關,用Pandas輕松進行七項基本數據檢查

大數據 數據分析
當在處理較小的數據分析項目時,使用Pandas進行這些數據質量檢查是一個很好的起點。根據問題和數據集的不同,還可以加入其他檢查。

一、簡介

作為一名數據工程師,面對糟糕的數據質量,該如何進行必要的數據質量檢查呢?可以使用Pandas執行快捷的數據質量檢查。

本文使用scikit-learn提供的California Housing數據集。

【數據集】:https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html

二、California Housing數據集概述

本文使用Scikit-learn數據集模塊中的California Housing數據集。該數據集包含20000多條記錄,涵蓋了八個數值特征和一個目標房價中值。

【數據集模塊】:https://scikit-learn.org/stable/datasets/real_world.html#real-world-datasets

接下來,將數據集讀取到一個名為df的Pandas數據幀中:

from sklearn.datasets import fetch_california_housing
import pandas as pd

# 獲取California Housing數據集
data = fetch_california_housing()

# 將數據集轉換為Pandas DataFrame
df = pd.DataFrame(data.data, columns=data.feature_names)

# 添加目標列
df['MedHouseVal'] = data.target

要獲取數據集的詳細描述,運行data.DESCR,如下所示:

print(data.DESCR)

圖片圖片

data.DESCR的輸出結果

接下來了解一下數據集的基本信息:

df.info()

輸出結果如下:

Output >>>


RangeIndex: 20640 entries, 0 to 20639
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   MedInc    20640 non-null  float64
 1   HouseAge  20640 non-null  float64
 2   AveRooms  20640 non-null  float64
 3   AveBedrms 20640 non-null  float64
 4   Population   20640 non-null  float64
 5   AveOccup  20640 non-null  float64
 6   Latitude  20640 non-null  float64
 7   Longitude 20640 non-null  float64
 8   MedHouseVal  20640 non-null  float64
dtypes: float64(9)
memory usage: 1.4 MB

由于存在數值特征,因此也使用describe()方法獲取摘要統計信息:

df.describe()

圖片圖片

df.describe()的輸出結果

三、7項基本數據質量檢查

3.1 檢查缺失值

現實世界的數據集經常存在缺失值。為了分析數據和建立模型,就需要處理這些缺失值。

為確保數據質量,應該檢查缺失值的比例是否在特定的容差范圍內。然后,可以使用適當的填充策略對缺失值進行填充。

因此,第一步是檢查數據集中所有特征的缺失值。

以下代碼會檢查數據幀df中每一列的缺失值:

# 檢查數據幀中的缺失值
missing_values = df.isnull().sum()
print("Missing Values:")
print(missing_values)

結果是一個顯示每列缺失值計數的Pandas序列:

Output >>>

Missing Values:
MedInc      0
HouseAge    0
AveRooms    0
AveBedrms   0
Population  0
AveOccup    0
Latitude    0
Longitude   0
MedHouseVal 0
dtype: int64

如上所示,此數據集中沒有缺失值。

3.2 識別重復記錄

數據集中的重復記錄可能會影響分析結果。因此,應該根據需要檢查并刪除重復記錄。

以下是識別并返回df中重復行的代碼。如果存在重復行,它們將包含在結果中:

# 檢查數據幀中是否有重復行
duplicate_rows = df[df.duplicated()]
print("Duplicate Rows:")
print(duplicate_rows)

結果是一個空數據幀。這意味著數據集中沒有重復記錄:

Output >>>

Duplicate Rows:
Empty DataFrame
Columns: [MedInc, HouseAge, AveRooms, AveBedrms, Population, AveOccup, Latitude, Longitude, MedHouseVal]
Index: []

3.3 檢查數據類型

在分析數據集時,經常需要轉換或縮放一個或多個特征。為了避免在執行此類操作時出現意外錯誤,重要的是檢查列是否都是預期的數據類型。

以下代碼檢查數據框df中每一列的數據類型:

# 檢查DataFrame中每一列的數據類型
data_types = df.dtypes
print("Data Types:")
print(data_types)

在這里,所有的數值特征都是預期的浮點數據類型:

Output >>>

Data Types:
MedInc      float64
HouseAge    float64
AveRooms    float64
AveBedrms   float64
Population  float64
AveOccup    float64
Latitude    float64
Longitude   float64
MedHouseVal float64
dtype: object

3.4 檢查異常值

異常值是指與數據集中其他點顯著不同的數據點。在“California Housing數據集概述”部分,本文對數據幀運行了describe()方法。

根據四分位值和最大值,可以確定一些特征包含異常值。具體而言,這些特征有:

  • MedInc
  • AveRooms
  • AveBedrms
  • Population

處理異常值的一種方法是使用四分位數間距(interquartile range,IQR),即第75個四分位數和第25個四分位數之間的差值。如果Q1是第25個四分位數,Q3是第75個四分位數,那么四分位數間距的計算公式為Q3 - Q1。

然后使用四分位數和IQR來定義區間[Q1 - 1.5 * IQR, Q3 + 1.5 * IQR]。所有在此范圍之外的點都是異常值。

columns_to_check = ['MedInc', 'AveRooms', 'AveBedrms', 'Population']

# 查找帶有異常值的記錄的函數
def find_outliers_pandas(data, column):
 Q1 = data[column].quantile(0.25)
 Q3 = data[column].quantile(0.75)
 IQR = Q3 - Q1
 lower_bound = Q1 - 1.5 * IQR
 upper_bound = Q3 + 1.5 * IQR
 outliers = data[(data[column] < lower_bound) | (data[column] > upper_bound)]
 return outliers

# 對每個指定的列查找帶有異常值的記錄
outliers_dict = {}

for column in columns_to-check:
 outliers_dict[column] = find_outliers_pandas(df, column)

# 打印每列中帶有異常值的記錄
for column, outliers in outliers_dict.items():
 print(f"Outliers in '{column}':")
 print(outliers)
 print("\n")

圖片圖片

'AveRooms'列中的異常值 | 用于異常值檢查的截斷輸出

3.5 驗證數值范圍

對于數值特征,一項重要的檢查是驗證范圍。這可以確保特征的所有觀測值都在預期范圍內。

以下代碼將驗證MedInc值是否在預期范圍內,并識別出不符合這一標準的數據點:

# 檢查'MedInc'列的數值范圍
valid_range = (0, 16)  
value_range_check = df[~df['MedInc'].between(*valid_range)]
print("Value Range Check (MedInc):")
print(value_range_check)

也可以嘗試選擇其他的數值特征。但可以看到,MedInc列中的所有數值都在預期范圍內:

Output >>>

Value Range Check (MedInc):
Empty DataFrame
Columns: [MedInc, HouseAge, AveRooms, AveBedrms, Population, AveOccup, Latitude, Longitude, MedHouseVal]
Index: []

3.6 檢查列間的依賴關系

大多數數據集都包含相關的特征。因此,根據列(或特征)之間的邏輯相關關系進行檢查是很重要的。

雖然單個特征本身可能在預期范圍內取值,但它們之間的關系可能是不一致的。

以下是本文數據集的一個示例。在一個有效的記錄中,“AveRooms”通常應大于或等于“AveBedRms”。

# AveRooms不應小于AveBedrooms
invalid_data = df[df['AveRooms'] < df['AveBedrms']]
print("Invalid Records (AveRooms < AveBedrms):")
print(invalid_data)

在正在處理的California housing數據集中,沒有發現這樣的無效記錄:

Output >>>

Invalid Records (AveRooms < AveBedrms):
Empty DataFrame
Columns: [MedInc, HouseAge, AveRooms, AveBedrms, Population, AveOccup, Latitude, Longitude, MedHouseVal]
Index: []

3.7 檢查不一致的數據輸入

在大多數數據集中,不一致的數據輸入是一個常見的數據質量問題。例如:

  • 日期時間列中的格式不一致
  • 分類變量值的記錄不一致
  • 以不同單位記錄讀數

在本文的數據集中,已經驗證了列的數據類型并識別了異常值。但還可以嘗試檢查數據輸入是否一致。

接下來舉一個簡單的例子,檢查所有的日期輸入是否具有一致的格式。

在這里,本文使用正則表達式結合Pandas的apply()函數來檢查所有日期輸入是否符合YYYY-MM-DD的格式:

import pandas as pd
import re

data = {'Date': ['2023-10-29', '2023-11-15', '23-10-2023', '2023/10/29', '2023-10-30']}
df = pd.DataFrame(data)

# 定義預期的日期格式
date_format_pattern = r'^\d{4}-\d{2}-\d{2}$'  # YYYY-MM-DD format

# 檢查日期值是否符合預期格式的函數
def check_date_format(date_str, date_format_pattern):
 return re.match(date_format_pattern, date_str) is not None

# 對'Date'列應用格式檢查
date_format_check = df['Date'].apply(lambda x: check_date_format(x, date_format_pattern))

# 識別并檢索不符合預期格式的日期記錄
non_adherent_dates = df[~date_format_check]

if not non_adherent_dates.empty:
 print("Entries that do not follow the expected format:")
 print(non_adherent_dates)
else:
 print("All dates are in the expected format.")

這將返回不符合預期格式的日期記錄:

Output >>>

Entries that do not follow the expected format:
      Date
2  23-10-2023
3  2023/10/29

四、總結

本文介紹了使用Pandas進行常見數據質量檢查的方法。

當在處理較小的數據分析項目時,使用Pandas進行這些數據質量檢查是一個很好的起點。根據問題和數據集的不同,還可以加入其他檢查。

責任編輯:武曉燕 來源: Python學研大本營
相關推薦

2025-08-05 05:00:00

2024-02-22 16:54:02

2025-01-13 08:20:00

Python數據抓取

2010-10-08 09:02:03

JavaScript基

2017-04-26 14:23:08

互聯網虛擬藥庫公共服務

2022-08-02 09:32:47

pandas移動計算

2022-04-28 18:47:04

Pandas函數Python

2016-08-18 14:13:55

JavaScript基本數據引用數據

2023-02-08 07:44:56

Pandas數據分析

2019-06-27 08:03:34

Oracle數據庫監聽

2011-05-26 14:27:56

java

2021-04-28 18:16:24

Rust數據類型

2023-08-15 16:20:42

Pandas數據分析

2020-10-30 11:09:30

Pandas數據代碼

2019-11-11 14:55:25

Redis數據類型命令

2020-03-02 13:45:18

Redis數據結構Java

2016-08-23 00:33:56

數據中心創新

2023-06-11 17:00:06

2024-10-28 12:57:36

Pandas數據清洗

2023-02-15 08:24:12

數據分析數據可視化
點贊
收藏

51CTO技術棧公眾號

国内精品伊人久久久久av影院 | 亚洲精品动态| 欧美性xxxxx极品娇小| 欧美精品123| 一区二区三区精彩视频| 天天综合亚洲| 亚洲国产成人久久综合| 欧美伦理片在线看| 日本理论片午伦夜理片在线观看| www.亚洲色图| 国产精品99久久久久久人| 国产美女久久久久久| 动漫av一区| 91激情五月电影| 最近中文字幕免费mv| 午夜在线观看视频18| 精品亚洲欧美一区| 欧美性资源免费| 亚洲精品电影院| 美女一区二区在线观看| 欧美三级欧美一级| 成人在线免费观看av| 黄色片免费在线观看| 91丝袜呻吟高潮美腿白嫩在线观看| 国产欧美精品xxxx另类| 六月丁香激情综合| 欧美激情1区2区3区| 亚洲视频一区二区| 岛国精品一区二区三区| 九九九精品视频| 天天影视色香欲综合网老头| 三年中国中文在线观看免费播放 | 成人看片在线观看| 亚洲国产综合91精品麻豆| 日韩欧美亚洲区| 四虎精品一区二区三区| 韩国三级电影一区二区| 国产成人精品999| 日韩久久久久久久久| 一区二区三区网站| 在线视频精品一| 亚洲国产果冻传媒av在线观看| avtt久久| 欧美色综合久久| av片中文字幕| 国产中文在线播放| 五月开心婷婷久久| 18禁裸男晨勃露j毛免费观看| 中文字幕在线观看日本| 久久久精品国产免大香伊| 精品麻豆av| 日韩在线观看视频一区二区三区| 国产伦精一区二区三区| 国产在线精品一区免费香蕉| 日韩黄色片网站| 久久久噜噜噜久久狠狠50岁| 欧美与欧洲交xxxx免费观看 | 欧美一乱一性一交一视频| 久久久精品视频在线| 在线看片不卡| 久久在线免费观看视频| 免费三级在线观看| 天天精品视频| 久久综合久久88| www.超碰在线观看| 综合一区二区三区| 欧美成人精品影院| 久久精品国产亚洲AV无码男同| 欧美日韩国产免费观看 | 久久av红桃一区二区禁漫| 日本不卡二三区| 在线视频欧美性高潮| а天堂中文在线资源| 97精品中文字幕| 久久久精品欧美| 国产乱国产乱老熟300| 国产综合亚洲精品一区二| 久久久久久久网站| 免费在线不卡视频| 久久狠狠婷婷| 国产欧美日韩高清| va婷婷在线免费观看| 成人不卡免费av| 欧美精品在线一区| 日本网站在线免费观看视频| 亚洲欧美另类在线| 国产a级片网站| 国产精品迅雷| 欧美丰满美乳xxx高潮www| 日本少妇激三级做爰在线| 国产精品qvod| 在线日韩中文字幕| 久久久久久免费观看| 国产美女精品| 91精品久久久久久久久不口人| www久久久久久| 91美女在线视频| 亚洲综合第一| 成人三级高清视频在线看| 日本久久电影网| 日本一二三四区视频| 日韩人体视频| 久久精品成人动漫| 你懂的国产在线| 国产综合色在线| 好吊色欧美一区二区三区| 爱久久·www| 亚洲影院在线观看| 超碰在线97免费| 凹凸成人在线| 久久精品国产久精国产一老狼 | 中文字幕在线视频精品| 国产一区二区三区亚洲| 中文字幕精品网| 日本少妇bbwbbw精品| 蜜臀91精品一区二区三区| 国产美女在线精品免费观看| 五月天婷婷在线视频| 午夜精品福利视频网站| 欧美性受xxxxxx黑人xyx性爽| 日韩精选在线| 欧美黑人xxx| 亚洲特级黄色片| 91年精品国产| 精品少妇人欧美激情在线观看| 免费观看成人性生生活片| 精品区一区二区| 久久精品在线观看视频| 久久九九国产| 国产伦精品一区二区三区视频孕妇| 欧洲不卡av| 在线观看日韩电影| 国产麻豆xxxvideo实拍| 欧美成人日本| 91精品国产综合久久久久久蜜臀 | 欧美一区午夜视频在线观看 | 夜夜骚av一区二区三区| www日韩大片| 国产在线播放观看| 一区视频网站| 欧美理论片在线观看| 91精品视频免费在线观看| 日本一区二区成人在线| 国语对白做受xxxxx在线中国| 51vv免费精品视频一区二区| 久久久国产一区| 国产精品久久久久久久久久久久久久久久 | 免费中文字幕日韩| 久久国产精品一区二区| 先锋影音网一区| 欧美日韩精品免费观看视完整| 亚洲精品国产综合久久| 国产奶水涨喷在线播放| jvid福利写真一区二区三区| 夜夜添无码一区二区三区| 草草视频在线一区二区| 97久久超碰福利国产精品…| 亚洲精品久久久蜜桃动漫| 一区二区三区四区视频精品免费 | 久久高清国产| 欧美xxxx黑人又粗又长密月| 电影一区二区三| 一区二区三区视频在线 | 羞羞网站在线免费观看| 日韩亚洲电影在线| 青青草手机在线观看| 国产成人精品免费网站| 男人天堂av片| 亚洲精品国模| 国产精品jvid在线观看蜜臀| 国产亚洲依依| 欧美日韩国产电影| 日日骚一区二区三区| 成人自拍视频在线| 日韩国产欧美亚洲| 精品理论电影在线| 成人激情在线播放| 女人天堂av在线播放| 亚洲精品国产精品自产a区红杏吧| 亚洲伊人成人网| 国产欧美精品区一区二区三区| 日本不卡一区在线| 欧美fxxxxxx另类| 国产精品久久久久久久久婷婷| 日本蜜桃在线观看视频| 在线看欧美日韩| 亚洲成熟女性毛茸茸| 日韩欧美在线播放| 在线日韩国产网站| av午夜一区麻豆| 污污的网站18| 国内精品久久久久久久97牛牛| 欧美精彩一区二区三区| crdy在线观看欧美| 欧美一区二区三区四区在线| 自拍视频在线播放| 欧美精品一区二区精品网| 国内av在线播放| 亚洲在线一区二区三区| 国产精品久久免费观看| 国产超碰在线一区| 国产熟人av一二三区| 欧美在线免费| 秋霞久久久久久一区二区| 精品亚洲a∨一区二区三区18| 4p变态网欧美系列| 成人av黄色| 亚洲人成电影在线播放| www.五月婷| 欧美无砖专区一中文字| 久久亚洲精品大全| 国产精品日产欧美久久久久| 中文字幕在线视频播放| 激情图片小说一区| 日韩视频在线免费看| 欧美激情五月| 亚洲电影一二三区| 日韩高清成人在线| 91av一区二区三区| 欧美大片网站| 欧美综合在线观看| 久草在线资源站资源站| 最近2019年日本中文免费字幕| 日本国产在线观看| 欧美丰满嫩嫩电影| 这里只有精品999| 欧美日韩精品在线视频| 九九九在线视频| 色欲狠狠躁天天躁无码中文字幕| 影音先锋中文字幕一区| 一区二区三区四区| 欧美猛男男男激情videos| 国外成人免费视频| 中文久久电影小说| 96国产粉嫩美女| 日韩黄色三级在线观看| 国产精品27p| 中国色在线日|韩| 国内免费精品永久在线视频| 日本在线视频www鲁啊鲁| 日韩中文av在线| 国产中文字幕在线视频| 日韩精品中文字幕久久臀| 欧美 日韩 国产 成人 在线| 欧美mv和日韩mv国产网站| 国产又大又黄又爽| 欧美人伦禁忌dvd放荡欲情| 最近国语视频在线观看免费播放| 日韩欧美aaa| 可以免费看的av毛片| 午夜久久久久久电影| 国产精品6666| 亚洲成人免费在线观看| 精品人妻在线播放| 亚洲国产另类精品专区| 久久精品国产亚洲AV无码麻豆 | av成人影院在线| 欧美激情区在线播放| 少女频道在线观看免费播放电视剧| 久久夜色精品国产欧美乱| 国产秀色在线www免费观看| 久久久精品国产| 性直播体位视频在线观看| 欧美日韩高清区| 大黄网站在线观看| 欧美一乱一性一交一视频| 东京一区二区| 国产精品久久久久一区二区| 国产成人精选| 亚洲一区二区三区sesese| 一区二区免费| 午夜不卡av在线| 日批视频在线免费看| 香蕉成人久久| 波多野结衣天堂| 久久国产精品99久久人人澡| 中文字幕一区二区在线观看视频| 国产精品1024| 好吊色视频一区二区三区| 91香蕉视频在线| 国产精品成人无码免费| √…a在线天堂一区| 激情综合五月网| 精品久久久久久亚洲精品| 波多野结衣av无码| 91精品国产综合久久精品app | 免费成人在线网站| 97超碰免费在线观看| 成人动漫一区二区在线| av男人的天堂av| 亚洲丝袜自拍清纯另类| 日韩欧美亚洲国产| 91电影在线观看| 99国产精品久久久久久久成人| 亚洲第一天堂av| av资源网站在线观看| 九九久久久久久久久激情| 亚洲电影观看| 91久久精品国产91性色| 久久综合另类图片小说| 一区二区不卡在线视频 午夜欧美不卡'| 亚洲欧美一级二级三级| 成年人在线看片| 丰满亚洲少妇av| 貂蝉被到爽流白浆在线观看| 亚洲va在线va天堂| 亚洲图片在线播放| 亚洲精品不卡在线| 哥也色在线视频| 日韩免费av片在线观看| 在线日韩成人| 亚洲国产日韩综合一区| 一本色道久久综合亚洲精品高清| 久久精品影视大全| www.日韩大片| 亚洲伦理一区二区三区| 色综合久久88色综合天天| 精品人妻一区二区三区麻豆91| 亚洲午夜久久久久久久| 国产高清中文字幕在线| 亚洲mm色国产网站| 青青草原综合久久大伊人精品| 国产黄色一级网站| 亚洲免费福利一区| 91精品国产综合久久久久久| 五月婷婷六月激情| 欧美成人精品在线| 最新日韩一区| 欧美精品尤物在线| 亚洲人成人一区二区三区| 精品国产乱码久久久久久1区二区| 国产午夜精品一区二区三区嫩草| 五月天婷婷丁香| 日韩欧美一区二区视频| 日本不卡在线| 国产精品偷伦视频免费观看国产| 婷婷综合电影| 男人的天堂狠狠干| 国产不卡一区视频| 看免费黄色录像| 欧美美女视频在线观看| 成人三级黄色免费网站| 日本欧美在线视频| 亚洲精品aaaaa| 亚洲自偷自拍熟女另类| 暴力调教一区二区三区| 国产一级一片免费播放| 日韩一区二区精品| 国产调教视频在线观看| 亚洲综合最新在线| 欧美日韩免费| 日本女人性视频| 一区二区三区.www| 风流老熟女一区二区三区| 久久久久中文字幕| 玖玖玖免费嫩草在线影院一区| aa在线观看视频| 久久―日本道色综合久久| 亚洲av无码精品一区二区| 中文字幕成人在线| 日韩亚洲国产免费| 中国黄色录像片| 成人免费精品视频| xxxxxx国产| 精品在线小视频| av一区在线播放| 男人的天堂成人| 成人黄色av电影| 久久夜色精品国产噜噜亚洲av| 亚洲天堂一区二区三区| 欧美videos粗暴| 黄色成人在线免费观看| 成人免费电影视频| 亚洲久久在线观看| 中文字幕国产亚洲2019| 成年永久一区二区三区免费视频| 日本天堂免费a| 黄色在线视频网站| 欧美日韩成人在线视频| 精品无人区一区二区| 男人操女人免费| 亚洲欧洲精品一区二区精品久久久| 国产精品乱码一区二区| 欧美激情2020午夜免费观看| 欧美午夜18电影| 久久久精品麻豆| 亚洲免费av高清| 亚洲欧美色视频| 国产精品亚洲一区二区三区| 欧美一区二区三区另类| 日本aaa视频| 欧美一区二区女人| 伊人久久国产| 人人妻人人澡人人爽精品欧美一区| 成人深夜福利app| 中文字幕在线观看高清| 久久久久久亚洲精品不卡| 欧美日韩一二三四| 在线观看亚洲免费视频| 精品视频一区二区三区免费|