精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

一個可以進行機器學習特征選擇的Python工具

新聞 人工智能
特征選擇 是在數據集中尋找和選擇最有用的特征的過程,是 機器學習 pipeline中的一個關鍵步驟。不必要的特征降低了訓練速度,降低了模型的可解釋性,最重要的是,降低了測試集的泛化性能。

 [[392070]]

特征選擇 是在數據集中尋找和選擇最有用的特征的過程,是 機器學習 pipeline中的一個關鍵步驟。不必要的特征降低了訓練速度,降低了模型的可解釋性,最重要的是,降低了測試集的泛化性能。

我發現自己一遍又一遍地為機器學習問題應用特別的特征選擇方法,這讓我感到沮喪,于是我在 Python 中構建了一個特征選擇類可在GitHub上找到。 FeatureSelector包括一些最常見的特征選擇方法:

  1. 缺失值百分比高的特征
  2. 共線性(高相關性)的特征
  3. 在基于樹的模型中零重要性的特征
  4. 低重要性的特征
  5. 具有單一唯一值的特征

在本文中,我們將在一個樣例機器學習數據集上使用 FeatureSelector。我們將看到它如何允許我們快速實現這些方法,從而實現更有效的工作流。

完整的代碼可在GitHub上獲得,我鼓勵任何貢獻。 Feature Selector正在開發中,并將根據社區的需要不斷改進!

樣例數據集

在本例中,我們將使用Kaggle上的Home Credit Default Risk machine learning competition數據。(要開始競賽,請參見本文)。整個數據集可下載,這里我們將使用一個例子來演示。

 

樣例數據,TARGET是分類的標簽

這個比賽是一個監督分類問題,這是一個很好的數據集,因為它有許多缺失的值,許多高度相關(共線)的特征,和一些不相關的特征,這對機器學習模型沒有幫助。

創建實例

要創建 FeatureSelector類的實例,我們需要傳入一個結構化數據集,其中包含行和列中的特征。我們可以使用一些只有特征的方法,但是基于重要性的方法也需要訓練標簽。由于我們有一個監督分類任務,我們將使用一組特征和一組標簽。

(確保在與feature_selector.py相同的目錄中運行這個腳本)

方法

特征選擇器有五種方法來查找要刪除的特征。我們可以訪問任何已識別的特征并手動從數據中刪除它們,或者使用特征選擇器中的“remove”函數。

在這里,我們將詳細介紹每種識別方法,并展示如何同時運行所有5種方法。 FeatureSelector還具有一些繪圖功能,因為可視化檢查數據是機器學習的關鍵組件。

缺失值

查找要刪除的特征的第一種方法很簡單:看看哪些特征的缺失值的比例大于某個閾值。下面的調用標識了缺失值超過60%的特征。

  1. fs.identify_missing(missing_threshold = 0.6
  2. 17 features with greater than 0.60 missing values. 

我們可以看到dataframe中每一列缺失值的比例:

  1. fs.missing_stats.head() 

要查看要刪除的特征,我們訪問 FeatureSelector的 ops屬性,這是一個Python字典,值為特征列表。

  1. missing_features = fs.ops['missing'
  2. missing_features[:5
  3. ['OWN_CAR_AGE',  
  4. 'YEARS_BUILD_AVG',  
  5. 'COMMONAREA_AVG',  
  6. 'FLOORSMIN_AVG'
  7. 'LIVINGAPARTMENTS_AVG'

最后,我們繪制了所有特征缺失值的分布圖:

  1. fs.plot_missing() 

共線性的特征

共線性特征是彼此高度相關的特征。在機器學習中,由于方差大、模型可解釋性差,導致測試集泛化性能下降。

方法 identify_collinear根據指定的相關系數值查找共線特征。對于每一對相關的特征,它識別出要刪除的特征之一(因為我們只需要刪除一個):

  1. fs.identify_collinear(correlation_threshold = 0.98
  2. 21 features with a correlation magnitude greater than 0.98

我們可以用關聯做出一個清晰的可視化,那就是熱圖。這顯示了在閾值以上至少有一個相關性特征的所有特征:

  1. fs.plot_collinear() 

如前所述,我們可以訪問將要刪除的相關特征的整個列表,或者查看dataframe中高度相關的特征對。

  1. # list of collinear features to remove 
  2. collinear_features = fs.ops['collinear'
  3. # dataframe of collinear features 
  4. fs.record_collinear.head() 

如果我們想要研究我們的數據集,我們還可以通過將 plot_all=True傳遞給調用來繪制數據中所有關聯的圖表:

零重要性特征

前兩種方法可以應用于任何結構化數據集,并且是確定性的——對于給定的閾值,每次結果都是相同的。下一種方法只適用于有監督的機器學習問題,在這種問題中,我們有訓練模型的標簽,并且是不確定的。 identify_zero_importance函數根據梯度提升機(GBM)學習模型查找不重要的特征。

使用基于樹的機器學習模型,例如增強集成,我們可以找到特征重要性。重要性的絕對值沒有相對值重要,相對值可以用來確定任務的最相關的特征。我們還可以通過刪除零重要性的特征來進行特征選擇。在基于樹的模型中,不使用零重要性的特征來分割任何節點,因此我們可以在不影響模型性能的情況下刪除它們。

FeatureSelector使用LightGBM庫中的梯度提升機查找特征重要性。為了減少方差,將GBM的10次訓練的特征重要性計算平均值。此外,使用帶有驗證集的early stop(可以選擇關閉驗證集)對模型進行訓練,以防止對訓練數據的過擬合。

下面的代碼調用該方法,提取零重要性特征:

我們傳入的參數如下:

任務:對應問題的“分類”或“回歸”

eval_metric:用于早期停止的指標(如果禁用了早期停止,則沒有必要使用該指標)

n_iteration:訓練次數,用來對特征重要性取平均

early ly_stop:是否使用early stop來訓練模型

這次我們得到了兩個帶有 plot_feature_importances的圖:

  1. # plot the feature importances 
  2. fs.plot_feature_importances(threshold = 0.99, plot_n = 12
  3. 124 features required for 0.99 of cumulative importance 

在左邊,我們有 plot_n最重要的特征(按照歸一化重要性繪制,總和為1),在右邊,我們有相對于特征數量的累積重要性。垂直線是在累積重要性的“閾值”處繪制的,在本例中是99%。

對于基于重要性的方法,有兩個注意事項值得記住:

  • 梯度提升機的訓練是隨機的,這意味著每次運行模型時特征輸入都會發生變化

這應該不會產生重大影響(最重要的特征不會突然變得最不重要),但是它會改變一些特征的順序。它還可以影響識別的零重要性特征的數量。如果特征的重要性每次都發生變化,不要感到驚訝!

  • 為了訓練機器學習模型,首先對特征進行“獨熱編碼”。這意味著一些重要性為0的特征可能是在建模過程中添加的獨熱編碼特征。

當我們到達特征刪除階段時,有一個選項可以刪除任何添加的獨熱編碼特征。然而,如果我們在特征選擇之后進行機器學習,我們還是要對特征進行一次獨熱編碼!

低重要性特征

下一個方法建立在零重要性函數的基礎上,利用模型的特征輸入進行進一步的選擇。函數 identify_low_importance查找對總重要性沒什么貢獻的最低重要性的特征。

例如,下面的調用找到了最不重要的特征,這些特征對于99%的總重要性是不需要的:

  1. fs.identify_low_importance(cumulative_importance = 0.99
  2. 123 features required for cumulative importance of 0.99 after one hot encoding. 
  3. 116 features do not contribute to cumulative importance of 0.99

基于累積重要性圖和這些信息,梯度提升機認為許多特征與學習無關。同樣,這種方法的結果將在每次訓練運行時發生變化。

要查看dataframe中的所有重要特征:

  1. fs.feature_importances.head(10

low_importance方法借鑒了使用主成分分析(PCA)的一種方法,這種方法通常只保留需要保留一定百分比的方差(如95%)的PC。占總重要性的百分比是基于相同的思想。

基于特征重要性的方法只有在我們使用基于樹的模型進行預測時才真正適用。除了隨機性之外,基于重要性的方法是一種黑盒方法,因為我們不知道為什么模型認為這些特征是無關的。如果使用這些方法,請多次運行它們以查看結果的變化,也許還可以創建具有不同參數的多個數據集進行測試!

單一唯一值的特征

最后一個方法是相當基本的:找到任何只有一個惟一值的列。只有一個惟一值的特征對機器學習沒有用處,因為這個特征的方差為零。例如,基于樹的模型永遠不能對只有一個值的特征進行分割(因為沒有分組來劃分觀察結果)。

這里沒有參數選擇,不像其他方法:

  1. fs.identify_single_unique() 
  2. 4 features with a single unique value. 

我們可以繪制每個類別中唯一值的數量直方圖:

  1. fs.plot_unique() 

需要記住的一點是,在默認情況下計算panda中的惟一值之前先刪除 NaNs 。

去除特征

一旦我們確定了要丟棄的特征,我們有兩個選項來刪除它們。所有要刪除的特征都存儲在 FeatureSelector的 ops字典中,我們可以使用列表手動刪除特征。另一個選項是使用“remove”內置函數。

對于這個方法,我們傳入用于刪除特征的 方法。如果我們想使用所有實現的方法,我們只需傳入 methods=’all’。

  1. # Remove the features from all methods (returns a df) 
  2. train_removed = fs.remove(methods = 'all'
  3. ['missing''single_unique''collinear''zero_importance''low_importance'] methods have been run 
  4.  
  5. Removed 140 features. 

此方法返回一個刪除了特征的dataframe。還可以刪除機器學習過程中創建的獨熱編碼特征:

  1. train_removed_all = fs.remove(methods = 'all', keep_one_hot=False) 
  2. Removed 187 features including one-hot features. 

在繼續操作之前,檢查將被刪除的特征可能是一個好主意!原始數據集存儲在 FeatureSelector的 data 屬性中作為備份!

一次運行所有方法

我們可以使用 identify_all而不是單獨使用這些方法。這需要每個方法的參數字典:

請注意,由于我們重新運行了模型,總特征的數量將發生變化。然后可以調用“remove”函數來刪除這些特征。

總結

在訓練機器學習模型之前,Feature Selector類實現了幾個常見的刪除特征的操作。它提供了識別要刪除的特征以及可視化功能。方法可以單獨運行,也可以一次全部運行,以實現高效的工作流。

missing、 collinear和 single_unique方法是確定的,而基于特征重要性的方法將隨著每次運行而改變。特征選擇,就像機器學習領域,很大程度上是經驗主義的,需要測試多個組合來找到最佳答案。在pipeline中嘗試幾種配置是最佳實踐,特征選擇器提供了一種快速評估特征選擇參數的方法。

 

責任編輯:張燕妮 來源: 數據分析網
相關推薦

2021-04-01 22:19:54

機器學習模型數據

2021-03-26 15:55:17

Python 開發編程語言

2024-04-10 12:39:08

機器學習python

2022-10-08 12:06:52

機器學習特征選擇

2022-02-16 07:00:00

機器學習特征選擇過濾法

2025-01-20 09:21:00

2024-12-26 00:34:47

2020-10-14 14:18:33

機器學習機器學習架構人工智能

2024-05-30 16:37:29

2019-08-01 15:40:31

Python機器學習編程語言

2022-03-01 20:41:00

機器學習特征人工智能

2022-02-13 00:27:34

機器學習數字隱私技術

2018-12-17 09:10:52

機器學習TensorFlow容器

2022-06-09 09:14:31

機器學習PythonJava

2022-06-05 21:16:08

機器學習Python

2021-11-02 08:00:00

機器學習API技術

2025-01-21 08:11:24

2017-10-24 06:32:01

機器學習特征選擇模型訓練

2021-05-10 16:41:19

機器學習人工智能IT

2025-07-31 01:22:00

點贊
收藏

51CTO技術棧公眾號

欧美xxxx视频| 在线黄色av网站| 美女久久久久| 欧美人狂配大交3d怪物一区| 激情五月综合色婷婷一区二区 | 亚洲福利在线观看| 人妻内射一区二区在线视频 | 国产精品一区二区不卡| 国模gogo一区二区大胆私拍| av黄色在线免费观看| 国产精品免费精品自在线观看| 欧美国产视频在线| 国产高清精品一区二区| 中文字幕第2页| 国产高清欧美| 亚洲精品小视频在线观看| 爱爱爱爱免费视频| 超碰在线免费播放| 国产日韩亚洲欧美综合| 大波视频国产精品久久| 在线观看国产小视频| 亚洲永久字幕| 欧美大片在线影院| 可以免费看av的网址| 亚洲影院天堂中文av色| 日韩美女视频在线| 九一精品久久久| 精品成人av| 精品久久久久久久久久久久| 欧美综合激情| 天堂在线观看视频| 国产成人精品免费视频网站| 亚州精品天堂中文字幕| 538精品在线观看| 97国产成人高清在线观看| 国产亚洲精品久久久| 国产精品1000部啪视频| 巨人精品**| 亚洲第一区第二区| 国模大尺度视频| 国产精区一区二区| 91精品国产综合久久久蜜臀粉嫩 | 草莓视频一区| 99久久一区二区| 极品少妇xxxx精品少妇偷拍| 隔壁老王国产在线精品| 九九热只有精品| 欧美1区2区| 精品视频9999| 久草视频手机在线观看| 欧美日韩网址| 久久久久国产精品一区| 欧美福利第一页| jizz18女人| 四虎久久免费| 国产精品三级av在线播放| 欧美中日韩一区二区三区| 户外极限露出调教在线视频| 国产农村妇女精品| 99超碰麻豆| 亚洲精品久久久久久久久久| 奇米影视一区二区三区小说| 欧美激情一区二区三区成人 | 久久精品一区二区三区av| 久久久久一区二区| 精彩国产在线| 国产精品女同一区二区三区| 精品高清视频| 国产高清精品软件丝瓜软件| 成人午夜激情片| 精品一区二区三区视频日产| av一区二区三| 久久精品国产精品亚洲红杏 | 欧美激情论坛| 日本加勒比一区| 91蜜桃视频在线| 欧美日韩另类丝袜其他| 成人不用播放器| 亚洲欧美日韩久久精品| 久艹视频在线免费观看| 伊人久久综合一区二区| 亚洲高清三级视频| 亚洲国产欧美自拍| 亚洲精品免费网站| 高清毛片aaaaaaaaa片| 麻豆免费精品视频| 91精品国产91久久久久青草| 国产精品视频一二区| 日日摸夜夜添夜夜添精品视频| 91精品国产自产91精品| 中文字幕人妻一区二区在线视频 | 岛国av免费在线| 中文字幕区一区二区三| 国产丝袜一区二区三区免费视频| 四虎精品一区二区| 欧美手机在线| 国语自产偷拍精品视频偷 | 日本美女一级片| 国产日本亚洲高清| 99国产精品白浆在线观看免费| a篇片在线观看网站| 欧美日韩国产精品| 网站在线你懂的| 青青草原在线亚洲| 精品自拍视频在线观看| 波多野结衣小视频| 成人动漫视频在线| 国产精品99久久久久久大便| 黄色网页在线看| 欧美日韩免费一区| 香蕉网在线视频| 精品一区二区三区在线 | 欧美日韩国产免费观看| 日本视频久久久| 国产 日韩 欧美 精品| 中文字幕亚洲欧美在线不卡| 日本不卡一区二区三区四区| 欧洲av不卡| 精品国产1区二区| 国产精品国产三级国产传播| 欧美在线亚洲| 国产美女主播一区| 国产在线三区| 午夜久久久久久电影| 自拍一级黄色片| 国产高清一区二区| 国产精品吹潮在线观看| 天堂在线中文| 午夜精品国产更新| 永久免费看片在线观看| 久久高清免费| 国产成人精品在线观看| 四虎精品在线| 欧美性猛交xxxx免费看久久久| 九色91popny| 免费短视频成人日韩| 91sa在线看| 日韩一区免费视频| 午夜精品国产更新| 中文字幕无码人妻少妇免费| 韩日成人在线| 国产精品国产三级国产专区53| 国产在线观看免费网站| 岛国av一区二区三区| 黄色录像a级片| 外国成人免费视频| 成人国产在线视频| 超碰超碰在线| 精品少妇一区二区三区日产乱码 | 国产精品中文字幕亚洲欧美| 2019中文字幕免费视频| 深夜福利视频在线免费观看| 精品美女久久久久久免费| 中文字幕在线观看网址| 久久成人一区| 激情五月激情综合网| 丝袜情趣国产精品| 亚洲中文字幕在线观看| 一区二区中文视频| 初高中福利视频网站| 亚洲国产日韩欧美一区二区三区| 国产精品久久久久久网站 | 超碰97国产精品人人cao| 精品日韩在线观看| 日韩毛片在线播放| 91久色porny| 亚洲精品视频导航| 一区二区三区午夜探花| av一区二区三区免费| 24小时免费看片在线观看| 亚洲精品视频免费| 亚洲一区二区人妻| 一区二区三区在线视频观看58| 冲田杏梨av在线| 你懂的国产精品| 精品国产一区二区三区久久久久久| caoporn免费在线视频| 精品国免费一区二区三区| 日韩国产第一页| 岛国精品在线观看| 日本va中文字幕| 91精品电影| 久久久久se| 999精品视频在线观看| 中文字幕在线观看日韩| 亚洲乱熟女一区二区| 色播五月激情综合网| 90岁老太婆乱淫| 性色一区二区| 黄色一级片网址| 日韩精品成人在线观看| 久久影院在线观看| 国产乱子伦精品无码码专区| 亚洲线精品一区二区三区八戒| 久久久精品人妻一区二区三区| 小说区亚洲自拍另类图片专区| 国产在线视频不卡| 免费黄网站在线| 亚洲精品99999| 天天爽夜夜爽夜夜爽精品| 国产精品少妇自拍| 最新av免费在线观看| 亚洲精品男同| 黄色一级视频播放| 蜜臀91精品国产高清在线观看| 国产精国产精品| 大香伊人久久| 日韩视频免费看| 免费一级毛片在线观看| 欧美一区二区三区免费大片 | 日韩欧美精品免费在线| 四虎免费在线视频| 成人涩涩免费视频| 天堂在线中文在线| 日韩电影在线一区二区| 日韩av在线播放不卡| 亚洲xxx拳头交| 亚洲成人第一| 国产一区二区三区日韩精品 | 日本免费在线视频观看| 免费一区二区| 成人a免费视频| 456成人影院在线观看| 91精品国产91久久久久久最新| 国产精品影院在线| 精品无人区太爽高潮在线播放| 自拍偷拍18p| 欧美日韩国产一区二区| 久久久久久久久久91| 亚洲欧美日韩国产另类专区| 农村老熟妇乱子伦视频| 国产亚洲综合在线| 人妻少妇一区二区| 99久久精品99国产精品| av漫画在线观看| 日韩和欧美一区二区三区| 欧美日韩在线一| 在线综合亚洲| 国产原创中文在线观看 | 伊人久久大香线蕉精品| 国产尤物久久久| av电影成人| 一本色道69色精品综合久久| 亚洲一区二区中文字幕| 久久久久久爱| 91情侣在线视频| 懂色av一区二区| 先锋资源久久| 国产精品嫩草视频| 国产在线拍揄自揄拍视频 | 精品国产精品自拍| 国产wwwwxxxx| 91香蕉视频在线| 美国黄色一级毛片| 久久综合九色综合97婷婷女人| 在线观看视频在线观看| 国产在线精品视频| 少妇献身老头系列| 99视频精品在线| 人妻精品久久久久中文| 国产精品久久久久影视| 中文字幕在线观看2018| 亚洲精品福利视频网站| 中文在线观看免费网站| 欧美日韩亚洲天堂| 国产免费www| 欧美高清一级片在线| 波多野结衣高清视频| 狠狠躁天天躁日日躁欧美| 日日夜夜狠狠操| 欧美精品777| 亚洲自拍偷拍另类| 欧美在线免费观看视频| 在线观看免费视频一区| 日韩欧美在线1卡| 日本福利午夜视频在线| 中文字幕在线看视频国产欧美在线看完整| 亚洲三区在线播放| 亚洲国产精彩中文乱码av在线播放 | 欧美在线影院一区二区| 国产高清在线观看视频| 日韩电影中文字幕av| 香蕉视频网站在线| 国产香蕉97碰碰久久人人| 香蕉久久aⅴ一区二区三区| 91高潮在线观看| 亚洲综合视频| 国产日韩精品推荐| 99国内精品久久久久久久| 国产va亚洲va在线va| 男女激情视频一区| 中国极品少妇xxxx| 国产精品另类一区| 国产精品国产三级国产传播| 精品国产乱码久久久久久天美 | aaa在线观看| 欧美精品www在线观看| 日日av拍夜夜添久久免费| 99久久综合狠狠综合久久止| 亚洲精品视频一二三区| 日韩欧美精品一区二区三区经典| 免费视频国产一区| 少妇大叫太大太粗太爽了a片小说| 欧美日韩中文| 精品999在线| 91色porny在线视频| avove在线播放| 欧美午夜一区二区三区| 天天操天天干天天操| 欧美精品一二区| 欧美a视频在线| 欧美精品一区在线发布| 樱桃成人精品视频在线播放| 天天久久综合网| 国产精品看片你懂得| 色8久久人人97超碰香蕉987| av片中文字幕| 国精产品一区一区三区mba视频| 久久这里只精品| 99riav一区二区三区| www.av视频| 欧美日本一区二区三区四区| 日本大片在线观看| 97免费中文视频在线观看| 天堂中文av在线资源库| 成人av片网址| 你懂的亚洲视频| 亚洲第一天堂久久| 国产精品国产三级国产a| 真实国产乱子伦对白在线| 欧美日韩一区二区在线观看视频| aa视频在线免费观看| 日韩中文字幕久久| 国产美女久久| 污视频在线免费观看一区二区三区 | 日韩三级.com| 成人影院在线看| 日本一区二区三区在线播放| 欧美日韩破处视频| 亚洲国产精品日韩| 奇米888四色在线精品| 国产亚洲精品成人a| 樱花影视一区二区| 国产精品xxxxxx| 这里只有精品久久| 888av在线视频| 精品一区国产| 亚洲欧美日韩在线观看a三区| 在线免费看v片| 久久精品综合网| 国产精品尤物视频| 在线观看成人黄色| 末成年女av片一区二区下载| 九九99玖玖| 天堂午夜影视日韩欧美一区二区| 熟妇无码乱子成人精品| 亚洲激情一二三区| 黄色av网址在线| 91av国产在线| 国语产色综合| 看看黄色一级片| 亚洲午夜视频在线| 亚洲欧美一区二区三| 国产成人精品免费久久久久| 成人羞羞网站| 欧美专区第二页| 亚洲成av人片一区二区| 美国一级片在线免费观看视频 | www青青草原| 精品免费国产二区三区| 英国三级经典在线观看| 国产午夜精品在线| 性伦欧美刺激片在线观看| 日本成人精品视频| 欧美精品一区二区久久久| 久久野战av| 欧洲精品视频在线| 99精品视频在线免费观看| 五月天婷婷丁香| 亚洲男女性事视频| 亚洲午夜剧场| 日韩小视频在线播放| 国产欧美日产一区| www.成人在线观看| 日本精品一区二区三区在线播放视频| 久久久久97| 日本人69视频| 五月婷婷久久丁香| 免费高清在线观看| 亚洲曰本av电影| 天堂蜜桃一区二区三区| 精品97人妻无码中文永久在线 | 欧美人体大胆444www| 成人av资源在线播放| 午夜亚洲视频| 成人免费视频网站入口::| 日韩一区二区三区在线观看| 黄网页在线观看| 麻豆成人小视频| 日韩vs国产vs欧美|