精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

這些“秘密武器”,讓你輕松躋身Kaggle前2%

企業(yè)動態(tài)
本文中,我們會利用featexp來進行特征探索。我們將使用來自Kaggle競賽“違約者預(yù)測”的數(shù)據(jù)集,競賽的任務(wù)是基于已有的數(shù)據(jù)預(yù)測債務(wù)違約者。

[[250901]]

大數(shù)據(jù)文摘出品

編譯:Conrad、Hope、云舟

Kaggle的比賽真的好玩到令人上癮。在享受比賽的過程中,如果比賽成績能夠名列前茅那就非常棒了~~~

一位名叫Abhay Pawar的小哥開發(fā)了一些特征工程和機器學(xué)習(xí)建模的標(biāo)準(zhǔn)方法。這些簡單而強大的技術(shù)幫助他在Instacart Market Basket Analysis競賽中取得了前2%的成績。

下文是他以***人稱為小伙伴們分享他的技術(shù)經(jīng)驗。希望對你有所幫助。enjoy!

要構(gòu)建數(shù)值型連續(xù)變量的監(jiān)督學(xué)習(xí)模型,最重要的方面之一就是好好理解特征。觀察一個模型的部分依賴圖有助于理解模型的輸出是如何隨著每個特征變化而改變的。

但是,繪制的圖形是基于訓(xùn)練好的模型構(gòu)建的,這會引發(fā)一些問題。而如果我們直接用未經(jīng)學(xué)習(xí)的訓(xùn)練數(shù)據(jù)去作圖,我們就能更好理解這些數(shù)據(jù)的深層含義。因為這樣做能幫助我們進行:

  • 特征理解
  • 識別嘈雜特征(這是最有趣的!)
  • 特征工程
  • 特征重要性
  • 特征調(diào)試
  • 泄漏檢測與理解
  • 模型監(jiān)控

為了方便大家使用,我把這些方法用Python做了一個包,叫做featexp。本文中,我們會利用它來進行特征探索。我們將使用來自Kaggle競賽“違約者預(yù)測”的數(shù)據(jù)集,競賽的任務(wù)是基于已有的數(shù)據(jù)預(yù)測債務(wù)違約者。

  • featexp:https://github.com/abhayspawar/featexp
  • Home Credit Default Risk:https://www.kaggle.com/c/home-credit-default-risk/

特征理解

如果因變量 (分析目標(biāo)) 是二分類數(shù)據(jù),散點圖就不太好用了,因為所有點不是0就是1。針對連續(xù)型變量,數(shù)據(jù)點太多的話,會讓人很難理解目標(biāo)和特征之間的關(guān)系。但是,用featexp可以做出更加友好的圖像。讓我們試一下吧!

Featexp可以把一個數(shù)字特征,分成很多個樣本量相等的區(qū)間(X軸)。然后,計算出目標(biāo)的平均值 (Mean),并繪制出左上方的圖像。在這里,平均值代表違約率。圖像告訴我們,年紀(jì) (DAYS_BIRTH) 越大的人,違約率越低。

這非常合理的,因為年輕人通常更可能違約。這些圖能夠幫助我們理解客戶的特征,以及這些特征是如何影響模型的。右上方的圖像表示每個區(qū)間內(nèi)的客戶數(shù)量。

識別嘈雜特征

嘈雜特征容易造成過擬合,分辨噪音一點也不容易。在featexp里,你可以跑一下測試集或者驗證集,然后對比訓(xùn)練集和測試集的特征趨勢,從而找出嘈雜的特征。

訓(xùn)練集和測試集特征趨勢的對比

為了衡量噪音影響程度,featexp會計算兩個指標(biāo):

  • 趨勢相關(guān)性 (從測試?yán)L圖中可見) :如果一個特征在訓(xùn)練集和測試集里面表現(xiàn)出來的趨勢不一樣,就有可能導(dǎo)致過擬合。這是因為,模型從測試集里學(xué)到的一些東西,在驗證集中不適用。趨勢相關(guān)性可以告訴我們訓(xùn)練集和測試集趨勢的相似度,以及每個區(qū)間的平均值。上面這個例子中,兩個數(shù)據(jù)集的相關(guān)性達到了99%。看起來噪音不是很嚴(yán)重!
  • 趨勢變化:有時候,趨勢會發(fā)生突然變化和反復(fù)變化。這可能就參入噪音了,但也有可能是特定區(qū)間內(nèi)有其他獨特的特征對其產(chǎn)生了影響。如果出現(xiàn)這種情況,這個區(qū)間的違約率就沒辦法和其他區(qū)間直接對比了。

下面這個特征,就是嘈雜特征,訓(xùn)練集和測試集沒有相同的趨勢:兩者相關(guān)性只有85%。有時候,可以選擇丟掉這樣的特征。

嘈雜特征的例子

拋棄相關(guān)性低的特征,這種做法在特征非常多、特征之間又充滿相關(guān)性的情況下比較適用。這樣可以減少過擬合,避免信息丟失。不過,別把太多重要的特征都丟掉了;否則模型的預(yù)測效果可能會大打折扣。同時,你也不能用重要性來評價特征是否嘈雜,因為有些特征既非常重要,又嘈雜得不得了。

用與訓(xùn)練集不同時間段的數(shù)據(jù)來做測試集可能會比較好。這樣就能看出來數(shù)據(jù)是不是隨時間變化的了。

Featexp里有一個 get_trend_stats() 函數(shù),可以返回一個數(shù)據(jù)框 (Dataframe) ,顯示趨勢相關(guān)性和趨勢變化。

嘈雜特征的例子

get_trend_stats()返回的數(shù)據(jù)框

現(xiàn)在,可以試著去丟棄一些趨勢相關(guān)性弱的特征了,看看預(yù)測效果是否有提高。

用趨勢相關(guān)性進行不同特征選擇得到的的AUC值

用趨勢相關(guān)性進行不同特征選擇得到的的AUC值

我們可以看到,丟棄特征的相關(guān)性閾值越高,排行榜(LB)上的AUC越高。只要注意不要丟棄重要特征,AUC可以提升到0.74。有趣的是,測試集的AUC并沒有像排行榜的AUC變化那么大。完整代碼可以在featexp_demo記事本里面找到。

featexp_demo:

https://github.com/abhayspawar/featexp/blob/master/featexp_demo.ipynb

特征工程

通過查看這些圖表獲得的見解,有助于我們創(chuàng)建更好的特征。只需更好地了解數(shù)據(jù),就可以實現(xiàn)更好的特征工程。除此之外,它還可以幫助你改良現(xiàn)有特征。下面來看另一個特征EXT_SOURCE_1:

EXT_SOURCE_1的特征與目標(biāo)圖

EXT_SOURCE_1的特征與目標(biāo)圖

具有較高EXT_SOURCE_1值的客戶違約率較低。但是,***個區(qū)間(違約率約8%)不遵循這個特征趨勢(上升并下降)。它只有-99.985左右的負(fù)值且人群數(shù)量較多。這可能意味著這些是特殊值,因此不遵循特征趨勢。幸運的是,非線性模型在學(xué)習(xí)這種關(guān)系時不會有問題。但是,對于像Logistic回歸這樣的線性模型,如果需要對特殊值和控制進行插值,就需要考慮特征分布,而不是簡單地使用特征的均值進行插補。

特征重要性

Featexp還可以幫助衡量特征的重要性。DAYS_BIRTH和EXT_SOURCE_1都有很好的趨勢。但是,EXT_SOURCE_1的人群集中在特殊值區(qū)間中,這表明它可能不如DAYS_BIRTH那么重要?;赬GBoost模型來衡量特征重要性,發(fā)現(xiàn)DAYS_BIRTH實際上比EXT_SOURCE_1更重要。

特征調(diào)試

查看Featexp的圖表,可以幫助你通過以下兩項操作來發(fā)現(xiàn)復(fù)雜特征工程代碼中的錯誤:

零方差特征只展現(xiàn)一個區(qū)間

零方差特征只展現(xiàn)一個區(qū)間

  • 檢查特征的人群分布是否正確。由于一些疏忽,我遇到過多次類似上面這樣的極端情況。
  • 在查看這些圖之前,我總是會先做假設(shè),假設(shè)特征趨勢會是什么樣子的。如果特征趨勢看起來不符合預(yù)期,可能暗示著存在某些問題。實際上,這個驗證趨勢假設(shè)的過程使機器學(xué)習(xí)模型更有趣了!

泄漏檢測

從目標(biāo)到特征的數(shù)據(jù)泄漏會導(dǎo)致過擬合。泄露的特征具有很高的特征重要性。要理解為什么在特征中會發(fā)生泄漏是很困難的,查看featexp圖像可以幫助理解這一問題。

在“Nulls”區(qū)間的特征違約率為0%,同時,在其他所有區(qū)間中的違約率為100%。顯然,這是泄漏的極端情況。只有當(dāng)客戶違約時,此特征才有價值。基于此特征,可能是因為一個故障,或者因為這個特征在違約者中很常見。了解泄漏特征的問題所在能讓你更快地進行調(diào)試。

理解為什么特征會泄漏

理解為什么特征會泄漏 

模型監(jiān)控

由于featexp可計算兩個數(shù)據(jù)集之間的趨勢相關(guān)性,因此它可以很容易地利用于模型監(jiān)控。每次我們重新訓(xùn)練模型時,都可以將新的訓(xùn)練數(shù)據(jù)與測試好的訓(xùn)練數(shù)據(jù)(通常是***次構(gòu)建模型時的訓(xùn)練數(shù)據(jù))進行比較。趨勢相關(guān)性可以幫助你監(jiān)控特征信息與目標(biāo)的關(guān)系是否發(fā)生了變化。

這些簡單的步驟總能幫助我在Kaggle或者實際工作中構(gòu)建更好的模型。用featexp,花15分鐘去觀察那些圖像,是十分有價值的:它會帶你一步步看清黑箱里的世界。

還有什么其他方法可以幫助我們對特征進行探索嗎?如果你有更棒的想法,歡迎發(fā)郵件跟我交流abhayspawar@gmail.com。感謝你的閱讀!

相關(guān)報道:

https://towardsdatascience.com/my-secret-sauce-to-be-in-top-2-of-a-kaggle-competition-57cff0677d3c

【本文是51CTO專欄機構(gòu)大數(shù)據(jù)文摘的原創(chuàng)文章,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】

     大數(shù)據(jù)文摘二維碼

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2013-10-16 09:28:14

亞馬遜AWSSDN

2024-07-11 08:34:48

2013-10-16 09:33:36

亞馬遜AWSSDN

2014-01-07 10:46:39

2011-08-11 17:05:26

2023-07-26 00:20:20

Java 8數(shù)組方式

2023-07-24 08:20:11

StreamJava方式

2023-11-29 07:04:19

Git工作效率

2025-08-01 08:28:46

Kotlin代碼冒號

2015-06-08 09:50:07

Android M谷歌

2019-11-27 10:38:37

數(shù)據(jù)分析數(shù)據(jù)準(zhǔn)備工具

2022-02-11 10:47:17

CIOIT團隊企業(yè)

2025-05-14 00:01:10

RxJS異步編程響應(yīng)式

2009-07-28 10:36:58

云計算Google秘密武器

2023-05-08 14:54:00

AI任務(wù)HuggingGPT

2019-11-27 10:40:34

數(shù)據(jù)工具CIO

2015-03-30 16:58:05

秘密武器華為

2009-10-29 09:21:42

數(shù)據(jù)中心完美的十四大秘

2025-08-27 01:00:00

DSPyAI開發(fā)

2020-07-25 18:04:21

Windows 10Windows勒索病毒
點贊
收藏

51CTO技術(shù)棧公眾號

欧美lavv| 久久综合九色九九| 成人黄色一区二区| 国产精品扒开做爽爽爽的视频| 高清不卡在线观看| 日本韩国在线不卡| 国产suv一区二区三区| 欧美做受69| 欧美日韩成人高清| 91精品91久久久中77777老牛| 秋霞a级毛片在线看| 不卡电影一区二区三区| 国产欧美精品在线| 国产www在线| 中文字幕乱码亚洲无线精品一区| 国产午夜精品久久久 | 国产一区二区三区观看| 欧美又大又粗又长| 久久久久久久久久久网| 日韩成人精品一区| 日韩成人中文电影| 亚洲911精品成人18网站| xxxxx.日韩| 天天亚洲美女在线视频| 男人的天堂视频在线| 成黄免费在线| 久久综合狠狠综合久久激情| 成人动漫视频在线观看完整版| 一区二区自拍偷拍| 欧美一区=区| 海角国产乱辈乱精品视频| 日本二区三区视频| 国产一卡不卡| 亚洲区免费影片| 第四色在线视频| 亚洲一区网址| 日韩欧美一二三区| 午夜剧场高清版免费观看 | 丁香婷婷久久久综合精品国产| 亚洲一区中文字幕在线| 免费av网站大全久久| 日韩av大片免费看| 国产精品十八以下禁看| 中文字幕91视频| 欧美日韩伦理| 亚洲一区二区久久| 素人fc2av清纯18岁| 红杏一区二区三区| 日韩激情视频在线| 日本黄色片在线播放| 精品综合久久88少妇激情| 精品国产污网站| 欧美做受高潮中文字幕| 国产成人夜色高潮福利影视| 亚洲成年人在线| 大尺度在线观看| 久久精品凹凸全集| 亚洲美女又黄又爽在线观看| 性久久久久久久久久| 精品国产a一区二区三区v免费| 亚洲欧美日韩一区二区三区在线| 干b视频在线观看| 第一会所亚洲原创| 日韩在线国产精品| 欧美做爰爽爽爽爽爽爽| 一区免费视频| 欧美尤物巨大精品爽| 中文字幕在线观看视频免费| 麻豆精品精品国产自在97香蕉| 成人免费观看网址| 亚洲国产精品国自产拍久久| 97精品久久久午夜一区二区三区 | 捆绑凌虐一区二区三区| 色吊丝一区二区| 国产一区二区三区在线视频| 亚洲精品久久久久久国| 激情成人亚洲| 国产精品久久久精品| a级片免费观看| 99视频精品全部免费在线| 欧美最大成人综合网| 欧美三级黄网| 午夜天堂影视香蕉久久| 另类小说第一页| 日韩在线网址| 日韩欧美三级| 精品一区二区三区四区| 中文字幕美女视频| 在线欧美日韩| 国产精品天天狠天天看| 可以免费看毛片的网站| 国产婷婷色一区二区三区| 精品久久免费观看| 色戒汤唯在线| 日韩一卡二卡三卡国产欧美| 毛片网站免费观看| 欧美黄色aaaa| 国产精品久久久久福利| 亚洲黄色一级大片| 亚洲国产成人午夜在线一区 | 亚洲色图100p| 99精品国产福利在线观看免费| 国产精品一区专区欧美日韩| 污污视频在线免费看| 国产精品高潮呻吟久久| 国产成人无码a区在线观看视频| av成人亚洲| 亚洲精品国产美女| 天天综合天天做| 日本aⅴ亚洲精品中文乱码| 国产精选一区二区| 黄色av网站在线播放| 色综合色综合色综合 | 欧美国产欧美亚州国产日韩mv天天看完整 | 欧美亚洲视频在线看网址| 国产三级漂亮女教师| 国产午夜亚洲精品午夜鲁丝片| 少妇大叫太大太粗太爽了a片小说| 久久91视频| 一道本无吗dⅴd在线播放一区| 国产极品美女高潮无套嗷嗷叫酒店| 六月婷婷色综合| 日本婷婷久久久久久久久一区二区 | 91国产视频在线| 国产偷拍一区二区| 国产精品久久久99| 成人午夜小视频| 成年人三级黄色片| 高清日韩中文字幕| 欧美巨大黑人极品精男| 一道本无吗一区| 国产欧美一区二区精品性色超碰| 老太脱裤让老头玩ⅹxxxx| 亚洲高清在线一区| 欧美成人一区二区三区电影| 一区二区三区黄| 国产精品久久久久久久浪潮网站| 草草草在线视频| 国产亚洲电影| 国产精品久久久久久av福利软件| 麻豆av电影在线观看| 欧美日韩免费在线观看| 中文字幕在线播放视频| 亚洲免费观看| 国严精品久久久久久亚洲影视| 免费不卡av| 亚洲国产精品电影在线观看| 国产乡下妇女做爰视频| 成人a区在线观看| 日韩网站在线免费观看| 国产精品欧美大片| 欧美在线欧美在线| 三级在线观看| 欧美中文字幕久久| 久久一级免费视频| 国产精品一区二区久激情瑜伽 | 激情久久久久久| 国产在线资源一区| 在线观看特色大片免费视频| 亚洲性线免费观看视频成熟| 亚洲影院一区二区三区| 亚洲男同性恋视频| 亚洲天堂2024| 香蕉久久国产| 亚洲精品人成| 国产精品色婷婷在线观看| 欧美大片在线免费观看| 天堂在线中文网| 日本韩国欧美三级| 成人一级黄色大片| 不卡视频免费播放| 亚洲一区在线不卡| 中文不卡在线| 欧美高清视频一区二区三区在线观看| 精品日韩视频| 蜜臀久久99精品久久久无需会员| 国产刺激高潮av| 91久久精品一区二区| 国产日产亚洲精品| 老熟妇一区二区三区| 国产精品剧情在线亚洲| 在线观看一区二区三区视频| 西西人体一区二区| 亚洲一区二区高清视频| 成人资源在线| 国产精品女主播| 青春草免费在线视频| 亚洲人成电影网站色www| 国产在成人精品线拍偷自揄拍| 亚洲成人资源在线| 一级黄色录像毛片| 成人黄色大片在线观看 | 色中色综合影院手机版在线观看| 午夜性色福利影院| 欧美一区二区久久| 久久久久在线视频| 亚洲美女在线国产| 免费人成又黄又爽又色| 成人一区二区三区中文字幕| 黄色一级二级三级| 欧美天堂亚洲电影院在线观看| 欧美美乳视频网站在线观看| 秋霞午夜一区二区三区视频| 国产精品99蜜臀久久不卡二区| sis001亚洲原创区| 久久精品国产亚洲精品| 青青草视频在线观看| 日韩免费视频一区二区| 伊人网av在线| 日韩欧美精品在线观看| 国产真人真事毛片| 亚洲视频中文字幕| 呻吟揉丰满对白91乃国产区| 91浏览器在线视频| 亚洲美女在线播放| 国产美女精品人人做人人爽 | 欧美日韩卡一| 国产精品99久久久久久人| 黑森林国产精品av| 欧美国产日产韩国视频| 久久黄色美女电影| 在线观看国产精品91| 你懂的在线观看| 亚洲精品福利免费在线观看| 性欧美videos另类hd| 欧美一级片免费看| 国产精品特级毛片一区二区三区| 黑人巨大精品欧美一区免费视频| 最近免费中文字幕中文高清百度| 国产原厂视频在线观看| 亚洲欧洲美洲在线综合| 亚洲aaaaaaa| 日韩av一区在线| 色欲久久久天天天综合网| 日韩欧美激情在线| 国产高清在线免费| 日韩欧美国产wwwww| 精品国产一级片| 欧美一区二区国产| 精品人妻一区二区三区含羞草 | 日韩av黄色在线观看| 在线观看特色大片免费视频| 奇米成人av国产一区二区三区| 热三久草你在线| 青青在线视频一区二区三区| 校园春色亚洲色图| 国产精品96久久久久久又黄又硬| 久久久人成影片一区二区三区在哪下载| 欧美在线亚洲一区| 中文字幕在线中文字幕在线中三区| 91av在线视频观看| 成人免费网站视频| 日韩免费中文字幕| 高清av一区| 91欧美日韩一区| 综合欧美亚洲| 麻豆av一区| 成人在线国产| 久久免费一级片| 欧美另类亚洲| 大陆极品少妇内射aaaaa| 老司机一区二区三区| 免费看污黄网站| 国产精品一二三四区| 国产a级黄色片| 久久精品男人天堂av| 911国产在线| 亚洲综合一区二区| 国产性生活视频| 欧美猛男gaygay网站| 亚洲第一天堂在线观看| 日韩av综合网| 免费黄色在线| 韩国日本不卡在线| 国产精品videossex撒尿| 成人免费午夜电影| 欧美顶级毛片在线播放| 日韩三级电影| 欧美日韩精品| 久草青青在线观看| 国模无码大尺度一区二区三区| 亚洲 自拍 另类 欧美 丝袜| 久久你懂得1024| 亚洲波多野结衣| 精品免费在线观看| 国产一区二区三区黄片| 亚洲精品720p| 欧美成人二区| 欧美在线免费观看| 国产真实乱人偷精品| 粉嫩13p一区二区三区| b站大片免费直播| 一区二区三区蜜桃| 成年人晚上看的视频| 精品国产露脸精彩对白| 三区四区在线视频| 欧美一级片在线播放| 精品国产三区在线| 日韩在线电影一区| 亚洲二区视频| 91国内在线播放| 久久综合丝袜日本网| 91ts人妖另类精品系列| 岛国av在线不卡| 精品国产av一区二区三区| 在线精品国产欧美| 精精国产xxxx视频在线播放| 91在线观看免费高清| 精品美女视频| 波多野结衣综合网| 国产大陆a不卡| 99热这里只有精品4| 日本道精品一区二区三区| 手机在线精品视频| 欧美精品videosex极品1| 四虎视频在线精品免费网址| 欧美亚洲国产免费| 99精品国产在热久久婷婷| 香蕉视频免费网站| 亚洲欧美日韩在线播放| 一卡二卡三卡在线| 中文字幕欧美专区| 蜜桃精品在线| 欧美一区二区三区在线播放| 亚洲欧美日韩视频二区| 波多野结衣视频播放| 亚洲成人在线免费| 成人免费视频国产免费麻豆| 欧美成人午夜激情视频| 亚洲日本一区二区| 日韩精品视频播放| 欧美第一区第二区| 国精产品一区| 国产欧美日韩中文字幕在线| 国产免费播放一区二区| 日日碰狠狠添天天爽超碰97| 国产凹凸在线观看一区二区| 成人做爰视频网站| 欧美日韩午夜在线| chinese偷拍一区二区三区| 日本免费一区二区三区视频观看| 精品视频在线你懂得| 日韩欧美高清在线视频| 婷婷五月综合久久中文字幕| 午夜精品久久久久久久男人的天堂| 日本视频www| 久久美女高清视频| 欧美h在线观看| 亚洲日韩第一页| 天堂久久午夜av| 伊人久久av导航| 国内精品免费**视频| 五月婷婷一区二区| 欧美精品一区二区三区在线播放 | 久久五月天色综合| 日韩08精品| 激情伊人五月天| 国产欧美日韩视频在线观看| 中文字幕乱码一区二区| 久久久999精品| 成人h动漫免费观看网站| 国产免费黄色小视频| 国产拍欧美日韩视频二区| 亚洲性生活大片| 久久久久久国产| 欧洲毛片在线视频免费观看| 日本中文字幕影院| 亚洲尤物视频在线| 日本中文字幕一区二区有码在线| 国产精品678| 影音先锋成人在线电影| 亚洲天堂av网站| 欧美亚洲国产一区二区三区 | 17c国产在线| 综合电影一区二区三区| 欧美视频一二区| 国产精品1234| 欧美成人嫩草网站| 丝袜美腿中文字幕| 4hu四虎永久在线影院成人| 国产天堂在线播放视频| 日本10禁啪啪无遮挡免费一区二区| 激情综合色综合久久| 日韩欧美不卡视频| 最好看的2019的中文字幕视频| 亚洲小说春色综合另类电影| 成人在线免费播放视频| 一区二区三区中文字幕电影| 欧美视频综合| 91影院未满十八岁禁止入内| 久久亚洲图片| 久久老司机精品视频| 伊人青青综合网站| 天堂av一区| 日本久久久久久久久久久久| 亚洲成在线观看| 欧美日韩在线资源| 农村寡妇一区二区三区| 成人性生交大片免费看中文| 在线视频 91|