精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

機器學習教材中的7大經典問題

人工智能 機器學習
有時我們會發現,在實際工作中,應該怎么做和教科書講的結論相矛盾,這時候要怎么辦呢?難道教科書中的結論出錯了?事實上,有時確實如此。所以今天我就想和大家分享一下機器學習教材中的一些經典問題,希望對大家今后的工作和學習有所幫助。

[[201516]]

如果希望了解機器學習,或者已經決定投身機器學習,你會第一時間找到各種教材進行充電,同時在心中默認:書里講的是牛人大神的畢生智慧,是正確無誤的行動指南,認真學習就能獲得快速提升。但實際情況是,你很可能已經在走彎路。

科技發展很快,數據在指數級增長,環境也在指數級改變,因此很多時候教科書會跟不上時代的發展。有時,即便是寫教科書的人,也不見得都明白結論背后的“所以然”,因此有些結論就會落后于時代。針對這個問題,第四范式創始人、首席執行官戴文淵近日就在第四范式內部分享上,向大家介紹了機器學習教材中的七個經典問題。本文根據演講實錄整理,略有刪減。

有時我們會發現,在實際工作中,應該怎么做和教科書講的結論相矛盾,這時候要怎么辦呢?難道教科書中的結論出錯了?事實上,有時確實如此。所以今天我就想和大家分享一下機器學習教材中的一些經典問題,希望對大家今后的工作和學習有所幫助。

神經網絡不宜超過三層 

 

那為什么之前的教科書上會寫神經網絡不能超過三層,這就要從神經網絡的歷史說起。五十年代有位科學家叫Marvin Minksy,他是一位生物學家,數學又很好,所以他在研究神經元的時候就在想能不能用數學模型去刻畫生物的神經元,因此就設計了感知機。感知機就像一個神經細胞,它能像神經細胞一樣連起來,形成神經網絡,就像大腦的神經網絡。其實在60年代開始的時候,是有很深的神經網絡,但當時經過大量實驗發現,不超過三層的神經網絡效果不錯,于是大概到80年代時就得出結論:神經網絡不宜超過三層。

 

那為什么現在這條結論又被推翻了呢?實際上這條結論是有前提條件的,即在數據量不大的情況下,神經網絡不宜超過三層。而從2005年開始,大家發現隨著數據增加,深度神經網絡的表現良好,所以慢慢走向深度學習。其實這里真正正確的原理是Valiant引理,它可以理解為“模型復雜度(例如專家系統的規則數量)要和數據量成正比”。數據量越大,模型就越復雜。上個世紀因為數據量小,所以神經網絡的層數不能太深,現在數據量大,所以神經網絡的層數就要做深。這也解釋了為什么當時教科書會有這樣的結論,而現在隨著深度學習的流行,大家已經不再會認為這句話是對的。

決策樹不能超過五層

如果有同學看教科書上介紹決策樹,會有一個說法就是決策樹要減枝,決策樹如果不減枝效果不好。還有教科書會告訴決策樹不能超過五層,超過五層的決策樹效果不好。這個結論和神經網絡結論一樣,神經網絡不能超過三層也是因為當時數據量不大,決策樹不能超過五層也是因為上個世紀數據量不夠大,二叉樹決策樹如果深度是N的話,復雜度大概是2的N次方,所以不超過五層復雜度也就是三十多。如果數據量達到一百萬的時候,決策樹能達到十幾二十層的規模,如果數據量到了一百億的時候決策樹可能要到三十幾層。

 

現在,我們強調更深的決策樹,這可能和教科書講的相矛盾。矛盾的原因是現在整個場景下數據量變大,所以要做更深的決策樹。當然,我們也不一定在所有的場景里都有很大數據量,如果遇到了數據量小的場景,我們也要知道決策樹是要做淺的。最根本來說,就是看有多少數據,能寫出多復雜的模型。

特征選擇不能超過一千個

有些教科書會單獨開個章節來講特征選擇,告訴我們在拿到數據后,要先刪除一些不重要的特征,甚至有的教科書注明,特征數不能超過一千,否則模型效果不好。但其實這個結論也是有前提條件的,如果數據量少,是不能夠充分支撐很多特征,但如果數據量大,結論就會不一樣。這也就是為什么我們做LogisticRegression會有幾十億個特征,而不是限制在幾百個特征。

 

過去傳統數據分析軟件,如SAS,之所以只有幾百個特征,是因為它誕生于上世紀七十年代,它面臨的問題是在具體場景下沒有太多可用數據,可能只有幾百上千個樣本。因此,在設計系統時,就只需要針對幾百個特征設計,不需要幾十億個特征,因為上千個樣本無法支撐幾十億特征。但現在,隨著數據量增加,特征量也需要增加。所以我認為,在大數據環境下,整個機器學習教科書里關于特征選擇的章節已經落后于時代,需要根據新的形式重新撰寫;當然在小數據場景下,它仍然具有價值。

集成學習獲得最好學習效果

第四個叫做集成學習,這個技術在各種數據挖掘比賽中特別有用,比如近些年KDD CUP的冠軍幾乎都是采用集成學習。什么是集成學習?它不是做一個模型,而是做很多(例如一千個)不一樣的模型,讓每個模型投票,投票的結果就是最終的結果。如果不考慮資源限制情況,這種模式是效果最好的。這也是為什么KDDCUP選手們都選擇集成學習的方式,為了追求最后效果,不在乎投入多少,在這種條件下,集成學習就是最好的方式。

 

但在現實中,企業做機器學習追求的不是用無限的資源做盡可能好的效果,而是如何充分利用有限資源,獲得最好效果。假設企業只有兩臺機器,如何用這兩臺機器獲得最好的效果呢?如果采用集成學習,用兩臺機器跑五個模型,就要把兩臺機器分成五份,每個模型只能用0.4臺機器去跑,因此跑的數據量就有限。那如果換種方式,不用集成學習,就用一個模型去跑,就能跑5倍的數據。通常5倍的數據量能比集成學習有更好的效果。在工業界比較少會應用集成學習,主要是因為工業界絕大多數的場景都是資源受限,資源受限時最好的方式是想辦法放進去更多的數據。集成學習因為跑更多的模型導致只能放更少的數據,通常這種效果都會變差。

正樣本和負樣本均采樣到1:1

第五個叫做均衡采樣,絕大多數的教科書都會講到。它是指如果我們訓練一個模型,正樣本和負樣本很不平均,比如在正樣本和負樣本1:100的情況下,就需要對正、負樣本做均衡采樣,把它變成1:1的比例,這樣才是最好的。但其實這個結論不一定對,因為統計學習里最根本的一條原理就是訓練場景和測試場景的分布要一樣,所以這個結論只在一個場景下成立,那就是使用模型的場景中正、負樣本是1:1,那這個結論就是對的。 

 

正確的做法是,應用場景是1:100,那訓練集合最好也是1:100。均衡采樣不一定都是對的,多數情況下不采樣反而才是正確的。因為大多時候,我們直接把訓練集合和測試集合做隨機拆分,或者按照時間拆分,二者的分布就是一致的,那個時候不采樣是最好的。當然有時候,我們也會發現做負樣本采樣會有更好的效果,比如范式在為某股份制銀行卡中心做交易反欺詐時,就做了負樣本采樣,那是因為當我們把所有樣本都放進去后,發現計算資源不夠,所以只能做采樣。正樣本與負樣本大概是1:1000或者1:10000,如果對正樣本做采樣,損失信息量會比較大,所以我們選擇對負樣本采樣,比如做1:1000的采樣,再把負樣本以1000的加權加回去。在資源受限時這么做,會盡可能降低信息量的損失。但如果僅僅是為了把它做均衡而做負樣本采樣,通常是不對的。和前面幾個問題不同,負樣本采樣并不是因環境改變而結論變化,事實上就不應該做負樣本采樣。

交叉驗證是最好的測試方法

下一個問題叫做交叉驗證,是指假設要將一份數據拆分成訓練集和測試集,這個時候怎么評估出它的誤差?交叉驗證是把集合拆成五份,取四份做訓練集、一份做測試集,并且每次選擇不同的那一份做測試級,最后測出五個結果再做平均,這被認為是最好的測試方法。

 

交叉驗證確實是一個還不錯的驗證的方法,但在現實應用場景下,它往往不是最合適的一種方式。因為通常來說,我們用機器學習做的事情是預測,絕大多數情況下我們是用現在或者過去的數據做一個模型來預測未來。而拿過去的訓練預測未來的最好測試方法不是交叉驗證,因為交叉驗證是按照交易或者按人拆分的。最合適的是方法其實是按照時間拆分,比如評估的時候選取一個時間點,用在這個時間點之前的數據做訓練,預測在這個時間點之后的,這是最接近真實應用場景的評估結果。

交叉驗證可能只適用于和時間屬性不相關的場景,比如人臉識別,但我們面臨更多的應用場景,無論是風險、營銷或者反欺詐,都是在用過去的數據訓練后預測未來,最合適這樣場景的評估方法不是交叉驗證,而是按照時間去拆分。

過擬合一定不好

最后一個叫過擬合,這也是一個討論特別多的話題。以前,通常我們會說如果模型做的太復雜了就會過擬合,如PPT右邊所示,而最好的方式應該是圖中中間的狀態——擬合的剛剛好,圖中左邊的模型underfitting,沒有訓練完全。但現在來看,大多數的實際場景都是在拿過去預測未來,過擬合不一定是不好的,還是要看具體場景。如果這個場景是過去見過的情況比較多,新的情況比較少的時候,過擬合反倒是好的。

 

打個比方,如果期末考試題就是平時的作業,那我們把平時的作業都背一遍就是最好的方式,而這就是過擬合。如果期末考試不考平時作業,全是新題,那么這個時候就不能只背平時的作業,還要充分理解這門課的知識,掌握如何推理解題的技巧。所以過擬合好壞與否,完全取決于場景。如果應用場景依靠死記硬背就能搞定,那過擬合反倒是好的。實際上在我們的設計里面,很多時候我們會傾向于往過擬合靠一點,可能做新題會差一點,但是對于死記硬背的送分題會做的非常好。在拿過去預測未來的應用場景下,有的時候過擬合不一定不好,要根據實際情況來看。

今天與大家分享了教科書中的幾個經典問題。其實在實際工業應用中,我們不會完全按照教科書中的方式去實踐。我們也會設計很深的模型、很深的決策樹、很多的特征、會過擬合一點,我們更強調按時間拆分,不強調均衡采樣。面對教科書中的結論,我們需要學會的是根據實際場景做出相應靈活判斷。

 

責任編輯:龐桂玉 來源: 36大數據
相關推薦

2017-05-15 10:30:00

大數據數據化運營應用

2010-03-03 12:57:02

Web

2018-02-01 18:45:12

機器學習算法線性回歸

2011-01-26 09:14:43

數據挖掘

2015-08-05 15:42:10

程序員面試問題

2011-11-28 14:23:53

美信云網管

2010-08-31 14:01:48

CSS

2020-12-09 16:57:15

數據分析大數據

2023-03-03 13:10:15

2020-07-30 08:10:08

框架設計Spring Secu

2017-07-18 10:50:38

前端JavaScript排序算法

2025-05-12 10:10:00

運維Linux系統

2021-10-31 07:38:37

排序算法代碼

2016-01-29 11:00:55

數據挖掘算法大數據

2010-08-16 09:57:49

SilverlightWPFVisual Stud

2013-02-25 09:46:35

數據挖掘算法ICDM

2013-07-09 13:56:48

微信

2022-03-10 12:03:33

Python算法代碼

2024-09-06 17:57:35

2018-11-06 09:48:36

機器學習算法模型
點贊
收藏

51CTO技術棧公眾號

国产亚洲欧美在线| 68国产成人综合久久精品| 日韩欧美在线播放| 亚洲精品国产福利| 国产xxxxx在线观看| 欧美成熟毛茸茸| 日本不卡一区二区三区| 欧美一区二区三区色| www.日本在线播放| 1769在线观看| 成人爱爱电影网址| 国产精品入口夜色视频大尺度| 日韩精品123区| 日本一区福利在线| 欧美福利电影网| 欧美 国产 日本| 欧美男男video| 亚洲国产精品精华液2区45| 动漫精品视频| 91精品国产色综合久久不8| 一道本一区二区三区 | 日本在线观看视频网站| 成人综合久久| 亚洲欧美国产高清va在线播| 欧美三级中文字| 国产中文一区二区| 91好色先生tv| 日韩成人午夜精品| 亚洲精品91美女久久久久久久| 国产aaaaa毛片| 午夜激情小视频| 国产一区二区导航在线播放| 国产成人久久久| 国产污污视频在线观看 | 亚洲视频综合网| 高清中文字幕mv的电影| 蜜桃视频成人m3u8| 色婷婷综合久色| 99热在线这里只有精品| av3级在线| 国产高清不卡一区| 国产欧美一区二区三区在线看 | 国产高清自拍99| 国产日韩免费视频| 国内久久精品视频| 91免费在线视频| 国产一二三区精品| 日韩中文欧美| 最近2019年日本中文免费字幕 | 成人网在线免费视频| 91精品国产综合久久久久久丝袜| 私库av在线播放| 仙踪林久久久久久久999| 一区二区三欧美| 熟女少妇内射日韩亚洲| 精品亚洲成人| 日韩在线视频中文字幕| 九九这里只有精品视频| 97国产精品| 免费91麻豆精品国产自产在线观看| а天堂中文在线资源| 91精品国产成人观看| 日韩视频免费在线观看| 黄色a级片在线观看| 欧美三区视频| 性色av香蕉一区二区| 国产 欧美 日韩 在线| 国产精品女主播一区二区三区| 4p变态网欧美系列| 精品久久久久久久久久久久久久久久| 丝袜美腿一区二区三区| 国产日韩欧美中文| 亚洲产国偷v产偷v自拍涩爱| 成人av网站在线观看免费| 久久精品日产第一区二区三区乱码 | 国产精品高清一区二区三区| 黄色av免费观看| 久久久久综合网| 在线电影看在线一区二区三区| 国产黄网站在线观看| 一区二区欧美视频| 91九色在线观看视频| 国产精品亚洲d| 91精品一区二区三区久久久久久| 久久久久久久久久久久国产精品| 色婷婷久久久| 久久精品成人欧美大片古装| 免费在线观看日韩| 欧美美女视频| 欧美精品制服第一页| 天堂网av手机版| 久久电影网站中文字幕| 狠狠爱www人成狠狠爱综合网 | 999精品在线观看| 无码国精品一区二区免费蜜桃| 国产清纯在线一区二区www| 午夜探花在线观看| 刘亦菲一区二区三区免费看| 欧美日韩国产首页| 91av在线免费| 亚洲字幕久久| 国产成人精品999| 亚洲第一色视频| 中文字幕精品一区二区精品绿巨人| 久久久久久久久网| porn视频在线观看| 亚洲午夜羞羞片| 中国一级黄色录像| 瑟瑟视频在线看| 夜夜嗨av一区二区三区中文字幕| 日本不卡在线观看视频| 成人国产精品久久| 国产亚洲欧美日韩一区二区| 国产亚洲精品久久久久久无几年桃 | 91看片淫黄大片一级在线观看| 日本免费在线视频观看| 福利视频在线看| 亚洲一区二区三区四区五区黄| 爱情岛论坛亚洲首页入口章节| 色资源二区在线视频| 欧美一级生活片| 极品尤物一区二区| 久久九九免费| 欧美日本国产| 亚洲欧美日韩中文视频| 青青草手机视频在线观看| 日本不卡一二三区黄网| 久久久水蜜桃| 嗯啊主人调教在线播放视频| 日韩女优av电影| 久久久无码人妻精品无码| 日本女优一区| 国产成人自拍视频在线观看| 天天爱天天干天天操| 亚洲高清视频在线| 久久久久中文字幕亚洲精品| 亚洲蜜桃视频| 91视频国产一区| v天堂福利视频在线观看| 欧美年轻男男videosbes| 天堂在线中文视频| 日韩成人精品在线观看| 日本高清不卡一区二区三| 亚洲天堂导航| 亚洲欧美在线第一页| 久久夜靖品2区| 97久久超碰国产精品| 久在线观看视频| 香蕉一区二区| 日韩av大片在线| 都市激情在线视频| 欧美亚洲图片小说| 久久一级免费视频| 狠狠色丁香久久婷婷综合_中| eeuss中文| 国产色99精品9i| 欧美国产激情18| 亚洲天堂一区在线观看| 91碰在线视频| 91九色在线视频| 久久精品国产99久久99久久久| 国产毛片久久久| 97国产精品视频人人做人人爱| 免费激情视频网站| 欧美日韩亚洲精品内裤| 人妻精品久久久久中文字幕| 天堂资源在线中文精品| 亚洲一区精彩视频| av蜜臀在线| 日韩欧美视频在线| 日韩欧美亚洲视频| 国产欧美一区视频| 国产精品999.| 日韩一区二区久久| 日韩av电影免费观看| 国产精品视频一区视频二区| 欧美国产视频一区二区| 青青草免费在线| 午夜影院欧美| 成人欧美一区二区三区黑人| 超鹏97在线| 亚洲精品二三区| 国产日韩在线免费观看| 亚洲人123区| 香港三级日本三级| 亚洲都市激情| 国产精品嫩草影院久久久| 国产视频一区二区| 亚洲精品videossex少妇| 日韩国产亚洲欧美| 亚洲精品成人悠悠色影视| 天天插天天射天天干| 奇米777欧美一区二区| 97在线免费视频观看| 久久99精品久久久久久园产越南| 欧美成人午夜免费视在线看片| 理论片中文字幕| 欧美手机在线视频| 国产无码精品在线观看| 一起操在线播放| 久久久精品五月天| 懂色av一区二区三区四区五区| 精品少妇一区| 成人欧美一区二区三区在线湿哒哒| 国产后进白嫩翘臀在线观看视频| 欧美日韩一级二级| 香蕉免费毛片视频| 亚洲欧美一区二区三区极速播放 | 免费日韩成人| 77777少妇光屁股久久一区| 蜜桃av在线免费观看| 色妞www精品视频| 玖玖爱在线精品视频| 日韩1区2区3区| 久久久亚洲国产精品| 婷婷亚洲五月| 91成人伦理在线电影| 桃子视频成人app| 久久久亚洲精品视频| 免费在线毛片网站| 亚洲欧美激情精品一区二区| 性做久久久久久久久久| 欧美精品一二三四| 91丨九色丨海角社区| 欧美日韩国产一区中文午夜| 丝袜 亚洲 另类 欧美 重口| 国产精品你懂的在线| 国产美女免费网站| 99久久精品久久久久久清纯| 人妻激情偷乱视频一区二区三区| 久久超级碰视频| 中文字幕国内自拍| 日韩国产精品91| 热久久精品国产| 久久裸体视频| 男女av免费观看| 中文欧美日韩| www在线观看免费| 亚洲激情精品| 91专区在线观看| 国产亚洲永久域名| 亚洲中文字幕无码专区| 99热精品在线观看| 久久综合色视频| 西西人体一区二区| 日日摸天天爽天天爽视频| 五月婷婷激情五月| 久久99深爱久久99精品| 日本黄大片一区二区三区| 青青草原综合久久大伊人精品优势| 日韩一级在线免费观看| 在线亚洲自拍| 精品久久久久av| 久久丁香综合五月国产三级网站| 国产亚洲视频一区| 国产精品自拍一区| 国产精品日日摸夜夜爽| 成+人+亚洲+综合天堂| 香蕉视频污视频| 91丝袜高跟美女视频| 男女黄床上色视频| 国产精品私人影院| 中文字幕人妻一区二| 一区二区三区免费| 日本三级网站在线观看| 岛国av一区二区| 国产精品久久久久久久久夜色| 欧美在线看片a免费观看| 中文字幕一区二区久久人妻| 91精品综合久久久久久| 国产77777| 亚洲免费一在线| 免费在线午夜视频| 国模私拍一区二区三区| 成人免费影院| 成人黄色免费看| 国产劲爆久久| 日韩欧美一区二区视频在线播放| 五月天综合网站| 国产二区视频在线| 免费视频最近日韩| 人妻精油按摩bd高清中文字幕| 97se亚洲国产综合在线| 欧美一级一级性生活免费录像| 91午夜精品亚洲一区二区三区| 欧美色图一区二区三区| 亚洲国产中文字幕在线| 亚洲三级 欧美三级| www久久日com| 日本久久久久久| 欧美二区观看| 人人澡人人澡人人看欧美| 四虎影视国产在线视频| 欧美亚洲成人网| www999久久| 欧美精品亚洲精品| 国产精品av久久久久久麻豆网| 成人在线观看a| 粉嫩av一区二区三区| 手机看片日韩av| 亚洲午夜久久久久久久久电影网| 国产污视频网站| 欧美成人a视频| 在线观看美女网站大全免费| 午夜精品久久久久久久99热| 日日夜夜综合| 日本一区二区三区四区高清视频| 欧美福利在线| 手机av在线免费| 26uuu国产日韩综合| 四虎免费在线视频| 欧美三级视频在线播放| 五月天福利视频| 九色精品免费永久在线| 国产在视频一区二区三区吞精| 久久av一区二区| 狠狠久久婷婷| 两女双腿交缠激烈磨豆腐| 欧美韩国一区二区| 国产精品视频123| 欧美精品一区二区三区一线天视频 | 亚洲国产免费av| 天天色天天射天天综合网| 国产欧美最新羞羞视频在线观看| 久久成人av| 东京热加勒比无码少妇| 99在线精品视频| 国产五月天婷婷| 欧美不卡一区二区三区| 国产激情视频在线观看| 成人网在线视频| 999久久久91| 欧美美女性视频| 国产精品久久午夜夜伦鲁鲁| 精品久久久久久久久久久国产字幕 | 日韩av成人在线| 少妇精品久久久| 欧美一卡二卡在线观看| 麻豆一区二区三区精品视频| 欧美高清激情brazzers| 午夜老司机在线观看| 国产精品在线看| 久久精品国产68国产精品亚洲| 一级在线免费视频| 国产精品美女一区二区三区| 国产在线一级片| 中文字幕免费精品一区高清| aaa在线观看| 国产精品国产自产拍高清av水多| 欧美热在线视频精品999| 成人羞羞国产免费网站| 国产亚洲短视频| 中文字幕在线观看欧美| 日韩视频免费在线| 日韩一区二区三区精品 | av网站在线免费看| 久久国产精品久久精品| 日韩高清一区| 极品美女扒开粉嫩小泬| 久久久久久一二三区| 中文字幕av影视| 久热国产精品视频| 51社区在线成人免费视频| 欧美日韩精品免费看| 日日夜夜精品视频免费| 色欲狠狠躁天天躁无码中文字幕| 欧美性高清videossexo| 久久日韩视频| 国产精品久久久久久久小唯西川| 一本一本久久| 欧美xxxx精品| 欧美videos大乳护士334| 麻豆视频在线看| 先锋在线资源一区二区三区| 国产一区福利在线| 久久国产精品系列| 国产一区二区动漫| 精品国产18久久久久久二百| 国产人妻777人伦精品hd| 欧美国产日韩a欧美在线观看| 国产乱人乱偷精品视频| 欧洲杯什么时候开赛| 人妻无码视频一区二区三区| 国产精品卡一卡二| 欧美特黄一级视频| 国产精品18久久久久久首页狼 | 综合激情国产一区| 亚洲网一区二区三区| 波多野结衣作品集| 一区二区三区美女| 国产精品久久久久久久龚玥菲 | 国产精品白丝jk喷水视频一区| 欧美丰满日韩| 51调教丨国产调教视频| 欧美二区乱c少妇| 亚洲黄色中文字幕| 中文字幕日韩精品无码内射| 欧美激情中文字幕一区二区| 高h震动喷水双性1v1| 国产精品视频999|