精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

將sklearn訓練速度提升100多倍,美國「返利網」開源sk-dist框架

新聞 機器學習
在本文中,Ibotta(美國版「返利網」)機器學習和數據科學經理 Evan Harris 介紹了他們的開源項目 sk-dist。

 在本文中,Ibotta(美國版「返利網」)機器學習和數據科學經理 Evan Harris 介紹了他們的開源項目 sk-dist。這是一個分配 scikit-learn 元估計器的 Spark 通用框架,它結合了 Spark 和 scikit-learn 中的元素,可以將 sklearn 的訓練速度提升 100 多倍。

在 Ibotta,我們訓練了許多機器學習模型。這些模型為我們的推薦系統、搜索引擎、定價優化引擎、數據質量等提供了支持,在與我們的移動 app 互動的同時為數百萬用戶做出預測。

雖然我們使用 Spark 進行大量的數據處理,但我們首選的機器學習框架是 scikit-learn。隨著計算成本越來越低以及機器學習解決方案的上市時間越來越重要,我們已經踏出了加速模型訓練的一步。其中一個解決方案是將 Spark 和 scikit-learn 中的元素組合,變成我們自己的融合解決方案。

項目地址:https://github.com/Ibotta/sk-dist

 

何為 sk-dist

我們很高興推出我們的開源項目 sk-dist。該項目的目標是提供一個分配 scikit-learn 元估計器的 Spark 通用框架。元估計器的應用包括決策樹集合(隨機森林和 extra randomized trees)、超參數調優(網格搜索和隨機搜索)和多類技術(一對多和一對一)。

将sklearn训练速度提升100多倍,美国「返利网」开源sk-dist框架

 

我們的主要目的是填補傳統機器學習模型分布選擇空間的空白。在神經網絡和深度學習的空間之外,我們發現訓練模型的大部分計算時間并未花在單個數據集上的單個模型訓練上,而是花在用網格搜索或集成等元估計器在數據集的多次迭代中訓練模型的多次迭代上。

實例

以手寫數字數據集為例。我們編碼了手寫數字的圖像以便于分類。我們可以利用一臺機器在有 1797 條記錄的數據集上快速訓練一個支持向量機,只需不到一秒。但是,超參數調優需要在訓練數據的不同子集上進行大量訓練。

如下圖所示,我們已經構建了一個參數網格,總共需要 1050 個訓練項。在一個擁有 100 多個核心的 Spark 集群上使用 sk-dist 僅需 3.4 秒。這項工作的總任務時間是 7.2 分鐘,這意味著在一臺沒有并行化的機器上訓練需要這么長的時間。

  1. import timefrom sklearn import datasets, svm 
  2. from skdist.distribute.search import DistGridSearchCV 
  3. from pyspark.sql import SparkSession # instantiate spark session 
  4. spark = (    
  5.     SparkSession     
  6.     .builder     
  7.     .getOrCreate()     
  8.     ) 
  9. sc = spark.sparkContext  
  10.  
  11. # the digits dataset 
  12. digits = datasets.load_digits() 
  13. X = digits["data"
  14. y = digits["target"
  15.  
  16. # create a classifier: a support vector classifier 
  17. classifier = svm.SVC() 
  18. param_grid = { 
  19.     "C": [0.010.010.11.010.020.050.0],  
  20.     "gamma": ["scale""auto"0.0010.010.1],  
  21.     "kernel": ["rbf""poly""sigmoid"
  22.     } 
  23. scoring = "f1_weighted" 
  24. cv = 10 
  25.  
  26. # hyperparameter optimization 
  27. start = time.time() 
  28. model = DistGridSearchCV(     
  29.     classifier, param_grid,      
  30.     sc=sc, cv=cv, scoring=scoring, 
  31.     verbose=True     
  32.     ) 
  33. model.fit(X,y) 
  34. print("Train time: {0}".format(time.time() - start)) 
  35. print("Best score: {0}".format(model.best_score_)) 
  36.  
  37.  
  38. ------------------------------ 
  39. Spark context found; running with spark 
  40. Fitting 10 folds for each of 105 candidates, totalling 1050 fits 
  41. Train time: 3.380601406097412 
  42. Best score: 0.981450024203508 

該示例說明了一個常見情況,其中將數據擬合到內存中并訓練單個分類器并不重要,但超參數調整所需的擬合數量很快就會增加。以下是運行網格搜索問題的內在機制,如上例中的 sk-dist:

将sklearn训练速度提升100多倍,美国「返利网」开源sk-dist框架

 

使用 sk-dist 進行網格搜索

 

對于 Ibotta 傳統機器學習的實際應用,我們經常發現自己處于類似情況:中小型數據(100k 到 1M 記錄),其中包括多次迭代的簡單分類器,適合于超參數調優、集合和多類解決方案。

現有解決方案

對于傳統機器學習元估計訓練,現有解決方案是分布式的。第一個是最簡單的:scikit-learn 使用 joblib 內置元估計器的并行化。這與 sk-dist 非常相似,除了一個主要限制因素:性能受限。即使對于具有數百個內核的理論單臺機器,Spark 仍然具有如執行器的內存調優規范、容錯等優點,以及成本控制選項,例如為工作節點使用 Spot 實例。

另一個現有的解決方案是 Spark ML。這是 Spark 的本機機器學習庫,支持許多與 scikit-learn 相同的算法,用于分類和回歸問題。它還具有樹集合和網格搜索等元估計器,以及對多類問題的支持。雖然這聽起來可能是分配 scikit-learn 模式機器學習工作負載的優秀解決方案,但它的分布式訓練并不能解決我們感興趣的并行性問題。

将sklearn训练速度提升100多倍,美国「返利网」开源sk-dist框架

分布在不同維度

如上所示,Spark ML 將針對分布在多個執行器上的數據訓練單個模型。當數據很大且無法將內存放在一臺機器上時,這種方法非常有效。但是,當數據很小時,它在單臺計算機上的表現可能還不如 scikit-learn。此外,當訓練隨機森林時,Spark ML 按順序訓練每個決策樹。無論分配給任務的資源如何,此任務的掛起時間都將與決策樹的數量成線性比例。

對于網格搜索,Spark ML 確實實現了并行性參數,將并行訓練單個模型。但是,每個單獨的模型仍在對分布在執行器中的數據進行訓練。如果按照模型的維度而非數據進行分布,那么任務的總并行度可能是它的一小部分。

最終,我們希望將我們的訓練分布在與 Spark ML 不同的維度上。使用小型或中型數據時,將數據擬合到內存中不是問題。對于隨機森林的例子,我們希望將訓練數據完整地廣播給每個執行器,在每個執行器上擬合一個獨立的決策樹,并將那些擬合的決策樹返回驅動程序以構建隨機森林。沿著這個維度分布比串行分布數據和訓練決策樹快幾個數量級。這種行為與網格搜索和多類等其他元估計器技術類似。

特征

鑒于這些現有解決方案在我們的問題空間中的局限性,我們決定在內部開發 sk-dist。最重要的是我們要「分配模型,而非數據」。

sk-dist 的重點是關注元估計器的分布式訓練,還包括使用 Spark 進行 scikit-learn 模型分布式預測的模塊、用于無 Spark 的幾個預處理/后處理的 scikit-learn 轉換器以及用于有/無 Spark 的靈活特征編碼器。

分布式訓練:使用 Spark 分配元估計器訓練。支持以下算法:超參數調優(網格搜索和隨機搜索)、決策樹集合(隨機森林、額外隨機樹和隨機樹嵌入)以及多類技術(一對多和一對一)。

分布式預測:使用 Spark DataFrames 分布擬合 scikit-learn 估算器的預測方法。可以通過便攜式 scikit-learn 估計器實現大規模分布式預測,這些估計器可以使用或不使用 Spark。

特征編碼:使用名為 Encoderizer 的靈活特征轉換器分布特征編碼。它可以使用或不使用 Spark 并行化。它將推斷數據類型和形狀,自動應用默認的特征轉換器作為標準特征編碼技術的最佳預測實現。它還可以作為完全可定制的特征聯合編碼器使用,同時具有與 Spark 分布式轉換器配合的附加優勢。

用例

以下是判斷 sk-dist 是否適合你的機器學習問題空間的一些指導原則:

傳統機器學習 :廣義線性模型、隨機梯度下降、最近鄰算法、決策樹和樸素貝葉斯適用于 sk-dist。這些都可在 scikit-learn 中實現,可以使用 sk-dist 元估計器直接實現。

中小型數據 :大數據不適用于 sk-dist。請記住,訓練分布的維度是沿著模型變化,而不是數據。數據不僅需要適合每個執行器的內存,還要小到可以廣播。根據 Spark 配置,最大廣播大小可能會受到限制。

Spark 定位與訪問:sk-dist 的核心功能需要運行 Spark。對于個人或小型數據科學團隊而言,這并不總是可行的。此外,為了利用 sk-dist 獲得最大成本效益,需要進行一些 Spark 調整和配置,這需要對 Spark 基礎知識進行一些訓練。

這里一個重要的注意事項是,雖然神經網絡和深度學習在技術上可以與 sk-dist 一起使用,但這些技術需要大量的訓練數據,有時需要專門的基礎設施才能有效。深度學習不是 sk-dist 的預期用例,因為它違反了上面的 (1) 和 (2)。在 Ibotta,我們一直在使用 Amazon SageMaker 這些技術,我們發現這些技術對這些工作負載的計算比使用 Spark 更有效。

 

責任編輯:張燕妮 來源: 機器之心
相關推薦

2021-12-27 15:25:24

神經網絡AI算法

2021-09-02 16:00:06

算法開源技術

2022-03-21 17:56:59

大模型訓練訓練框架

2022-03-21 15:06:10

模型字節跳動框架

2023-05-05 17:49:23

2024-11-02 10:28:03

2017-05-11 11:30:43

MySQL查詢速度

2012-07-27 09:48:01

Google Fibe光纖寬帶寬帶

2016-01-07 10:43:13

2020-08-06 18:08:40

美國凈網APP

2022-06-21 09:50:52

Citus 11.0CitusData開源

2025-09-28 08:52:00

2025-10-14 08:58:00

2024-03-18 09:02:53

AI模型

2020-01-19 10:33:09

框架Web開發

2010-05-25 10:37:00

三網融合網絡加速網宿科技

2024-11-27 14:30:00

模型訓練

2025-05-20 11:54:01

Python管理uv

2023-09-12 13:43:00

智能技術

2025-03-12 10:38:05

點贊
收藏

51CTO技術棧公眾號

国产精品久久久久免费| 日韩三级成人av网| 99草草国产熟女视频在线| 成人动漫在线播放| 国产一区二区三区综合| 午夜精品久久久久久久久久久久 | 亚洲女成人图区| 国产高清视频网站| 在线观看中文| 久久久不卡网国产精品一区| 国产日韩欧美夫妻视频在线观看| 免费毛片在线播放免费| 亚洲最好看的视频| 7777精品伊人久久久大香线蕉最新版| www污在线观看| aaa在线观看| aaa欧美日韩| 国产欧美久久久久久| 日韩欧美a级片| 亚洲精品888| 日韩精品高清在线观看| 亚洲在线观看网站| 欧美性xxx| 午夜伊人狠狠久久| 久久久久久久久久久久久国产| 手机看片福利永久| 国产成人综合精品三级| 国产精品普通话| 久久黄色精品视频| 亚洲午夜在线| 日韩一中文字幕| 亚洲性猛交xxxx乱大交| 精品久久ai| 欧美一区二区不卡视频| 8x8x成人免费视频| 波多野结衣久久精品| 亚洲国产综合色| 影音先锋男人的网站| 最新真实国产在线视频| 久久婷婷成人综合色| eeuss一区二区三区| 97caocao| 久久99久久久久| 国产精品中文字幕久久久| 国产91精品看黄网站在线观看| 欧美视频二区| 色综合影院在线| 国产三级av在线播放| 国产欧美一区| 国产亚洲精品成人av久久ww | 中文字幕av一区二区三区高 | 国产精品嫩草视频| 老熟妇一区二区三区| 美女尤物久久精品| 欧美在线一级va免费观看| 激情综合网五月婷婷| 国产精品vip| 欧美黄色小视频| 国产精品99无码一区二区| 伊人久久大香线蕉综合热线| 欧美激情综合色| 国产精品7777| 亚洲综合三区| 国产成人精品一区二区| 狠狠躁夜夜躁人人爽视频| 日韩av成人高清| 国产精品日本精品| 国产精品久久久久毛片| 国产精品自拍一区| 国产成人亚洲欧美| 香蕉视频免费看| 久久九九久精品国产免费直播| 日韩在线国产| 精品欧美色视频网站在线观看| 自拍偷拍欧美激情| 日韩精品综合在线| 老司机2019福利精品视频导航| 色综合av在线| av在线免费看片| 91综合久久爱com| 亚洲精品中文字幕女同| 永久免费毛片在线观看| 久久久久久久久国产一区| 欧美成人黑人xx视频免费观看| 久久网中文字幕| 性色一区二区三区| 国产美女精品视频免费观看| 国产夫妻在线观看| 2021中文字幕一区亚洲| 亚洲自拍偷拍二区| 日本天码aⅴ片在线电影网站| 黄色成人在线播放| 香蕉视频禁止18| 亚洲午夜精品| 在线播放国产一区中文字幕剧情欧美 | 国产午夜精品全部视频在线播放| 久久视频一区二区三区| 亚洲视频免费| 国产精品美女主播| 成人乱码一区二区三区| 国产欧美一区二区精品性色| 看全色黄大色大片| 韩国精品主播一区二区在线观看| 欧美一区二区性放荡片| 亚洲最大的黄色网| 亚洲国产精品久久久天堂| 欧美一区二区三区……| 国产a级免费视频| 久久婷婷国产综合国色天香 | 久久国产精品久久w女人spa| 91美女片黄在线观| 嫩草精品影院| 亚洲超碰97人人做人人爱| 一级黄色特级片| 欧美精品国产白浆久久久久| 久久精品夜夜夜夜夜久久| 亚洲黄色免费观看| 高清不卡一二三区| 在线无限看免费粉色视频| 欧美大片1688| 亚洲国内精品视频| 私库av在线播放| 美国欧美日韩国产在线播放| 久久久久久国产精品免费免费| 中文字幕资源网在线观看| 欧美在线制服丝袜| 51调教丨国产调教视频| 国产精品九九| 91久久久久久久久久久久久| 国产高清视频在线播放| 欧美日韩午夜视频在线观看| 国产亚洲精品成人a| 婷婷中文字幕一区| 国产精品网红福利| 成全电影播放在线观看国语| 欧美性猛交xxxx偷拍洗澡| av天堂一区二区| 国产综合自拍| 99re视频在线| 日本动漫同人动漫在线观看| 337p亚洲精品色噜噜噜| 国产美女高潮视频| 欧美aa在线视频| 五月天色一区| 777午夜精品电影免费看| 亚洲精品网址在线观看| 好吊色在线视频| 久久久亚洲精品石原莉奈 | 中文在线中文资源| 日韩成人在线电影网| 成人免费区一区二区三区| 成人动漫在线一区| 国产av天堂无码一区二区三区| 国产图片一区| 韩国精品久久久999| 四虎永久在线精品免费网址| 亚洲aⅴ怡春院| 亚洲精品激情视频| 国产精品v亚洲精品v日韩精品| 成人国产1314www色视频| 顶级网黄在线播放| 欧美日本一区二区在线观看| 性高潮久久久久久久| 久久久久综合| 日日骚一区二区网站| 亚洲第一会所| 日韩成人性视频| 中文字幕乱码人妻无码久久 | 欧美一级片在线| 国产三级国产精品国产国在线观看| 久久精品国产亚洲一区二区三区| 日韩精品一区二区三区外面| 羞羞影院欧美| 久久精品国产精品亚洲| 国产精品九九九九| 亚洲黄色性网站| 两女双腿交缠激烈磨豆腐| 欧美成人精品一区二区三区在线看| 国产精品亚洲精品| 国产日产一区二区| 精品日本一线二线三线不卡| 久久久精品国产sm调教| av电影天堂一区二区在线| 国产视频一视频二| 欧美**字幕| 国产精品久久久久久久久久久久 | 日本在线一级片| 99久久精品久久久久久清纯| 国产女女做受ⅹxx高潮| 日韩欧美二区| 2014亚洲精品| 牛牛精品在线| 亚洲人成电影网站| 一级黄在线观看| 一区二区不卡在线播放| 美女又爽又黄免费| 韩国欧美国产1区| 全黄性性激高免费视频| 欧美猛男男男激情videos| 国产日韩欧美在线视频观看| a天堂资源在线| 亚洲天堂av在线播放| 91在线公开视频| 五月激情综合色| 高清国产在线观看| 成人av在线播放网址| 久久人妻精品白浆国产| 国产精品不卡| 久久99精品国产99久久| 欧美三级电影网址| 欧美激情视频一区二区| 激情视频在线观看免费| 欧美一区二区三区四区久久| 国产超碰人人爽人人做人人爱| 亚洲欧美日韩国产一区二区三区| 精品人妻一区二区免费视频| 久久精品国产亚洲a| 国产美女主播在线播放| 国产精品一在线观看| 国产精品三区在线| 欧美亚洲人成在线| 欧美一级视频一区二区| 在线三级电影| www.欧美精品| 粉嫩小泬无遮挡久久久久久| 欧美日韩卡一卡二| 国产大片中文字幕| 一区二区三区在线免费播放| 国产高清一区二区三区四区| 成人精品鲁一区一区二区| 一道本在线免费视频| 日韩中文字幕区一区有砖一区| 日韩小视频网站| 五月开心六月丁香综合色啪 | 国产精品麻豆久久久| 国产又粗又猛又爽视频| 99久久伊人网影院| 日本成人在线免费| 狠狠色综合日日| 午夜视频你懂的| 久久aⅴ国产紧身牛仔裤| 青草网在线观看| 亚洲免费二区| 日韩av一级大片| 欧美色图激情小说| 欧美日韩日本网| 欧美大片网址| 国产精品久久久久久久久婷婷 | 国产一区喷水| 欧美高清一级片| 成人免费观看a| 免费观看在线一区二区三区| 国产一区在线播放| 97人人做人人爽香蕉精品| 97成人超碰免| jizzjizz中国精品麻豆| 久久99亚洲精品| 亚洲第一图区| 欧美大片免费观看| 99免在线观看免费视频高清| 日韩一区二区福利| 久草中文在线观看| 久久精品成人欧美大片古装| 日本a一级在线免费播放| 亚洲精品视频久久| 精品视频二区| 亚洲午夜女主播在线直播| 国产小视频在线观看| 亚洲欧美日韩综合| 国产主播福利在线| 这里只有精品视频在线| 欧美精品日韩少妇| 久久免费成人精品视频| 性爽视频在线| 日本欧美黄网站| 99久久伊人| 91久久国产精品91久久性色| 亚洲毛片在线免费| 成人免费在线视频网站| 麻豆国产一区| 国产成人成网站在线播放青青| 成人香蕉社区| 欧美日韩亚洲综合一区二区三区激情在线| 蜜臀av免费一区二区三区| 日本福利视频导航| 精品动漫av| 男女视频一区二区三区| 另类中文字幕网| yy6080午夜| 国产日韩av一区二区| 一区二区国产精品精华液| 亚洲国产va精品久久久不卡综合| 久久精品一级片| 色噜噜狠狠成人网p站| 一级一片免费看| 91精品欧美一区二区三区综合在| 精品毛片一区二区三区| 日韩av网站导航| 秋霞午夜在线观看| 久久久久久国产免费| 欧美gay囗交囗交| 成人精品在线观看| 精品人人人人| 亚洲成人在线视频网站| 亚欧美无遮挡hd高清在线视频| 亚洲国产精品无码av| 日本不卡视频一二三区| 天天摸天天舔天天操| 97精品久久久午夜一区二区三区| 亚洲女同二女同志奶水| 午夜激情一区二区三区| 在线观看免费国产视频| 911精品产国品一二三产区| 日本黄视频在线观看| 日韩在线视频网| 亚洲精品日产| 亚洲一区二区久久久久久| 亚洲日本三级| 三年中文高清在线观看第6集| 久久婷婷亚洲| 亚洲视频在线播放免费| 中文成人av在线| 国产又黄又猛又粗又爽| 欧美大片国产精品| av大片在线看| 性色av一区二区三区| 国产高清视频一区二区| 日韩精品一区二区三区色偷偷| 激情久久久久久| 亚洲免费在线播放视频| 91麻豆文化传媒在线观看| 日韩黄色免费观看| 欧美三级欧美一级| bbbbbbbbbbb在线视频| 26uuu另类亚洲欧美日本一| 国产一精品一av一免费爽爽| 中文字幕精品一区日韩| 日本伊人色综合网| 国产精品久久久免费观看| 国产精品美女久久久久aⅴ国产馆 国产精品美女久久久久av爽李琼 国产精品美女久久久久高潮 | 久久久久久欧美| 57pao成人永久免费| 亚洲电影一二三区| 奶水喷射视频一区| 久久精品视频18| 欧美日韩在线视频首页| 国产成人精品毛片| 在线视频一区二区| 黄色综合网址| 欧美精品尤物在线| 亚洲综合日本| 久久精品无码一区| 色哟哟一区二区三区| 日本电影一区二区在线观看| 91精品国产网站| 少妇一区二区三区| 男人日女人逼逼| 久久久久久久av麻豆果冻| 日本在线播放视频| 精品一区二区亚洲| 大胆人体一区二区| 欧美三级华人主播| 丝袜亚洲另类欧美| 四虎成人在线播放| 亚洲不卡av一区二区三区| 丰满人妻av一区二区三区| 欧美成人精品激情在线观看| 精品国产一区二区三区性色av| 性做爰过程免费播放| 国产精品亚洲成人| 精品无码久久久久| 亚洲大胆人体视频| 成人bbav| 欧美日韩一区在线视频| 日韩中文欧美在线| 欧美熟妇激情一区二区三区| 91久久精品网| 91网在线播放| 亚洲综合日韩中文字幕v在线| 欧美激情麻豆| 污污污www精品国产网站| 欧美视频13p| 激情影院在线观看| 国产经品一区二区| 精品91久久久久| 国产精品1区2区3区4区| 欧美一区二区女人| 久久久男人天堂| 午夜精品一区二区三区在线观看| 久久99久国产精品黄毛片色诱| 午夜精品一区二区三区视频| 欧美精品一区二区三区蜜桃| 午夜欧美巨大性欧美巨大| 亚洲图片都市激情| 国产高清一区日本| 久久午夜免费视频| 丝袜美腿亚洲一区二区| 午夜久久av| 99久久激情视频| 午夜久久电影网|