精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

面向數(shù)據(jù)科學(xué)的5個(gè)Apache Spark最佳實(shí)踐

譯文
大數(shù)據(jù) Spark
啟動(dòng)項(xiàng)目前應(yīng)了解這幾個(gè)Spark優(yōu)秀實(shí)踐。雖然我們都在談?wù)摯髷?shù)據(jù),但通常在職場(chǎng)闖蕩一段時(shí)間后才遇到大數(shù)據(jù)。在我供職的Wix.com,有逾1.6億個(gè)用戶在生成大量數(shù)據(jù),因此需要擴(kuò)展我們的數(shù)據(jù)流程。

[[337096]]

【51CTO.com快譯】

為什么轉(zhuǎn)向Spark?

雖然我們都在談?wù)摯髷?shù)據(jù),但通常在職場(chǎng)闖蕩一段時(shí)間后才遇到大數(shù)據(jù)。在我供職的Wix.com,有逾1.6億個(gè)用戶在生成大量數(shù)據(jù),因此需要擴(kuò)展我們的數(shù)據(jù)流程。

雖然有其他選擇(比如Dask),但我們決定選擇Spark,原因主要有兩個(gè):(1)它是目前的最新技術(shù),廣泛用于大數(shù)據(jù)。(2)我們擁有Spark所需的基礎(chǔ)架構(gòu)。

如何針對(duì)pandas人群用PySpark編寫代碼?

您可能很熟悉pandas,僅僅搞好語(yǔ)法可能開了個(gè)好頭,但確保PySpark項(xiàng)目成功還需要具備更多的條件,您要了解Spark的工作原理。

讓Spark正常工作很難,但一旦可以正常工作,它效果很棒!

Spark簡(jiǎn)述

建議看看這篇文章,閱讀MapReduce方面的說明以便更深入的了解:《如何使用Spark處理大數(shù)據(jù)?》(https://towardsdatascience.com/the-hitchhikers-guide-to-handle-big-data-using-spark-90b9be0fe89a)。

我們?cè)谶@里要了解的概念是橫向擴(kuò)展。

從縱向擴(kuò)展入手比較容易。如果我們有一個(gè)運(yùn)行良好的pandas代碼,但后來數(shù)據(jù)對(duì)于它來說太大了,我們可能會(huì)轉(zhuǎn)移到一臺(tái)內(nèi)存更多、功能更強(qiáng)的機(jī)器上,希望它能應(yīng)付得了。這意味著我們?nèi)杂幸慌_(tái)機(jī)器同時(shí)在處理全部數(shù)據(jù)——這就是縱向擴(kuò)展。

如果我們改而決定使用MapReduce,并將數(shù)據(jù)分成多個(gè)塊,然后讓不同的機(jī)器來處理每個(gè)塊,這就是橫向擴(kuò)展。

五個(gè)Spark最佳實(shí)踐

這五個(gè)Spark最佳實(shí)踐幫助我將運(yùn)行時(shí)間縮短至十分之一,并擴(kuò)展項(xiàng)目。

1. 從小處入手——采樣數(shù)據(jù)

如果我們想讓大數(shù)據(jù)起作用,先要使用少量數(shù)據(jù)看到我們方向正確。在我的項(xiàng)目中,我采樣10%的數(shù)據(jù),并確保管道正常工作,這讓我可以使用Spark UI中的SQL部分,并查看數(shù)字流經(jīng)整個(gè)流程,不必等待太長(zhǎng)的時(shí)間來運(yùn)行流程。

憑我的經(jīng)驗(yàn),如果您用小樣本就能達(dá)到所需的運(yùn)行時(shí)間,通常可以輕松擴(kuò)展。

2. 了解基礎(chǔ)部分:任務(wù)、分區(qū)和核心

這可能是使用Spark時(shí)要理解的最重要的一點(diǎn):

1個(gè)分區(qū)用于在1個(gè)核心上運(yùn)行的1個(gè)任務(wù)。

您要始終了解自己有多少分區(qū)——密切關(guān)注每個(gè)階段的任務(wù)數(shù)量,并在Spark連接中將它們與正確數(shù)量的核心進(jìn)行匹配。幾個(gè)技巧和經(jīng)驗(yàn)法則可以幫助您做到這一點(diǎn)(所有這些都需要根據(jù)您的情況進(jìn)行測(cè)試):

  • 任務(wù)與核心之間的比例應(yīng)該是每個(gè)核心約2至4個(gè)任務(wù)。
  • 每個(gè)分區(qū)的大小應(yīng)約為200MB–400MB,這取決于每個(gè)worker的內(nèi)存,可根據(jù)需要來調(diào)整。

3. 調(diào)試Spark

Spark使用惰性求值,這意味著它在等到動(dòng)作被調(diào)用后才執(zhí)行計(jì)算指令圖。動(dòng)作示例包括show()和count()等。

這樣一來,很難知道我們代碼中的bug以及需要優(yōu)化的地方。我發(fā)現(xiàn)大有幫助的一個(gè)實(shí)踐是,使用df.cache()將代碼劃分為幾個(gè)部分,然后使用df.count()強(qiáng)制Spark在每個(gè)部分計(jì)算df。

現(xiàn)在使用Spark UI,您可以查看每個(gè)部分的計(jì)算,并找出問題所在。值得一提的是,如果不使用我們?cè)?1)中提到的采樣就使用這種做法,可能會(huì)創(chuàng)建很長(zhǎng)的運(yùn)行時(shí)間,到時(shí)將很難調(diào)試。

4. 查找和解決偏度

讓我們從定義偏度開始。正如我們提到,我們的數(shù)據(jù)分到多個(gè)分區(qū);轉(zhuǎn)換后,每個(gè)分區(qū)的大小可能隨之變化。這會(huì)導(dǎo)致分區(qū)之間的大小出現(xiàn)很大的差異,這意味著我們的數(shù)據(jù)存在偏度。

可以通過在Spark UI中查看階段方面的細(xì)節(jié),并尋找最大數(shù)和中位數(shù)之間的顯著差異以找到偏度:

圖1. 很大的差異(中位數(shù)= 3秒,最大數(shù)= 7.5分鐘)意味著數(shù)據(jù)有偏度。

這意味著我們有幾個(gè)任務(wù)比其他任務(wù)要慢得多。

為什么這不好——這可能導(dǎo)致其他階段等待這幾項(xiàng)任務(wù),使核心處于等待狀態(tài)而無所事事。

如果您知道偏度來自何處,可以直接解決它并更改分區(qū)。如果您不知道/或沒辦法直接解決,嘗試以下操作:

調(diào)整任務(wù)與核心之間的比例

如前所述,如果擁有的任務(wù)比核心更多,我們希望當(dāng)更長(zhǎng)的任務(wù)運(yùn)行時(shí),其他核心仍然忙于處理其他任務(wù)。盡管這是事實(shí),但前面提到的比例(2-4:1)無法真正解決任務(wù)持續(xù)時(shí)間之間這么大的差異。我們可以試著將比例提高到10:1,看看是否有幫助,但是這種方法可能有其他缺點(diǎn)。

為數(shù)據(jù)加入隨機(jī)字符串(salting)

Salting是指用隨機(jī)密鑰對(duì)數(shù)據(jù)重新分區(qū),以便可以平衡新分區(qū)。這是PySpark的代碼示例(使用通常會(huì)導(dǎo)致偏度的groupby):

圖2

5. Spark中迭代代碼方面的問題

這是個(gè)棘手的問題。如前所述,Spark使用惰性求值,因此運(yùn)行代碼時(shí),它僅構(gòu)建計(jì)算圖(DAG)。但當(dāng)您有一個(gè)迭代過程時(shí),該方法可能會(huì)很成問題,因?yàn)镈AG重新打開了先前的迭代,而且變得很大。這可能太大了,驅(qū)動(dòng)程序在內(nèi)存中裝不下。由于應(yīng)用程序卡住了,因此很難找到問題所在,但是在Spark UI中好像沒有作業(yè)在長(zhǎng)時(shí)間運(yùn)行(確實(shí)如此),直到驅(qū)動(dòng)程序最終崩潰才發(fā)現(xiàn)并非如此。

這是目前Spark的一個(gè)固有問題,對(duì)我來說有用的解決方法是每5-6次迭代使用df.checkpoint()/ df.localCheckpoint()(試驗(yàn)一番可找到適合您的數(shù)字)。這招管用的原因是,checkpoint()打破了譜系和DAG(不像cache()),保存了結(jié)果,并從新的檢查點(diǎn)開始。缺點(diǎn)在于,如果發(fā)生了什么岔子,您就沒有整個(gè)DAG來重新創(chuàng)建df。

原文標(biāo)題:5 Apache Spark Best Practices For Data Science,作者:Zion Badash

【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】

 

責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2022-06-01 13:52:11

開源大數(shù)據(jù)

2021-07-20 15:37:37

數(shù)據(jù)開發(fā)大數(shù)據(jù)Spark

2018-05-02 13:59:01

大數(shù)據(jù)數(shù)據(jù)收集數(shù)據(jù)科學(xué)

2017-11-01 14:45:51

數(shù)據(jù)管理數(shù)據(jù)

2016-08-22 15:15:14

數(shù)據(jù)實(shí)踐

2016-10-12 09:41:45

Hadoop+Spar大數(shù)據(jù)開發(fā)

2012-03-29 09:18:47

HTML5WEB

2010-12-02 10:30:09

Apache Hado反模式Map Reduce

2014-09-19 10:54:47

用戶體驗(yàn)單頁(yè)面

2011-12-21 09:38:31

HTML 5

2017-07-11 09:59:22

Apache Spar技術(shù)數(shù)據(jù)

2019-02-26 11:35:16

數(shù)據(jù)科學(xué)云端遷移

2013-01-16 14:45:47

HadoopApache Hado

2020-07-22 10:30:54

數(shù)據(jù)可視化分析平臺(tái)分析工具

2020-06-10 09:57:23

Kubernetes日志容器

2017-03-30 22:16:21

DevOpsIT應(yīng)用程序

2010-10-28 09:05:42

SilverlightXAML

2018-01-24 11:46:57

2025-09-05 07:28:34

2012-02-07 09:17:13

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

一区二区三区久久| 欧美一级久久| 欧美一区二区三区四区视频| 国产精品av免费观看| 欧美一区,二区| 噜噜噜91成人网| 色777狠狠综合秋免鲁丝| 国产sm在线观看| 不卡av播放| 日韩一区在线播放| 国产精品午夜av在线| 国产真人无遮挡作爱免费视频| 久久国产精品成人免费观看的软件| 91精品国产综合久久久蜜臀粉嫩 | 欧美a视频在线观看| 久久国产综合| 亚洲精品www久久久| 污污的网站免费| 国产精选在线| 亚洲欧洲日韩在线| 久久手机视频| 亚洲av无码国产精品久久不卡| 久久精品动漫| 久久欧美在线电影| 国产免费嫩草影院| 亚洲三级性片| 精品黑人一区二区三区久久| 亚洲欧美日韩一级| 女生影院久久| 亚洲在线一区二区三区| 一区一区视频| 成人三级黄色免费网站| 国产91综合一区在线观看| 国产噜噜噜噜噜久久久久久久久| 久久久久99精品成人片我成大片 | www.国产色| 中文字幕乱码亚洲无线精品一区 | 大地资源二中文在线影视观看| 日韩三级一区| 欧美亚洲日本一区| 国产精品天天av精麻传媒| 1234区中文字幕在线观看| 亚洲免费观看视频| 在线视频91| 午夜伦全在线观看| 亚洲国产成人私人影院tom| 久久er99热精品一区二区三区| 亚洲第一大网站| 极品少妇一区二区| 国产日韩欧美电影在线观看| 精品黑人一区二区三区| 久久在线精品| 日本中文字幕不卡免费| 日韩视频在线观看一区| 亚洲欧美日韩视频二区| 91爱爱小视频k| 日韩精品手机在线| 国产视频一区欧美| 国产91av在线| 国产污视频网站| 久久在线精品| 国产精品爽爽ⅴa在线观看| 波多野结衣大片| 久久精品亚洲| 国产精品极品在线| 在线观看毛片av| 激情综合色播激情啊| 国产中文字幕91| 99久久精品国产一区二区成人| 精品一区二区在线观看| 亚洲精品日韩激情在线电影| xxxwww在线观看| 国产不卡在线播放| 黄色小网站91| 国产中文在线观看| 中文字幕一区二区三区精华液 | 韩国三级视频在线观看| 成人免费在线电影网| 亚洲精品久久久久久久久久久久久| 水蜜桃av无码| 精品国产一区二区三区| 日韩在线观看免费高清完整版| 青青操在线视频观看| 午夜久久美女| 欧洲日韩成人av| 一本久道久久综合无码中文| 国产福利不卡视频| 久久综合婷婷综合| 69xxxx欧美| 亚洲在线视频网站| 精品久久久久av| 国产精品美女久久久久人| 欧美成人性福生活免费看| 中文字幕狠狠干| 日韩黄色大片网站| 久久久久久免费精品| 秋霞av一区二区三区| 国产一区999| 久久久精品国产一区二区三区| 成人亚洲综合天堂| 亚洲成人自拍网| 91女神在线观看| 欧美日韩一本| xxav国产精品美女主播| 五月婷婷开心网| 激情成人综合网| 免费在线国产精品| 伊人在我在线看导航| 色久优优欧美色久优优| 不卡的一区二区| 成人在线免费视频观看| 孩xxxx性bbbb欧美| 国产精品国产一区二区三区四区 | 日本www在线| 精品国产91久久久久久| 天天操精品视频| 国产探花在线精品| 韩国欧美亚洲国产| 国产三级漂亮女教师| 欧美激情资源网| 日本中文字幕网址| 视频一区视频二区欧美| 在线电影中文日韩| 欧美特黄aaaaaa| 东方欧美亚洲色图在线| 伊人久久大香线蕉av一区| 中文字幕人成乱码在线观看 | 国内精品久久久久久99蜜桃| 欧美精品日韩www.p站| 中文字幕在线观看你懂的| 久久这里只有精品6| 欧美一级免费播放| 网站一区二区| 久久不射电影网| 91tv国产成人福利| 国产精品久久久久久久久动漫 | 三妻四妾完整版在线观看电视剧 | 青青草一区二区| 欧美一级视频免费| 亚洲一区中文日韩| 丰满饥渴老女人hd| 亚洲欧美综合| 97久草视频| av黄在线观看| 日韩欧美一区二区久久婷婷| 911国产在线| 久久精品国产精品青草| 亚洲图片小说在线| 国产成人免费精品| 日韩一区二区三区xxxx| 91黄色在线视频| 日韩美女精品在线| 中文字幕第10页| 伊人色**天天综合婷婷| 亚洲一区二区三区香蕉 | 日韩成人一级| 欧美又大粗又爽又黄大片视频| 无码国产精品一区二区色情男同| 五月天国产精品| 91精品小视频| 久久青草久久| 亚洲精美视频| 精品三级久久久| 欧美疯狂性受xxxxx另类| 亚洲精品一区二区口爆| 亚洲成在人线在线播放| 亚洲综合色一区| 免费在线视频一区| 一区二区在线不卡| 日韩中文字幕在线一区| 性色av一区二区咪爱| 欧美孕妇孕交xxⅹ孕妇交| 日本高清不卡在线观看| 天堂网中文在线观看| 国产成人综合视频| 欧美 日本 亚洲| 欧洲杯什么时候开赛| 国产一区二区在线播放| 深夜国产在线播放| 精品亚洲一区二区| 亚洲一区二区三区高清视频| 亚洲精品成人精品456| 精品夜夜澡人妻无码av| 奇米四色…亚洲| 欧美日韩中文字幕在线播放| 久久精品色播| 国产精品你懂得| 性欧美video高清bbw| 精品视频久久久久久| 在线观看免费黄色小视频| 亚洲激情六月丁香| 永久免费看mv网站入口78| 精品一区二区综合| 欧美亚洲国产成人| 国产精品99久久久久久动医院| 国产伦理一区二区三区| 日本精品网站| 久久免费视频在线| 美女免费久久| 亚洲精品suv精品一区二区| 在线观看亚洲一区二区| 亚洲成人精品一区| 国产在线免费看| 99国产欧美另类久久久精品| 亚洲综合婷婷久久| 亚洲看片一区| 五月天综合婷婷| 最新亚洲精品| 18成人在线| 欧美成人福利| 琪琪亚洲精品午夜在线| 日本高清在线观看| 最近2019年手机中文字幕| 婷婷色在线视频| 在线播放日韩导航| 久草热在线观看| 粉嫩老牛aⅴ一区二区三区| 青春草免费视频| 国产精品久久久久久久久晋中| 亚洲午夜久久久久久久久红桃| 国产成人在线视频网站| 亚洲午夜激情影院| 日韩综合小视频| 亚洲欧洲日产国码无码久久99| 欧美~级网站不卡| 亚洲综合第一| 欧州一区二区| 日韩欧美视频第二区| 女同另类激情重口| 国产日韩精品推荐| 涩爱av色老久久精品偷偷鲁| 国产综合久久久久| 素人一区二区三区| 国产精品wwwwww| 毛片无码国产| 欧美伊久线香蕉线新在线| freexxx性亚洲精品| 久久久久久亚洲精品不卡| 最新国产在线拍揄自揄视频| www高清在线视频日韩欧美| 成年女人的天堂在线| 曰本色欧美视频在线| 国产小视频在线| 亚洲欧美资源在线| 国产在线视频网址| 久久综合影音| 91久久精品一区二区三区| 国产精品第72页| 一区二区不卡在线播放| 国产女片a归国片aa| 一区二区三区免费网站| 国产一级在线观看视频| 亚洲一区在线看| 日韩xxx高潮hd| 狠狠色狠狠色综合日日五| 91av在线免费视频| 日本韩国精品一区二区在线观看| 亚洲第一区av| 欧美精品一二三四| 国产aⅴ爽av久久久久成人| 欧美videos大乳护士334| 国模私拍视频在线| 亚洲激情小视频| 毛片在线能看| 色婷婷综合久久久久中文字幕1| 麻豆免费在线视频| 九九热精品视频在线播放| av在线视屏| 45www国产精品网站| 91tv亚洲精品香蕉国产一区| 国产主播精品在线| 一区二区在线视频观看| 久久久久欧美| 欧洲乱码伦视频免费| 色香蕉在线观看| 很黄很黄激情成人| 欧美女人性生活视频| 免费观看在线综合| 亚洲精品一二三四| xfplay精品久久| 九九这里只有精品视频| 亚洲成人在线免费| 国模私拍一区二区| 欧美va在线播放| 免费在线性爱视频| 久久成人精品电影| 亚洲免费福利| 91色在线观看| 尤物tv在线精品| 免费观看黄色的网站| 一区二区三区高清视频在线观看| 亚洲黄色a v| 丁香婷婷综合色啪| 成人一级片免费看| 午夜精品免费在线观看| 一本到在线视频| 精品一区二区三区四区在线| 国产成人午夜| 欧美一区三区三区高中清蜜桃| 国产不卡精品| 日本在线视频不卡| 精品69视频一区二区三区Q| 粉嫩虎白女毛片人体| 成人午夜精品在线| 免费黄色在线网址| 精品国产福利视频| 97人妻精品一区二区三区动漫| 亚洲毛片在线观看| 深夜国产在线播放| 成人免费自拍视频| 国产真实有声精品录音| 久久久亚洲精品无码| 狠狠色2019综合网| 亚洲午夜精品久久久久久高潮| 亚洲国产精品精华液网站| 亚洲天堂手机在线| 亚洲视频免费一区| 交100部在线观看| 国产精品对白一区二区三区| 四虎成人av| 亚洲精品高清无码视频| 99精品在线免费| 国产亚洲欧美精品久久久久久| 欧美久久久久久久久中文字幕| 欧美老女人性开放| 91爱爱小视频k| 成午夜精品一区二区三区软件| 麻豆一区二区三区在线观看| 日产国产欧美视频一区精品| 国产中文字幕一区二区| 亚洲一区二区三区不卡国产欧美| 国产一区二区小视频| 中文字幕精品视频| 国产精品蜜月aⅴ在线| 日韩精品久久一区| 日韩综合在线视频| 日韩一级av毛片| 色综合天天综合网天天看片| 免费观看黄色av| 久久久久这里只有精品| 亚洲一区二区三区在线免费| 天天综合中文字幕| 精品一区二区三区在线观看| 成人无码精品1区2区3区免费看| 欧美中文字幕一区二区三区亚洲| 欧美美女色图| 国产精品v片在线观看不卡| 精品国产一区二区三区久久久樱花 | 欧美影院视频| 加勒比海盗1在线观看免费国语版| 久久99精品久久久久久国产越南| 99精品中文字幕| 欧美精品乱码久久久久久| 操你啦在线视频| 国产 高清 精品 在线 a| 国产一在线精品一区在线观看| 一区二区在线免费观看视频| 亚洲一区二区在线免费观看视频| 性少妇videosexfreexxx片| 欧美激情欧美激情在线五月| 国产精品xxxav免费视频| 啊啊啊一区二区| 国产欧美日韩久久| 国产又黄又大又粗的视频| 久久国产精品久久国产精品| 成人福利免费在线观看| 国产精品动漫网站| 中文字幕av一区二区三区高 | 久久国产免费看| www.黄色com| 精品国产污污免费网站入口 | 国产ts在线观看| 精品女同一区二区三区在线播放| 国产在线色视频| 亚洲aa在线观看| 激情久久久久久| 无码一区二区三区在线| 欧美日本一道本| 国产极品在线观看| 亚洲午夜精品久久久中文影院av| 国产精品1区2区| 日日骚av一区二区| 久久九九精品99国产精品| 国产区精品视频在线观看豆花| 午夜视频在线瓜伦| 一区二区三区四区精品在线视频| 青青草视频在线免费观看| 国产一区私人高清影院| 在线看片成人| 貂蝉被到爽流白浆在线观看| 亚洲国产成人久久综合| 久久精品国产福利| 国产二区视频在线| 国产精品免费网站在线观看| 亚洲乱码精品久久久久.. | 自拍偷拍视频在线| 91美女片黄在线观看| 国产理论片在线观看| 欧美一区二区三区四区在线| 欧美99在线视频观看|