精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

如何在萬億級別規模的數據量上使用 Spark?

存儲 數據管理 Spark
Spark 作為大數據計算引擎,憑借其快速、穩定、簡易等特點,快速的占領了大數據計算的領域。本文主要為作者在搭建使用計算平臺的過程中,對于 Spark 的理解,希望能給讀者一些學習的思路。

 一、前言

Spark 作為大數據計算引擎,憑借其快速、穩定、簡易等特點,快速的占領了大數據計算的領域。本文主要為作者在搭建使用計算平臺的過程中,對于 Spark 的理解,希望能給讀者一些學習的思路。文章內容為介紹 Spark 在 DataMagic 平臺扮演的角色、如何快速掌握 Spark 以及 DataMagic 平臺是如何使用好 Spark 的。

二、Spark 在 DataMagic 平臺中的角色

整套架構的主要功能為日志接入、查詢 (實時和離線)、計算。離線計算平臺主要負責計算這一部分,系統的存儲用的是 COS(公司內部存儲),而非 HDFS。

[[231286]]

圖 2-1

下面將主要介紹 Spark on Yarn 這一架構,抽取出來即圖 2-2 所示,可以看到 Spark on yarn 的運行流程。

圖 2-2

三、如何快速掌握 Spark

對于理解 Spark,我覺得掌握下面 4 個步驟就可以了。

1. 理解 Spark 術語

對于入門,學習 Spark 可以通過其架構圖,快速了解其關鍵術語,掌握了關鍵術語,對 Spark 基本上就有認識了,分別是結構術語 Shuffle、Patitions、MapReduce、Driver、Application Master、Container、Resource Manager、Node Manager 等。API 編程術語關鍵 RDD、DataFrame,結構術語用于了解其運行原理,API 術語用于使用過程中編寫代碼,掌握了這些術語以及背后的知識,你就也知道 Spark 的運行原理和如何編程了。

2. 掌握關鍵配置

Spark 在運行的時候,很多運行信息是通過配置文件讀取的,一般在 spark-defaults.conf,要把 Spark 使用好,需要掌握一些關鍵配置,例如跟運行內存相關的,spark.yarn.executor.memoryOverhead、spark.executor.memory,跟超時相關的 spark.network.timeout 等等,Spark 很多信息都可以通過配置進行更改,因此對于配置需要有一定的掌握。但是使用配置時,也要根據不同的場景,這個舉個例子,例如 spark.speculation 配置,這個配置主要目的是推測執行,當 worker1 執行慢的情況下,Spark 會啟動一個 worker2,跟 worker1 執行相同的任務,誰先執行完就用誰的結果,從而加快計算速度,這個特性在一般計算任務來說是非常好的,但是如果是執行一個出庫到 Mysql 的任務時,同時有兩個一樣的 worker,則會導致 Mysql 的數據重復。因此我們在使用配置時,一定要理解清楚,直接 google spark conf 就會列出很多配置了。

3. 使用好 Spark 的并行

我們之所以使用 Spark 進行計算,原因就是因為它計算快,但是它快的原因很大在于它的并行度,掌握 Spark 是如何提供并行服務的,從而是我們更好的提高并行度。

對于提高并行度,對于 RDD,需要從幾個方面入手,1、配置 num-executor。2、配置 executor-cores。3、配置 spark.default.parallelism。三者之間的關系一般為 spark.default.parallelism=num-executors*executor-cores 的 2~3 倍較為合適。對于 Spark-sql,則設置 spark.sql.shuffle.partitions、num-executor 和 executor-cores。

4. 學會如何修改 Spark 代碼

新手而言,特別是需要對 Spark 進行優化或者修改時,感到很迷茫,其實我們可以首先聚焦于局部,而 Spark 確實也是模塊化的,不需要覺得 Spark 復雜并且難以理解,我將從修改 Spark 代碼的某一角度來進行分析。

首先,Spark 的目錄結構如圖 3-1 所示,可以通過文件夾,快速知道 sql、graphx 等代碼所在位置,而 Spark 的運行環境主要由 jar 包支撐,如圖 3-2 所示,這里截取部分 jar 包,實際上遠比這多,所有的 jar 包都可以通過 Spark 的源代碼進行編譯,當需要修改某個功能時,僅需要找到相應 jar 包的代碼,修改之后,編譯該 jar 包,然后進行替換就行了。

圖 3-1

圖 3-2

而對于編譯源代碼這塊,其實也非常簡單,安裝好 maven、scala 等相關依賴,下載源代碼進行編譯即可,掌握修改源碼技巧對于使用好開源項目十分重要。

四、DataMagic 平臺中的 Spark

Spark 在 DataMagic 中使用,也是在邊使用邊探索的過程,在這過程中,列舉了其比較重要的特點。

1. 快速部署

在計算中,計算任務的數量以及數據的量級每天都會發生變化,因此對于 Spark 平臺,需要有快速部署的特性,在實體機上,有一鍵部署腳本,只要運行一個腳本,則可以馬上上線一個擁有 128G 內存、48cores 的實體機,但是實體機通常需要申請報備才能獲得,因此還會有 docker 來支持計算資源。

2. 巧用配置優化計算

Spark 大多數屬性都是通過配置來實現的,因此可以通過配置動態修改 Spark 的運行行為,這里舉個例子,例如通過配置自動調整 exector 的數量。

2.1 在 nodeManager 的 yarn-site.xml 添加配置

yarn.nodemanager.aux-services

mapreduce_shuffle,spark_shuffle

yarn.nodemanager.aux-services.spark_shuffle.class

org.apache.spark.network.yarn.YarnShuffleService

2.2 將 spark-2.2.0-yarn-shuffle.jar 文件拷貝到 hadoop-yarn/lib 目錄下 (即 yarn 的庫目錄)

2.3 在 Spark 的 spark-default.xml 添加配置

spark.dynamicAllocation.minExecutors 1 #最小 Executor 數

spark.dynamicAllocation.maxExecutors 100 #*** Executor 數

通過這種配置,可以達到自動調整 exector 的目的。

3. 合理分配資源

作為一個平臺,其計算任務肯定不是固定的,有的數據量多,有的數據量少,因此需要合理分配資源,例如有些千萬、億級別的數據,分配 20 核計算資源就足夠了。但是有些數據量級達到百億的,就需要分配更多的計算資源了。參考第三章節的第 3 點。

4. 貼合業務需求

計算的目的其實就是為了服務業務,業務的需求也理應是平臺的追求,當業務產生合理需求時,平臺方也應該盡量去滿足。如為了支持業務高并發、高實時性查詢的需求下,Spark 在數據出庫方式上,支持了 Cmongo 的出庫方式。

sc = SparkContext(conf=conf) sqlContext = SQLContext(sc) database = d = dict((l.split('=') for l in dbparameter.split())) parquetFile = sqlContext.read.parquet(file_name) parquetFile.registerTempTable(tempTable) result = sqlContext.sql(sparksql) url = "mongodb://"+database['user']+":"+database['password']+"@"+database['host']+":"+database['port'] result.write.format("com.mongodb.spark.sql").mode('overwrite').options(uri=url,database=database['dbname'],collection=pg_table_name).save()

5. 適用場景

Spark 作為通用的計算平臺,在普通的應用的場景下,一般而言是不需要額外修改的,但是 DataMagic 平臺上,我們需要 “在前行中改變”。這里舉個簡單的場景,在日志分析中,日志的量級達到千億 / 日的級別,當底層日志的某些字段出現 utf-8 編碼都解析不了的時候,在 Spark 任務中進行計算會發生異常,然后失敗,然而如果在數據落地之前對亂碼數據進行過濾,則有可能會影響數據采集的效率,因此最終決定在 Spark 計算過程中解決中這個問題,因此在 Spark 計算時,對數據進行轉換的代碼處加上異常判斷來解決該問題。

6.Job 問題定位

Spark 在計算任務失敗時候,需要去定位失敗原因,當 Job 失敗是,可以通過 yarn logs -applicationId application 來合并任務 log,打開 log,定位到 Traceback,一般可以找到失敗原因。一般而言,失敗可以分成幾類。

a. 代碼問題,寫的 Sql 有語法問題,或者 Spark 代碼有問題。

b. Spark 問題,舊 Spark 版本處理 NULL 值等。

c. 任務長時間 Running 狀態,則可能是數據傾斜問題。

d. 任務內存越界問題。

7. 集群管理

Spark 集群在日常使用中,也是需要運營維護的,從而運營維護,發現其存在的問題,不斷的對集群進行優化,這里從以下幾個方面進行介紹,通過運營手段來保障集群的健壯性和穩定性,保證任務順利執行。

a. 定時查看是否有 lost node 和 unhealthy node,可以通過腳本來定時設置告警,若存在,則需要進行定位處理。

b. 定時掃描 hdfs 的運行 log 是否滿了,需要定時刪除過期 log。

c. 定時掃描集群資源是否滿足計算任務使用,能夠提前部署資源。

五、總結

本文主要是通過作者在搭建使用計算平臺的過程中,寫出對于 Spark 的理解,并且介紹了 Spark 在當前的 DataMagic 是如何使用的,當前平臺已經用于架平離線分析,每天計算分析的數據量已經達到千億~ 萬億級別。

 

責任編輯:武曉燕 來源: ITPUB
相關推薦

2021-08-09 09:00:00

Kubernetes云計算架構

2021-01-07 07:46:34

MyBatis 數據量JDBC

2019-11-26 16:58:51

Linuxpkgsrc

2021-07-25 10:34:17

FedoraPodmanLinux

2023-01-17 07:40:59

LinuxAppImage應用程序

2019-01-07 09:50:06

Linuxtarball命令

2011-04-18 11:13:41

bcp數據導入導出

2017-02-27 18:26:45

UbuntuADBAndroid

2021-10-02 10:10:47

LinuxBusyBox命令

2015-08-12 15:38:20

大數據

2020-09-29 15:55:14

區塊鏈

2024-07-30 15:56:42

2020-08-24 12:37:54

Linuxxargs命令

2024-01-23 12:56:00

數據庫微服務MySQL

2025-04-14 08:30:00

架構分庫查詢

2019-08-07 18:52:40

GPU數據科學CPU

2021-04-07 10:20:31

MySQL數據庫命令

2020-07-19 10:53:42

數據庫MySQL遷移

2019-02-27 09:56:13

Windows 10保存數據Windows

2024-11-15 09:54:58

點贊
收藏

51CTO技術棧公眾號

蜜臀av中文字幕| 久久黄色片网站| 四虎电影院在线观看| 欧美激情一区在线观看| 一区二区久久久久久| 亚洲精品日韩激情在线电影| 欧美一级高潮片| 久久91精品| 日韩一区二区在线看| www.av中文字幕| 日韩高清国产精品| 国产在线观看第一页| 欧美一区二区三区另类| 国产一区二区三区久久久久久久久| 国产精品18久久久久久久久久久久| 国语自产精品视频在线看| 久久av无码精品人妻系列试探| 日韩高清在线观看一区二区| 日本道精品一区二区三区| 日韩成人午夜影院| av免费观看一区二区| 成人激情小说乱人伦| 国产精品专区第二| 97人妻一区二区精品视频| 欧美日韩综合| 久久久999精品视频| 在线国产视频一区| 女人抽搐喷水高潮国产精品| 欧美一级理论片| 亚洲国产高清av| 欧美大电影免费观看| 亚洲成人综合在线| 亚洲精品少妇一区二区| 欧美边添边摸边做边爱免费| 久久精品一区四区| 久久亚洲高清| 熟妇人妻系列aⅴ无码专区友真希| 国产精品综合视频| 国产日韩在线精品av| 少妇又紧又色又爽又刺激视频| 亚洲永久网站| 欧美一级免费视频| 黄色一级片免费在线观看| 亚洲一级高清| 欧美福利在线观看| 欧美激情一区二区视频| 2023国产精品久久久精品双| 久久精品人人做人人爽| www.99re6| 羞羞色午夜精品一区二区三区| 日韩在线视频播放| 在线观看黄网址| 91精品国产福利在线观看麻豆| 综合欧美国产视频二区| 成人做爰69片免网站| 波多野结衣在线播放一区| 亚洲欧美一区二区三区情侣bbw| 国产麻豆天美果冻无码视频| 欧美精品中文| 精品在线欧美视频| 欧美亚一区二区三区| 精品中文一区| 中文字幕精品久久久久| 蜜桃av免费观看| 婷婷成人基地| 欧美精品做受xxx性少妇| 欧美激情精品久久| 99在线精品视频在线观看| 97涩涩爰在线观看亚洲| 亚洲熟妇无码乱子av电影| 老司机午夜精品视频在线观看| 国产aaa精品| 一级黄色大片免费观看| 激情综合色丁香一区二区| 91免费综合在线| 亚洲一区二区人妻| 国产麻豆一精品一av一免费 | 亚洲精品98久久久久久中文字幕| 精品无码国产一区二区三区51安| 中文字幕中文字幕精品| 一区二区中文字幕| 欧美成人精品一区二区免费看片| 99在线精品视频在线观看| 国产精品福利在线观看| 国产精品九九九九| 北岛玲一区二区三区四区| 欧美日韩国产一二| 成码无人av片在线观看网站| 天天色图综合网| 欧美精品性生活| 久久久久九九精品影院| 亚洲精品影视在线观看| 国产精品嫩草影院俄罗斯 | 一本色道无码道dvd在线观看| 国产精品亚洲成在人线| 日韩欧美国产三级| 欧美18—19性高清hd4k| 欧美在线网址| 茄子视频成人在线| av网站在线免费看| 久久免费精品国产久精品久久久久 | 日批视频在线免费看| 97人人做人人爽香蕉精品| 日韩色在线观看| 久久精品无码一区| 亚洲性色视频| 成人福利网站在线观看| 日韩电影免费| 亚洲精品欧美在线| 日韩av一二三四| 久久精品福利| 超在线视频97| 日韩精品在线一区二区三区| 成人高清在线视频| 在线免费一区| 香蕉成人av| 亚洲成av人乱码色午夜| 成年人免费视频播放| 国产精品一区亚洲| 99久久免费国| 免费在线看a| 色狠狠一区二区| 久久偷拍免费视频| 亚洲午夜伦理| 亚洲www永久成人夜色| 成年人视频网站在线| 精品久久久在线观看| 18深夜在线观看免费视频| 日本不卡电影| 国产精品久久久久久久7电影| 日本精品999| 亚洲亚洲人成综合网络| 国产精品中文久久久久久| 久久亚洲专区| 国产精品久在线观看| 天堂中文字幕在线| 红桃视频成人在线观看| 免费黄色a级片| 国内揄拍国内精品久久| 99久久综合狠狠综合久久止| 麻豆视频在线观看免费| 欧美天堂亚洲电影院在线播放| 最新中文字幕视频| 久久精品123| 欧美在线一二三区| 欧美大片免费| 国产亚洲欧美一区| 日本视频www色| 国产区在线观看成人精品| 国产视频一区二区三区在线播放| 中文精品一区二区| 国产成人精品免高潮在线观看| 偷拍自拍在线视频| 日韩欧美一区二区三区久久| 丰满少妇一区二区| 日本视频中文字幕一区二区三区 | 亚洲电影影音先锋| 3d动漫精品啪啪一区二区三区免费 | 美女av一区二区| 国产99999| 一区二区三区久久| 极品白嫩的小少妇| 国产欧美短视频| 日本免费一区二区三区| 日韩av超清在线观看| 中文综合在线观看| 国产av无码专区亚洲av| 亚洲综合色视频| 亚洲一级av无码毛片精品| 亚洲一区二区三区四区五区午夜| 欧美成人综合一区| 国产精品4hu.www| 久久国产色av| 色欲久久久天天天综合网| 国产精品欧美一区二区三区奶水 | 亚洲欧美日本精品| 国产精品欧美综合| 亚洲啪啪综合av一区二区三区| avtt中文字幕| 欧美一级二区| 香蕉视频在线网址| 国产精品白丝av嫩草影院| 日产日韩在线亚洲欧美| 欧美13一16娇小xxxx| 精品美女在线观看| 波多野结衣视频网址| 亚洲人成亚洲人成在线观看图片 | 一二三四区视频| 亚洲综合成人在线视频| 亚洲国产av一区| 国产精品一二三区| 色综合av综合无码综合网站| 手机亚洲手机国产手机日韩| 粉嫩av四季av绯色av第一区| 神马久久资源| 欧美激情按摩在线| 国产区视频在线播放| 欧美xingq一区二区| 97人妻一区二区精品视频| 玉米视频成人免费看| 久久精品国产亚洲av久| 国产成人福利片| 国内自拍视频一区| 欧美日韩ab| 亚洲欧美综合一区| 日韩a级大片| 成人写真视频福利网| 欧美日韩视频网站| 欧美极品少妇xxxxⅹ裸体艺术 | 欧美少妇性生活视频| 韩国在线一区| 热这里只有精品| 国语产色综合| 久久久久久高清| 国产在线一区不卡| 国产精品视频成人| 深夜av在线| 久久久久久久久中文字幕| 日本激情视频在线观看| 亚洲一级黄色av| 婷婷av一区二区三区| 欧美成人性战久久| 国产精品国产三级国产普通话对白 | 中文字幕在线观看不卡| 色欲av无码一区二区三区| 岛国精品一区二区| 操人视频免费看| 久久成人综合网| 午夜国产福利在线观看| 秋霞国产午夜精品免费视频| aa免费在线观看| 国产欧美午夜| 少妇人妻在线视频| 一本久久综合| 鲁一鲁一鲁一鲁一色| 亚洲人成毛片在线播放女女| 亚洲精品久久久久久久蜜桃臀| 综合久久婷婷| 日本精品免费视频| 亚洲欧美综合久久久| 一区二区在线观看网站| 97久久夜色精品国产| 亚洲综合欧美日韩| 欧美成人精品一区二区三区在线看| 欧美在线视频二区| 欧美日韩一区二区综合 | 永久91嫩草亚洲精品人人| 在线不卡视频一区二区| 国产精品久久久久久影院8一贰佰 国产精品久久久久久麻豆一区软件 | 欧美日韩在线中文字幕| 亚洲精品一区二区三区婷婷月| 亚洲人视频在线观看| 亚洲乱码一区av黑人高潮| 水莓100国产免费av在线播放| 日韩精品在线免费观看| 国产资源在线播放| 一色桃子一区二区| 久久亚洲天堂| 欧美国产在线电影| 日本午夜大片a在线观看| 欧美一级电影在线| 成人精品国产亚洲| 91香蕉亚洲精品| 91亚洲精品视频在线观看| 精品国产一区二区三区四区vr| 亚洲人成亚洲精品| 相泽南亚洲一区二区在线播放| 日韩欧美午夜| 永久免费看av| 99精品视频免费观看| 欧美日韩在线免费播放| 国内成+人亚洲+欧美+综合在线| 中文字幕人妻熟女人妻a片| youjizz久久| 538精品视频| 亚洲另类在线视频| 一级片中文字幕| 欧美日韩中字一区| 国产高清视频免费| 亚洲精品在线不卡| www.在线视频| 欧美一级在线亚洲天堂| 久久亚洲国产精品尤物| 国产一区二区高清不卡| 狠狠做六月爱婷婷综合aⅴ| aaa免费在线观看| 国产亚洲福利| 精品综合久久久久| 99久久国产综合精品麻豆| 日本免费www| 亚洲成年人网站在线观看| 日本中文字幕在线观看视频| 日韩天堂在线观看| 国产中文字幕在线观看| 九九视频这里只有精品| 偷拍视频一区二区三区| 成人免费在线看片| jizzjizz欧美69巨大| www.av片| 精东粉嫩av免费一区二区三区| 少妇户外露出[11p]| 亚洲麻豆国产自偷在线| 国产污视频网站| 亚洲成人黄色在线观看| 日本综合在线| 性色av一区二区三区红粉影视| 日韩成人免费av| 欧美极品日韩| 亚洲国产第一| 久久人人爽人人片| 欧美激情在线免费观看| 国产污污视频在线观看| 日韩欧美视频在线| 日本不卡三区| 国产精品成人免费视频| 狠狠一区二区三区| 精品少妇人妻av一区二区| 日本不卡视频一二三区| 免费黄色在线视频| 亚洲一区二区四区蜜桃| 国产毛片毛片毛片毛片| 中文国产成人精品| 桃子视频成人app| 另类小说综合网| 日韩香蕉视频| 欧美熟妇精品一区二区| 亚洲精品伦理在线| 一本色道久久综合精品婷婷| 中文字幕日韩精品有码视频| 久久精品女人天堂av免费观看| 久久99九九| 国产日韩高清一区二区三区在线| 欧美xxxx日本和非洲| 亚洲激情六月丁香| www.天堂av.com| 欧美日本中文字幕| 欧美黄视频在线观看| 一级全黄肉体裸体全过程| 裸体一区二区三区| 日日操免费视频| 7777精品伊人久久久大香线蕉的| 香港伦理在线| 91精品视频免费观看| 久久精品影视| 久草福利在线观看| 中文字幕在线不卡| 国产精品久久久久久免费| 日韩专区在线观看| 国产视频网站一区二区三区| 天天成人综合网| 国产成人av一区二区| 国产亚洲欧美精品久久久www| 欧美va天堂va视频va在线| 精精国产xxxx视频在线中文版 | 成人3d动漫在线观看| 日韩av卡一卡二| 亚洲精品写真福利| 亚洲精品无码久久久| 97精品视频在线| 国产成人久久| 免费网站在线观看黄| 亚洲精品免费一二三区| 国产综合在线播放| 51久久精品夜色国产麻豆| 国产一区二区三区四区二区| 黄色在线视频网| 亚洲综合免费观看高清完整版 | 亚洲素人在线| 中文字幕av不卡在线| 最好看的中文字幕久久| 亚洲h视频在线观看| 8050国产精品久久久久久| 成人av国产| 日本中文字幕有码| 欧美性猛交xxxx| 欧美激情黑人| 精品国产一区二区三| 视频一区欧美精品| 老司机成人免费视频| 亚洲国产精品va| 成人综合网站| 女同性恋一区二区| 久久伊99综合婷婷久久伊| 亚洲综合视频在线播放| 欧美激情第1页| 久久一区二区中文字幕| 在线播放av网址| 欧美自拍丝袜亚洲| 国产在线拍揄自揄拍视频| 日韩欧美国产二区| 国产成人免费av在线| 337p粉嫩色噜噜噜大肥臀| 欧美精品在线极品| 欧美丝袜激情| www.四虎精品| 欧美精品一二三区| 午夜影院在线播放| 水蜜桃在线免费观看| 久久久噜噜噜久噜久久综合| www.久久精品.com|