精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

使用Apache Spark和MySQL打造強大的數據分析

大數據 Spark
借助真實案例和代碼樣本,本文作者展示了如何將Sparke和MySQL結合起來,創造數據分析上的強大工具。

借助真實案例和代碼樣本,本文作者展示了如何將Sparke和MySQL結合起來,創造數據分析上的強大工具。

Apache Spark是一個類似Apache Hadoop的集群計算框架,在Wikipedia上有大量描述:Apache Spark是一個開源集群計算框架,出自加州大學伯克利分校的AMPLab,后被捐贈給了Apache軟件基金會。

相對于Hadoop基于磁盤的兩段式MapReduce規范,Spark基于內存的多段式基元在特定應用上表現要優出100倍。Spark允許用戶程序將數據加載到集群內存中反復查詢,非常適合機器學習算法。

 

 

 

Apache Spark

與流行的看法相反,Spark不需要將所有數據存入內存,但會使用緩存來加速操作(就像MySQL那樣)。Spark也能獨立運行而無需Hadoop,并可以運行在單獨一臺服務器上(甚至筆記本或臺式機上),并充分利用所有CPU內核。開啟它并使用分布式模式真的很簡單。先打開master,在同一個節點上運行slave:

 

然后在任何額外的節點上運行Spark worker(確定向/etc/hosts 添加了hostname或者使用DNS):

 

為什么用Spark而不是MySQL?

在很多任務中MySQL(開箱即用的)表現并不太好。MySQL的限制之一在于:1次查詢=1個CPU內核。也就是說,即便你有48個速度飛快的內核,外加一個大型數據集可用,也無法充分利用所有的計算能力,相反Spark卻能充分使用CPU內核。

 

MySQL與Spark的另一差異在于:

l MySQL使用所謂的“寫時模式(schema on write)”——需要將數據轉化到MySQL中,如果未包含在MySQL里,就無法使用sql來查詢。

l Spark(還有Hadoop/Hive)使用“讀時模式(schema on read)”——比如在一個壓縮txt文件頂部使用表格結構(或者其他支持的輸入格式),將其看作表格;然后我們可以用SQL來查詢這個“表格”。

 

也就是說,MySQL負責存儲+處理,而Spark只負責處理,并可直接貫通數據與外部數據集(Hadoop、Amazon S3,本地文件、JDBC MySQL或其他數據集)的通道。Spark支持txt文件(壓縮的)、SequenceFile、其他Hadoop輸入格式和Parquet列式存儲。相對Hadoop來說,Spark在這方面更為靈活:例如Spark可以直接從MySQL中讀取數據。

 

向MySQL加載外部數據的典型管道(pipeline)是:

1、 解壓縮(尤其是壓縮成txt文件的外部數據);

2、用“LOAD DATA INFILE”命令將其加載到MySQL的存儲表格中;

3、只有這樣,我們才能篩選/進行分組,并將結果保存到另一張表格中。

 

這會導致額外的開銷;在很多情況下,我們不需要“原始”數據,但仍需將其載入MySQL中。

 

為什么將Spark與MySQL用在一起:

相反,我們的分析結果(比如聚合數據)應當存在MySQL中。將分析結果存在MySQL中并非必要,不過更為方便。假設你想要分析一個大數據集(即每年的銷售額對比),需要使用表格或圖表的形式展現出來。由于會進行聚合,結果集將會小很多,將其存在MySQL中與很多標準程序一同協作處理將會容易許多。

 

真實案例

一個有趣的免費數據集是Wikipedia的頁數(從2008年啟用后到現在,壓縮后大于1TB)。這個數據可以下載(壓縮空間確定txt文件),在AWS上也是可用的(有限數據集)。數據以小時聚合,包括以下字段:

l項目(比如en,fr等,通常是一種語言)

l頁頭(uri),采用urlencode編碼

l請求數

l返回內容的大小

(數據字段編譯到了文件名中,每小時1個文件)

我們的目標是:找出英文版wiki中每日請求數位居前10的頁面,不過還要支持對任意詞的搜索,方便闡釋分析原理。例如,將2008到2015年間關于“Myspace”和“Facebook”的文章請求數進行對比。使用MySQL的話,需要將其原封不動的載入MySQL。所有文件按內置的日期編碼分布。解壓的總大小大于10TB。下面是可選的步驟方案(典型的MySQL方式):

1、解壓文件并運行“LOAD DATA INFILE”命令,將其錄入臨時表格:

2、“插入到”最終的表格,進行聚合:

3、通過url解碼標題(可能用到UDF)。

開銷很大:解壓并將數據轉化為MySQL格式,絕大部分都會被丟棄,作為損耗。

根據我的統計,整理6年來的數據需耗時超過1個月,還不包括解壓時間,隨著表格逐漸變大、索引需要更新所帶來的加載時間折損。當然,有很多辦法可以加速這一過程,比如載入不同的MySQL實例、首先載入內存表格再集合成InnoDB等。

不過最簡單的辦法是使用Apache Spark和Python腳本(pyspark)。Pyspark可以讀出原始的壓縮txt文件,用SQL進行查詢,使用篩選、類似urldecode函數等,按日期分組,然后將結果集保存到MySQL中。

下面是執行操作的Python腳本:

在腳本中用到了Spark來讀取原始壓縮文件(每次一天)。我們可以使用目錄作為“輸入”或者文件列表。然后用彈性分布式數據集(RDD)轉化格式;Python包含lambda函數映射和篩選,允許我們將“輸入文件”分離并進行篩選。

下一步是應用模式(declare fields);我們還能使用其他函數,比如用urllib.unquote來解碼標題(urldecode)。最終,我們可以注冊臨時表格,然后使用熟悉的SQL來完成分組。

該腳本可以充分利用CPU內核。此外,即便不使用Hadoop,在分布式環境中運行也非常簡易:只要將文件復制到SparkNFS/外部存儲。

該腳本花了1個小時,使用了三個box,來處理一個月的數據,并將聚合數據加載到MySQL上(單一實例)。我們可以估出:加載全部6年的(聚合)數據到MySQL上需要大約3天左右。

你可能會問,為什么現在要快得多(而且實現了同樣的實例)。答案是:管道不同了,而且更為有效。在我們起初的MySQL管道中,載入的是原始數據,需要大約數月時間完成。而在本案例中,我們在讀取時篩選、分組,然后只將需要的內容寫入MySQL。

這里還有一個問題:我們真的需要整個“管道”嗎?是否可以簡單地在“原始”數據之上運行分析查詢?答案是:確實有可能,但是也許會需要1000個節點的Spark集群才能奏效,因為需要掃描的數據量高達5TB(參見下文中的“補充”)。

 #p#

MySQL Inserts的多線程表現

通過使用group_res.write.jdbc(url=mysql_url, table=”wikistats.wikistats_by_day_spark”, mode=”append”) ,Spark會啟動多線程插入。

 

監控你的工作

Spark提供了web接口,方便對工作進行監控管理。樣例如下:運行wikistats.py application:

 

 

結果:使用Parquet分列格式與MySQL InnoDB表格

 

Spark支持Apache Parquet分列格式,因此我們可以將RDD存儲為parquet文件(存入HDFS時可以保存到目錄中):

 

我們將管道結果(聚合數據)存入Spark。這次使用了按天分區(“mydate=20080101”),Spark可以在這種格式中自動發現分區。得到結果后要進行查詢。假設我們想要找到2018年1月查詢最頻繁的10大wiki頁面。可以用MySQL進行查詢(需要去掉主頁和搜索頁):

 

請注意,我們已經使用了聚合(數據匯總)表格,而不是“原始”數據。我們可以看到,查詢花了1小時22分鐘。由于將同樣的結果存入了Parquet(見腳本)中,現在可以在Spark-SQL中使用它了:

 

這將用到spark-sql的本地版本,而且只用到1個主機。


耗時大約20分鐘,比之前更快。

 

結論

Apache Spark是分析和聚合數據的好辦法,而且非常簡便。我喜歡Spark與其他大數據還有分析框架的原因在于:

l開源與積極開發

l不依賴工具,例如輸入數據與輸出數據不一定非要借助Hadoop

l獨立模式,啟動迅速,易于部署

l大規模并行,易于添加節點

l支持多種輸入與輸出格式;比如可以讀取/寫入MySQL(Java數據庫連接驅動)與Parquet分列格式

但是,也有很多缺點:

l技術太新,會有一些bug和非法行為。很多錯誤難以解釋。

l需要Java;Spark 1.5僅支持Java 7及以上版本。這也意味著需要額外內存——合情合理。

l你需要通過“spark-submit”來運行任務。

我認為作為工具,Apache Spark十分不錯,補足了MySQL在數據分析與商業智能方面的短板。

 

責任編輯:李英杰 來源: 小象
相關推薦

2021-06-06 19:03:25

SQL大數據Spark

2017-11-29 12:45:37

Apache Spar大數據數據分析

2019-06-19 16:01:14

Spark數據分析SparkSQL

2012-03-21 09:31:51

ibmdw

2016-11-29 09:27:22

Apache SparDashboard構建

2015-09-23 09:24:56

spark數據分析

2021-01-25 20:20:35

數據分析SparkHadoop

2014-07-16 09:32:34

Pinterest

2016-12-20 09:47:38

Apache SparLambda架構

2013-06-27 15:21:38

App

2016-06-20 09:06:12

Apache Spar開源工具

2017-04-20 20:30:15

Linuxtmux終端

2021-09-10 14:05:14

預測分析大數據分析大數據

2024-03-04 11:10:01

2021-09-06 09:00:00

大數據大數據分析技術

2012-08-28 10:52:58

IBMdW

2012-08-24 08:51:27

IBMdW

2023-11-24 14:02:00

Python數據分析

2024-02-07 09:36:40

MySQL數據

2014-12-17 10:35:17

大數據分析 HadooApacheSqoop
點贊
收藏

51CTO技術棧公眾號

成人精品视频.| 亚洲综合自拍| 色菇凉天天综合网| 亚洲精品成人a8198a| 一区二区三区亚洲视频| 欧美成人午夜| 亚洲乱码一区二区| 中文字幕成人免费视频| 精精国产xxxx视频在线中文版 | 欧美日韩在线一| 成人全视频高清免费观看| 久久国产免费看| 国产综合在线看| 亚洲欧美日韩第一页| 蜜桃精品一区二区三区| 精品美女国产在线| 中文字幕乱码免费| 精品乱码一区二区三四区视频 | 成人情趣片在线观看免费| 国产在线拍揄自揄拍| 精品欧美激情在线观看| 精品国产乱码久久久久久久 | 日韩精品视频在线免费观看| 日本黄色福利视频| 涩涩视频在线免费看| 综合久久久久久久| 欧美裸体网站| 欧美特黄一级视频| 国产一区二区免费看| 国产成人综合亚洲| 日韩熟女精品一区二区三区| 一区二区日韩欧美| 一区二区欧美久久| 国产肉体xxxx裸体784大胆| 国产视频一区二| 欧美在线高清视频| 国产男女无遮挡| 免费看电影在线| 中文字幕在线免费不卡| 欧洲精品码一区二区三区免费看| 丁香花免费高清完整在线播放| 日韩 欧美一区二区三区| 97超视频免费观看| 日产亚洲一区二区三区| 午夜久久福利| 久久在线视频在线| 日本 欧美 国产| 成人短片线上看| 亚洲欧美一区二区三区在线| 亚洲香蕉中文网| 日韩欧美中文在线观看| 91精品婷婷国产综合久久| 黄色免费网址大全| 韩国成人在线| 欧美日韩一区二区三区不卡 | 国产这里有精品| 2023国产精品久久久精品双| 色多多国产成人永久免费网站| 亚洲码无人客一区二区三区| 国产一区调教| 亚洲国产精品999| 日韩精品一区二区三区高清免费| 国产主播性色av福利精品一区| 精品少妇一区二区三区在线播放| 国产精品熟女一区二区不卡| 精品国产亚洲一区二区在线观看 | 欧美xxav| 久热国产精品视频| 久久久.www| 亚洲激情二区| 欧美一区二区大胆人体摄影专业网站| 国产99久久久| 日本特黄久久久高潮| 国产精品日韩在线| a在线观看视频| 成人教育av在线| 久久久www免费人成黑人精品| 日韩三级电影网| 国产日韩av一区| 日韩黄色影视| 黄色网在线免费观看| 一个色综合av| 国产精品wwwww| 欧美videos粗暴| 欧美一区二区精美| 日韩精品视频一区二区| 久久av综合| 日韩中文字幕在线免费观看| 欧美日韩人妻精品一区二区三区| 亚洲福利电影| 国产成人一区二区三区| 国产毛片在线视频| 播五月开心婷婷综合| 秋霞久久久久久一区二区| 黄网站免费在线观看| 亚洲成av人影院| 九热视频在线观看| 一区二区三区四区精品视频| 国产视频精品久久久| 午夜精品久久久久99蜜桃最新版| 国产综合亚洲精品一区二| 国内免费精品永久在线视频| 一级久久久久久| 国产91色综合久久免费分享| 日本在线成人一区二区| 羞羞的网站在线观看| 色呦呦日韩精品| 中文字幕人妻熟女人妻a片| 亚洲bt欧美bt精品777| 欧美成人精品在线观看| www毛片com| 国产精品一区久久久久| 日本一区二区三区免费观看| 国产精品蜜臀| 777精品伊人久久久久大香线蕉| 国产xxxxxxxxx| 91精品国产自产在线观看永久∴| 91sa在线看| www.国产免费| 国产精品免费免费| 欧美视频在线播放一区| 麻豆一二三区精品蜜桃| 色先锋资源久久综合5566| 天天操天天爽天天干| 国产一区二区成人久久免费影院 | 欧美日韩在线中文字幕| 亚洲精品中文在线影院| 天天插天天操天天射| 欧美理论电影在线精品| 久久这里只有精品99| 亚洲精品91天天久久人人| 97久久超碰国产精品电影| 黄色特一级视频| 四虎精品永久免费| 中文字幕日韩视频| 无码人妻精品一区二区50| 99精品视频中文字幕| 996这里只有精品| 久久久久久久久久久久电影| 深夜精品寂寞黄网站在线观看| 欧美精品一二三四区| 99久久国产综合精品女不卡| 欧美国产综合在线| 视频一区日韩精品| 色综合久综合久久综合久鬼88 | 精品在线免费视频| 一道精品一区二区三区| 国产精品久久亚洲不卡| 精品中文字幕久久久久久| 国产成人精品一区二三区| 国产ts人妖一区二区| 特大黑人娇小亚洲女mp4| 57pao成人永久免费| 久久精品99久久久久久久久| 一级成人免费视频| 亚洲欧美怡红院| 在线观看免费污视频| 久久中文字幕av| 国产日韩欧美日韩| 久草资源在线| 欧美一级专区免费大片| 精品午夜福利在线观看| 不卡的看片网站| 国产午夜伦鲁鲁| 精品一区欧美| 国产精品91久久久久久| 国产视频网站在线| 欧美日韩亚洲另类| 成人高潮免费视频| 成人性视频免费网站| 成人免费视频91| 久久成人av| 91精品视频在线看| 免费在线看电影| 亚洲另类激情图| 欧美日韩综合在线观看| 久久久久久久久久久久久久久99| www.国产区| 午夜精品久久久久久久四虎美女版| 91久久国产婷婷一区二区| 91国内在线| 日韩精品一二三四区| 波多野结衣电车痴汉| 1区2区3区国产精品| 亚洲熟女一区二区三区| 国产精品日韩久久久| 日韩三级电影网站| 久久免费福利| 欧美一区二区三区……| 日本中文字幕在线2020| 精品成人在线观看| 国产一区二区视频免费| 亚洲另类一区二区| 丝袜美腿中文字幕| 国产综合色产在线精品| 97国产在线播放| 国产精品久久久久一区二区三区厕所| 成人h在线播放| 蜜桃视频成人m3u8| 欧美激情免费观看| av在线播放免费| 精品成人a区在线观看| 亚洲精品无码久久久久| 亚洲一区二区三区中文字幕在线| 精品人伦一区二区三电影| 国产在线视频精品一区| 国产综合免费视频| 欧美日韩亚洲国产精品| 日本最新一区二区三区视频观看| 激情综合五月| 国产成人鲁鲁免费视频a| 日韩特级毛片| www国产91| 人成在线免费视频| 91麻豆精品国产91久久久久久| 中文字幕激情小说| 一区二区三区四区亚洲| 欧美日韩生活片| 99精品视频一区二区三区| 在线观看日本www| 久久裸体视频| 日韩a∨精品日韩在线观看| 久久国产中文字幕| 欧美一区二区三区四区五区六区| 91精品啪在线观看国产手机| 国产欧美在线看| 日韩美女在线看免费观看| 国外色69视频在线观看| av网站大全在线| 精品国产欧美成人夜夜嗨| 免费av在线电影| 亚洲精品福利在线观看| 精品女同一区二区三区| 56国语精品自产拍在线观看| 中文字幕高清在线免费播放| 亚洲成人av一区二区三区| 日韩在线观看视频一区二区| 中文字幕在线不卡一区二区三区| 国产精品成人无码免费| 91浏览器在线视频| 波多野结衣一二三区| 成人福利视频网站| 制服.丝袜.亚洲.中文.综合懂 | 国产精品一区二区三区久久| 亚洲成人激情社区| 国产精品久久久久久久久久99| 在线看欧美视频| 98视频在线噜噜噜国产| wwww亚洲| 欧美国产日本在线| 国产黄色大片在线观看| 欧美激情视频网站| 毛片网站在线看| 97av视频在线| 都市激情综合| 国产精品久久久久久久久久免费| 久久久一本精品| 国产精品免费看久久久香蕉 | 色系网站成人免费| 在线观看污污网站| 欧美午夜精品一区| 亚洲一区 中文字幕| 欧美喷潮久久久xxxxx| 国产又粗又黄又爽的视频| 欧美一区二视频| 亚洲精品国偷拍自产在线观看蜜桃| 欧美一区二区三区在线观看| 亚洲精品成人电影| 日韩精品高清在线观看| 国产最新视频在线| www.xxxx欧美| 青青草视频在线免费直播| 韩国精品美女www爽爽爽视频| 精精国产xxxx视频在线播放| 国产a∨精品一区二区三区不卡| 台湾佬成人网| 91免费观看网站| 国产劲爆久久| 日本a级片久久久| 国产精品不卡| 免费无码毛片一区二三区| 久久天堂精品| 三级一区二区三区| 成人毛片视频在线观看| 国产人妻一区二区| 亚洲日本青草视频在线怡红院| 国产在线视频卡一卡二| 色拍拍在线精品视频8848| 国产精品久久久久久无人区| 欧美成人艳星乳罩| 黄色片免费在线| 欧美风情在线观看| 日韩中文影院| 99国产高清| 欧美一二区在线观看| 黑人巨茎大战欧美白妇| 久久久久久色| 九色91porny| 国产日韩精品一区| 国产精品二区一区二区aⅴ| 在线观看免费一区| 天堂av一区二区三区| 日韩视频中文字幕| xxxx在线视频| 成人在线观看视频网站| 天堂日韩电影| 红桃一区二区三区| 日本午夜精品视频在线观看 | 国产日韩精品一区二区浪潮av| 少妇久久久久久被弄高潮| 日韩欧中文字幕| 亚洲国产精品suv| 最新91在线视频| 成人性生交大片免费网站| 国产91视觉| 久久国产亚洲| 久久午夜夜伦鲁鲁一区二区| 成人免费视频一区二区| 欧美一级特黄高清视频| 色婷婷综合久久久中文字幕| 狠狠躁夜夜躁av无码中文幕| 久久精品国产成人精品| 精品无人乱码一区二区三区| 久久一区二区三区av| 国产精品啊啊啊| 免费黄频在线观看| 国产精品色噜噜| 亚洲性猛交富婆| 亚洲男人天堂网站| 国产在线88av| 91视频九色网站| 欧美电影《轻佻寡妇》| 手机在线看福利| 久久久av毛片精品| 国产中文字幕视频| 日韩成人在线免费观看| 77thz桃花论族在线观看| av成人免费观看| 女人香蕉久久**毛片精品| 在线观看免费视频高清游戏推荐| 国产欧美日韩在线看| 中文字幕第四页| 国产丝袜高跟一区| 涩涩在线视频| 免费av在线一区二区| 国产视频一区欧美| av无码av天天av天天爽| 精品久久久久久亚洲国产300| 欧美一区二区在线观看视频| 久久久久久久久久国产精品| 亚洲一区二区三区在线免费| 青青草视频国产| 成人免费精品视频| 久久夜靖品2区| 亚洲精品一区二区网址| 黑人精品一区| 日本一区二区三区四区在线观看| 日韩高清一级片| 中文字幕精品亚洲| 91精品免费观看| 日韩伦理av| 免费观看成人高| 日韩电影在线一区二区| 国产极品视频在线观看| 欧美二区在线观看| 亚洲制服国产| 精品免费视频123区| 三级影片在线观看欧美日韩一区二区| 中字幕一区二区三区乱码| 欧美日韩精品欧美日韩精品一| 成人黄色在线电影| 国产一区精品在线| 久久综合五月| 日本午夜在线观看| 亚洲国产91色在线| 在线成人av观看| 人人妻人人澡人人爽精品欧美一区| 国产精品1024| 一级黄色免费网站| 久久久久www| 精品国产一区二区三区不卡蜜臂 | 久久99精品一区二区三区| 久久黄色免费网站| 亚洲色图国产精品| 精品午夜视频| 久久久免费视频网站| 中文字幕在线观看一区二区| 免费激情视频网站| 国产精品人人做人人爽| 欧美久色视频| 一区二区三区伦理片| 日韩欧美在线1卡| 日本韩国欧美| 五月天激情图片| 久久久青草青青国产亚洲免观| 91一区二区视频| 欧美在线激情网| 91精品亚洲| 国产成人福利在线| 日韩无一区二区|