精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Hadoop在MapReduce中使用壓縮詳解

開發(fā) 開發(fā)工具 大數(shù)據(jù) Hadoop
Hadoop對于壓縮格式的是透明識別,我們的MapReduce任務的執(zhí)行是透明的,Hadoop能夠自動為我們將壓縮的文件解壓,而不用我們?nèi)リP(guān)心。

Hadoop對于壓縮文件的支持

如果我們壓縮的文件有相應壓縮格式的擴展名(比如lzo,gz,bzip2等),hadoop就會根據(jù)擴展名去選擇解碼器解壓。

hadoop對每個壓縮格式的支持,詳細見下表:

 

如果壓縮的文件沒有擴展名,則需 要在執(zhí)行mapreduce任務的時候指定輸入格式.

  1. hadoop jar /usr/home/hadoop/hadoop-0.20.2/contrib/streaming/hadoop-streaming-0.20.2-CD H3B4.jar 
  2. -file /usr/home/hadoop/hello/mapper.py -mapper /usr/home/hadoop/hello/mapper.py 
  3. -file /usr/home/hadoop/hello/reducer.py -reducer /usr/home/hadoop/hello/reducer.py 
  4. -input lzotest -output result4 
  5. -jobconf mapred.reduce.tasks=1 
  6. *-inputformat org.apache.hadoop.mapred.LzoTextInputFormat*  

hadoop下各種壓縮算法的壓縮比,壓縮時間,解壓時間見下表:

壓縮算法 原始文件大小 壓縮后的文件大小 壓縮速度 解壓縮速度
gzip   8.3GB   1.8GB 17.5MB/s 58MB/s
bzip2 8.3GB 1.1GB 2.4MB/s 9.5MB/s
LZO-bset 8.3GB 2GB 4MB/s 60.6MB/s
LZO 8.3GB 2.9GB 49.3MB/S 74.6MB/s

hadoop各種壓縮算法的優(yōu)缺點簡述

在考慮如何壓縮那些將由MapReduce處理的數(shù)據(jù)時,考慮壓縮格式是否支持分割是很重要的。考慮存儲在HDFS中的未壓縮的文件,其大小為1GB,HDFS的塊大小為64MB,所以該文件將被存儲為16塊,將此文件用作輸入的MapReduce作業(yè)會創(chuàng)建1個輸人分片(split ,也稱為“分塊”。對于block,我們統(tǒng)一稱為“塊”。)每個分片都被作為一個獨立map任務的輸入單獨進行處理。

現(xiàn)在假設。該文件是一個gzip格式的壓縮文件,壓縮后的大小為1GB。和前面一樣,HDFS將此文件存儲為16塊。然而,針對每一塊創(chuàng)建一個分塊是沒有用的,因為不可能從gzip數(shù)據(jù)流中的任意點開始讀取,map任務也不可能獨立于其他分塊只讀取一個分塊中的數(shù)據(jù)。gzip格式使用DEFLATE來存儲壓縮過的數(shù)據(jù),DEFLATE將數(shù)據(jù)作為一系列壓縮過的塊進行存儲。問題是,每塊的開始沒有指定用戶在數(shù)據(jù)流中任意點定位到下一個塊的起始位置,而是其自身與數(shù)據(jù)流同步。因此,gzip不支持分割(塊)機制。

在這種情況下,MapReduce不分割gzip格式的文件,因為它知道輸入是gzip壓縮格式的(通過文件擴展名得知),而gzip壓縮機制不支持分割機制。這樣是以犧牲本地化為代價:一個map任務將處理16個HDFS塊。大都不是map的本地數(shù)據(jù)。與此同時,因為map任務少,所以作業(yè)分割的粒度不夠細,從而導致運行時間變長。

在我們假設的例子中,如果是一個LZO格式的文件,我們會碰到同樣的問題,因為基本壓縮格式不為reader提供方法使其與流同步。但是,bzip2格式的壓縮文件確實提供了塊與塊之間的同步標記(一個48位的PI近似值),因此它支持分割機制。

對于文件的收集,這些問題會稍有不同。ZIP是存檔格式,因此它可以將多個文件合并為一個ZIP文件。每個文件單獨壓縮,所有文檔的存儲位置存儲在ZIP文件的尾部。這個屬性表明ZIP文件支持文件邊界處分割,每個分片中包括ZIP壓縮文件中的一個或多個文件。

在MapReduce我們應該使用哪種壓縮格式

根據(jù)應用的具體情況來決定應該使用哪種壓縮格式。就個人而言,更趨向于使用最快的速度壓縮,還是使用最優(yōu)的空間壓縮?一般來說,應該嘗試不同的策略,并用具有代表性的數(shù)據(jù)集進行測試,從而找到最佳方法。對于那些大型的、沒有邊界的文件,如日志文件,有以下選項。

存儲未壓縮的文件。

使用支持分割機制的壓縮格式,如bzip2。

在應用中將文件分割成幾個大的數(shù)據(jù)塊,然后使用任何一種支持的壓縮格式單獨壓縮每個數(shù)據(jù)塊(可不用考慮壓縮格式是否支持分割)。在這里,需要選擇數(shù)據(jù)塊的大小使壓縮后的數(shù)據(jù)塊在大小上相當于HDFS的塊。

使用支持壓縮和分割的Sequence File(序列文件)。

對于大型文件,不要對整個文件使用不支持分割的壓縮格式,因為這樣會損失本地性優(yōu)勢,從而使降低MapReduce應用的性能。

hadoop支持Splittable壓縮lzo

在hadoop中使用lzo的壓縮算法可以減小數(shù)據(jù)的大小和數(shù)據(jù)的磁盤讀寫時間,在HDFS中存儲壓縮數(shù)據(jù),可以使集群能保存更多的數(shù)據(jù),延長集群的使用壽命。不僅如此,由于mapreduce作業(yè)通常瓶頸都在IO上,存儲壓縮數(shù)據(jù)就意味這更少的IO操作,job運行更加的高效。

但是在hadoop上使用壓縮也有兩個比較麻煩的地方:第一,有些壓縮格式不能被分塊,并行的處理,比如gzip。第二,另外的一些壓縮格式雖然支持分塊處理,但是解壓的過程非常的緩慢,使job的瓶頸轉(zhuǎn)移到了cpu上,例如bzip2。

如果能夠擁有一種壓縮算法,即能夠被分塊,并行的處理,速度也非常的快,那就非常的理想。這種方式就是lzo。

lzo的壓縮文件是由許多的小的blocks組成(約256K),使的hadoop的job可以根據(jù)block的劃分來split job。不僅如此,lzo在設計時就考慮到了效率問題,它的解壓速度是gzip的兩倍,這就讓它能夠節(jié)省很多的磁盤讀寫,它的壓縮比的不如gzip,大約壓縮出來的文件比gzip壓縮的大一半,但是這樣仍然比沒有經(jīng)過壓縮的文件要節(jié)省20%-50%的存儲空間,這樣就可以在效率上大大的提高job執(zhí)行的速度。

hadoop下lzo配置文檔參考http://www.tech126.com/hadoop-lzo/

如何在MapReduce中使用壓縮

1.輸入的文件的壓縮

如果輸入的文件是壓縮過的,那么在被MapReduce讀取時,它們會被自動解壓,根據(jù)文件擴展名來決定應該使用哪一個壓縮解碼器。

2.MapReduce作業(yè)的輸出的壓縮

如果要壓縮MapReduce作業(yè)的輸出,請在作業(yè)配置文件中將mapred.output.compress屬性設置為true。將mapred.output.compression.codec屬性設置為自己打算使用的壓縮編碼/解碼器的類名。

如果為輸出使用了一系列文件,可以設置mapred.output.compression.type屬性來控制壓縮類型,默認為RECORD,它壓縮單獨的記錄。將它改為BLOCK,則可以壓縮一組記錄。由于它有更好的壓縮比,所以推薦使用。

3.map作業(yè)輸出結(jié)果的壓縮

即使MapReduce應用使用非壓縮的數(shù)據(jù)來讀取和寫入,我們也可以受益于壓縮map階段的中間輸出。因為map作業(yè)的輸出會被寫入磁盤并通過網(wǎng)絡傳輸?shù)絩educer節(jié)點,所以如果使用LZO之類的快速壓縮,能得到更好的性能,因為傳輸?shù)臄?shù)據(jù)量大大減少了。以下代碼顯示了啟用rnap輸出壓縮和設置壓縮格式的配置屬性。

  1. conf.setCompressMapOutput(true);  
  2. conf.setMapOutputCompressorClass(GzipCodec.class); 

本地壓縮庫

考慮到性能,最好使用一個本地庫(native library)來壓縮和解壓。例如,在一個測試中,使用本地gzip壓縮庫減少了解壓時間50%,壓縮時間大約減少了10%(與內(nèi)置的Java實現(xiàn)相比較)。表4-4展示了Java和本地提供的每個壓縮格式的實現(xiàn)。井不是所有的格式都有本地實現(xiàn)(例如bzip2壓縮),而另一些則僅有本地實現(xiàn)(例如LZO)。

壓縮格式 Java實現(xiàn) 本地實現(xiàn)
DEFLATE
gzip
bzip2
LZO

Hadoop帶有預置的32位和64位Linux的本地壓縮庫,位于庫/本地目錄。對于其他平臺,需要自己編譯庫,具體請參見Hadoop的維基百科http://wiki.apache.org/hadoop/NativeHadoop。

本地庫通過Java系統(tǒng)屬性java.library.path來使用。Hadoop的腳本在bin目錄中已經(jīng)設置好這個屬性,但如果不使用該腳本,則需要在應用中設置屬性。

默認情況下,Hadoop會在它運行的平臺上查找本地庫,如果發(fā)現(xiàn)就自動加載。這意味著不必更改任何配置設置就可以使用本地庫。在某些情況下,可能希望禁用本地庫,比如在調(diào)試壓縮相關(guān)問題的時候。為此,將屬性hadoop.native.lib設置為false,即可確保內(nèi)置的Java等同內(nèi)置實現(xiàn)被使用(如果它們可用的話)。

原文鏈接:http://www.cnblogs.com/ggjucheng/archive/2012/04/22/2465580.html

【編輯推薦】

  1. Apache .htaccess文件的8個用法
  2. Hadoop 從Yahoo向Google的技術(shù)轉(zhuǎn)折
  3. Hadoop集群與Hadoop性能優(yōu)化
  4. Facebook實時信息系統(tǒng):HBase每月存儲1350億條信息

 

責任編輯:彭凡 來源: 博客園
相關(guān)推薦

2013-01-21 13:22:56

IBMdW

2011-06-30 10:50:39

Qt OpenCV

2011-06-28 10:03:37

Qt OpenCV qmake

2010-06-03 16:32:09

Hadoop MapR

2011-08-31 16:30:19

Lua多線程

2017-04-19 11:17:48

SparkHadoopMapReduce

2011-08-16 10:35:59

Objective_C私有方法

2009-06-25 16:49:24

Hibernate

2013-12-13 17:21:14

Lua腳本語言

2023-11-17 12:04:39

GORM并發(fā)

2023-04-12 15:25:09

Bytrace鴻蒙

2018-01-09 09:00:01

Linux命令文件壓縮

2011-11-16 10:25:34

2011-06-15 10:08:01

Qt CVS

2023-07-23 19:26:18

Linuxcat 命令

2023-07-04 16:36:03

Linuxcd 命令

2010-04-29 17:51:40

Unix工具

2017-04-05 13:17:26

LinuxShellvi

2013-12-17 09:52:13

pythonhadoopmapreduce

2023-09-27 15:34:48

數(shù)據(jù)編程
點贊
收藏

51CTO技術(shù)棧公眾號

久久人人爽人人片| 国产91精品久久久久久久网曝门| 成人高清在线视频| 亚洲石原莉奈一区二区在线观看| 91系列在线观看| 国产免费无遮挡吸奶头视频| 伊人222成人综合网| 牛牛影视久久网| 亚洲欧洲在线观看av| 奇米一区二区三区四区久久| 日本wwwwwww| 菠萝菠萝蜜在线视频免费观看| 日韩黄色免费网站| 国产手机视频精品| 婷婷无套内射影院| 高潮毛片7777777毛片| 国产精品99视频| 在线精品视频一区二区三四| 久久久久久久久久码影片| 久操免费在线视频| 欧美三级一区| 亚洲美女精品一区| 亚洲一区二区三区sesese| 91麻豆精品久久毛片一级| 亚洲成人一区在线观看| 久久久蜜桃精品| 欧美中在线观看| 欧美精品久久久久久久久46p| 国产日本久久| 国产精品免费视频观看| 国产日韩欧美在线看| 人人干在线观看| 国产精品国产三级在线观看| 亚洲免费资源在线播放| 欧美一区二区三区四区在线观看地址| 黄色在线免费观看| 九九视频免费观看视频精品| 日本高清不卡在线观看| 少妇免费毛片久久久久久久久| 在线精品免费视| 狠狠做六月爱婷婷综合aⅴ| 在线看不卡av| av黄色在线网站| 高清福利在线观看| 久草这里只有精品视频| 色综合天天综合网国产成人网| 一级黄色免费视频| 国产精品亚洲一区二区在线观看 | 国产黄色小视频网站| 国产亚洲欧美日韩在线观看一区二区| 亚洲高清久久网| 奇米精品一区二区三区| 国产高清一区在线观看| 久久久久综合网| 精品视频一区在线| 中文字幕在线播放不卡| 永久亚洲成a人片777777| 精品国产污网站| 四虎永久在线精品无码视频| 国产传媒在线播放| 成人免费在线观看入口| 亚洲自拍三区| 欧美一级一区二区三区| 三级成人在线视频| 国产成人高清激情视频在线观看| 人妻人人澡人人添人人爽| 日韩精品社区| 欧美一级二级三级蜜桃| 欧美精品色婷婷五月综合| 久久99精品久久久久久野外| 99久久婷婷国产| 成人性教育视频在线观看| 少妇一级淫片免费放中国| 日韩高清欧美| 亚洲国产精品高清久久久| 亚洲一区二区在线免费| av日韩一区| 日韩欧美在线国产| 九九热只有这里有精品| 在线观看免费网站黄| 2024国产精品| 国产精品二区在线| 特级西西444www大精品视频免费看| 99视频一区| 久久av红桃一区二区小说| 伊人网伊人影院| 国产suv精品一区| 欧美精品99久久久**| 国产男女激情视频| 欧洲美女精品免费观看视频| 欧美视频在线观看免费网址| 精品久久久久久中文字幕2017| 91美女精品| 尤物视频一区二区| 在线看视频不卡| 国产高清视频在线观看| 亚洲乱码国产乱码精品精的特点| www.av片| 亚洲国产精选| 亚洲二区中文字幕| 91精品久久久久久久久久久久| 麻豆精品少妇| 日韩精品黄色网| 免费a v网站| 成人写真视频| 在线日韩精品视频| 亚洲av成人无码久久精品 | 国产精品女主播一区二区三区| 最近的2019中文字幕免费一页| 人妻熟女aⅴ一区二区三区汇编| 婷婷综合国产| 日韩欧美久久久| 91福利视频免费观看| 欧美日韩中出| 国产午夜精品全部视频在线播放| 野外性满足hd| 中文字幕午夜精品一区二区三区 | 九九视频免费观看| 奇米影视在线99精品| 日本午夜精品理论片a级appf发布| 久久亚洲AV无码| 精品福利电影| 97在线免费视频| 91视频免费网址| 国产一区999| 99久久一区三区四区免费| 99国产精品久久久久久久成人 | 日本伊人精品一区二区三区介绍 | 国产综合一区二区| 国产日韩欧美影视| 极品白浆推特女神在线观看| 国产午夜精品在线观看| 午夜精品福利一区二区| aa级大片免费在线观看| 欧美日韩aaaaa| 特黄特黄一级片| 热久久天天拍国产| 欧洲中文字幕国产精品| 日本免费一区视频| 亚洲综合激情网| 三级4级全黄60分钟| 麻豆一区一区三区四区| 九九热精品视频国产| 国产福利久久久| 噜噜噜久久亚洲精品国产品小说| 国产精品av电影| 色天堂在线视频| 国产精品电影一区二区三区| www.亚洲一区二区| av资源中文在线| 日韩欧美国产一区二区三区| 日本黄色片免费观看| 久久精品av麻豆的观看方式| 3d蒂法精品啪啪一区二区免费| 五月天婷婷在线播放| 欧美国产精品专区| 欧美黄色免费网址| 日韩av免费| 日韩一区二区在线观看视频| 97在线观看免费高| 国产精品资源网站| 日韩高清在线播放| 羞羞的网站在线观看| 欧美视频一二三| 一级片手机在线观看| 久久婷婷麻豆| 成人免费视频网站| 羞羞视频在线免费国产| 精品成a人在线观看| 亚洲激情视频一区| 国产在线精品一区二区三区不卡| 在线播放 亚洲| 成人激情综合| 精品国产凹凸成av人网站| 国产在线视频二区| 2024国产精品| 最新国产黄色网址| 蜜桃一区二区三区| 国产精品永久在线| 男人av在线| 亚洲韩国精品一区| 国产欧美精品一二三| 欧美精选一区二区三区| 午夜精品免费视频| 日韩电影网址| 欧美精品自拍偷拍动漫精品| 欧美又粗又大又长| 精品一区二区三区在线视频| 亚洲精品天堂成人片av在线播放| 久久久久高潮毛片免费全部播放| 日产精品99久久久久久| 欧美黑人激情| 欧美综合天天夜夜久久| 四虎影院中文字幕| 91亚洲资源网| 免费在线观看亚洲视频| 欧美伦理影院| 不卡一区二区三区视频| 欧美极度另类| 欧美精品国产精品日韩精品| 国产成a人亚洲精v品无码| 国产精品女人毛片| 国产老头和老头xxxx×| 久久国产精品久久久久久电车 | 亚洲不卡av一区二区三区| 中文字幕久久av| 亚洲精品欧洲| 国产乱码精品一区二区三区日韩精品| 欧美大片免费| 欧美—级高清免费播放| 午夜视频在线观看网站| 在线精品视频免费播放| 久久久久久国产精品视频| 欧美激情中文不卡| 日韩大片一区二区| 日韩久久久久| 精品国产免费人成电影在线观...| 国产成人福利夜色影视| 精品呦交小u女在线| jizz国产视频| 色94色欧美sute亚洲线路二| 久久久久无码国产精品不卡| 国产精品久线观看视频| 大又大又粗又硬又爽少妇毛片| 国产精选一区二区三区| 日韩毛片在线免费看| 伊人久久亚洲热| 九九久久九九久久| 6080成人| 欧美与欧洲交xxxx免费观看| 欧美精品少妇| 亚洲第一精品自拍| 国产黄色片网站| 欧美精品在欧美一区二区少妇| 日本中文字幕在线观看视频| 中文字幕国产精品一区二区| av网站免费在线播放| 成人精品国产福利| 日本泡妞xxxx免费视频软件| 精品69视频一区二区三区Q| 中文精品视频一区二区在线观看| 国产精品日韩精品中文字幕| 久久久久久久久一区| 看全色黄大色大片免费久久久| 俄罗斯精品一区二区| 久久九九精品视频| 69堂成人精品视频免费| 国产成人久久精品一区二区三区| 国产在线久久久| 欧美视频免费看| 成人免费福利在线| 国产亚洲高清一区| 成人动漫视频在线观看完整版| 亚洲成人偷拍| 国产嫩草一区二区三区在线观看| 欧美日韩大片| 国产精品久久999| 日本欧美电影在线观看| 欧美乱大交xxxxx另类电影| 少女频道在线观看高清 | 免费精品视频在线| 996这里只有精品| 激情综合久久| 欧美成人xxxxx| 美女精品一区二区| 免费黄频在线观看| 丁香一区二区三区| 中日韩av在线播放| 国产精品亚洲一区二区三区妖精| 国产欧美视频一区| 久久日一线二线三线suv| 人人妻人人澡人人爽| 中文字幕日本不卡| 精品少妇theporn| 精品久久久久久亚洲国产300| 午夜精品福利在线视频| 亚洲午夜国产一区99re久久| 国产精品黄色大片| 欧美性猛交xxxxxxxx| 日韩特级黄色片| 欧美在线免费观看视频| 一区二区三区日| 在线免费一区三区| 国产毛片一区二区三区va在线| 精品欧美一区二区三区精品久久 | 欧美一区二区三区小说| 欧美h在线观看| 欧美网站大全在线观看| av一级黄色片| 日韩av网站电影| 1区2区3区在线观看| 久久久久久国产精品| 中文字幕av一区二区三区佐山爱| 91社区国产高清| 亚州综合一区| 亚洲在线第一页| 久久悠悠精品综合网| 在线精品亚洲一区二区| 99国产精品99久久久久久粉嫩| 鲁一鲁一鲁一鲁一av| 久久久久欧美精品| 国产xxxxhd| 国产午夜精品久久久久久免费视 | 性xxxxxxxxx| 久久精品人人做| 精品午夜福利在线观看| 欧美性xxxxxxxx| 偷拍自拍在线| 日韩hd视频在线观看| 黄色小网站在线观看| 日本高清视频精品| 99香蕉久久| 国产精品福利视频| 欧美oldwomenvideos| 一区二区三区四区不卡| 国产欧美在线| 波多野结衣三级视频| 国产精品免费看片| 好吊妞视频一区二区三区| 精品日韩一区二区三区免费视频| 在线视频91p| 国产福利成人在线| 天天久久夜夜| 91午夜在线观看| 国产成人一区二区精品非洲| www.美色吧.com| 成人免费一区二区三区视频 | 久久黄色影院| a天堂视频在线观看| 一区二区三区在线视频免费观看| 伊人影院中文字幕| 国产小视频国产精品| 成人美女视频| 国产精品久久久999| 你懂的一区二区三区| 18禁免费观看网站| 六月婷婷一区| 少妇毛片一区二区三区| 午夜欧美2019年伦理| 午夜精品久久久久久久99老熟妇| 精品成人免费观看| 欧美人与性动交α欧美精品济南到 | 日本高清中文字幕二区在线| 久久99国产精品久久久久久久久| av国产精品| 中文字幕第50页| 国精产品一区一区三区mba视频| 国产精品1区2区3区4区| 一区二区三区在线观看动漫| av一区二区三| 欧美夫妻性生活xx| 91欧美极品| 国产男女免费视频| 成人免费毛片app| 国产精品成人免费一区二区视频| 亚洲第一精品自拍| 亚洲欧洲自拍| 成人久久精品视频| 一区二区在线影院| 欧美一级片在线免费观看| 亚洲综合色成人| 日韩一区二区三区在线观看视频| 高清一区二区三区四区五区| 欧美性片在线观看| 亚洲午夜精品久久久中文影院av | 中文字幕avav| 亚洲一区二区在线免费看| 成人久久精品人妻一区二区三区| 韩国福利视频一区| 蜜臀av免费一区二区三区| 手机在线看福利| 亚洲精品伦理在线| 午夜视频免费在线| 国产精品露脸av在线| 久久久久97| 成年人网站大全| 亚洲欧美日韩国产另类专区| 亚洲精品久久久久久动漫器材一区 | 一区二区三区精品视频| 亚洲aaa在线观看| 国产精品成人播放| 欧美1区2区| 中文字幕视频在线免费观看| 中文字幕亚洲一区二区va在线| 精品久久久无码中文字幕| 国语自产偷拍精品视频偷| 你懂的视频欧美| 国内精品国产三级国产aⅴ久| 激情成人中文字幕| 永久免费在线观看视频| 成人动漫在线观看视频| 日韩精品一级中文字幕精品视频免费观看| 国产一级淫片久久久片a级| 精品日韩av一区二区| 羞羞影院欧美| 台湾无码一区二区| 国产片一区二区| 性一交一乱一色一视频麻豆| 国产成人精品视频在线观看| 欧美日韩岛国|