了解這些,輕松打開云端大數(shù)據(jù)管理“任意門”
大數(shù)據(jù)對于傳統(tǒng)IT系統(tǒng)來說是個(gè)大問題,因?yàn)樘幚砗A康慕Y(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)有很多事情要做。然而,云計(jì)算可以讓IT管理大數(shù)據(jù)集,且無需獨(dú)占本地系統(tǒng)。
為了在云端有效管理大數(shù)據(jù),了解***的工具和服務(wù)很重要。比如Hadoop是處理大數(shù)據(jù)的通用Apache框架。此外,很多主要的云提供商都有自己的大數(shù)據(jù)服務(wù),比如亞馬遜Web服務(wù)的彈性MapReduce、谷歌的BigQuery以及Pivotal的大數(shù)據(jù)套件。
下面是五個(gè)快速鏈接,可以用來探索云端大數(shù)據(jù),涉及基礎(chǔ)和進(jìn)階的工具和服務(wù)。
1、哪一種云模式最適合你的大數(shù)據(jù)項(xiàng)目?
公有云、私有云和混合云都有自身的優(yōu)勢。公有云提供了按使用付費(fèi)架構(gòu)的彈性和可擴(kuò)展性。私有云,基于本地基礎(chǔ)架構(gòu),為企業(yè)提供了控制。混合云混合了私有云和公有云服務(wù),用編排實(shí)現(xiàn)了其混合。但是,在為大數(shù)據(jù)選擇合適的云模式時(shí),需要更深入的關(guān)注每一個(gè)模式。
雖然密切的控制很誘人,但是私有云的本地屬性對于大數(shù)據(jù)來說并不理想。相反公有云更適合按需的大數(shù)據(jù)任務(wù)。然而,潛在帶寬限制和數(shù)據(jù)傳輸成本卻是令人擔(dān)憂的問題。
2、入門級大數(shù)據(jù)分析:Google BigQuery
大數(shù)據(jù)項(xiàng)目對于任何組織機(jī)構(gòu)都是是一項(xiàng)重大事業(yè)。為了成功實(shí)現(xiàn),找到適合你的數(shù)據(jù)需求的正確服務(wù)非常重要。雖然Hadoop是一個(gè)通用的大數(shù)據(jù)選擇,但是并不適合于每一個(gè)人。另一個(gè)替代品是谷歌BigQuery,尤其是對于相比MapReduce更喜歡SQL的開發(fā)者更是如此。
雖然BigQuery促進(jìn)了大數(shù)據(jù)分析實(shí)現(xiàn),但是也伴隨著一些折扣。云專家Dan Sullivan會(huì)詳細(xì)解釋如何使用BigQuery以及什么類型的企業(yè)會(huì)更適合這個(gè)大數(shù)據(jù)分析服務(wù)。
3、大數(shù)據(jù)即服務(wù):企業(yè)客戶需要的遠(yuǎn)不止分析
大數(shù)據(jù)工作負(fù)載會(huì)對傳統(tǒng)IT系統(tǒng)造成重大損害,因?yàn)榫薮蟮臄?shù)據(jù)集需要資源,而且通常運(yùn)行這些數(shù)據(jù)很昂貴。這也正是公有云進(jìn)入的地方,通過氣可擴(kuò)展性和按使用服務(wù)的價(jià)格模式,公有云價(jià)格可以讓企業(yè)只支付使用的部分,而不是大數(shù)據(jù)項(xiàng)目的通用架構(gòu)。此外,公有云允許資源根據(jù)工作負(fù)載需求自旋加速或者減少。
但是對大數(shù)據(jù)使用公有云有一個(gè)隊(duì)里面。雖然軟件即服務(wù)可以削減成本,但是安全和延遲問題還存在。
4.Apache Sqoop:云端大數(shù)據(jù)分析的關(guān)鍵一環(huán)
Apache框架Hadoop是一個(gè)越來越通用的分布式計(jì)算環(huán)境,主要用來處理大數(shù)據(jù)。隨著云提供商利用這個(gè)框架,更多的用戶將數(shù)據(jù)集在Hadoop和傳統(tǒng)數(shù)據(jù)庫之間轉(zhuǎn)移,能夠幫助數(shù)據(jù)傳輸?shù)墓ぞ咦兊酶又匾pache Sqoop就是這樣一款工具,可以在Hadoop和關(guān)系型數(shù)據(jù)庫之間轉(zhuǎn)移大量數(shù)據(jù)。
盡管Sqoop有其優(yōu)勢,但是默認(rèn)的并行性是個(gè)問題。本文中我們將看看具體如何使用這款工具。
5、云端大數(shù)據(jù)安全利器:亞馬遜DynamoDB和Accumulo訪問控制
雖然云計(jì)算對于大數(shù)據(jù)項(xiàng)目是一個(gè)可靠的選擇,但是對于一些組織而言安全是一個(gè)障礙。但是,根據(jù)Sullivan所說,有三個(gè)選擇可以讓NoSQL數(shù)據(jù)庫更加安全:Accumulo、Amazon Web Service的DynamoDB以及MarkLogic。Apache Accumulo是一個(gè)分布式的鍵值數(shù)據(jù)存儲(chǔ),提供了基于單元的訪問控制,據(jù)定了誰可以訪問組織的大數(shù)據(jù)。AWS的鍵值數(shù)據(jù)存儲(chǔ)DynamoDB用身份及訪問管理(IAM)策略解決了訪問控制。MarkLogic是一個(gè)基于文檔的NoSQL數(shù)據(jù)庫,提供了基于角色的訪問控制和執(zhí)行。
原文鏈接:http://www.searchcloudcomputing.com.cn/showcontent_88193.htm

























