數(shù)據(jù)湖不僅僅是大數(shù)據(jù)
數(shù)據(jù)湖不僅用于“大數(shù)據(jù)”,而且組織比以往擁有更多的機會將它們納入數(shù)據(jù)堆棧。
行業(yè)專家最近寫了一篇文章,揭露了關于數(shù)據(jù)湖架構、數(shù)據(jù)湖定義和數(shù)據(jù)湖分析的常見誤區(qū)。其文章名為“什么是數(shù)據(jù)湖?需要來避免最大的迷思。”在那篇文章中,構建了有關數(shù)據(jù)湖及其在企業(yè)數(shù)據(jù)策略中的適用范圍的當前對話。對于那些希望從數(shù)據(jù)湖中獲取價值的人來說,由于顧問和供應商的建議相互矛盾,這個主題歷來是令人困惑和不透明的。
一個可能特別令人困惑的領域是人們認為數(shù)據(jù)湖僅用于“大數(shù)據(jù)”。如果花時間閱讀湖泊上的資料,就會認為只有一種類型。人們將數(shù)據(jù)湖描述為龐大的、無所不包的實體,旨在容納所有知識。好消息是,湖泊不僅僅用于“大數(shù)據(jù)”,而且比以往任何時候都有更多的機會將其納入數(shù)據(jù)堆棧。
不同類型的數(shù)據(jù)湖
就像大自然一樣,湖泊具有各種不同的形狀和大小。每個都有自然狀態(tài),通常反映數(shù)據(jù)生態(tài)系統(tǒng),就像自然界中反映魚類,鳥類或其他生物的生態(tài)系統(tǒng)一樣。
不幸的是,“大數(shù)據(jù)”角度給人們的印象是湖泊僅用于“里海”規(guī)模的數(shù)據(jù)工作。這無疑使使用數(shù)據(jù)湖變得令人生畏。因此,以如此大的角度來描述事物使得那些可以從中受益的人們無法接近湖泊的概念。這里有一些數(shù)據(jù)湖的例子。
- 偉大的“里海”:就像里海是一個大水域一樣,這種類型的湖泊也是一個龐大而廣泛的,種類繁多的數(shù)據(jù)集。廣泛收集的各種數(shù)據(jù)反映了整個企業(yè)的信息。這就是大多數(shù)數(shù)據(jù)湖工作的框架。
- 暫時的“湖泊”:就像沙漠中可以有小的臨時湖泊一樣,短暫的短暫存在。它們可以用于項目、試點、PoC或點解決方案,并且它們的打開與關閉速度一樣快。
- 領域“項目”:這些湖泊與臨時數(shù)據(jù)湖泊一樣,通常側重于特定的知識領域。但是,與臨時湖不同,該湖將隨著時間的推移而持續(xù)存在。這些也可能是“淺”的,這意味著它們可能專注于狹窄的數(shù)據(jù)域,例如媒體、社交、Web分析、電子郵件或類似的數(shù)據(jù)源。
最近,與客戶合作創(chuàng)建了“域”型湖泊。該湖會將Adobe事件數(shù)據(jù)保存到AWS,以支持企業(yè)Oracle Cloud環(huán)境。為什么選擇AWS to Oracle?對于客戶的OracleBI環(huán)境,這是一種高效且具有成本效益的數(shù)據(jù)消耗模式,尤其是考慮到使用AWS Lake和Athena作為湖內容的按需查詢服務的敏捷性和經(jīng)濟性。
通過設計,所有類型的湖泊都應采用抽象技術,以最大程度地降低風險并為您提供更大的靈活性。而且,它們的結構應易于使用,而與大小無關。這確保了數(shù)據(jù)科學家,業(yè)務用戶或分析師所使用的湖泊都具有易于數(shù)據(jù)使用的結構化環(huán)境。
數(shù)據(jù)湖入門
成為成功的早期采用者意味著采取業(yè)務價值方法而不是技術方法。當組織考慮如何入門時,這里有一些提示:
- 重點:尋找機會,在其中部署“臨時”或“項目”解決方案。這將確保您降低風險并克服技術和組織挑戰(zhàn),以便您的團隊可以對湖泊建立信心。
- 熱情:確保內部有一位“傳道者”或“倡導者”,他們對組織的解決方案和采用充滿熱情。
- 簡單:擁護簡單性和敏捷性,使人員、流程和技術選擇貫穿于此。缺乏復雜性不應被看作是缺陷,而是周到的設計的副產(chǎn)品。
- 狹義:通過限制湖泊來理解數(shù)據(jù)(例如從ERP、CRM、銷售點、市場營銷或廣告數(shù)據(jù)中導出)來使范圍狹窄且定義明確。此階段的數(shù)據(jù)素養(yǎng)將幫助您了解有關數(shù)據(jù)結構、提取、治理,質量和測試的工作流。
- 實驗:將數(shù)據(jù)湖與現(xiàn)代BI和Tableau、Power BI、Amazon Quicksight或Looker等分析工具配對。這將使非技術用戶有機會通過湖泊進行實驗和探索數(shù)據(jù)訪問。這使組織可以與其他用戶群互動,以評估性能瓶頸,發(fā)現(xiàn)改進機會,與任何現(xiàn)有EDW系統(tǒng)(或其他數(shù)據(jù)系統(tǒng))的可能鏈接以及其他候選數(shù)據(jù)源。
關注業(yè)務價值而不是技術,可以為組織提供一個在整體數(shù)據(jù)和分析策略的框架內進行工作的機會。這樣可以提高速度,并幫助組織實現(xiàn)數(shù)據(jù)湖目標并衡量業(yè)務績效的進度。這也導致了完善的共享術語、最佳實踐以及對建立更好平臺的投資。






















