精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

什么是數據湖?用于大數據分析的大規模可擴展存儲

譯文
大數據 數據湖
用戶需要深入了解什么是數據湖、如何使用數據湖以及數據湖與數據倉庫的不同之處和他們之間的互補性。

?譯者 | 李睿

審校 | 孫淑娟

2011年,時任商業智能開發商Pentaho公司首席技術官的James Dixon創造了“數據湖”這一術語。他將數據湖與當時流行的數據集市的典型信息孤島進行了對比:如果將數據集市視為銷售瓶裝水的商店(經過清潔和包裝處理以便于飲用),那么數據湖就是處于更自然狀態的大片水體。數據湖的內容從一個源頭流入,填滿湖泊。采用數據湖,用戶可以來檢查、潛入或采集樣本。

從那時起,數據湖技術不斷發展,現在正在與數據倉庫爭奪大數據存儲和分析的市場份額。各種工具和產品支持數據湖中更快的SQL查詢,而全球三個主要云計算提供商都提供了數據湖存儲和分析。甚至還推出了將治理、安全性和分析與成本更低的存儲結合起來的數據湖屋的概念。本文將深入探討數據湖是什么、如何使用數據湖以及如何確保數據湖不會成為數據沼澤。  

對數據湖的解釋  

數據湖本質上是一個單一的數據存儲庫,它保存用戶的所有數據,直到準備好進行分析,或者可能只保存不適合數據倉庫的數據。通常情況下,數據湖以其原生文件格式存儲數據,但可以將數據轉換為另一種格式以提高分析效率。擁有數據湖的目標是從數據中提取業務或其他分析的價值數據。

數據湖可以托管二進制數據(例如圖像和視頻)、非結構化數據(例如PDF文檔)和半結構化數據(例如CSV和JSON文件)以及結構化數據(通常來自關系數據庫)。結構化數據對分析更有用,但半結構化數據可以很容易地導入結構化形式中。非結構化數據通常可以使用智能自動化轉換為結構化數據。  

數據湖vs數據倉庫  

問題不在于是否需要數據湖或數據倉庫。很可能兩者都需要,但其目的不同,也可以將它們組合起來。首先了解數據湖和數據倉庫之間的主要區別:  

  • 數據源:數據湖的典型數據源包括日志文件、來自點擊流的數據、社交媒體帖子以及來自互聯網連接設備的數據。數據倉庫通常存儲從事務數據庫、業務線應用程序和操作數據庫中提取的數據以供分析。  
  • 模式策略:數據湖的數據庫模式通常在分析時應用,稱之為讀模式。企業數據倉庫的數據庫模式通常在創建數據存儲之前設計,并在數據導入時應用于數據,這稱之為寫模式。  
  • 存儲基礎設施:數據倉庫通常采用大量價格高昂的內存和SSD硬盤,以便快速提供查詢結果。數據湖通常在計算機集群上使用價格較低的機械硬盤進行存儲。數據倉庫和數據湖都使用大規模并行處理(MPP)來加速SQL查詢。  
  • 原始數據與精選數據:數據倉庫中的數據應該被整理到可以將數據倉庫視為企業的“單一事實來源”的程度。數據湖中的數據可能會或可能不會被管理:數據湖通常從原始數據開始,然后可以過濾和轉換以進行分析。  
  • 誰使用它:數據倉庫用戶通常是業務分析師。數據湖用戶通常是數據科學家或數據工程師,至少在最初是這樣。數據在經過整理之后,業務分析師就可以訪問這些數據。  
  • 分析類型:數據倉庫的典型分析包括商業智能、批處理報告和可視化。對于數據湖,典型的分析包括機器學習、預測分析、數據發現和數據剖析。  

什么是數據集市?  

數據集市是僅限于來自單個部門或業務單位數據的分析數據庫,這與數據倉庫相反。數據倉庫將企業的所有關系數據組合成適合分析的形式,而數據集市通過僅包含與部門相關的數據來提供有效的分析。因此,它們本質上是孤立的。有人聲稱孤島無關緊要,因為業務部門不需要排除的數據。在現實生活中,這通常很重要——總有一些企業高管需要基于來自多個業務部門的組合數據的報告。這就是目前看到有很多數據湖和數據倉庫而很少看到數據集市的原因之一。

數據湖上更快的SQL查詢  

當企業將原始數據存儲在數據池中時,在數據工程師或數據科學家對數據進行處理之前,這些數據可能對業務分析師毫無用處。除了過濾和數據轉換之外,數據湖還需要數據目錄、數據安全性和模式定義。對于沒有這些功能的數據湖來說,就是數據沼澤。

幸運的是,有很多工具可以幫助過濾和組織數據湖中的數據。例如,企業可以通過創建ORC格式的Hive元存儲來滿足對模式的需求。在設置完成之后,元存儲通過Presto等大規模并行SQL引擎支持快速SQL查詢(優化的行-列格式是一種壓縮的列存儲,針對Hive進行了優化,并與Presto配合使用)。  

ApacheSpark是另一個大規模并行SQL引擎。雖然它可以使用ORC格式,但它更適用于另一種壓縮的列式存儲Parquet。Spark可以對Parquet文件執行垂直和水平分區,生成只需要讀取必要數據,并可以跳過不相關數據的查詢計劃。  

數據湖屋  

Spark和MLflow背后的Databricks公司提供了他們所謂的數據湖屋(Data Lakehouse)。根據Databricks公司的介紹,數據湖屋結合了數據倉庫和數據湖的最佳特性:數據湖屋將數據倉庫和數據湖統一在一個簡單的平臺中,以處理其所有數據、分析和人工智能用例。它建立在開放且可靠的數據基礎之上,可以有效處理所有數據類型,并在其所有數據和云平臺上應用一種通用的安全和治理方法。  

Databricks公司開源發布的DeltaLake通過直接為數據湖中的數據保證了可靠性和高性能,這構成了數據湖屋的基礎。Databricks Lakehouse平臺還包括Unity Catalog,它為數據和人工智能提供細粒度的治理。Databricks聲稱其數據湖庫的性價比是數據倉庫的12倍。  

內部部署和公共云中的數據湖  

從歷史上看,數據湖是使用Apache Hadoop計算機集群和HDFS(Hadoop分布式文件系統)在內部部署設施實施的。Hadoop集群曾經是Cloudera、Hortonworks等公司的主要業務,而Cloudera與Hortonworks在2018年合并。  

改變的是云計算服務,特別是超大規模公共云供應商AWS、微軟Azure和谷歌云平臺(GCP)。這三個主要云計算提供商都提供數據湖存儲產品:Amazon S3和Amazon EMR(以前稱為Amazon Elastic Map Reduce)、Azure DataLake Store(ADLS)和Google Cloud Storage(GCS)。這三者還提供數據攝取、數據處理、分析和機器學習服務。創建、管理和擴展云數據湖比在數據中心管理Hadoop集群要容易和快捷得多。其權衡的結果是,云計算中的長期運營支出最終將變得更高。

數據湖的分析和機器學習  

在此之前討論了使用Presto和ApacheSpark在數據湖上進行更快的SQL查詢。SQL只是分析數據的一種方法,盡管它非常重要并且通常是第一步。此外,考慮采用Power BI、Tableau或Qlik等商業智能工具;Jupyter、Zeppelin或Spark notebooks;, scikit-learn、SparkML或KNIME等機器學習技術;TensorFlow或PyTorch等深度學習技術。  

超大規模云計算供應商擁有自己的分析和機器學習工具,用戶可以連接到他們的數據湖。

Amazon Athena使用Presto和Hive對AmazonS3中的數據執行SQL查詢。Amazon EMR是一個基于云計算的大數據平臺,用于使用Apache Spark、Apache Hive和Presto等開源分析框架運行大規模分布式數據處理作業、交互式SQL查詢和機器學習應用程序。Amazon SageMaker是一項完全托管的服務,用于構建、訓練和部署機器學習模型。  

Azure Data Lake Analytics (ADLA)是一種傳統的按需分析作業服務,可以簡化大數據,并使用U-SQL,也就是SQL+C#。ADLA正被Azure Synapse Analytics所取代,這是一種將數據集成、企業數據倉庫和大數據分析結合在一起的無限分析服務。它讓用戶可以自由地根據自己的條件查詢數據,可以使用無服務器選項,也可以大規模使用專用選項。Synapse結合了數據湖、企業數據倉庫和操作數據查詢功能,可以自動從ADLA和數據倉庫遷移數據和代碼。Synapse與Azure機器學習、Azure認知服務和Power BI進行了深度集成。

Google云存儲提供與許多強大的谷歌云服務的原生集成,例如BigQuery(數據倉庫)、Dataproc(Hadoop生態系統)、Dataflow(無服務器流式分析)、視頻智能API、Cloud Vision API和人工智能平臺。

總之,用戶可以非常靈活地選擇合適的工具來分析其數據。  

結論  

自從進入Hadoop集群和MapReduce時代以來,數據湖變得更加有用。由于內存和大規模并行處理以及基于Hive的模式,Presto和ApacheSpark提供比MapReduce更快的SQL處理。與內部部署的計算機集群相比,基于云計算的數據湖更易于創建、管理和擴展。而云計算數據湖也將與廣泛的分析和人工智能工具緊密集成。

原文標題:??What is a data lake? Massively scalable storage for big data analytics???,作者:Martin Heller?

責任編輯:華軒 來源: 51CTO
相關推薦

2018-08-24 09:42:05

云存儲存儲大數據

2015-07-29 16:19:54

大數據時代分析

2015-03-04 11:01:36

大數據數據分析分析

2021-08-25 08:23:51

AI數據機器學習

2016-10-12 09:22:51

數據分析技術Apache Kyli

2013-04-27 09:09:07

大數據全球技術峰會

2022-03-29 14:49:14

大數據數據分析

2023-12-21 11:44:11

數據湖數據管理數據存儲庫

2019-08-22 09:08:53

大數據HadoopStorm

2020-12-11 19:52:06

數據中心超大規模數據中心

2023-02-14 11:24:36

2022-12-30 14:14:51

數據中心服務器

2023-12-01 10:25:34

數據存儲

2017-02-27 16:35:00

HDFS大數據分析

2019-04-15 15:32:12

大數據開發數據分析數據科學

2025-03-24 12:18:25

數據庫數據倉庫存儲

2015-09-01 11:31:50

數據英雄

2013-05-09 09:35:00

Cloudmeter大數據

2015-01-27 14:36:18

2018-08-16 10:01:40

數據存儲數據中心
點贊
收藏

51CTO技術棧公眾號

香蕉国产精品偷在线观看不卡| 亚洲精品v亚洲精品v日韩精品| 久久久久久亚洲综合影院红桃| 人人做人人澡人人爽欧美| 免费看裸体网站| av在线成人| 天天射综合影视| 日本日本精品二区免费| 国产又黄又粗又长| 夜夜爽av福利精品导航| 一区二区福利视频| 欧美熟妇精品一区二区| 成人教育av| 亚洲美腿欧美偷拍| 久久大香伊蕉在人线观看热2| 啪啪小视频网站| 国产精品九九| 亚洲跨种族黑人xxx| 亚洲欧美天堂在线| 3d性欧美动漫精品xxxx软件| 一区二区三区在线免费观看| 日韩精品一区二区三区四区五区| 亚洲产国偷v产偷v自拍涩爱| 日本欧美一区二区三区乱码| 欧美日本在线视频中文字字幕| 中文字幕国产综合| 精品福利一区| 日韩午夜小视频| 天堂社区在线视频| 国产夫妻在线播放| 日本一区二区动态图| 国产视频一区二区不卡| 97超碰人人草| 青娱乐精品视频| 4k岛国日韩精品**专区| 久操免费在线视频| 欧美一区免费| 久久久国产91| 成人一级片免费看| 国产一区二区三区四区大秀| 亚洲精品电影网| 91精品999| 国产黄色一区| 色综合久久天天| 久久人人爽人人爽人人av| 极品白浆推特女神在线观看| 99精品欧美一区二区三区小说 | 影音先锋国产精品| 神马久久桃色视频| 毛片网站免费观看| 国产乱人伦精品一区| 欧美日本国产一区| 色诱视频在线观看| 毛片电影在线| 午夜一区二区三区视频| 国产又爽又黄ai换脸| 一本一道波多野毛片中文在线| 91老司机福利 在线| 99免费在线观看视频| 91影院在线播放| 美女视频网站黄色亚洲| 日韩免费在线播放| 国产成人一级片| 亚洲欧洲中文字幕| 色一情一乱一区二区| 亚洲午夜久久久久久久久红桃| 日韩av字幕| 亚洲成人免费网站| 91精产国品一二三| 一区中文字幕| 日韩欧美激情四射| www.欧美com| 4438全国亚洲精品观看视频| 欧美一区二区在线免费观看| 热久久久久久久久| 粉嫩一区二区三区在线观看| 欧美日韩和欧美的一区二区| 91看片在线免费观看| 国产精品久久亚洲不卡| 欧美在线观看视频一区二区三区| 欧美性猛交久久久乱大交小说| 男人用嘴添女人下身免费视频| 91国在线视频| 久久www免费人成看片高清| 国产精品免费电影| 最新在线中文字幕| 日韩avvvv在线播放| 国产精品国产三级国产专播精品人| 亚洲自拍一区在线观看| 石原莉奈一区二区三区在线观看| 国产成人精品一区二区| 中文字幕69页| 美女在线视频一区| 92福利视频午夜1000合集在线观看| 一级做a爰片久久毛片16| 国内精品久久久久影院一蜜桃| 亚洲自拍偷拍色片视频| 精品欧美一区二区精品少妇| 国产激情视频一区二区在线观看 | 日韩黄色免费网站| 国产福利精品视频| 中国精品一区二区| 国产精品综合av一区二区国产馆| 高清视频一区二区三区| 水莓100在线视频| 亚洲国产精品二十页| 正在播放国产精品| 亚洲色图美国十次| 欧美日韩国产专区| 牛夜精品久久久久久久| 免费欧美网站| 日韩hd视频在线观看| 99精品全国免费观看| 伊人情人综合网| 69影院欧美专区视频| 波多野结衣电车痴汉| 麻豆成人免费电影| 久久综合狠狠综合久久综青草| 大乳在线免费观看| 一区二区三区.www| 久久久久久久少妇| 国产成人久久精品一区二区三区| 亚洲第一网站男人都懂| www.日本高清视频| 亚洲精品美女91| 成人综合国产精品| 欧美男男激情freegay| 亚洲欧美国产三级| 免费黄色特级片| 欧美.com| 久久天堂电影网| 日韩黄色片网站| 成人免费黄色大片| 三年中文高清在线观看第6集| 综合久久2023| 日韩精品一区二区三区三区免费| 丰满少妇高潮一区二区| 国产一区日韩欧美| 成人美女免费网站视频| 免费毛片在线| 亚洲成人动漫av| 中文字幕第22页| 欧美日韩亚洲在线观看| 欧美怡春院一区二区三区| 国产福利免费视频| 国产精品久99| 天堂中文视频在线| 日韩av中文字幕一区| 欧美国产精品va在线观看| 在线观看国产小视频| 91在线观看高清| 日韩极品视频在线观看| 57pao成人永久免费| 在线播放国产精品| 69亚洲精品久久久蜜桃小说| 99精品久久99久久久久| 久久综合亚洲精品| 欧美黄视频在线观看| 色悠悠久久久久| 91麻豆精品在线| 国产亚洲精品资源在线26u| 黄色一级视频在线播放| 中文字幕亚洲在线观看| 欧美成人午夜激情视频| 国产精品-色哟哟| 中文字幕色av一区二区三区| 五月婷婷六月丁香激情| 成人影院在线| 国产欧美久久久久久| 天天操天天干天天爱| 一区2区3区在线看| 亚洲精品乱码久久久久久9色| 亚洲最新av| 91情侣在线视频| 色操视频在线| 亚洲成色777777女色窝| 国产无遮挡又黄又爽在线观看| 国产91富婆露脸刺激对白 | 亚洲天堂一区二区三区四区| 国产精品露脸av在线| www黄在线观看| 欧美日韩在线三级| 中文字幕一二三四区| 国产精品久久久久毛片大屁完整版| 国产精品一区二区三区四区五区 | 久久精品一区中文字幕| 国产精品欧美久久久久天天影视| 亚洲欧美激情视频在线观看一区二区三区 | 91tv亚洲精品香蕉国产一区7ujn| 黄色片一区二区三区| 一区二区三区四区在线播放| 能看毛片的网站| 在线精品福利| 免费看成人午夜电影| 日韩中文视频| 久久国产精品首页| 欧美综合视频在线| 一本色道久久综合亚洲91| 国产又黄又粗又猛又爽的| 国产中文字幕一区| 国产 欧美 日韩 一区| 色橹橹欧美在线观看视频高清| 国产精品福利网| 伊人春色在线观看| 亚洲精品福利视频| 久久久久亚洲视频| 亚洲制服丝袜在线| 亚洲精品成人无码熟妇在线| 麻豆精品精品国产自在97香蕉| 亚洲av综合色区| 要久久电视剧全集免费| 成人久久久久爱| 欧美男男激情videos| 色偷偷av亚洲男人的天堂| 亚洲精品国产精品乱码不卡| 日本韩国欧美一区| 欧美成人综合色| 久久精品视频一区二区| 两性午夜免费视频| 亚洲麻豆av| 一区二区三区不卡在线| 欧美丝袜美腿| 91视频-88av| videos性欧美另类高清| 久久影院资源网| 欧美日韩国产综合视频| 日韩午夜精品电影| 中文字幕无线码一区| 亚洲成人精品影院| 日本一二三区在线观看| 久久综合精品国产一区二区三区 | 国产成人av一区二区| 国产精品亚洲二区在线观看 | 亚洲美女久久久| 国产91绿帽单男绿奴| 欧美日韩电影一区| www.国产毛片| 亚洲不卡av一区二区三区| 免费中文字幕日韩| 国产精品欧美经典| 中文字幕免费看| av在线播放不卡| 在线播放国产视频| 紧缚奴在线一区二区三区| 日韩av黄色网址| 在线观看一区视频| 99热一区二区三区| 国产欧美日韩免费观看| 国产综合 伊人色| 亚洲综合影院| 亚洲影影院av| 一区在线不卡| 成人免费视频a| 色成人综合网| 国产精品一区久久| 欧美日韩免费看片| 26uuu亚洲国产精品| 大桥未久在线视频| 色综合色综合网色综合| 女同一区二区免费aⅴ| 欧美精品中文字幕一区| 蜜桃视频在线观看免费视频网站www| 国产午夜精品免费一区二区三区| 香港一级纯黄大片| 日韩精品久久久久久福利| 丰满大乳国产精品| 精品日韩欧美在线| 亚洲成人久久精品| 精品999在线播放| 后进极品白嫩翘臀在线视频| 精品国产三级a在线观看| 国产精品国产一区二区三区四区| 日韩欧美一二三四区| 国产草草影院ccyycom| 欧美r级在线观看| 亚洲欧美激情另类| 亚洲国产中文字幕在线观看| 五月婷在线视频| 亚洲精品一区在线观看香蕉| 青青草在线视频免费观看| 亚洲一区二区久久| 免费在线看a| 综合欧美国产视频二区| 视频免费一区| 欧美成人免费播放| 国产精品偷拍| 日本精品性网站在线观看| 芒果视频成人app| 国产精品无码专区在线观看| 国产精品美女久久久久| 91入口在线观看| 啪啪国产精品| 日韩欧美精品久久| 亚洲高清影视| 国产精品无码av在线播放| 久久性天堂网| 国内自拍第二页| 99国产精品国产精品久久| av男人的天堂av| 亚洲精品精品亚洲| 天天操天天爽天天干| 欧美日韩一区二区电影| 亚洲av无码一区二区三区dv | 精品自拍视频在线观看| 日韩大片免费观看| 奇米四色中文综合久久| 外国电影一区二区| 亚洲aa中文字幕| 人人精品亚洲| 自拍偷拍亚洲色图欧美| 99国产精品视频免费观看一公开| 免费在线激情视频| 国内精品免费在线观看| 国产精品久久AV无码| 国产精品乱码久久久久久| 国产精品变态另类虐交| 欧美性感一类影片在线播放| 精品人妻一区二区三区麻豆91 | 青青久在线视频免费观看| xxx一区二区| 欧美日韩电影免费看| www.成人av.com| 国产欧美日韩精品一区二区免费 | 视频小说一区二区| 9色视频在线观看| 久久大逼视频| 中国男女全黄大片| 国产精品毛片无遮挡高清| 97超碰人人干| 日韩午夜激情免费电影| 九一在线视频| 韩国精品美女www爽爽爽视频| 国产在视频一区二区三区吞精| 精品国产电影| 欧美成人69av| 欧美日韩亚洲自拍| 国产欧美一区二区三区鸳鸯浴| 国产精品.www| 日韩一区二区三区视频在线| 国产精品一区二区三区四区色| 国语自产偷拍精品视频偷| 精品国产乱码久久久久久樱花| 欧美午夜精品久久久久久蜜| 亚洲欧洲一区二区天堂久久| 波多野结衣免费观看| 国产精品九色蝌蚪自拍| 日本免费精品视频| 亚洲欧美制服中文字幕| 9999精品成人免费毛片在线看| 成人综合网网址| 国产精品福利在线观看播放| 爱情岛论坛vip永久入口| 久久精品视频免费观看| 亚洲国产精一区二区三区性色| 日韩欧美另类在线| 99在线播放| 国产欧美精品日韩| 久久久久久久久久久9不雅视频| the porn av| 国产日韩欧美一区二区三区乱码| 六月丁香激情综合| 亚洲色图15p| 国产亚洲一区二区手机在线观看| 欧美日韩一区二区三区在线视频| 国产精品久久久久久久久久妞妞| 国产又粗又长又爽| 精品国产31久久久久久| 青青草免费观看免费视频在线| 69国产精品成人在线播放| 天天做夜夜做人人爱精品| 国产99久久九九精品无码| 91美女片黄在线观看| 日韩免费视频一区二区视频在线观看| 亚洲激情电影中文字幕| 在线天堂资源www在线污| 好吊色欧美一区二区三区四区 | 国产精品自拍av| 国产盗摄x88av| 欧美大片在线观看一区二区| 女囚岛在线观看| 国产一级二级三级精品| 国产美女诱惑一区二区| 一卡二卡三卡四卡| 欧美影片第一页| 国产美女性感在线观看懂色av| 国产精品视频白浆免费视频| 欧美黄色大片在线观看| 免费黄频在线观看| 亚洲午夜免费电影| 色播色播色播色播色播在线| 国产精品7m视频| 亚洲天天综合| 日本少妇xxxx| 日本久久精品电影| 女女色综合影院| 国产亚洲情侣一区二区无| 日欧美一区二区| 岛国毛片在线观看| 日韩黄在线观看| 最新亚洲国产|