如何查找隱藏在云存儲中的數據
最近的一項調查顯示,隨著云端對象庫成為事實上的數據湖,企業在查找和統計堆積的所有數據時,處于艱難的境地。

對于擁有大量空曠空間的人們來說,其存放的物品總是凌亂散布,而這可能是人類的本性。而目前也有這樣一個趨勢,即對于越來越多的企業來說,云對象存儲正在成為事實上的數據湖。好消息是,云對象存儲成本相對更低,并且具有高度可擴展性,而且越來越易于訪問。例如,大多數云Hadoop服務交換Hadoop分布式文件系統(HDFS)的對象存儲,并且越來越多的云計算提供商正在提供服務,提供臨時查詢或將云對象存儲視為數據倉庫的擴展表。
依賴云存儲作為默認目標或數據湖的另一個方面是需要協調通用目標中數據的積累,需要對數據隱私或數據保護更負責,尤其對于GDPR等規則生效的情況。
Chaos Sumo公司計劃在今年夏天推出SaaS提供商的搜索層以添加云存儲(現在稱為Amazon S3),該公司剛剛發布了一項調查,顯示云計算采用者感受到的一些痛點。
無可否認,這個調查規模并不大,只有120名受訪者,主要針對的是數據操作專業人員,該示例很可能偏向已經接受云計算的組織。例如,72%的人表示他們目前使用某種形式的云對象存儲。對于那些使用亞馬遜S3的人來說,40%的受訪者表示他們預計明年他們使用S3存儲的比例至少會增長50%。
對于企業來說,主要用于備份、存儲和歸檔。但是28%的人已經在使用數據湖的對象存儲,而另外18%的人計劃在未來的12-18個月內實施。毫不奇怪,對于這個以AWS為主的樣本,如今在使用Amazon Athena報告的類似比例(23%)。大約一半的受訪者表示,已使用Amazon Redshift數據倉庫,Spectrum現在可以將S3視為擴展表。
Athena等工具的創新開放了對系統中數據的交互式訪問,而不是對存儲進行優化,而不需要ETL(盡管數據必須采用某種形式的半結構化存儲,如CSV、JSON、Parquet或其他格式)。

但正如圖表所顯示的那樣,隨著數據在對象存儲中的涌現,越來越多的少數人擔心問責制問題。這正是Hadoop等平臺的商業銷售優勢,以及用于分析和數據準備的打包工具,這些平臺具有某種形式的數據沿襲,安全性和訪問控制作為其存在的理由。云對象存儲在涉及治理或周邊安全時是赤裸裸的——傳統上是數據平臺、云主機或消耗數據的分析工具的工作。
因此,四分之一的受訪者擔心他們將不得不移動數據來分析數據,而數量較少但具有統計學意義的少數群體則對查找數據、合規性和安全性表示擔憂。他們花費大量時間清理和準備數據,超過一半的受訪者表示花費每周至少6小時,其中近40%的受訪者表示每周花費超過11小時來完成任務。
值得注意的是,只有7%的受訪者表示目前很容易分析當今在對象存儲中的數據。這就是調查贊助商Chaos Sumo公司的商業用途。該公司計劃引入它所謂的“數據結構”,將于今年夏天將S3數據打開到Elastic search,供現有SaaS提供商使用OEM。預計S3將成為更多分析平臺和工具的良好去處。對于Chaos Sumo來說,將搜索作為SaaS提供商的實用工具來增加這些數據的可見性可以更好地應用云存儲。
























