4分鐘帶你看懂究竟什么是數據倉庫?
數據倉庫是商業和數據科學中最熱門的話題之一。
但是,如果你是該領域的新手,你可能想知道什么是數據倉庫?為什么我們需要它,它是怎么運行的?

別擔心,因為在接下來的4分鐘,你將知曉這所有問題的答案。
好的,首先讓我們看到定義。
唯一數據源——這個詞是什么意思?
在信息系統理論中,唯一數據源是在一個地方構造全部最佳質量數據的實踐。

.
讓我們看到一個簡單的例子:
你肯定遇到過這種情況,當你在處理文件,并且創建不同的版本,這時你怎么給文件命名?
當你完成后,你通常會在結尾加上“最終版”。
這導致產生一堆帶有擴展名的文件:
最終版,最終的最終版,最終的最終的最終版…
或者是我的最愛,真正最終版…的最終版。

如果你是這樣,恭喜你,你不是一個人。
有時候,即使是公司,也都不知道最新或最合適的文件在哪里。
但是如果你知道有個地方會始終存放著唯一的數據源,那就太棒了,不是么?
數據倉庫就可以滿足這種需求,那到底什么是數據倉庫呢?
其實就是公司存儲其寶貴數據資產的地方。包括客戶數據、銷售數據、員工數據等。
簡而言之,數據倉庫是公司事實上的唯一數據源。
通常創建它是為了將其主要用于數據報告和分析目的。
數據倉庫有幾個定義特征:
面向對象性
集成性
時變性
永久性
歸納性

讓我們快速地分別看看。
01 面向對象性

這意味著數據倉庫中的信息會圍繞某些方面。
因此,它永遠不會包含所有公司數據,不過只會包含相關的主題。
例如,競爭對手的數據不需要出現在數據倉庫中。但是,自己的銷售數據肯定會在。
02 集成性

對應于視頻開頭的例子。在命名方面,對于每個數據庫、每個團隊甚至每個人都有自己的偏好。
這就是為什么要開發通用標準,以確保數據倉庫在任何方面都能選擇最佳質量的數據。這與主數據治理有關,但這是另一個話題了。
03 時變性

數據倉庫也包含歷史數據。如前所述,我們主要使用數據倉庫進行分析和報告。這意味著我們需要知道五到十年前發生的事情。
04 永久性

意味著數據僅按原樣錄入數據倉庫,一旦存入,就無法更改或刪除。
05 歸納性

再次觸及將數據用于數據分析這一事實。通常,它會以某種方式進行匯總或細分,為了便于分析和報告。
好的,這就是數據倉庫,是對于公司而言結構優良,永久性事實上的單一數據源。























