談談創建有效數據質量規則特別關注的五大要素
根據 Gartner 的數據質量市場調查,低質量數據每年使公司損失約 1500 萬美元,那么如何通過創建有效的數據質量規則來提高數據質量呢。

什么是數據質量規則
數據質量規則是企業對其數據設定的要求。這些要求旨在滿足兩個相互依存的目標:
1.定義數據應遵循的格式以及數據元素之間應存在的依賴關系。
2.作為企業根據這些要求衡量和檢查其數據質量的參考。
比方說,對于即將發起的電子郵件營銷活動,我們需要優化工作和成本,需要決定篩選出無效電子郵件。為此,創建簡單的規則:
- 電子郵件必須包含“@”符號。
- '@' 只能使用一次。
- 電子郵件必須包含以下任何或所有內容:字母、數字、非字母字符,例如,! # $ % & ' * + – / = ? ^ _ ` { 。
通過僅向經過驗證的電子郵件發送消息,企業將能夠改善與客戶的溝通,并更好地評估活動在電子郵件打開率、點擊率等方面的成功。
然而,這套電子郵件數據質量規則絕不是詳盡無遺的。例如,如果進行有針對性的營銷活動,那么再創建一個規則是有意義的。這將幫助企業避免在消息開頭出現令人尷尬的“親愛的 N/A”或“親愛的……”:
- 電子郵件引用的“客戶全名”字段不得為“空”。
如果想驗證名稱的拼寫以正確稱呼客戶,可以提出額外的規則:
- 客戶的全名只能由字母組成;不允許使用其他字符。
- 只有客戶姓名、中間名(如果有)和姓氏中的首字母必須大寫。
創建有效數據質量規則需要考慮的因素
1.業務主題專家需要深入參與
不同的部門有不同的優先事項。要制定全面的數據質量規則,應該正確定義所有主題專家并明智地整合他們的要求。如果不從不同部門的角度看待數據,可能會破壞所有數據管理工作。例如,銀行的貸款部門會將貸款金額、貸款到期日和月利率視為關鍵數據。他們很可能會認為客戶名稱或客戶訪問過的分支機構的前綴不值得填寫。相反,市場部對貸款相關信息不太感興趣,但他們會找到客戶數據對于有效溝通和創建單一客戶視圖非常重要。
2.數據質量規則的數量要適中
在爭取提高數據質量的過程中,重要的是不要忘形于太多的質量規則。過多的數據質量規則顯著降低系統性能,因為需要更多的計算能力和時間來運行檢查。根據 10 條規則檢查字段與根據 100 條規則檢查字段不同。因此,應該找到一個很好的平衡點。
3. 需要采用循序漸進的方法
我們不必創建涵蓋所有數據的規則,也不必一口氣解決所有問題。我們應該對數據進行分類并定義需要立即關注并盡最大努力的關鍵元素。例如,要開展有針對性的營銷活動,“客戶姓名”、“出生日期”和“電子郵件”字段至關重要,而家庭住址可被視為有用的額外信息。完成關鍵數據后,可以繼續處理 #2 優先級,依此類推。簡而言之,數據質量管理是接力賽,而不是短跑,然后采取相應的行動。
4.單獨對待數據庫的每個字段并相應地創建規則
有多種數據質量特征,我們的任務是確定哪些最適合特定領域。我們以'員工全名'和'員工聯系電話'為例。第一個字段包含關鍵信息,而第二個字段不包含。所以,“員工姓名”要滿足完整性、唯一性和準確性的要求,而“員工聯系電話”——準確性和有序性。這些特征應反映在數據質量規則中,例如:
- 員工全名不得為 N/A(以確保完整性)。
- 一個'員工全名'必須對應一個'身份證號碼'(以確保唯一性)。
- 員工全名必須至少包含一個空格,必須僅由漢字組成,不允許使用數字、字母或其他字符(以確保準確性和完整性)。
- 員工聯系電話必須僅包含數字(以確保準確性和有序性)。
- 員工聯系電話必須采用 +1 NXX-NXX-XXXX 格式,其中 N 表示 2 至 9 的數字,X 表示 0 至 9 的數字(以確保準確性和有序性)。
5. 為數據質量規則選擇集中存儲還是本地存儲
如果是大型多元化企業,應該決定是將規則集中存儲還是在每個企業本地存儲。每種方法都有其優點和缺點。例如,在完全集中的情況下,將采用標準方法來捕獲客戶的姓名,無論他們與什么業務進行交互。在分散數據管理的情況下,可以獲得更大的靈活性,因為將只關注與特定業務方向相關的數據規則。
綜述
如果決定管理數據質量,將不可避免地要處理數據質量規則。建立這些規則需要考慮來自不同部門的意見、不要創建太多規則,否則會損害系統的性能、不必一次完成所有操作、為數據庫的每個字段選擇單獨的數據質量特征、為數據質量規則做出集中存儲還是本地存儲的決策。























