談談人工智能成功的數據策略

一、數據是人工智能能力的基礎
在人工智能領域,數據不僅僅是一種資源,更是所有人工智能能力賴以構建的基礎。數據的質量、數量和可訪問性直接決定了哪些人工智能應用可行,以及這些應用的有效性。
將數據視為戰略資產并進行相應管理的組織能夠為人工智能的成功做好準備,而那些將數據視為事后諸葛亮的組織往往難以從人工智能投資中實現價值。
數據和人工智能之間的基本關系可以通過幾個關鍵原則來理解:
- 人工智能模型從數據中學習:與遵循明確編程規則的傳統軟件不同,人工智能系統從數據中學習模式和關系。這種學習數據的廣度、深度和質量直接影響系統的功能。
- 數據決定可能性:一個組織所能開發的人工智能應用受限于其可訪問的數據。如果沒有相關且全面的數據,即使是最復雜的人工智能技術,其產生的價值也將十分有限,甚至毫無價值。
- 數據質量驅動性能:數據的準確性、完整性和代表性直接影響AI模型的性能。正如AI開發中所說的那樣:“垃圾進,垃圾出。”
- 數據需求不斷發展:隨著人工智能能力從基本分析發展到更復雜的應用,數據要求變得更加復雜,要求更大的數量、多樣性、速度和準確性。
- 數據具有復合價值:系統地收集、組織和利用數據的組織會隨著時間的推移創造復合優勢——因為每個新數據點都會提升現有數據資產的價值。
用例:Capital One 的企業數據平臺
當 Capital One 著手對其數據架構進行現代化改造時,其動機并非表面功夫,而是生存之道。每條業務線(信用卡、零售銀行、汽車金融)都運行著各自的系統,而機器學習項目也面臨著同樣的困境:數據孤島。他們沒有嘗試構建更多模型來解決這個問題,而是回歸到了基礎層面。
Capital One 成為首批全面推行云優先數據戰略的大型銀行之一,將核心基礎設施遷移至 AWS。其目標并非“直接遷移”,而是整合:一個單一的企業平臺,用于集成、管理和一致訪問結構化和非結構化數據。
這一基礎已初見成效。實時欺詐模型如今每天分析整個企業數十億筆交易,不再局限于孤立的數據孤島。個性化引擎基于統一的客戶數據運行,使產品報價更具針對性。對話式人工智能助手能夠真正解決客戶問題,因為它們能夠洞察客戶關系的全貌。
這里的關鍵教訓是:在追求 AI 功能之前,先修復數據管道。
第一資本公司的欺詐模型之所以有效,并不是因為它們很獨特,而是因為它們背后的數據基礎是為擴大規模而重建的。
二、建立全面的數據戰略
全面的數據戰略應將數據管理與業務目標相結合,并為開發支持人工智能計劃所需的數據能力提供路線圖。該戰略應涵蓋六個關鍵要素:
數據愿景和目標
數據戰略應始于清晰的愿景,闡明數據如何為組織創造價值并支持其戰略目標。這一愿景應轉化為具體的、可衡量的目標,以指導投資和優先級決策。
愿景聲明示例:“我們的數據將成為一項戰略資產,使我們能夠深入了解客戶,不斷優化運營,并創造競爭對手無法比擬的個性化體驗。”
目標示例:
- 到 2026 年,將分析數據檢索時間從幾天縮短到幾分鐘
- 到 2027 年,將數據支持的業務決策比例從 35% 提高到 80%
- 到 2028 年,在所有客戶接觸點實現實時個性化
數據治理框架
強大的人工智能成果依賴于強有力的治理。數據治理并非為了官僚主義而生,而是為了確保數據在規模化情況下仍然值得信賴、安全且可用。有效的治理框架必須走鋼絲:施加足夠的控制以維護合規性和質量,同時確保數據可供需要的人訪問。
在實踐中,這意味著從明確所有權開始。每個數據集都應該有一個指定的所有者(通常是對其價值負責的業務負責人)和一個管理員(通常是負責質量和可訪問性的運營人員)。如果沒有這種責任制,數據問題就會在團隊之間難以解決地轉移。
治理還需要政策和標準。這些規則定義了數據的收集、存儲、共享和退出方式。其目的并非制定長達200頁的政策手冊,而是確保從工程師到分析師再到合規官,每個人都清楚了解“基本規則”。
為了保持對數據的信任,組織必須嵌入數據質量管理實踐。這意味著定期進行分析、顯示準確性和完整性指標的儀表板,以及在異常影響到不良模型之前將其捕獲的自動檢查。
最后,成熟的治理框架整合了合規管理(在銀行或醫療保健等受監管的行業中尤為重要)和元數據管理,以便任何訪問數據的人都能理解其含義、來源和背景。
將元數據視為數據的“使用說明書”;沒有它,重復使用和信任就會迅速消失。
關鍵要素一覽:
- 數據所有權和管理:明確定義數據管理的角色和職責
- 數據政策和標準:數據收集、存儲、使用、共享和保留的指南
- 數據質量管理:測量和改進數據質量的過程
- 合規管理:確保遵守相關法規的機制
- 元數據管理:用于記錄數據含義、沿襲和上下文的系統
數據架構
如果說治理制定了規則,那么數據架構則提供了舞臺。它定義了數據在整個組織內的存儲、處理和使用方式。一個設計良好的架構不僅能滿足當前的需求,還能隨著未來的發展而擴展。
在存儲層,大多數組織采用混合方式:數據倉庫用于存儲結構化、可分析的信息;數據湖用于存儲靈活、原始且通常為非結構化的數據;以及越來越多地采用云存儲來提高彈性。選擇正確的平衡點,與其說是技術潮流,不如說是工作負載模式:您需要的是即時查詢性能,還是更看重靈活的大規模存儲?
集成同樣至關重要。現代企業無法承受數據擱淺的后果。ETL管道、API 和數據虛擬化層將跨系統連接起來,無論數據位于何處,都能實現一致的訪問。此外,處理框架(批處理和流式處理)確保歷史分析和實時用例(例如欺詐檢測)能夠共存。
完善架構的標志并非復雜性,而是高負載下的可擴展性和性能。低估這一點的組織經常會發現,他們的人工智能模型在實驗室中運行良好,但在生產環境中,面對數十億行數據或實時事件流時卻會崩潰。
主要考慮因素一覽:
- 數據存儲:數據庫、數據倉庫、數據湖和云存儲解決方案
- 數據集成:ETL 流程、API 和數據虛擬化功能
- 數據處理:批處理和實時處理框架
- 數據訪問:查詢工具、分析平臺和數據服務
- 可擴展性和性能:能夠處理不斷增長的數據量和速度
三、數據生命周期管理
數據與任何資產一樣,都有生命周期。妥善管理數據不僅意味著了解數據的生成方式,還意味著了解數據如何演變并最終消亡。
它始于創建或獲取數據:決定收集哪些數據、從哪些來源收集以及在什么條件下收集。錯誤的決策(收集冗余或不相關的數據)會導致系統臃腫,并最終導致治理混亂。
數據一旦被提取,就會經過存儲和處理,進行轉換、豐富,并準備投入使用。良好的實踐可以確保同一數據集無需在十個不同的地方進行“清洗”——一致性是關鍵。
下一階段是使用和共享,數據將變得可操作。挑戰在于在可訪問性和控制之間取得平衡。限制過多,創新就會受到抑制。限制過少,又有違規或不合規的風險。
最后,企業必須嚴格對待歸檔和刪除操作。“以防萬一”而保留所有數據既昂貴又危險。明確的歸檔策略可確保只保留具有持久業務或監管價值的數據,其余數據則被安全清除。
關鍵階段一覽:
- 數據創建/獲取:數據如何進入組織
- 數據存儲和處理:如何存儲、轉換和豐富數據
- 數據使用和共享:如何訪問和利用數據
- 數據存檔和刪除:如何保留或刪除不再需要的數據
四、數據能力和技能
即使是最好的架構和治理,如果沒有懂得如何使用的人,也無法創造價值。因此,數據戰略必須兼顧三個維度的能力和技能。
首先是技術技能:數據工程、數據科學和數據庫管理。這些角色構建并維護驅動人工智能的管道、平臺和模型。
其次是業務技能:分析師、產品負責人和領域專家,他們懂得如何構建問題、解讀輸出結果,并將洞見融入決策。如果沒有他們,技術團隊就有可能解決錯誤的問題,或者產生無法落地的洞見。
最后,組織需要治理技能:了解隱私、合規性和質量的管家。這些角色確保制衡體系不會受到任何影響。
領先企業的獨特之處并非在于擁有更多數據科學家,而是在于平衡這三個維度。正是這種融合,將數據從原材料轉化為資產。
數據戰略應該明確實施和維持有效數據管理所需的人員能力。成功的數據戰略需要的不僅僅是技術:它取決于人。需要能夠構建數據的工程師和科學家、能夠解讀數據的分析師,以及能夠確保數據得到負責任使用的管理員。如果沒有這些要素的結合,即使是最好的架構也無法達到預期的效果。
五、實施路線圖
沒有執行的戰略只是空談。為了將數據戰略付諸實踐,組織需要一個分階段、優先排序且可衡量的路線圖。
路線圖應從優先舉措開始:快速見效、體現價值,同時為解決更棘手的問題奠定基礎。例如,將少量關鍵數據集整合到共享平臺,或對最關鍵的業務報告進行自動化數據質量檢查。
接下來是資源配置:確保人員、工具和預算的合理組合。許多數據戰略的失敗并非因為愿景錯誤,而是因為實施資金不足或人員配備不足。
路線圖也需要時間表和里程碑。這并不意味著僵化的甘特圖,而是清晰的進度信號:“到第一年,80% 的客戶數據已集成;到第二年,X 用例已啟用實時分析。”
最后,每個路線圖都必須考慮依賴關系和風險。例如,在某些市場,云優先架構的推出可能取決于監管機構的批準。公開解決這些問題可以避免日后出現意外。
成功的組織不會試圖一次性完成所有事情。他們會對數據計劃進行排序,將每個里程碑與可衡量的業務影響聯系起來,并在每個階段建立信心。
良好的數據策略并非一朝一夕就能上線。最成功的團隊會從幾個高優先級的計劃入手,確保合適的資源,分階段推出可見的里程碑,并像跟蹤預算一樣密切跟蹤依賴關系。這是一個過程,而不是一個項目計劃。
案例研究:聯合利華的綜合數據戰略
對于像聯合利華這樣業務遍及數百個市場、擁有數千個SKU的公司來說,如果沒有清晰的數據戰略,人工智能將會陷入一片混亂。他們沒有進行簡單的試點,而是制定了一套全面的方法,涵蓋六個要素:愿景、治理、架構、生命周期、技能和路線圖。
他們雄心勃勃地宣稱:打造整個企業的“數字孿生”。實際上,這意味著聯合治理(全球標準、本地管家)、混合架構(云湖提供靈活性,數據倉庫提供結構化分析),以及與業務成果掛鉤的明確目標。
結果是顯而易見的:供應鏈人工智能每年降低物流成本 5 億歐元,而營銷人工智能則推動營銷活動效果實現兩位數的提升。
關鍵在于,并非每個組織都應該以數字孿生為目標。關鍵在于,當數據治理、架構和業務目標被設計成一個統一的戰略,而不是六個獨立的對話環節時,人工智能的價值才會復合增長。
六、數據治理、質量和管理
如果說數據是人工智能的基礎,那么治理和質量就是鞏固這一基礎的工程標準。那些將治理視為紙面工作、事后才考慮質量的組織,往往會發現他們的人工智能項目停滯不前:基于不一致、不完整或不合規數據訓練的模型根本無法運行。相比之下,那些將治理和質量實踐深深植入企業DNA的企業,能夠更快地開發出人工智能解決方案,降低風險,并獲得值得信賴的結果。
因此,有效的數據治理、質量管理和全面的數據管理是人工智能成功的關鍵因素。在這些領域表現卓越的組織能夠更快地開發和部署人工智能解決方案,并提高準確性和降低風險。
1.數據治理最佳實踐
有效的治理不在于制定厚厚的政策,而在于建立一個平衡保護與可及性的活框架。
第一個要素是高管的支持。如果高管層沒有明確支持治理,治理就會永遠被視為一種合規負擔,而非戰略推動力。那些將治理視為增長的必要條件而非僅僅規避風險的領導者,將會改變這種說法。
同樣重要的是明確的所有權。數據必須有負責任的所有者(對其創造的價值負責的業務領導者)和確保質量、訪問和可用性的運營管理員。如果沒有這種責任制,問題就會在IT和業務之間無休止地反復出現,無法得到解決。
現代企業越來越多地采用聯合運營模式:中央治理制定標準,而領域團隊則在本地實施和調整。這種平衡既能保持一致性,又不會扼殺靈活性。
政策和標準提供了“道路規則”,但只有簡單易懂、溝通順暢且始終如一地執行,才能發揮作用。元數據管理則完善了這一框架:記錄數據沿襲、含義和質量指標,確保數據可信、可發現并可重復使用。元數據就像一張地圖,可以防止探索者迷失在浩瀚的數據集叢林中。
最后,治理必須是一個持續改進的過程。指標、審計和審查周期確保治理能夠隨著法規、技術和商業模式的發展而不斷調整。
數據治理建立了確保數據準確、安全、合規且可供需要數據的人訪問的框架。關鍵最佳實踐包括:
- 高管支持:獲得高層領導的明顯支持,將數據治理提升為戰略重點。
- 明確所有權:建立數據所有者(通常是負責數據價值的業務領導者)和數據管理員(負責數據質量和可訪問性的運營角色)。
- 平衡的運營模式:實施一種治理模式,在集中式標準與特定領域的靈活性之間取得平衡。大多數成功的組織都采用聯合式方法,即采用集中式治理策略并進行分布式實施。
- 政策框架:制定明確的數據分類、質量、隱私、安全和使用政策,并持續傳達和執行。
- 元數據管理:實施系統來記錄數據的含義、沿襲、質量和使用權,使數據更易于發現和使用。
- 持續改進:建立指標和審查流程,定期評估和提高治理效率。
2.數據質量管理
人工智能對不良數據毫不留情。基于不準確或有偏差的數據訓練的模型會大規模地嵌入這些缺陷。因此,組織需要系統性的方法來管理質量。
第一步是定義對業務至關重要的質量維度:準確性、完整性、一致性、及時性、相關性和代表性。這些維度超越了技術上的正確性——它們考察數據是否真實地反映了人工智能應該建模的現象。
定期進行分析和評估,可以在問題愈演愈烈之前發現問題。自動化分析工具可以標記異常,但通常需要人工審核來解讀具體情況。質量規則將這些期望轉化為可執行的檢查:例如,“任何交易記錄都不應缺少貨幣代碼”。
發現問題后,強有力的補救流程至關重要。領先的組織不僅會修補錯誤,還會追溯其根本原因并修復上游流程。持續的監控和警報使質量保持可見,從而可以實時解決問題,而不是在造成損害之后。
關鍵在于,數據質量直接影響AI模型的性能。系統的質量管理方法包括:
- 質量維度:定義和衡量關鍵維度,例如準確性(數據值的正確性)、完整性(所有必要數據的存在)、一致性(不同來源的統一性)、及時性(更新頻率)、相關性(適用于預期用途)和代表性(無偏見或偏差)。
- 分析和評估:定期使用自動分析工具和手動審查分析數據以識別質量問題。
- 質量規則:建立業務規則,定義不同數據類型和用途的可接受質量水平。
- 補救流程:制定解決質量問題的明確程序,包括根本原因分析和預防措施。
- 監控和警報:實施持續監控以檢測質量下降并向相關利益相關者發出警報。
3.主數據管理
對于人工智能來說,沒有什么比“真相”的多個版本更危險了。一個客戶在五個系統中呈現不同的狀態,或者一個產品的屬性不一致,都可能讓即使是最好的人工智能模型也變得毫無用處。
這就是主數據管理 (MDM)如此重要的原因。它始于定義關鍵業務實體(客戶、產品、供應商),并就描述它們的屬性達成一致。在此基礎上,組織必須建立黃金記錄:權威的單一事實來源,以解決重復和沖突問題。
這一過程涉及復雜的匹配和合并技術,尤其是在命名約定、語言和系統格式差異巨大的全球性組織中。層級管理一旦建立,便會維護相關關系:例如,將子公司映射到母公司,或將產品變體映射到產品類別。
最后,同步確保這些黃金記錄在所有消費系統中一致地傳播。實際上,這意味著分析師、AI模型和面向客戶的系統在提及某個實體時都使用相同的“語言”。
有效的主數據管理包括:
- 實體定義:明確定義關鍵業務實體及其屬性。
- 黃金記錄創建:建立代表每個實體唯一真實版本的權威“黃金記錄”。
- 匹配和合并:實施流程來識別和協調重復或沖突的記錄。
- 層次結構管理:維護實體之間的關系(例如,公司層次結構、產品類別)。
- 同步:通過自動同步確保跨系統的實體表示一致。
案例研究:阿斯利康的人工智能數據治理
在制藥行業,不良數據不僅浪費金錢,還會危及生命。阿斯利康很早就意識到了這一點,并建立了業內最結構化的數據治理項目之一。
他們實施了分層模型:根據敏感度和監管風險,對臨床、研究和運營數據實施不同的治理級別。自動化質量檢查持續運行,追蹤超過 200 個指標并標記異常。至關重要的是,他們還設計了針對AI 的治理機制,并提出以下問題:這些訓練數據是否具有代表性?這會引入偏見嗎?
為了使治理不僅僅是文書工作,他們任命了既懂科學又懂數據管理的管理員,在兩個經常互相交談的世界之間架起了橋梁。
成果:阿斯利康的藥物研發 AI 現已從 30 多個內部和外部數據源獲取數據。如果沒有治理,如此規模的數據將難以管理。有了治理,他們在保持合規的同時,加速了藥物研發流程。
教訓顯而易見:受監管領域的人工智能需要主動而非被動的治理。阿斯利康將治理視為加速的推動力,而非阻礙。
與光鮮亮麗的人工智能模型相比,治理、質量和主數據管理或許顯得不那么光鮮亮麗,但它們正是這些模型可信且可擴展的關鍵所在。沒有這些,組織就如同在沙灘上建造城堡:人工智能輸出在演示中看起來令人印象深刻,但在生產環境中卻經不起嚴格的檢驗。
在人工智能領域取得成功的組織并非只是空談“數據是新的石油”。他們精煉數據、管理數據,并確保數據在整個企業內順暢流動。只有這樣,人工智能才能成為真正業務轉型的驅動力。
七、人工智能應用的數據架構
傳統的數據架構專為報告、合規性和分析儀表板而設計。人工智能帶來了新的需求:更大的數據量、更廣泛的多樣性、更快的速度和更高的復雜性。如果您的架構無法支持這些特性,那么您的人工智能計劃將始終受到管道而非算法的制約。
適合用途的人工智能架構不是單一的技術堆棧,而是一個協同工作的組件分層生態系統。
支持數據管理的技術架構在設計時必須充分考慮人工智能的需求。人工智能應用的數據需求通常與傳統分析不同,包括更大的數據量、多樣性、速度和復雜性。
1.關鍵架構組件
AI 就緒數據架構并非單一的技術或平臺,而是一個由相互關聯的組件組成的生態系統。每個組件都扮演著獨特的角色,但真正的力量在于它們如何協同工作,形成一個無縫的管道:從捕獲原始信號,到將其轉化為結構化洞察,再到安全地將其傳遞給 AI 模型和決策者。
把它想象成一個活的有機體。感知是它的來源,血液是它的攝取,記憶是它的存儲,新陳代謝是它的處理,神經系統是它的訪問,免疫系統是治理。如果其中任何一個環節出現故障,整個有機體就會衰弱。要設計人工智能,你需要所有部分協調一致地工作。
(1)數據源
現代人工智能的輸入范圍遠比傳統分析廣泛。除了交易系統之外,企業現在還能捕獲物聯網傳感器讀數、網站點擊流、合作伙伴 API、衛星數據以及音頻、視頻和圖像等非結構化內容。這種多樣性是一種優勢:它使人工智能能夠發現單個系統無法揭示的模式:但前提是架構從一開始就承認并適應這種模式。
(2)數據提取
數據如何進入系統與其最終的去向同樣重要。批量提取對于加載歷史數據集、合規性記錄和定期更新仍然至關重要。但流式提取如今也同樣重要:欺詐檢測、預測性維護和實時個性化都依賴于事件的實時捕獲和處理。成熟的組織會設計能夠同時處理這兩種節奏的管道,確保人工智能既能縱觀歷史,又能把握當下。
(3)數據存儲
沒有哪個存儲庫能夠滿足所有需求。成功的 AI 架構融合了多種存儲范式:
- 數據湖充當原始、非結構化和半結構化數據的著陸區,為未來的探索提供了靈活性。
- 數據倉庫為結構化、查詢驅動的分析提供了優化的環境,其中精度和一致性至關重要。
- 專門存儲圖形、時間序列或地理空間數據,為人工智能中日益常見的利基工作負載提供性能。
藝術不在于選擇一個,而在于協調這些層,以便數據在它們之間自然流動,而無需無休止的重復或手動協調。
(4)數據處理
僅靠存儲并不能使數據變得有用。處理管道將原始輸入轉化為可用的洞察。人工智能既需要高強度的批處理(用于基于歷史數據訓練大型模型),也需要低延遲的流處理(用于實時預測)。特征工程也正是在這里發揮作用:將雜亂的原始屬性轉化為結構化、有意義的輸入,供模型學習。一個無法高效處理特征的架構,即使是最好的算法也會變得營養不良。
(6)數據訪問
如果數據無法被需要的人訪問,那么再優雅的架構也毫無意義。因此,實現數據訪問的民主化與數據安全同等重要。自助服務門戶、受管控的 API 以及 AI 訓練的直接途徑,確保數據科學家和分析師無需等待數周才能獲得批準或提取數據即可開展工作。優秀的組織會將訪問模式轉變為可控的自助服務模式,從而加速創新,同時確保合規性。
(6)治理與控制
最后,任何人工智能架構,如果沒有治理機制,其設計就不完整。元數據目錄、數據質量監控和隱私保護技術確保流經系統的數據不僅豐富,而且可信且合規。這并非附加功能——而是一種機制,使創新能夠規模化,而無需持續不斷地“救火”。如果沒有治理機制,組織要么在監管壓力下陷入停滯,要么面臨因濫用而損害聲譽的風險。
這些組件組合在一起,構成了 AI 能力的支柱。數據從數據源流向模型,經過提取、存儲和處理;通過訪問,數據變得可操作;并通過治理,數據保持安全可靠。掌握這一流程的組織會發現,他們的模型不僅在實驗室中有效,而且在生產環境中也能蓬勃發展,處理數十億個事件,并提供推動業務發展的洞察。
2.人工智能的架構模式
過去十年,某些架構模式在大規模實現人工智能方面尤為有效。這些并非靈丹妙藥,而是旨在解決數據用于機器學習和高級分析過程中反復出現的挑戰的設計方法。正確的模式通常取決于組織的成熟度、人工智能工作負載的類型以及其運營的監管環境。
(1)Lambda 架構
這種模式的誕生是為了兼顧兩方面的優點:批處理的完整性和流處理的即時性。
在 Lambda 設置中,歷史數據會被大批量處理,以提供深入、長期的視圖,而實時層則會在事件發生時提取并處理它們。然后,兩者進行協調,以產生快速且準確的輸出。
例如,零售銀行可能會使用批處理層,根據多年的交易歷史記錄來訓練欺詐模型,而實時層則可以在刷卡時以毫秒為單位發現異常。如果沒有 Lambda,組織通常被迫在速度和完整性之間做出選擇。
(2)數據網格
傳統架構將數據所有權集中化,隨著用例數量的增長,這很快就會成為瓶頸。數據網格模式則顛覆了這一現狀,將所有權分散到領域團隊,領域團隊負責將數據集視為“產品”。
中央治理仍然提供共同的標準,但靈活性來自于管理自己的管道、質量和可訪問性的領域。
實際上,這意味著營銷團隊擁有其營銷活動績效數據,并確保其可被他人發現和使用,而供應鏈團隊則擁有其物流數據。這種網格避免了中央IT成為唯一守門人的常見陷阱,從而拖慢了所有人的速度。
(3)特征存儲
機器學習中最容易被忽視的挑戰之一是特征的一致性。如果一個團隊將“客戶生命周期”計算為 12 個月,而另一個團隊將其計算為 11.5 個月,那么模型的行為就會不一致,結果也會變得不可信。
特征存儲通過集中創建、存儲和提供特征來解決此問題。它們提供了一個可重復使用的、版本化的變量目錄,模型可以在訓練和推理過程中使用這些變量。
Netflix 和 Uber 等公司率先采用了這種方法,確保用于訓練推薦或乘車匹配模型的特征也用于實時預測。這大大減少了重復,并防止了細微的不一致影響 AI 性能。
(4)數據編織
如今,許多企業都在多種環境中運營:多云、內部部署系統和區域數據中心。
Data Fabric 模式提供了一個集成的“覆蓋層”,使數據在這種復雜環境中易于發現、訪問和一致治理。Data Fabric 工具并非將所有數據強制集中到一個平臺,而是將不同的系統連接在一起,提供統一的視圖和治理層。
這種模式對于面臨嚴格數據駐留要求的全球組織尤其有效 - 例如,醫療保健提供商需要將患者數據保存在國界內,同時仍支持跨境研究。
3.云端與本地部署的考慮因素
- 關于云與本地數據基礎設施的爭論通常被視為二元選擇,但實際上大多數組織最終選擇了混合模式。關鍵在于清楚地理解其中的利弊,而不是在轉型過程中陷入困境。
- 當工作負載意外激增時,云計算技術會大放異彩,但規模化運營成本高昂。本地部署雖然能更好地控制敏感數據,但彈性不足。實際上,大多數企業選擇混合部署——在本地運行受監管的工作負載,同時利用云的彈性進行分析和 AI 訓練。
- 數據量和彈性:當工作負載變化多端且規模難以預測時,云平臺便能脫穎而出。訓練一個新的 AI 模型可能需要一次性投入數千個 GPU 小時,而接下來的幾周內需求量極低。云的彈性特性讓您能夠按實際使用量付費。
- 數據敏感性:并非所有數據都可以離開本地。國家身份數據庫、機密國防數據或某些臨床試驗記錄可能依法需要存儲在本地或私有云環境中。在這些情況下,混合設置允許敏感工作負載保留在本地,而不太重要的工作負載則可以利用云的彈性。
- 集成要求:有時,接近性很重要。如果人工智能應用程序需要與仍在傳統大型機上運行的核心交易系統緊密交互,那么將部分數據架構保留在本地可以降低延遲和復雜性。
- 成本考量:云計算的前期成本較低,因此對企業進行實驗很有吸引力。然而,隨著規模的擴大——尤其是在持續的數據傳輸和計算密集型工作負載的情況下——如果不加以管理,成本可能會飆升。因此,制定一個細致入微的成本模型至關重要。
- 監管要求:數據駐留和主權相關的法律日益影響著架構決策。例如,即使人工智能平臺本身是全球性的,GDPR 和類似法規也可能要求歐洲客戶數據必須保留在歐盟境內。這促使許多企業采用區域化的混合模式。
選擇正確的架構模式和云/本地平衡,與其說是技術潮流的體現,不如說是將設計選擇與業務優先級、監管現實和 AI 愿景相結合。注重全球合規性的組織可能傾向于 Data Fabric 和混合部署。追求快速產品迭代的數字優先企業可能會采用數據網格和特征存儲。
最重要的是認識到架構是具體化的戰略。領導者在此做出的決策不僅決定了人工智能模型的訓練方式,還決定了它們是否能夠可靠地投入生產。
案例研究:匯豐銀行的人工智能數據架構
作為全球最大的銀行之一,匯豐銀行面臨的挑戰并非“獲取更多數據”,而是如何解讀這些數據。超過40個核心系統生成客戶數據,每個系統都采用不同的格式,并受不同地區法規的約束。
他們的解決方案是一個多層數據湖:原始數據按原樣采集,在中間區域進行清理和標準化,然后整理成可用于分析和機器學習的特征層。在此之上,還有一個客戶360平臺,負責根據各國具體情況強制執行數據駐留規則。
實時流式傳輸管道為欺詐檢測系統提供數據,將檢測窗口從數小時縮短至數毫秒。自助服務門戶為分析師和數據科學家提供了可管控的訪問權限,使整個架構不再是黑匣子,而是成為一個共享的主干。
顯著的成效:欺詐損失減少了一半,同時通過及時的個性化服務提升了客戶體驗。更重要的是,該架構可擴展到每日數十億筆交易,并且符合合規性要求。
教訓是什么?
AI數據架構必須同時解決規模和主權問題。匯豐銀行的經驗表明,如果在設計時兼顧速度和監管,速度和監管并非對立的。
八、合乎道德的數據收集和使用
隨著企業擴大其在人工智能領域的數據應用,道德問題也從邊緣走向中心。遵守個保法、 GDPR 或 CCPA 等法律僅僅是起點。真正的人工智能領導力不僅需要讓監管機構滿意,還需要與客戶、員工和社會建立持久的信任。在許多情況下,“正確的”道德立場將決定人工智能的采用是加速還是停滯。
道德數據實踐可以從四個維度來考慮:隱私、同意、公平和責任。
1.設計隱私
隱私無法改造——它必須從一開始就融入設計之中。隱私設計原則意味著每個系統、管道和模型從最初的架構草圖開始就必須考慮到隱私。
首先是數據最小化:只收集真正需要的數據,而不是“以防萬一”地囤積所有數據。其次是用途限制:未經明確同意,不得將為某一目的收集的數據悄悄用于其他目的。最后是存儲限制:數據保留時間不得超過必要時間。
當監管機構要求隱私保護,而企業領導者要求洞察時,這些技術便能彌合差距。差分隱私保護個人隱私,同時仍允許聚合學習。聯邦學習將數據保持在本地,這在醫療或金融領域非常有用,因為記錄無法離開現場。同態加密則更進一步,讓您能夠對從未見過的數據進行計算。
2.知情同意
只有清晰、細致且持續的同意才有意義。很多時候,組織會用法律術語來掩蓋用戶,或者提供“全有或全無”的選擇,以此來迫使用戶接受。道德實踐恰恰相反。
- 清晰度:傳達正在收集的內容、原因和使用方式(使用外行人可以理解的語言)
- 選擇:允許人們選擇加入或退出特定用途,而不是強制一概接受。
- 控制:讓個人能夠輕松改變主意、撤回同意或隨著時間的推移調整偏好。
如果處理得當,同意并非只是例行公事:它是信任關系的一部分。如此對待數據的公司通常會發現,客戶更愿意分享數據,因為他們相信這些數據會被負責任地使用。
3.偏見檢測與緩解
人工智能的公平性取決于它所學習的數據。如果歷史數據存在偏差、偏見或不完整,最終的模型也會繼承這些缺陷,有時甚至會將其規模化放大。
偏見并非一次性的測試;它潛伏在每個階段:從訓練數據中的代表對象,到生產過程中如何監控輸出。領先的組織不僅在開始時平衡數據集,還會持續掃描其模型,以發現偏差和突發的不公平現象。
這里的教訓不是完美的中立是可能的,而是公平必須不斷地衡量、管理和改進。
4.透明度和問責制
沒有透明度,道德就毫無意義。組織需要了解并能夠展示其數據來源、數據如何轉換以及在此過程中做出了哪些決策。
這需要:
- 數據沿襲:記錄來源、轉換和使用情況。
- 影響評估:在部署之前分析高風險人工智能應用的倫理和社會影響。
- 審計跟蹤:記錄有關收集、處理和保留的決策。
- 明確的問責結構:任命明確負責道德監督的職位和委員會。
透明度不僅僅是一種防御姿態,它更是一種賦能因素。當團隊和利益相關者了解數據的使用方式和原因時,他們更有可能信任并支持人工智能計劃。
案例研究:LinkedIn 推薦中的公平性檢查
LinkedIn 的推薦系統(無論是職位、人脈還是內容)直接影響著數百萬人的職業發展機會。其風險很高:如果這些算法無意中偏袒某一群體,其結果不僅僅是糟糕的推薦,還會導致經濟機會的不平等。
為了解決這個問題,領英已將公平性檢查直接嵌入其 AI 流程中。模型不僅會接受準確性測試,還會根據性別、種族、地域和其他敏感屬性來評估公平性指標。例如,在推薦職位時,系統會進行評估,以確保具有同等資質的候選人無論屬于哪個人口群體,都能獲得同等的曝光度。
他們還開發了一個名為LinkedIn Fairness Toolkit (LiFT)的框架,幫助團隊在模型開發的不同階段衡量和緩解偏見。該工具包在團隊內部共享,以標準化公平實踐,并且設計得足夠輕量,可以集成到現有的機器學習工作流程中。
LinkedIn 給我們的關鍵教訓是,公平性不能事后才想到,也不能只是一次性的審核。它必須作為開發生命周期的一部分來實施,并具備明確的指標、自動化的檢查和文化承諾。對于大規模部署 AI 的組織來說,這種方法展示了如何將偏見緩解從理論轉化為日常工程實踐。
案例研究:德國電信的道德數據框架
在電信行業,數據既是最大的資產,也是最大的負債。德國電信正致力于解決這一矛盾,將道德置于其人工智能數據戰略的首要位置。
他們引入了分層同意模型,讓客戶自主選擇如何使用他們的數據——從基本服務交付到高級個性化服務。他們沒有躲在細則后面,而是建立了一個透明門戶,客戶可以清楚地看到收集了哪些數據以及這些數據是如何被使用的,并且能夠實時更改偏好設置。
在技術方面,他們采用了差異隱私技術,在不暴露個人隱私的情況下提取洞察,并構建了自動偏差檢測工具來監控訓練數據集的偏差。倫理委員會被賦予了真正的權力:任何高風險的人工智能項目未經其批準都不能進行。
回報是什么?客戶信任。同意率超過 85%,遠高于行業標準。這意味著,與那些將隱私視為法律障礙的競爭對手相比,我們獲得了更多可供 AI 使用的數據。
這個原則非常強大:
道德不僅僅是合規:當它增加信任并進而增加可用數據時,它就是一種競爭優勢。
合乎道德的數據實踐并非為了減緩創新,而是為了確保創新能夠規模化發展且不會遭遇阻力。過去,企業可以采取“快速行動,打破常規”的數據處理方式。如今,這種魯莽的代價顯而易見:高達數十億美元的罰款、聲譽一夜之間受損,以及人工智能系統被禁止使用。
在人工智能時代,勝出的組織將是那些將道德視為競爭優勢而非合規障礙的組織。通過將隱私、知情同意、公平和問責制融入數據實踐,他們不僅可以降低風險,還能贏得信任,從而實現更豐富、更宏大的人工智能應用。
九、克服常見的數據挑戰
即使擁有強大的戰略和架構,大多數組織在實施人工智能時仍會遇到障礙。這些挑戰并非來自算法,而是來自數據。從數據孤島到質量問題,再到監管障礙,各個行業和地區都存在著相同的痛點。好消息是,雖然這些挑戰很常見,但解決它們的方法也同樣常見。
1.數據孤島
大多數組織都在努力應對困在不相連系統中的數據,這限制了有效人工智能所需的全面視野。
或許最普遍的障礙是數據孤島。在大多數企業中,客戶和運營數據分散在數十個遺留系統中——每個系統都是為特定的業務功能構建的,并且都不愿共享。對于依賴整體視角蓬勃發展的人工智能來說,數據孤島是毒藥:基于不完整或碎片化數據訓練的模型必然會產生不完整或碎片化的洞察。
解決方案并非總是將所有內容遷移到一個龐大的平臺——這通常既不現實,也負擔不起。相反,企業正在采用數據虛擬化層和基于 API 的訪問,從而允許跨系統查詢數據,而無需物理移動數據。隨著時間的推移,這些方法可以演變成更廣泛的數據交換平臺,并由業務部門之間的治理協議提供支持。
安聯保險就是一個很好的例子,該公司面臨著14個遺留系統各自為政的困境。他們沒有選擇昂貴的“大爆炸”式遷移,而是部署了一個虛擬化層來創建統一的邏輯視圖。這使得他們能夠立即構建由人工智能驅動的客戶旅程分析,同時在后臺規劃長期整合。
2.確保數據質量
數據質量低下會損害 AI 模型的性能,并削弱人們對 AI 洞察的信任。即使數據可以訪問,也往往不可信。不準確、不完整或不一致的數據會以任何模型復雜度都無法彌補的方式損害 AI。事實上,數據質量低下是 AI 項目在生產中停滯不前的主要原因之一:這些模型在實驗室中看起來很有前景,但當輸入包含錯誤或差距的實時數據時,就會失敗。
修復需要系統的質量管理框架。領先的組織會定義清晰的質量維度(準確性、完整性、及時性、代表性),并運用自動化監控工具持續跟蹤這些維度。儀表盤和記分卡使質量可視化,而修復工作流則分配責任,并指定責任人,從源頭解決問題。質量領導者并非簡單地糾正下游的錯誤,而是將修復工作推向上游:調整數據輸入流程、集成邏輯或源系統規則,以防止同一問題再次發生。
有些公司更進一步,將機器學習應用于數據質量本身:異常檢測算法可以比人工檢查更快地發現缺失值、不可能范圍或重復記錄的模式。隨著時間的推移,這會形成一個反饋循環,不僅可以檢測和糾正質量問題,還可以預防這些問題。
瑞銀集團(UBS)就是一個典型的例子,它實施了一個自動化質量框架,評估其金融數據資產的300多個維度。該系統不僅標記錯誤,還將錯誤直接發送給負責的管理員,并提供解決方案的背景信息。一年之內,關鍵數據錯誤減少了75%。關鍵在于,質量必須具體化(包括指標、工具和明確的責任),而不是停留在抽象的愿景階段。
3.數據可訪問性
一旦打破數據孤島,質量得到保證,下一個障礙就是訪問。在許多組織中,數據存在但被鎖定——只有少數擁有特殊權限的團隊才能訪問,或者隱藏在繁瑣的申請流程之后。這減緩了人工智能創新的速度,并催生了影子IT,團隊可以繞過控制措施獲取所需數據。
反之亦然:數據過于開放且缺乏防護措施,可能會暴露敏感信息,并帶來監管風險。挑戰在于在可訪問性和可控性之間找到平衡。
先進的組織通過自助服務平臺來解決這個問題,這些平臺將便捷的發現與嵌入式治理相結合。例如,數據市場允許員工像在線購物一樣搜索和請求數據集,但可以自動執行訪問策略、屏蔽敏感字段并提供清晰的審計線索。
聯合利華提供了一個引人注目的案例。他們創建了一個可供超過10,000名員工訪問的全球數據市場。該系統在后臺自動應用基于角色的訪問規則和匿名化處理,確保合規性始終如一。其結果是,數據驅動的實驗在190個國家/地區激增,證明了治理和民主化在設計得當的情況下可以相互促進。
4.擴展數據量和性能
隨著人工智能發展壯大,所涉及的數據規模也日益增長。欺詐檢測、供應鏈優化或個性化推薦的模型通常需要每天處理數十億條記錄或數TB的事件流。傳統的、專為批量報告設計的基礎設施根本無法滿足需求。
解決方案在于兼具分布式和彈性的架構。分布式框架(例如 Spark 或 Flink)可以并行處理海量數據集,而云的彈性則確保可以根據工作負載的變化調整計算能力。為了控制成本,領先的組織實施了分層存儲策略,將常用數據存儲在高性能環境中,而將不太重要的數據壓縮或歸檔。
一些邊緣用例更進一步,將處理過程推向更接近數據生成點的位置。例如,在航運領域,邊緣計算允許船舶傳感器在本地處理數據,以便立即做出安全響應,而匯總的洞察隨后會上傳到云端進行更深入的分析。
全球航運公司馬士基就是一個很好的例子。他們構建了一個混合平臺,將用于運營工作負載的本地高性能系統與用于人工智能和分析的云端處理相結合。這使得他們每天能夠處理超過30TB的航運數據,同時保持關鍵運營系統以亞秒級延遲運行。經驗教訓:規模化不僅僅關乎存儲;它關乎將性能工程融入到管道的每一層。
5.數據隱私與法規遵從性
最后,任何關于數據挑戰的討論,如果沒有隱私和監管,都是不完整的。日益嚴格的法律——歐洲的《通用數據保護條例》(GDPR)、加州的《消費者隱私法案》(CCPA)、巴西的《消費者隱私保護法》(LGPD)——都規定了數據的收集、存儲和傳輸方式。與此同時,客戶對其信息的使用方式比以往任何時候都更加敏感。對于人工智能領導者來說,這既是法律問題,也是聲譽問題。
解決方案是采用隱私設計,將合規性嵌入數據生命周期的每個階段,而不是事后才添加。這意味著構建數據無法合法跨境的區域駐留功能,自動化合規性監控,并采用差異隱私或聯邦學習等先進技術,在不集中敏感數據的情況下提取洞察。
西班牙對外銀行(BBVA)展示了如何大規模地實現這一點。他們實施了一個全球隱私框架,該框架根據敏感度自動對數據進行分類,執行特定地區的規則,并維護所有市場的審計線索。這使得他們能夠在多個司法管轄區無縫運行人工智能應用程序,而不會遇到監管障礙。回報不僅在于合規性,還在于敏捷性——他們的團隊可以自信地進行創新,因為他們知道有護欄在。
這些挑戰的驚人之處并非在于它們是新事物,而在于人工智能提升了風險。數據孤島、質量低下、訪問受限、規模限制以及合規性障礙長期以來一直困擾著企業——但在人工智能驅動的世界里,這些問題變得至關重要。基于不完整或有偏見的數據訓練的模型不僅會生成糟糕的報告,還可能不公平地拒絕貸款、誤診患者或錯誤地觸發金融欺詐警報。
成功的組織會將這些挑戰視為設計問題,而非事后諸葛亮。他們構建互操作性以克服孤島,將質量作為一項運營準則,在設計訪問權限時融入治理機制,設計性能以實現規模化,并將隱私視為一項信任資產,而非法律規定的最低限度。
通過這樣做,他們創造了一個環境,讓人工智能能夠超越試點和概念驗證,進入能夠帶來真正商業價值的生產系統。克服這些挑戰并非可有可無——這正是人工智能從實驗室的好奇心到成為一股變革力量的區別所在。
十、結論
數據仍然是人工智能成敗的關鍵因素。將數據視為戰略資產(有目的地管理、有紀律地治理、以規模為目標進行架構)的組織能夠構建具有韌性、可靠性和變革性的人工智能能力。而忽視數據的企業很快就會發現,即使是最復雜的模型也無法克服薄弱的基礎。
本章概述的實踐并非抽象的理想,而是切實可行的杠桿:將數據戰略與業務愿景相結合,在不扼殺創新的情況下實施治理,設計兼顧靈活性與可控性的架構,將道德規范作為信任的倍增器,并應對數據孤島、質量、訪問、規模和合規性等長期存在的挑戰。這些實踐共同構成了企業的藍圖,使企業不僅能夠嘗試人工智能,還能滿懷信心地擴展其應用。
回報不僅僅是更好的模型,更是一種復合的競爭優勢。每一個新的數據集都會鞏固基礎,每一次治理改進都會加速部署,每一次道德選擇都會建立信任,從而釋放更豐富的機遇。





























