AI的數據饑渴如何重塑企業對存儲的需求

AI工作負載正從根本上重塑企業技術基礎設施,市場預測凸顯了這一變化的顯著程度。麥肯錫指出,AI已成為“數據中心容量需求增長的關鍵驅動力”,預計到2030年,整體需求將“幾乎增長兩倍,其中約70%的需求來自AI工作負載”。
事實上,世界經濟論壇預計,目前全球數據中心產業價值為2427億美元,到2032年將增長一倍多,達到約5840億美元。這些數據背后隱藏著一個核心挑戰:傳統存儲方法是為一個截然不同的時代設計的,如今,它們已難以適應強大AI系統帶來的更不可預測的需求。除非企業重新思考其架構的基本原則,否則大部分投資將付諸東流。
遺留系統差距
為便于理解,幾十年來,企業存儲解決方案一直是圍繞可預測的工作負載設計的,例如與數據庫和企業應用程序相關的工作負載(這只是眾多例子中的幾個)。總體而言,這種環境使IT負責人能夠以合理的精度和靈活性擴展其存儲技術。
AI打破了這種模式。訓練AI模型依賴于系統能夠從大規模、非結構化數據集(如文本、圖像、視頻和傳感器日志等眾多類型)中讀取數據,這些數據以隨機、并行的方式分布和訪問。企業可能不再只有少數幾個應用程序按順序排隊,而是運行數萬個GPU線程,所有這些線程都需要能夠提供極高吞吐量、在壓力下保持低延遲并處理并發訪問而不會出現性能瓶頸的存儲。
問題在于,如果存儲無法以所需速度提供數據,GPU就會閑置——從而消耗計算預算,并延誤關鍵AI項目的開發和實施。
高性能計算的經驗借鑒
這些挑戰并非完全新鮮。高性能計算環境長期以來一直在應對類似問題。例如,在生命科學領域,研究機構需要不間斷地訪問以PB為單位測量的基因組數據集。英國生物銀行就是一個很好的例子,它聲稱擁有世界上最全面的生物、健康和生活方式信息數據集。目前,它擁有約50萬人的30PB生物和醫學數據。在政府領域,關鍵任務應用程序(如情報分析和防御模擬)要求99.999%的正常運行時間,即使可用性出現短暫中斷,也可能危及安全或操作準備狀態。
與高性能計算一樣,AI工作負載需要能夠平衡性能和彈性的架構。這通常意味著結合不同的存儲層級,將高性能系統保留給必須經常或快速訪問的數據集,而將不太關鍵的數據移動到成本更低的環境中。
如果企業希望借鑒高性能計算用戶的經驗,就必須摒棄一刀切的部署方式,轉而采用混合存儲系統,使基礎設施與訓練和推理的特定需求相匹配。
確保數據持久性
企業面臨的另一個重大問題是數據持久性,即存儲的數據在一段時間內(即使可能發生系統故障、數據損壞或基礎設施中斷)保持完整、準確和可恢復的程度。
這些問題對AI項目的成功產生了直接影響。根據Gartner最近的一項研究,“到2026年,沒有AI就緒數據支持的組織將放棄60%的AI項目”。實際上,這反映了缺乏強大的數據管理和存儲彈性。只有48%的AI項目能夠投入生產,65%的首席數據官表示,今年的AI目標無法實現,幾乎所有人(98%)都報告了重大數據質量事件。
如果這還不能引起IT負責人的重視,那么成本問題也不容忽視。數據質量差每年已給每家企業造成1290萬至1500萬美元的損失,而數據管道故障則導致企業每小時(每分鐘5000美元)損失約30萬美元的洞察力和未達到的服務水平協議。這些故障直接導致訓練中斷和價值實現時間延遲。
要避免這些后果,需要采取技術和運營措施。在技術方面,多級擦除編碼(MLEC)通過提供對多個同時故障的保護,比傳統RAID具有更高的容錯能力。此外,混合閃存和磁盤系統可以在控制成本的同時平衡超低延遲,而模塊化架構則允許逐步增加容量或性能。在運營方面,自動化的數據完整性檢查可以在數據進入訓練管道之前檢測并隔離損壞的數據,而定期安排的恢復演練則確保恢復過程能夠在AI生產所要求的嚴格時間范圍內執行。




























