機器學(xué)習(xí)工具在數(shù)據(jù)中心的應(yīng)用與發(fā)展
在互聯(lián)網(wǎng)誕生之初,數(shù)據(jù)中心規(guī)模很小并且很簡單。一個大型電子商務(wù)服務(wù)數(shù)據(jù)中心僅用幾個19英寸機架來部署所需的服務(wù)器,存儲器,以及網(wǎng)絡(luò)設(shè)備。如今,超大型數(shù)據(jù)中心成千上萬的硬件設(shè)備部署在數(shù)千個機架上。隨著數(shù)據(jù)中心設(shè)計的變化,這些大型數(shù)據(jù)中心或建在靠近大型人口中心,或建在電力廉價的偏遠的地區(qū)。
隨著數(shù)據(jù)中心運營的自動化的發(fā)展,像AWS或微軟 Azure這樣的公共云供應(yīng)商所雇用的高級數(shù)據(jù)中心工程師越來越少,數(shù)量通常比安全人員和普通技術(shù)工人更少。更少的人員管理更多服務(wù)器,這意味著監(jiān)控數(shù)據(jù)中心電力和冷卻基礎(chǔ)架構(gòu)需要更多依賴傳感器,這些現(xiàn)在都被稱為物聯(lián)網(wǎng)硬件。這些硬件有助于在一定程度上識別問題,但是在很多情況下,傳感器并不能代替經(jīng)驗豐富的設(shè)施工程師。例如,通過聲音辨別設(shè)備運行的情況,通過聲音還可以了解哪個個風(fēng)扇將出現(xiàn)故障或通過水滴的聲音來定位泄漏的地方等等。
谷歌公司為機器學(xué)習(xí)而定制的采用張量處理器(TPU)的服務(wù)器機架
數(shù)據(jù)中心管理人員需要更多的傳感器來監(jiān)控現(xiàn)代數(shù)據(jù)中心基礎(chǔ)設(shè)施,新一代應(yīng)用程序旨在通過將機器學(xué)習(xí)應(yīng)用于物聯(lián)網(wǎng)傳感器網(wǎng)絡(luò)來來填補這一空白。這個想法是將經(jīng)驗轉(zhuǎn)變成規(guī)則來幫助傳感器辨析聲音和影像,例如,為數(shù)據(jù)中心增加一個新的自動化管理層,可以預(yù)測和防止數(shù)據(jù)中心基礎(chǔ)架構(gòu)的故障。 451 Research公司分析師Rhonda Ascierto表示:“快速的恢復(fù)時間和有效的容量配置也可以降低數(shù)據(jù)中心風(fēng)險。”
結(jié)合DCIM和多樣性的數(shù)據(jù)
第一步是利用數(shù)據(jù)中心基礎(chǔ)設(shè)施管理或DCIM軟件中的預(yù)測分析。以位于加利福尼亞州奧克蘭的一家名為Vigilent公司的軟件為例。“控制系統(tǒng)基于機器學(xué)習(xí)軟件,用于確定變量之間的關(guān)系,如機架溫度,冷卻單元設(shè)置,冷卻能力,冷卻冗余,功耗和故障風(fēng)險。它通過打開和關(guān)閉各相關(guān)單元來調(diào)節(jié)冷卻單元,包括變頻器(VFD),上下調(diào)節(jié)變頻器,以及調(diào)節(jié)單元的溫度設(shè)定值。”Ascierto說。它使用無線溫度傳感器,并預(yù)測如果操作員采取某些措施會發(fā)生什么,例如關(guān)閉冷卻單元或增加設(shè)定點溫度。
另一個例子是英國Oneserve Infinite公司,該公司將傳感器與多種數(shù)據(jù)點相結(jié)合,例如使用天氣條件,以提供稱之為“預(yù)測性現(xiàn)場服務(wù)管理”的Exeter.其目的是預(yù)測維護要求,避免故障停機,并將停機時間降至最低。 Oneserve公司首席執(zhí)行官Chris Proctor表示,通過應(yīng)用這些技術(shù),可以同時處理戰(zhàn)略規(guī)劃和采購。“數(shù)據(jù)中心將能夠更準確,有效地管理資產(chǎn)和資源。”(據(jù)悉這種功能尚未在任何數(shù)據(jù)中心中使用。)
Oneserve公司更關(guān)注的是維護問題,跟蹤了解過去維護中的問題,允許用戶詳細地說明每次出現(xiàn)問題的地方。在現(xiàn)在,這依然是一種非常費時費力的人工操作方法,但是將來工作人員會利用這種數(shù)據(jù)來訓(xùn)練機器學(xué)習(xí)系統(tǒng)。
挖掘人類的知識
將傳感器數(shù)據(jù)與運維經(jīng)驗相結(jié)合的例子是圣荷西的LitBit公司。根據(jù)該公司創(chuàng)始人兼首席執(zhí)行官Scott Noteboom的說法,他們曾經(jīng)為雅虎和蘋果公司提供數(shù)據(jù)中心戰(zhàn)略,LitBit公司的數(shù)據(jù)中心人工智能或DAC(數(shù)字模擬轉(zhuǎn)換器),允許運營商對機器進行培訓(xùn)和調(diào)整,向工作人員學(xué)習(xí)可以獲得響應(yīng)數(shù)據(jù)中心的事件的能力,從而提醒操作人員或最終自動執(zhí)行操作。LitBit公司方法的關(guān)鍵是采用一種輔助學(xué)習(xí)形式,當(dāng)系統(tǒng)檢測到新的異常事件時,系統(tǒng)會向操作人員發(fā)出警報,然后運營商將來制定一套對這些事件做出反應(yīng)的規(guī)則。為了收集數(shù)據(jù),LitBit公司有一個移動應(yīng)用程序,可以接受視頻,然后將其轉(zhuǎn)換成數(shù)千個圖像進行培訓(xùn)。
這家初創(chuàng)公司提供了一個托管云服務(wù),可以利用許多用戶的匿名數(shù)據(jù)來構(gòu)建更復(fù)雜和更準確的模型。一些客戶會將他們的訓(xùn)練模式進行保密,而另外一些客戶可能會將其作為額外的收入來源對外出售。正如Ascierto所指出的那樣,“數(shù)據(jù)中心管理數(shù)據(jù)的價值在大規(guī)模聚合和分析時會倍增。通過將算法應(yīng)用于許多客戶聚集的大型數(shù)據(jù)集,包括不同類型的數(shù)據(jù)中心和不同的位置,供應(yīng)商可以預(yù)測設(shè)備何時出現(xiàn)故障,以及何時會出現(xiàn)冷卻閾值。
當(dāng)具有知識經(jīng)驗的操作人員不在身邊時,一些隱含的知識可以幫助系統(tǒng)在操作中來識別問題并做出更快的反應(yīng)。數(shù)據(jù)中心人工智能可能不會完全替代數(shù)據(jù)中心工作人員,但它可以不斷地增強技能幫助運維人員解決問題。
這個領(lǐng)域還不成熟,但發(fā)展速度很快。對傳感器進行機器學(xué)習(xí)正在迅速發(fā)展,并被廣泛應(yīng)用于各行各業(yè)。微軟研究部門一直在與Sierra 系統(tǒng)公司合作,開發(fā)基于機器學(xué)習(xí)的油氣管道缺陷的音頻分析,利用其認知工具包來幫助對出現(xiàn)的異常進行分類。
基于人工智能的數(shù)據(jù)中心管理服務(wù)是新興技術(shù),目前還在發(fā)展中,還需要進行大量的培訓(xùn)。 Ascierto指出,企業(yè)的DCIM軟件可能需要更多的傳感器。 “如果企業(yè)想利用人工智能進行端到端冷水機組到機架的決策,那么其設(shè)備以及環(huán)境傳感器和電氣儀表將需要安裝聲學(xué)和振動傳感器。如果目標是優(yōu)化和自動化冷卻單元的設(shè)定點溫度,則可能每個機架(頂部,中間,底部)需要多個環(huán)境傳感器。
人工智能系統(tǒng)正式交付使用還將需要一定的時間,就像數(shù)據(jù)中心招募的新的工作人員一樣,不過類似的機器學(xué)習(xí)工具終將可以真正的幫助您運營數(shù)據(jù)中心。




















