14款頂尖AIOps工具:賦能AI驅(qū)動的IT運(yùn)維

AI的首個重大應(yīng)用領(lǐng)域,正是孕育它的計算機(jī)系統(tǒng)領(lǐng)域。計算機(jī)系統(tǒng)充斥著硬編碼的數(shù)字,這使其成為應(yīng)用數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)算法的理想之選。自動駕駛汽車需應(yīng)對大霧、亂穿馬路的行人和降雨等狀況,然而,機(jī)器本身卻由精確的數(shù)值構(gòu)成,能做出明確的決策。這些決策或許并不簡單,但比起引導(dǎo)汽車穿越暴風(fēng)雪,還是要容易得多。
在所有領(lǐng)域中,AI的應(yīng)用機(jī)遇在DevOps(開發(fā)運(yùn)維一體化)領(lǐng)域體現(xiàn)得尤為明顯。DevOps是一個數(shù)據(jù)豐富、后臺支持型的實(shí)踐領(lǐng)域,為探索AI的強(qiáng)大功能提供了完美的試驗(yàn)場。如今,負(fù)責(zé)運(yùn)維的團(tuán)隊已擁有眾多以“AIOps”(智能運(yùn)維)為縮寫所代表的省時增效工具和平臺,這些工具和平臺均承諾將最佳的AI算法應(yīng)用于IT基礎(chǔ)設(shè)施的維護(hù)工作。
AIOps平臺的功能
AIOps平臺的一些最基礎(chǔ)任務(wù)包括加速軟件向云實(shí)例的部署速度。DevOps團(tuán)隊的所有工作均可通過更智能的自動化技術(shù)得到增強(qiáng),這種技術(shù)能夠監(jiān)控負(fù)載、預(yù)測需求,甚至在請求激增時自動啟動新的實(shí)例。
智能的AIOps工具會生成關(guān)于機(jī)器負(fù)載的預(yù)測,并觀察是否有任何情況偏離了這些預(yù)測。異常情況可能會觸發(fā)警報,生成電子郵件、Slack消息,或者如果偏差足夠大,還會觸發(fā)尋呼機(jī)呼叫。AIOps技術(shù)棧的很大一部分致力于管理警報,確保只有最重要的問題才會變成打斷會議或打擾良好睡眠的干擾因素。
這些監(jiān)測異常水平或活動的方法有時被用于加強(qiáng)安全防護(hù),這是一項(xiàng)更具挑戰(zhàn)性的任務(wù),使得一些AIOps工具成為安全人員和DevOps團(tuán)隊的共同關(guān)注點(diǎn)。
先進(jìn)的AIOps工具還提供“根本原因分析”功能,通過創(chuàng)建流程圖來追蹤問題如何在現(xiàn)代企業(yè)應(yīng)用中的各種機(jī)器間傳播。一個過載的數(shù)據(jù)庫會減慢API網(wǎng)關(guān)的速度,進(jìn)而凍結(jié)Web服務(wù)。這些自動化的工作流程目錄通過記錄和追蹤問題鏈,幫助團(tuán)隊更快地發(fā)現(xiàn)潛在問題。
最近,人們越來越多地談?wù)摗白杂毕到y(tǒng),這些系統(tǒng)能夠自主運(yùn)行。一些管理人員發(fā)現(xiàn),給予AIOps系統(tǒng)過多的自由度令人不安,而另一些人則被機(jī)器能夠自行解決更多IT問題的能力所吸引。
生成式AI:AIOps界面的演進(jìn)
一些AIOps平臺正在集成更多的生成式AI工具,使人類員工能夠使用自然語言以更對話的方式與這些工具進(jìn)行交互。討論仍涉及技術(shù)棧底層非常技術(shù)性的細(xì)節(jié),但對話是以人類語言進(jìn)行的,而非SQL之類的語言。
對于這一演進(jìn),人們看法不一。一些AIOps工具的用戶認(rèn)為,這將使工作民主化,使那些可能沒有接受過太多培訓(xùn)的人也能監(jiān)督IT資產(chǎn),另一些人則認(rèn)為,如果討論全部圍繞部署的技術(shù)細(xì)節(jié)展開,那么即使使用自然語言與AIOps平臺交互變得更容易一些,也不會有太大區(qū)別。對話的核心仍然將是非常技術(shù)性的,但即便有些人對生成式AI的必要性不太確定,這種對話式界面也難以抗拒。
選擇AIOps平臺時應(yīng)考慮的因素
本調(diào)查中的許多工具都是建立在歷史悠久的監(jiān)控系統(tǒng)之上的,它們最初是用于跟蹤復(fù)雜企業(yè)技術(shù)棧中的事件的工具,現(xiàn)在已通過AI技術(shù)得到了擴(kuò)展,還有一些工具起源于AI實(shí)驗(yàn)室,并向外擴(kuò)展。無論哪種情況,任何評估這些平臺的人都希望查看收集數(shù)據(jù)的連接器范圍。
一些AIOps平臺將比其他平臺更好地與您的技術(shù)棧集成,所有平臺都提供了一套基本的原始數(shù)據(jù)收集路徑,但有些連接器比其他連接器更好。任何考慮采用AIOps平臺的人都希望評估每個AIOps產(chǎn)品與您特定數(shù)據(jù)庫和服務(wù)的集成程度。
當(dāng)今領(lǐng)先的AIOps平臺
以下是14款領(lǐng)先的AIOps工具,它們簡化了保持企業(yè)IT基礎(chǔ)設(shè)施穩(wěn)定運(yùn)行的工作。
BigPanda
BigPanda專注于檢測異常行為并協(xié)調(diào)分配解決問題的團(tuán)隊,其同名平臺提供根本原因分析和主動事件檢測功能,可與主要云服務(wù)提供商集成,其L1自動化功能接管了問題出現(xiàn)后的更多工作量,使AI驅(qū)動的自動化能夠加速做出更明智的決策。BigPanda通過為Jira或ServiceNow等系統(tǒng)創(chuàng)建工單、發(fā)送警報以及提供針對根本原因的帶回滾策略的工作流程計劃,簡化了IT工作流程,其目標(biāo)是創(chuàng)建一個了解不斷發(fā)展的企業(yè)技術(shù)棧的智能知識圖譜,并提供保持其穩(wěn)定運(yùn)行的智能計劃。
BMC Helix
IT服務(wù)管理(ITSM)專業(yè)人員經(jīng)常求助于BMC Helix平臺來管理問題和技術(shù)棧演進(jìn)。BMC的AI解決方案既關(guān)注根本原因分析,又提供對話式界面,幫助各級團(tuán)隊診斷和解決問題。BMC Helix平臺不僅關(guān)注AIOps和后端工作流程,還提供了與面向外部行動的客戶服務(wù)管理和安全運(yùn)維(SecOps)緊密集成的產(chǎn)品。
Datadog
Datadog已在其性能管理套件中添加了Watchdog或Bits等AI工具,以便在性能開始下降時為DevOps團(tuán)隊提供更智能的警告。這些工具包括一系列基于機(jī)器學(xué)習(xí)的選項(xiàng),可根據(jù)歷史記錄(已根據(jù)季節(jié)和一天中的時間進(jìn)行調(diào)整)構(gòu)建性能預(yù)測。如果延遲、內(nèi)存消耗或網(wǎng)絡(luò)帶寬等指標(biāo)發(fā)生變化,偏離了正常范圍,就會觸發(fā)警報。Datadog正在增加更多自主服務(wù),使工具能夠自主行動,減少人工干預(yù)的需求。該公司還提供預(yù)覽訪問權(quán)限,以訪問可以分析代碼甚至重寫代碼以消除錯誤的選項(xiàng)。該工具與Datadog的安全檢測系統(tǒng)集成,可以與虛擬機(jī)、云實(shí)例和無服務(wù)器函數(shù)配合使用。
Digitate ignio
Digitate的ignio AIOps平臺專注于閉環(huán)自動化,為IT和業(yè)務(wù)運(yùn)營提供敏捷性和韌性。其重點(diǎn)是監(jiān)控面向內(nèi)部和外部的業(yè)務(wù)健康狀況,同時優(yōu)化成本,特別是在云環(huán)境中。該公司估計,其自主工具集合在典型配置中可以主動處理40%的問題,并將人工工作量減少60%。該平臺擁有數(shù)百種集成和一個用于添加其他集成的低代碼工具。該公司的其他產(chǎn)品還包括用于管理工作負(fù)載以及跟蹤和解決ERPOps和采購領(lǐng)域問題的類似努力。
Dynatrace
Dynatrace的核心三大戰(zhàn)略技術(shù)是分析、AI和自動化。機(jī)器學(xué)習(xí)和大型語言模型是用于跟蹤基于云的虛擬機(jī)、容器和其他無服務(wù)器解決方案的廣泛、功能齊全的監(jiān)控工具的一部分。輸入日志文件、事件報告和其他觸發(fā)因素,輸出的是該公司所謂的“精確的、AI驅(qū)動的答案”。其核心包括一組可編程以監(jiān)視特定事件或事件集合的代理。位于中心的AI名為Davis,是一種確定性AI,它構(gòu)建流程圖和樹狀圖,以便能夠準(zhǔn)確定位任何異常或故障的根本原因。Davis與Grail(一個充滿遙測數(shù)據(jù)的數(shù)據(jù)湖倉)、SmartScape(一種用于映射企業(yè)拓?fù)浣Y(jié)構(gòu)的工具)和AutomationEngine(一種用于集成所收集情報的工具)協(xié)同工作。如果配置得當(dāng),它可以通過觸發(fā)更改(如重啟實(shí)例)來自主運(yùn)行,這些更改應(yīng)該能夠解決問題,而無需等待人工介入。
GitHub Copilot
大多數(shù)AIOps工具旨在幫助已經(jīng)運(yùn)行起來的軟件。GitHub Copilot在編寫代碼時就開始提供幫助。正如該公司的廣告語所說:“讓你的編輯器成為你最有力的加速器。”該工具會觀察程序員輸入的內(nèi)容,并提出完成建議。Copilot在海量開源代碼上進(jìn)行了訓(xùn)練,其想法基于某種形式的現(xiàn)實(shí)。關(guān)于誰是新代碼的最終作者、AI是否可信,以及數(shù)百萬開源編碼者是否應(yīng)因其幫助而獲得某種贊譽(yù)或致謝,仍存在疑問。答案可能是“或許”。一個更大的問題是?Copilot對你的代碼理解得有多好,它真的比自動完成功能好很多嗎?答案是:大多數(shù)時候,Copilot都懂。
IBM Watson Cloud Pak for AIOps
IBM通過將其通用Watson品牌AI與其更大的云業(yè)務(wù)相結(jié)合,創(chuàng)建了Watson Cloud Pak for AIOps。該工具將從云監(jiān)控軟件收集的數(shù)據(jù)進(jìn)行自動化根本原因分析。他們喜歡說,AI可以將事件響應(yīng)從瘋狂的追責(zé)行為轉(zhuǎn)變?yōu)榻y(tǒng)一、信息驅(qū)動的解決方案盛宴。Watson持續(xù)監(jiān)控事件流,直到它們達(dá)到可配置的嚴(yán)重程度級別。然后,Watson會以可編程的基本警報或自動化響應(yīng)進(jìn)行回應(yīng)。IBM已將結(jié)果與其其他Cloud Paks(包括網(wǎng)絡(luò)、業(yè)務(wù)和機(jī)器人流程自動化)進(jìn)行了集成。
LogicMonitor
LogicMonitor是一個混合可擴(kuò)展平臺,它從企業(yè)技術(shù)棧的各個角落(從數(shù)據(jù)庫和數(shù)據(jù)湖到網(wǎng)絡(luò)和虛擬機(jī))收集遙測數(shù)據(jù)。它跨越云服務(wù),深入本地機(jī)器。來自3000多個集成收集器的所有這些數(shù)據(jù)都使用標(biāo)準(zhǔn)規(guī)則和一組自主AI進(jìn)行分類、分析和異常監(jiān)測。該平臺捆綁了一個帶有基于動態(tài)閾值(根據(jù)歷史數(shù)據(jù)進(jìn)行調(diào)整)的警報系統(tǒng)的根本原因檢測器。其預(yù)警系統(tǒng)依賴于一個預(yù)測模塊,該模塊擴(kuò)展了這些歷史數(shù)據(jù),以計算延遲、帶寬和其他指標(biāo)的閾值。LogicMonitor優(yōu)先考慮減少“警報疲勞”,以避免壓倒性的“警報風(fēng)暴”,幫助團(tuán)隊將精力集中在真正的異常行為上。
Moogsoft
Moogsoft現(xiàn)已成為戴爾科技的一部分,是一種專門的AIOps解決方案,可與New Relic、Datadog、AWS Cloudwatch和AppDynamics等主要性能監(jiān)控工具集成。該產(chǎn)品通過一條管道處理數(shù)據(jù),該管道會刪除重復(fù)事件、用來自其他來源的上下文數(shù)據(jù)豐富事件,并在觸發(fā)警報之前關(guān)聯(lián)數(shù)據(jù)。AI引擎部署生成式AI進(jìn)行解釋,并使用各種統(tǒng)計和聚類算法將新警報置于歷史行為的上下文中。其目標(biāo)是“降噪”,以減少人類在理解警報方面面臨的挑戰(zhàn)。
New Relic
當(dāng)問題出現(xiàn)時,New Relic使用AI引擎分析從Splunk、Grafana和AWS的CloudWatch等云跟蹤工具收集的性能數(shù)據(jù)。該工具可以配置為對各種潛在嚴(yán)重性事件具有靈活的敏感度級別。例如,你可以告訴New Relic,低優(yōu)先級錯誤只有在15分鐘內(nèi)發(fā)生多次時才應(yīng)觸發(fā)警報。但像服務(wù)器崩潰這樣的高優(yōu)先級事件將立即觸發(fā)尋呼機(jī)警報。問題日志跟蹤所有事件,并包括一份相關(guān)性決策報告,該報告闡述了AI在觸發(fā)警報過程中采取的邏輯步驟。客戶可以通過多種方式自定義歷史數(shù)據(jù)的存儲方式,以便進(jìn)行分析和檢索。其目標(biāo)是盡量減少衡量平均檢測時間(MTTD)的指標(biāo),然后為人工提供足夠的支持,以減少平均調(diào)查時間(MTTI)和平均解決時間(MTTR)。
PagerDuty
從名稱上看,PagerDuty似乎只關(guān)注叫醒人工來解決IT問題。但那已是過去。如今的PagerDuty宣稱其“由AI驅(qū)動”,以便在呼叫人工之前做出一些決策。該系統(tǒng)高度重視自動化大部分事件響應(yīng),無論是內(nèi)部問題還是通過其客戶支持門戶由客戶提出的問題。
ServiceNow
ServiceNow構(gòu)建的平臺致力于提供一支智能體大軍來處理任何企業(yè)事務(wù),其中一些事務(wù)與AIOps屬于同一范疇。例如,IT運(yùn)維管理(ITOM)套件將機(jī)器學(xué)習(xí)與工作流程自動化相結(jié)合,以根據(jù)過去的知識仔細(xì)監(jiān)控并快速響應(yīng)。AI控制塔將所有代理連接到一個中央樞紐,該樞紐可以回答有關(guān)云穩(wěn)定性的基本問題以及有關(guān)治理和管理的更復(fù)雜問題。ServiceNow的目標(biāo)是全面控制企業(yè)技術(shù)棧的幾乎每一個角落。
ScienceLogic
ScienceLogic的Skylar One平臺旨在提供一組智能觀察者,它們可以監(jiān)視企業(yè)云并在必要時代表企業(yè)進(jìn)行干預(yù)。該產(chǎn)品針對復(fù)雜混合環(huán)境而設(shè)計,通過構(gòu)建一個完整模型,為任何AI和監(jiān)督人員提供理解哪些部分在運(yùn)行以及在需要時哪些部分未運(yùn)行的必要上下文。帳篷內(nèi)的顯著工具包括一個用于以傳統(tǒng)方式自動化工作流程的低代碼工具,以及Skylar Advisor(一個AI驅(qū)動的工具,提供如何解決問題的建議)。使用Skylar Analytics的實(shí)時儀表板為人類提供快速視覺提示,顯示正在發(fā)生的情況。
Splunk AppDynamics
Splunk可觀測性產(chǎn)品組合旨在監(jiān)視企業(yè)技術(shù)棧、評估其性能,并分析該性能如何影響各種業(yè)務(wù)指標(biāo)。AppDynamics是思科的一個部門,現(xiàn)已并入Splunk產(chǎn)品組合,它可以監(jiān)視復(fù)雜技術(shù)棧、找出根本原因,并盡快提出修復(fù)最關(guān)鍵部分的建議。它適用于所有類型的定制和授權(quán)軟件,無論是在本地、在云中還是兩者兼有。Splunk AI助手提供了一個對話式界面,該界面使用機(jī)器學(xué)習(xí)來跟蹤與從行為分析等數(shù)據(jù)中收集的歷史基線偏離的指標(biāo)。該系統(tǒng)可以構(gòu)建流程圖,并了解事件如何級聯(lián)直至系統(tǒng)故障,從而幫助識別根本原因。使用定制機(jī)器學(xué)習(xí)構(gòu)建的自主架構(gòu)可以與開放標(biāo)準(zhǔn)(如模型控制協(xié)議(MCP))鏈接。AppDynamics通過提供可以自動解決常見故障的鏈接(結(jié)合開放標(biāo)準(zhǔn)),將這些指標(biāo)與銷售數(shù)字等硬性“業(yè)務(wù)成果”相關(guān)聯(lián),并為其平臺灌輸一種“自愈心態(tài)”。



























