給初學者的AIOps指南:基本概念和相關特性
譯文【51CTO.com快譯】隨著全球的企業持續將日常業務轉換為數字化運營的方式,許多公司的內部數據正在以井噴的方式不斷增長。根據Gartner的一項調查,全球各大公司每年所創建的數據量均比上一個年度增加2-3倍。
不過,數據在以指數級增長的同時,會造成所謂的“虛擬海嘯”。它不但體現在數據會變得越來越難以管理和分析,也會讓企業的IT運營人員持續增加時間、精力和資金的投入。
為了讓它們不會對主營業務產生喧賓奪主的影響,我們需要通過恰當的處理,讓企業數據不僅可以協助創建更好的模型,而且能夠從長遠的角度發揮其潛在的價值。據此,業界提出了將傳統的IT運營轉換為AIOps,從而為企業提供更好的預測、分析和統計信息。可以說,通過面向未來的、可靠的、可擴展的、且易于安裝的AIOps,企業IT運營將會得到大幅簡化。
下面,我將和您具體討論什么是AIOps?它能夠為業務解決什么問題?市場上有哪些流行的AIOps解決方案?以及在購置AIOps產品時應當考慮哪些方面?
什么是AIOps?
AIOps,即:針對IT運營的人工智能,是人工智能技術在改善公司IT運營方面的應用。有時,它也稱為IT運營分析(ITOA)。作為一種超現代的IT解決方案,AIOps是由Gartner于2016年提出的。
AIOps可以使您的企業減少花費在執行那些冗余的、重復性的IT運營上的時間和精力,進而讓您能夠專注于核心業務與產品。通過大數據、機器學習和智能分析,AIOps不但可以自動化并增強您的IT運營,還能夠在執行大數據分析的基礎上,為業務提供高度準確的預測和統計數據。那些傳統的IT運營可能需要花費數月的時間,才能發現業務流程中的模式。而AIOps則能夠在幾秒鐘內,創建有價值的分析,并達到可觀的準確度。
AIOps能為您的業務解決什么問題?
隨著業務的擴展,企業數據不但在體量和類型上迅速增加,而且數據本身也會變得異常動態、且難以處理。顯然,受到傳統的人工IT運營方式的限制,他們往往無法持續、高效、準確地掃描數百萬個數據字段,確定正確數據的模式,以及進行數據質量的預測。而通過使用AIOps,企業可以受益于如下方面:
- AIOps可以為您的大部分IT工作流程實現自動化,進而減少人工和時間上的開銷。
- 在CI/CD基礎架構上,AIOps能夠獨自地完成大部分重復性的工作,進而為運維人員減負。
- 通過將機器學習、智能化分析、以及人工智能融合到一起,AIOps可以保證您的業務報告和預測是準確且有意義的。
- 手動的異常檢測和錯誤點的跟蹤,往往會花費大量的時間,而且容易導致產品質量的下降和業務損失的增多。而AIOps能夠快速識別異常,預先提供警告,并通過跟蹤錯誤以查明核心問題。
此外,通過與AIOps的集成,企業可以將重要的業務部門實現自動化,提高日常IT運營的績效和精準度。
企業如何使用AIOps?
如前文所說,AIOps可以在非常短的時間內,利用盡量少的資源,針對大量的數據和復雜的數據類型,采用機器學習與智能分析相結合的方式,為業務提供更好、更可靠的預測和分析。下面,我們來討論幾個在實際應用中,AIOps簡化IT運營的實例。
異常檢測
機器學習在識別數據異常等方面表現十分出色。它通過使用復雜的、經過調優的算法,將過往與當前的被監控關鍵指標(KPI)予以比較。通過識別非常規的業務模式的相關事件和活動,AIOps可以快速檢測出異常,進而確定其來源。
有統計表明,那些實施了AIOps的公司在事件調查的用時方面,平均減少了70%至90%。可以說,異常檢測的效率和準確性,不但能夠為質量控制節省巨額的資金,還能夠確保為客戶帶來出色的產品質量。
事件關聯
AIOps具有查找各個事件之間相關性的獨特能力。通過協助分清某個因素是如何導致另一個因素產生的,AIOps能夠讓企業準確地跟蹤各種錯誤的根源。此外,AIOps還可以將相關事件進行分組,并將他們放入“權重列表(hit list)”中。
IT服務管理(ITSM)
AIOps可以管理包括產品設計、構建、交付、質量控制等方面的IT服務。同時,作為ITSM人員的得力助手,AIOps可以為他們提供更好的行動計劃和洞見,進而提高公司的IT運營水平和服務效率。
自動化
傳統的IT運營需要完全依賴IT人員手動進行數據的測試分析。如果參與處理的人員在技能上參差不齊,那么他們的分析結果則會產生差異。而AIOps無需任何人工干預,即可協調統一,并提供高品質的輸出。
使用AIOps的好處
總的說來,得益于機器學習、大數據智能分析、以及人工智能的優勢,AIOps能夠為企業業務帶來如下好處:
- 減少停機時間:AIOps能夠通過自動檢測和錯誤修復,來最大程度地減少停機時間。
- 完整的分析和見解:AIOps結合了廣泛的數據源,其中包括那些傳統IT Ops曾經忽略的數據源,進而創建更全面、更準確的分析,并提供更深入的見解。
- 節省時間、資金和資源:AIOps可以輕松自動地為企業擴展數據的管控規模。
- 改進的服務交付:AIOps能夠通過特定的監控方式,來提高產品的交付速度和質量。
- 更好地預防錯誤:AIOps能夠檢測并發現到錯誤的模式與規律,使用主動預測技術,來預防錯誤的發生與惡化。
- 提高生產力:AIOps既可以大幅減輕人員的工作量,又能夠創造出一個更具生產效率的環境。
適用于企業的AIOps解決方案
盡管AIOps是一個相對較新的解決方案,但市場上已經出現了不少大公司的成熟產品與方案,可供企業挑選與實現。其中包括:
- Splunk,是業界領先的AIOps供應商。通過將人工智能和機器學習相結合,它提供了一致性的數據聚類、分析、預測、事件管理、以及異常檢測等服務。Splunk通過一個完整的軟件包,讓用戶企業更快地實現并交付IT運營。
- PagerDuty,是另一種實用的AIOps產品。為了讓用戶企業可以輕松地提取各種警報數據,它使用機器學習來減少噪聲,對可操作的數據進行分類,以及利用自動化來解決各類事件。此外,它還提供了特定的監控、關聯和分析等解決方案。
- 該領域的知名公司與出色方案產品還包括:BigPanda、Moogsoft、AppDynamics、Micro Focus、Centerity、Zenoss和Kentik等。
購置AIOps產品之前應考慮什么?
在選擇AIOps供應商,并購置其產品之前,我們應考慮如下因素:
- 適應性:AIOps解決方案不但應具有處理多種數據類型的能力,而且應該具有適應數據結構變化,并具有面向未來擴展的能力。
- 數據改進:AIOps解決方案應當能夠協助用戶企業改進其現有的數據。也就是說,當企業收集到大量數據時,AIOps應該可以將過往數據與實時數據相結合,以創建準確的預測。
- 自我學習:AIOps系統應當能夠了解其目標數據,并具有跟蹤模式的能力。例如,它可以發現并記錄各種危險模式,并在將來警告用戶團隊。
- 易用性:憑借著其易用的界面,以及平緩的學習曲線,用戶企業的IT人員應當能夠輕松地全面操控AIOps系統。
小結
綜上所述,在日益數字化的浪潮中,AIOps可以為企業降低成本,提高預測的準確性,提供有價值的數據洞見,減少IT日常運營的各項成本與開銷,以及為業務創建各種可持續使用的數據模型。最后,希望本文能對您了解AIOps提供幫助。
原文標題:A Beginner’s Guide toAIOps,作者: Mir Ali
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】




























