每小時損失200萬美元!AWS宕機事件為CIO敲響IT韌性警鐘

周一上午,AWS發生了大范圍的中斷,影響了數千名客戶,進而引發多個數字服務出現問題。最初,為將數百項AWS服務恢復至美國東部-1(US-East-1)區域所做的努力,在一定程度上緩解了困難,但并未完全解決問題,這使得亞馬遜不得不在當天晚些時候找出并糾正根本原因。
根據該公司狀態頁面上的更新信息,該公司將問題歸因于一個負責監控其網絡負載均衡器健康狀況的內部子系統。
“我們已采取了額外的緩解措施,以助力負責監控我們網絡負載均衡器健康狀況的基礎內部子系統恢復,目前,AWS服務的連接性和API已開始恢復。”美國東部時間中午左右,該公司這樣表示,不過其仍將服務狀態列為“降級”。
云服務中斷可能會波及數字服務,同時擾亂多個應用程序的運行,阻礙業務連續性計劃的實施。當受影響的超大規模云服務商是市場份額領先的AWS時,其影響會更為嚴重。
根據Gartner的估算,去年,亞馬遜的云服務吸引了所有IaaS支出中的37.7%,而微軟的市場份額為23.9%。谷歌去年僅控制了9%的支出。
Info-Tech Research Group的數字基礎設施實踐負責人John Annand表示,云服務中斷為CIO們敲響了警鐘,有助于他們評估自身IT資產的彈性。
“試圖將任何風險降至零,其難度會呈指數級上升,”Annand說,“你希望風險越低,所需付出的成本就越高。”
IT壓力測試
對于CIO們來說,供應商選擇是構建彈性的拼圖之一,但Annand表示,從架構角度來看,依賴多個重疊供應商的云系統可能會過于復雜。
“這在紙面上看起來很美好,人們也在會議上談論它,但實際上他們并不會這么做,”Annand說,“你必須選擇一個云平臺的有效性和易用性,然后試著圍繞你知道無論如何都會發生中斷的時間來制定計劃。”
Omdia的IT運營首席分析師Roy Illsley表示,對于CIO們來說,此類中斷事件的關鍵啟示在于要制定雙源策略。
“這一事件表明,即使是像AWS這樣的服務商也會受到影響,而且除非你有應急預案,否則你將陷入困境。”他在一封電子郵件中這樣說道。
Illsley說,多云提供了額外的彈性層,但在云之間遷移工作負載頗具挑戰性。理想情況下,CIO們應考慮將多云與本地環境相結合,不過他提醒說,這一策略的成本更高,也更為復雜。
“沒有靈丹妙藥,”Illsley說,“但CIO們必須盡職調查,并考慮制定一個獨立于主要云服務供應商之外的穩健恢復計劃。”
對于正在應對業務中斷的企業來說,IT中斷可能會導致巨大的成本。根據New Relic上個月公布的數據,技術問題導致的每小時運營停機,會使公司損失的中位數達到200萬美元。該公司發現,云服務故障是導致IT停機的主要原因。
去年,當向Windows設備推送的CrowdStrike有缺陷的更新導致大規模中斷時,全球IT系統陷入了混亂。2024年7月的這一事件,導致《財富》500強公司估計直接經濟損失超過50億美元,其中醫療保健行業受到的財務沖擊最大。
分析師和專家此前表示,非計劃性的IT故障可以提供一個重新評估業務連續性計劃的機會。
“問題不在于服務是否會中斷,”Annand說,“而在于何時會中斷。作為CIO,你的工作是與公司高層一起管理這一風險,并制定出一個計劃。”
























