云服務宕機“保險單”正確匹配云SLA
企業在將關鍵業務應用轉移到云端時,需要云提供商提供一種可度量且可執行的服務水平協議。就像為IT組織提供一份保險單,一份SLA可以讓訂閱用戶投保人遠離宕機或者影響日常業務運營的減速。對于使用云服務的企業而言,SLA等同于怠工對于業務造成的財務影響。
一份有效的SLA必須能夠讓云提供商、客戶,以及最好是約定的第三方監控服務能夠對其進行度量。宕機應該反映其對客戶的影響,并不是云提供商網站上一個設備在給定時間段可能失敗的百分比。比如,一份SLA規定一年四個九(99.99%)的有效性,這其中包括許多的網絡、服務器和存儲設備,如果三種設備失敗了影響了對于終端客戶的服務交付,都會變成沒有價值。
相反,企業應該強調性能或者宕機的度量,因為可以以一種可以計量的時間段反映此次宕機對于你的業務的影響。通常,你劃分的宕機時間段越長,提供商就更容易符合那些條款。
不同行業的企業會劃分出不同的峰值用例時間。峰值時間對于企業業務和客戶都很有意義。股票交易應用客戶為例,在交易時間內,從周一到周五的上午九點半到下午四點,他們需要完全的可用性和性能。提供賀卡的企業網站可能在時間框架上并不需要完全的有效性;網站變慢的一小時,用戶可能并不會去點擊其他的網站。相反,賀卡網站可能在周末的時候需要更多地有效性,因為人們更可能直接去商店。
選擇一個度量標準,來滿足你的終端用戶的需求,然后就SLA同你的服務提供商談判,來滿足或者超越這些期望。如果你希望防御服務宕機,就要確信SLA寫明了一個具體的度量內容,尤其是你的用戶或者客戶的宕機內容構成。
你就是你的客戶的業務主張者;因此你需要減少對于云數據中心事件數量的關注,更多的是關注一次事件如何影響你的所有業務。從你的用戶的觀點來看,交易響應時間
是最佳的度量值,正如其反映了終端用戶服務交付的感知。
在宕機和減慢速度之間的區別達成一致也很重要。如果客戶由于登錄過慢,花費了五秒或者更多時間才登陸,他們就會轉到其他網站。登錄事件超過五秒鐘完全就是一次宕機。提供流媒體視頻的公司會將任何中斷內容交付的事件看作是一次宕機。一定要將宕機的定義同客戶的具體需求匹配。
作為云服務的客戶,要確保你能夠訪問云提供商的性能以及宕機統計。你也需要一種方式確保這些信息能夠精準的收集起來。一種方式是用目標第三方衡量響應時間和宕機。第三方監控服務使用協商的工具和流程來收集各種云服務提供商的數據,并且回報他們的發現。
最后,如果你的云提供商沒能遵從SLA,設置處罰措施。這些處罰應該放映宕機對于你的業務的影響,但是很可能會按照你在云服務提供商上每月花費的成本來計算。就像是保險單,你要更多的保護自己,也要支付更多的保費。因此要設置同你的業務需求一直的SLA。



















