系統(tǒng)管理自測32問之10:有關(guān)故障信息報告
譯文【51CTO精選譯文】本文是《Limoncelli的測試:有助于提高系統(tǒng)管理員團(tuán)隊(duì)工作效率的32個問題》當(dāng)中的第10題:一旦發(fā)生問題,有沒有一套機(jī)制專門用于記錄故障信息?
故障發(fā)生之后,你會將各項(xiàng)細(xì)節(jié)記錄下來以便日后查詢、還是希望問題隨著時間逐漸淡出人們的視野呢?
一份合格的故障信息報告中應(yīng)該包含完整的時間軸,詳細(xì)記錄發(fā)生何事、由何人引起、曾如何嘗試修復(fù)、業(yè)務(wù)受到了何種影響并具備詳盡的解決方案列表,以防止此類問題的再次發(fā)生。每項(xiàng)提案都必須在bug跟蹤或者項(xiàng)目管理系統(tǒng)中有所體現(xiàn),以保證此次結(jié)論切實(shí)改進(jìn)未來的處理流程。
堅(jiān)持撰寫故障信息報告有助于維護(hù)穩(wěn)定的運(yùn)行環(huán)境,每次故障發(fā)生后都應(yīng)拿出至少一套可行的預(yù)防性措施。你的監(jiān)控系統(tǒng)能及時檢測出標(biāo)志性異常,進(jìn)而使管理者能夠先用戶一步意識到故障的存在嗎?問題的先兆又是否明確?通常情況下,系統(tǒng)在一切就緒之后會進(jìn)行整體的帶電測試(例如在源代碼庫中執(zhí)行‘預(yù)提交腳本’)。大家有辦法將用于檢測新生故障的工具順利添加到現(xiàn)有系統(tǒng)中嗎?
出現(xiàn)問題并不只意味著恥辱或者指責(zé)。在良好的系統(tǒng)管理員文化體系中,我們應(yīng)該毫無顧慮地將自己的名字填在“故障起因”的章節(jié)中。作為一名***,我們應(yīng)當(dāng)實(shí)事求是,力爭通過自己的疏忽為其他員工敲響警鐘。
如果大家的管理層打算以故障信息報告當(dāng)做懲罰責(zé)任人的證據(jù),那么他們顯然還不理解正確的操作并不意味著總能帶來理想的結(jié)果;這份報告存在的真正含義在于指導(dǎo)大家逐漸提高自身的業(yè)務(wù)能力。任何一位能夠因?yàn)榉菒阂獾耐k娛鹿示蛯⑾嚓P(guān)員工踢出門外的管理者,都不可能將企業(yè)帶向成功的彼岸。
故障信息報告應(yīng)該派發(fā)到每位員工手中。也許大家會因?yàn)?ldquo;披露團(tuán)隊(duì)失誤”而對此感到尷尬,但實(shí)際上這樣做會讓企業(yè)的用戶表現(xiàn)出更高的敬意。透明終將帶來信任。
當(dāng)然,要想真正發(fā)揮上述作用,故障信息報告與bug跟蹤及項(xiàng)目管理系統(tǒng)的整合效果仍然非常關(guān)鍵。
【51CTO.com譯文,轉(zhuǎn)載請注明原文作譯者和出處。】
原文:http://everythingsysadmin.com/the-test.html
Limoncelli的測試:有助于提高系統(tǒng)管理員團(tuán)隊(duì)工作效率的32個問題:
- A.面向公眾的處理方式:
- B. 現(xiàn)代化團(tuán)隊(duì)處理方式:
- C. 業(yè)務(wù)操作方式:
- D. 自動化處理方式:
- E. 團(tuán)隊(duì)管理方式:
- F. 硬件發(fā)生故障時的處理方式:
- G. 安全性處理方式:
【編輯推薦】

















