新聞中心
一、故障及故障管理定義
業(yè)界故障管理均基于ITIL演化而來(lái),根據(jù)實(shí)際情況精簡(jiǎn)流程以適配互聯(lián)網(wǎng)的精益迭代。

1、ITIL中的定義
故障:①非計(jì)劃性的IT服務(wù)中斷,或者IT服務(wù)性能的下降。②配置項(xiàng)的失效,即便沒(méi)有影響到服務(wù)。
故障管理:對(duì)所有故障進(jìn)行處理的流程。
故障管理的目標(biāo):盡快恢復(fù)服務(wù)到正常運(yùn)行,并且最小化對(duì)業(yè)務(wù)運(yùn)營(yíng)的不利影響,從而盡可能地保證服務(wù)質(zhì)量和可用性的水平。
2、業(yè)界較完善定義
故障:除用戶方環(huán)境或者用戶自身操作引起的外,其他無(wú)論什么原因?qū)е路?wù)中斷、服務(wù)品質(zhì)下降或者用戶服務(wù)體驗(yàn)下降。
故障管理:圍繞故障生命周期采取的一系列活動(dòng)和流程,包括故障等級(jí)定義、故障發(fā)現(xiàn)、故障響應(yīng)、故障應(yīng)急、故障恢復(fù)、故障復(fù)盤及持續(xù)改進(jìn)。
故障管理的目標(biāo):預(yù)防可預(yù)知的問(wèn)題,快速恢復(fù)不能預(yù)知的問(wèn)題,不再重復(fù)已發(fā)生的問(wèn)題。
二、為什么要做故障管理
無(wú)論是理論還是實(shí)踐,均證明故障只要有發(fā)生的可能,它總會(huì)發(fā)生。所以為了保障業(yè)務(wù)穩(wěn)定性,需提前發(fā)現(xiàn)、解決風(fēng)險(xiǎn),及時(shí)發(fā)現(xiàn)、定位原因、快速恢復(fù)故障,同時(shí)要確保改進(jìn)措施有效落地、避免故障重復(fù)發(fā)生,我們需要建立一個(gè)規(guī)范可遵循、閉環(huán)的故障管理體系。
三、故障管理怎么做
故障管理就是圍繞故障全生命周期管理,形成體系閉環(huán)、持續(xù)改進(jìn)。
無(wú)論是理論還是實(shí)踐,均證明故障只要有發(fā)生的可能,它總會(huì)發(fā)生。所以為了保障業(yè)務(wù)穩(wěn)定性,需提前發(fā)現(xiàn)、解決風(fēng)險(xiǎn),及時(shí)發(fā)現(xiàn)、定位原因、快速恢復(fù)故障,同時(shí)要確保改進(jìn)措施有效落地、避免故障重復(fù)發(fā)生,我們需要建立一個(gè)規(guī)范可遵循、閉環(huán)的故障管理體系。
1、故障等級(jí)定義
1.1 故障序列
故障管理部門(例如質(zhì)量部門、NOC、運(yùn)維管理部門等)可根據(jù)實(shí)際情況定義故障序列,以下為目前業(yè)界可參考的序列,一類序列一般分為4級(jí),級(jí)別數(shù)字越小嚴(yán)重程度越高。
- P(PRIORITY)序列:技術(shù)基礎(chǔ)序列,為故障處理的綜合優(yōu)先級(jí)。
- D(DATA)序列:數(shù)據(jù)質(zhì)量序列,綜合數(shù)據(jù)資產(chǎn)等級(jí)與數(shù)據(jù)影響因素。
- R(RISK)序列:輿情風(fēng)險(xiǎn)序列。
- S(SLA)序列:衡量影響SLA嚴(yán)重程度。
1.2 故障定級(jí)
以P序列舉例:
故障定級(jí)建議分為通用型和業(yè)務(wù)型兩類,業(yè)務(wù)線型故障定級(jí)標(biāo)準(zhǔn)不得低于通用型故障定級(jí)標(biāo)準(zhǔn)。
通用型故障等級(jí)由故障管理部門定義,可包含受影響用戶數(shù)、受影響商家數(shù)、客訴增量、資金損失等通用指標(biāo)。通用型故障場(chǎng)景在業(yè)務(wù)線型故障場(chǎng)景未覆蓋情況下兜底。
業(yè)務(wù)型故障等級(jí)由故障管理部門聯(lián)合業(yè)務(wù)團(tuán)隊(duì)基于用戶視角共同定義,以下為業(yè)務(wù)型故障定級(jí)舉例。公司內(nèi)部工具也可按照此模板定義故障級(jí)別以納入故障管理。
2、監(jiān)控告警
核心是業(yè)務(wù)監(jiān)控關(guān)聯(lián)故障等級(jí)定義做到故障及時(shí)發(fā)現(xiàn)。
告警本身要做到智能告警以提升告警準(zhǔn)確率,例如智能閾值、智能基線、根因算法等。
3、故障應(yīng)急
問(wèn)題升級(jí)為故障后,由故障管理部門及時(shí)通告故障信息,拉起故障處理群/電話會(huì)議,協(xié)調(diào)、跟進(jìn)、監(jiān)督故障處理直至恢復(fù)。
由于故障管理部門需要7X24應(yīng)急響應(yīng),有條件的公司可以參考google的SRE、阿里的GOC組建團(tuán)隊(duì),成員分布不同時(shí)區(qū),實(shí)現(xiàn)日出而作,日落而息。
4、故障恢復(fù)
故障發(fā)生后的第一要?jiǎng)?wù)是恢復(fù)業(yè)務(wù),預(yù)案、重啟、降級(jí)、隔離、切流、飽和式應(yīng)急等,都是可選的方案。
5、故障復(fù)盤
5.1、故障復(fù)盤時(shí)效
為確保問(wèn)題、風(fēng)險(xiǎn)能夠得到足夠重視,并及時(shí)制定改進(jìn)措施,建議P1P2級(jí)別故障1個(gè)工作日內(nèi)完成復(fù)盤,P3P4故障3個(gè)工作日完成復(fù)盤,其他序列故障可參考P序列時(shí)效性。
5.2、故障復(fù)盤準(zhǔn)備工作
為提升復(fù)盤會(huì)議效率,故障管理人(復(fù)盤會(huì)議主持人)應(yīng)該在會(huì)議之前整理如下信息:
- 故障處理過(guò)程:必須包含故障注入、故障發(fā)生、故障發(fā)現(xiàn)、故障響應(yīng)、初因定位、恢復(fù)執(zhí)行、故障恢復(fù)、根因定位等核心時(shí)間點(diǎn)及操作,其他關(guān)鍵時(shí)間點(diǎn)及操作視實(shí)際情況補(bǔ)充。
- 影響業(yè)務(wù):具體到下跌時(shí)段、下跌比例,資金損失金額。
- 用戶/商家影響情況:理論影響量,來(lái)電、在線咨詢量
- 故障根因及對(duì)應(yīng)根因分類:設(shè)備故障、代碼問(wèn)題、流程規(guī)范、應(yīng)急災(zāi)備、容量等。
5.3、故障復(fù)盤重要關(guān)注點(diǎn)
- 故障預(yù)防:是否變更觸發(fā)
- 故障發(fā)現(xiàn):發(fā)現(xiàn)時(shí)長(zhǎng),發(fā)現(xiàn)來(lái)源,監(jiān)控優(yōu)化
- 應(yīng)急響應(yīng):響應(yīng)時(shí)長(zhǎng)
- 故障恢復(fù):恢復(fù)時(shí)長(zhǎng),恢復(fù)措施沉淀,改進(jìn)
- 改進(jìn)措施:基于以上信息制定可驗(yàn)的證改進(jìn)措施,完成時(shí)間點(diǎn),負(fù)責(zé)人
6、持續(xù)運(yùn)營(yíng)
持續(xù)運(yùn)營(yíng)是個(gè)廣義的概念,除了故障數(shù)據(jù)各種維度晾曬、經(jīng)驗(yàn)傳承、文化宣導(dǎo)外,最主要的是通過(guò)故障數(shù)據(jù)分析,識(shí)別故障各個(gè)生命階段的薄弱點(diǎn)、風(fēng)險(xiǎn)點(diǎn),針對(duì)薄弱點(diǎn)、風(fēng)險(xiǎn)點(diǎn)有專項(xiàng)改進(jìn)。
比如多次未灰度直接發(fā)布引起重大故障,變更制度、變更平臺(tái)是否可強(qiáng)管控;故障恢復(fù)主要依賴代碼發(fā)布導(dǎo)致恢復(fù)慢,是否可打造及時(shí)恢復(fù)文化,針對(duì)常見(jiàn)故障場(chǎng)景是否能沉淀快恢預(yù)案等。
四、對(duì)故障管理工作者的建議
故障管理路長(zhǎng)且艱,以下給故障管理同學(xué)的建議,希望共勉。
1. 積極主動(dòng)、認(rèn)真負(fù)責(zé)
- 風(fēng)險(xiǎn)、問(wèn)題跟進(jìn)不到位,演變成故障的數(shù)量會(huì)增多
- 故障跟進(jìn)不到位,影響面會(huì)擴(kuò)大
- 故障根因不明確,改進(jìn)措施可能無(wú)效
- 改進(jìn)措施無(wú)效,故障還會(huì)重復(fù)發(fā)生
2. 敢于質(zhì)疑
- 監(jiān)控發(fā)現(xiàn)是否及時(shí)
- 故障處理過(guò)程是否可優(yōu)化,有沒(méi)有人為失誤
- 業(yè)務(wù)影響面統(tǒng)計(jì)是否真實(shí)
- 故障原因是否是本次故障的根因
- 改進(jìn)措施制定是否合理
3. 自我提升
故障管理者不是統(tǒng)計(jì)、記錄文員,要以架構(gòu)師嚴(yán)格要求自己,能夠指出故障各個(gè)階段存在的問(wèn)題,并能夠獨(dú)立承擔(dān)對(duì)應(yīng)優(yōu)化專項(xiàng)。
分享標(biāo)題:互聯(lián)網(wǎng)故障管理體系建設(shè),看這一篇就夠了
文章起源:http://fisionsoft.com.cn/article/cdeidid.html


咨詢
建站咨詢
