
01-故障发现:
故障发现依赖于监控系统,如果自身监控系统足够完善,应该是自己先发现故障,之后才是依赖方反馈故障。
故障发现追求的是及时和全面,力求发现所有的故障并及时告警,不过理想和现实往往偏差较大。
02-恢复生产:
这个阶段一般通过监控系统及个人经验判断故障的大概原因,如果短时间能够恢复(10分钟以内)则即刻执行恢复预案并观察效果。
恢复生产的首要原则是快,如果自身能够及时止损最好,不能及时止损也需要告知依赖方需要及时止损。
03-根因定位:
根因定位会涉及到各种监控、日志、连通性测试、工具验证、check代码的工作,最终可能都会归结为bug或者误操作导致。
04-根因解决:
定位了根本原因后,就是case by case解决问题的过程了,故障一般可以归结为两类:可用性问题和性能问题。
可用性问题可能是代码编写时没有面向失败的设计,性能问题就需要优化代码或者扩容解决了。
05-故障复盘:
故障复盘一般会分为事前和事中两个阶段,事前更多是预防,事中则更多考虑缩短故障时间。
事前:如何更快发现故障、如何更快告警、如何更快升级、如何发现同类故障、如何减少损失、如何灰度、是否可以增加审批流程.....
事中:如何自愈、如何优化预案效率、如何更快定位故障原因......
这些问题如果都能答得差不多,我觉得90分肯定没问题。
文章转载自石桥村的钓鱼人,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




