暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

线上故障应急处理标准流程

石桥村的钓鱼人 2021-09-08
2550
面试的时候面试官经常会问一个问题:请介绍你遇到的印象最深的一个问题或者故障,请介绍你是怎么发现、处理、分析和解决的。下面是我的回答,欢迎拍砖。

01-故障发现

故障发现依赖于监控系统,如果自身监控系统足够完善,应该是自己先发现故障,之后才是依赖方反馈故障。

故障发现追求的是及时和全面,力求发现所有的故障并及时告警,不过理想和现实往往偏差较大。


02-恢复生产

这个阶段一般通过监控系统及个人经验判断故障的大概原因,如果短时间能够恢复(10分钟以内)则即刻执行恢复预案并观察效果。

恢复生产的首要原则是快,如果自身能够及时止损最好,不能及时止损也需要告知依赖方需要及时止损。


03-根因定位:

根因定位会涉及到各种监控、日志、连通性测试、工具验证、check代码的工作,最终可能都会归结为bug或者误操作导致。


04-根因解决:

定位了根本原因后,就是case by case解决问题的过程了,故障一般可以归结为两类:可用性问题和性能问题。

可用性问题可能是代码编写时没有面向失败的设计,性能问题就需要优化代码或者扩容解决了。


05-故障复盘:

故障复盘一般会分为事前和事中两个阶段,事前更多是预防,事中则更多考虑缩短故障时间。

事前:如何更快发现故障、如何更快告警、如何更快升级、如何发现同类故障、如何减少损失、如何灰度、是否可以增加审批流程.....

事中:如何自愈、如何优化预案效率、如何更快定位故障原因......


这些问题如果都能答得差不多,我觉得90分肯定没问题。

文章转载自石桥村的钓鱼人,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论