暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

海天AIOPS之路系列之三:Ankole自动化故障单

海天起点 2019-11-08
317
1. 需求
值班的运维小伙伴有没有这样的想法,能够一目了然地知道当前所有数据库存在哪些故障。当核心设备发生故障,导致发生大面积的告警短信后,如何快速确认哪些系统的故障需要优先解决,哪些故障已经恢复,哪些故障持续时间较长。如果通过翻短信记录来检查,不可避免会有遗漏,如果在监控系统的各个功能页面中检查故障是否出现、是否已解决,那需要运维人员去逐项检查各个功能页面才能知道,相当地繁琐。
有没有可能让运维平台来告诉我当前所有维护的数据库发生了哪些故障,让我一目了然地知道,不需要到各个功能页面上去一点一点地检查。因为这样的需求,ankole运维平台提供了自动故障单功能。
2. 设计思路
在《系列二 监控》的文章中提到,ankole数据库运维平台现在监控了49种故障场景,当定义的场景发生故障时中会向相应的值班人员发送短信告警,但同时也会自动生成故障单。ankole运维平台将所有故障场景生成的故障信息,全部在自动化故障单中统一展现。当故障修复后,自动化故障单能够自动关单,将故障信息自动从故障单界面中删除。

这样当故障较多,通过告警恢复短信无法快速确认某个故障是否已修复,就可以在自动化故障单界面中进行确认。
在自动化故障单里有故障最初发生的时间,故障总共检查到的次数,故障短信最后发送的时间,根据这些信息,就可以了解故障处理是否及时。
3. 运维方式的变化
自从上线ankole数据库运维平台的自动化故障单功能后,运维小伙伴的运维方式发生了根本性的变化,不是到监控系统的各个功能页面去检查相应的监控内容是否存在故障,而是只需要关注自动化故障单页面里出现的故障内容。
在自动化故障单中详细描述了故障场景,比如:逻辑备份、索引失效等,故障节点一般是主机或相应的数据库或数据库实例等,通过这些简洁明了的故障资源、故障原因的描述,让运维人员可以快速掌握故障信息。
另外,运维小伙伴在上班后、下班前,需要了解一下是否还有哪些故障没有解决,只需要查看一下自动化故障单页面。当自动化故障单页面中没有任何内容,就表明所维护的所有数据库的故障已经全部处理完毕。
4. 更深层次的需求
自动化故障单将所有的故障信息全部整合到一起,方便检查。但是对于精细化管理的部门,比如:1位责任人只负责管理少量的几套数据库,那这位责任人只会将目光聚集在自已管理的数据库上,所以只会关心自已所管理的数据库是否发生了故障。
由于这种情况的普遍存在,在ankole数据库运维平台的数据库收藏夹功能里,将自动化故障单收集的故障信息拆分到了是否在某个数据库上存在故障信息,表现形式如下:

这样就很方便地看到,在该数据库上的严重故障为0,有2个一般事件需要处理。
5. 总结
通过自动化故障单功能,可以极大地提高运维人员检查是否存在故障的效率,对全方位掌握所运维的数据库的故障情况帮助非常大。
原创文章,版权归本文作者所有,如需转载或合作,请务必联系我们


欢迎咨询海天起点技术专家
免费热线:800-810-3650   400-810-3650


喜欢本文请长按下方的二维码订阅海天起点
文章转载自海天起点,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论