排行
数据库百科
核心案例
行业报告
月度解读
大事记
产业图谱
中国数据库
向量数据库
时序数据库
实时数据库
搜索引擎
空间数据库
图数据库
数据仓库
大调查
2021年报告
2022年报告
年度数据库
2020年openGauss
2021年TiDB
2022年PolarDB
2023年OceanBase
首页
资讯
活动
大会
学习
课程中心
推荐优质内容、热门课程
学习路径
预设学习计划、达成学习目标
知识图谱
综合了解技术体系知识点
课程库
快速筛选、搜索相关课程
视频学习
专业视频分享技术知识
电子文档
快速搜索阅览技术文档
文档
问答
服务
智能助手小墨
关于数据库相关的问题,您都可以问我
数据库巡检平台
脚本采集百余项,在线智能分析总结
SQLRUN
在线数据库即时SQL运行平台
数据库实训平台
实操环境、开箱即用、一键连接
数据库管理服务
汇聚顶级数据库专家,具备多数据库运维能力
数据库百科
核心案例
行业报告
月度解读
大事记
产业图谱
我的订单
登录后可立即获得以下权益
免费培训课程
收藏优质文章
疑难问题解答
下载专业文档
签到免费抽奖
提升成长等级
立即登录
登录
注册
登录
注册
首页
资讯
活动
大会
课程
文档
排行
问答
我的订单
首页
专家团队
智能助手
在线工具
SQLRUN
在线数据库即时SQL运行平台
数据库在线实训平台
实操环境、开箱即用、一键连接
AWR分析
上传AWR报告,查看分析结果
SQL格式化
快速格式化绝大多数SQL语句
SQL审核
审核编写规范,提升执行效率
PLSQL解密
解密超4000字符的PL/SQL语句
OraC函数
查询Oracle C 函数的详细描述
智能助手小墨
关于数据库相关的问题,您都可以问我
精选案例
新闻资讯
云市场
登录后可立即获得以下权益
免费培训课程
收藏优质文章
疑难问题解答
下载专业文档
签到免费抽奖
提升成长等级
立即登录
登录
注册
登录
注册
首页
专家团队
智能助手
精选案例
新闻资讯
云市场
微信扫码
复制链接
新浪微博
分享数说
采集到收藏夹
分享到数说
首页
/
海天AIOPS之路系列之三:Ankole自动化故障单
海天AIOPS之路系列之三:Ankole自动化故障单
海天起点
2019-11-08
317
1. 需求
值班的运维小伙伴有没有这样的想法,能够一目了然地知道当前所有数据库存在哪些故障。当核心设备发生故障,导致发生大面积的告警短信后,如何快速确认哪些系统的故障需要优先解决,哪些故障已经恢复,哪些故障持续时间较长。如果通过翻短信记录来检查,不可避免会有遗漏,如果在监控系统的各个功能页面中检查故障是否出现、是否已解决,那需要运维人员去逐项检查各个功能页面才能知道,相当地繁琐。
有没有可能让运维平台来告诉我当前所有维护的数据库发生了哪些故障,让我一目了然地知道,不需要到各个功能页面上去一点一点地检查。因为这样的需求,ankole运维平台提供了自动故障单功能。
2.
设计思路
在《系列二 监控》的文章中提到,ankole数据库运维平台现在监控了49种故障场景,当定义的场景发生故障时中会向相应的值班人员发送短信告警,但同时也会自动生成故障单。
ankole运维平台将所有故障场景生成的故障信息,全部在自动化故障单中统一展现。
当故障修复
后,自动化故障单能够自动关单,将故障信息自动从故障单界面中删除。
这样当故障较多,通过告警恢复短信无法快速确认某个故障是否已修复,就可以在自动化故障单界面中进行确认。
在自动化故障单里有故障最初发生的时间,故障总共检查到的次数,故障短信最后发送的时间,根据这些信息,就可以了解故障处理是否及时。
3. 运维方式的变化
自从上线ankole数据库运维平台的自动化故障单功能后,运维小伙伴的运维方式发生了根本性的变化,不是到监控系统的各个功能页面去检查相应的监控内容是否存在故障,而是只需要关注自动化故障单页面里出现的故障内容。
在自动化故障单中详细描述了故障场景,比如:逻辑备份、索引失效等,故障节点一般是主机或相应的数据库或数据库实例等,通过这些简洁明了的故障资源、故障原因的描述,让运维人员可以快速掌握故障信息。
另外,运维小伙伴在上班后、下班前,需要了解一下是否还有哪些故障没有解决,只需要查看一下自动化故障单页面。当自动化故障单页面中没有任何内容,就表明所维护的所有数据库的故障已经全部处理完毕。
4. 更深层次的需求
自动化故障单将所有的故障信息全部整合到一起,方便检查。但是对于精细化管理的部门,比如:1位责任人只负责管理少量的几套数据库,那这位责任人只会将目光聚集在自已管理的数据库上,所以只会关心自已所管理的数据库是否发生了故障。
由于这种情况的普遍存在,在ankole数据库运维平台的数据库收藏夹功能里,将自动化故障单收集的故障信息拆分到了是否在某个数据库上存在故障信息,表现形式如下:
这样就很方便地看到,在该数据库上的严重故障为0,有2个一般事件需要处理。
5. 总结
通过自动化故障单功能,可以极大地提高运维人员检查是否存在故障的效率,对全方位掌握所运维的数据库的故障情况帮助非常大。
原创文章,版权归本文作者所有,如需转载或合作,请务必联系我们
欢迎咨询海天起点技术专家
免费热线:800-810-3650 400-810-3650
喜欢本文请长按下方的二维码订阅海天起点
ai
文章转载自
海天起点
,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。
评论
领墨值
有奖问卷
意见反馈
客服小墨