暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

故障模型在健康管理中的作用

白鳝的洞穴 2020-04-21
1947
在系统健康管理中,故障模型是一个十分重要的模型。健康管理的各种智能模型的最终场景落地都和健康模型有关。故障模型对于我们日常运维监控,问题分析,问题溯源的作用十分明显。
系统健康模型分为三个主要的部分,第一部分是问题发现,通过基线模型,健康模型,运维经验模型分析的结果进行问题发现,找到可能存在的隐患。

第二部分是根据问题发现进行建模分析,找到导致问题的主要因素,并根据已知和未知的诊断路径进行问题分析与溯源。
第三部分是分析报告,问题分析与溯源最终要落实到相关的报告上。报告是故障模型的最终产出物。
通过基线模型,我们可以发现系统中存在问题的指标,通过基线模型中的标签,可以与故障模型中的预警触发条件关联,产生事件告警;健康模型告警是当系统健康模型出现严重的丢分的时候或者健康模型的组成核心指标出现严重问题时触发的报警;运维经验报警是根据以往的运维经验,当某个现象发生时,出现问题的概率较高,此时需要产生告警。
这三种告警,运维经验告警的准确性较高,一般来说是在自身的运维工作中总结出来的,因此出现误报的可能性较小,运维部门也更应该重视,告警产生后,其运维诊断,问题溯源的方式也相对比较明确,容易根据问题溯源模型找到问题的根源。对于健康模型告警,因为是通过综合指标分析而产生的告警,其告警的准确率也较高,不过针对健康模型告警,仍然是从系统的总体健康状态上产生的告警,因此针对此类告警的诊断路径往往比较多,运维人员通过告警后一般首先需要进行一次当前问题分析,或者依赖于在“状态巡检报告”中发现的关键问题进行分析后,才能比较明确的找到分析路径,完成故障溯源。针对基线模型的告警相对来说比较简单,超出基线指标某个特定范围的事件都在告警范围内,因此此类告警的数量可能比较多,其准确性也相对较低。除了十分重要的基线指标外,大多数基线告警可以只是作为后续分析的参考依据,不需要再运维工作中作为闭环管理的对象。否则一个七八条枪的运维团队,在运维一个数百套系统的环境中,每天收到哪怕是1000条基线告警数据,而且要做到闭环管理,那都会把人逼疯的。更何况是在这样的一个运维工作中,每天收到的基线告警指标可能是1000这个值的数倍甚至数百倍。
最后修改时间:2020-04-22 08:19:44
文章转载自 白鳝的洞穴,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论