暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

基于全链路监控与切片式诊断的调运检一体化

白鳝的洞穴 2020-03-13
1495
今天老白要讨论的问题的题目很长,基本上把题目解释完,主要问题也就说明白了。我们先来看调运检一体化这个词,电网公司信息化运行中的调运检体系是师从电网生产调度的体系的,把电网运行的运行维护体系加以改造用于信息系统的运行维护。
调是指调控,字面意思是调度与监控控制,这个专业是全局管控的,接受来自各个用户单位的服务台请求,监控系统运行状态,一旦系统出现问题,进行调度指挥,指挥运行与检修人员进行应急处置。调控专业负责信息系统的运行方式管理、资源管理、调度值班、应急处置调度等工作。
运是指运行,是保障系统健康运行的专业,其主要智能包括执行调度指令、运行环境监控、信息系统监控、日常维护、巡检、新系统上线等。
检是指检修,负责系统问题消缺,检修计划编制与执行等工作。
调运检一体化是指三个专业之间的分工协作,一体化管理,一体化指挥,一体化协同,通过三个专业的有机结合,保障信息系统的安全稳定运行。这个体系在电网安全运行方面发挥了巨大的作用,也被证明是十分有效的。不过到了信息专业,似乎有点水土不服。资源分配时有可能因为相关专业的人对系统的实际运行需求了解的不够准确而导致资源分配不合理;应急处置的时候由于无法定位故障点而导致无法有效指挥调度;与开发商缺乏有效协同导致运行方式无法优化;运行监控手段不到位导致总是焦头烂额的处理紧急状况;而检修部门因为没有强目的性的需求引导,导致检修工作收效甚微。
去年年初的时候,和一些从事信息化运行的领导交流如何优化调运检工作体系,我们一起研讨了一个话题,就是老白今天提出来讨论的这个话题“基于全链路监控与切片式诊断的调运检一体化”工作体系。
全链路监控是指对对信息系统的端到端的每个环节进行监控与分析

其实企业中对信息系统的每个环节都有一定的监控能力,这些年也不断的采购了大量的监控运维工具,这些工具都独立的进行数据采集,能够完成一定的运维工作,但是都是零散建设的,也和铁路警察一样,各管一段。如果把这些工具采集的数据用一套建模工具收集起来,按照组件单元进行建模,再用一种可视化的手段展现出来,调控专业就有了一个十分强大的抓手,以这张运行图为基础进行日常监控与调度指挥,效率就能大大提高了。

我们的某个系统出现故障后,直接可以通过自动检测工具进行切片式的诊断分析,从而定位可能存在故障的IT组件,再指挥运检部门进行处置。

定位到某个子系统后还可以继续下钻诊断

通过这样,调控专业的人员虽然对各专业的运检了解不是很深,不具备很多信息专业的专业技能,也能够通过工具进行初步定位,有针对性的指挥抢修工作。
对于运行专业来说,现在面临的最主要的问题是由于人力资源有限,人员的能力不足,导致平时我们无法知道所监控的对象到底有没有问题,只有系统真的出问题了,这时候才能被动的进行分析与处置。甚至很多时候,系统出了问题也不知道问题出在哪,系统存在的缺陷没有被发现,风险一直存在。这是由于缺乏对信息系统健康的科学评估手段,我们无法对一套系统,一个组件进行健康判断。这也是我们要引入健康管理与切片诊断的主要原因。
对于检修专业来说,由于缺乏常态化的问题发现手段,检修专业的消缺工作也处于被动状态,主动消缺,针对性消缺只能留在口号上,无法落到实处。一方面信息系统随时随刻都在出现各种亚健康的状态,一方面我们的检修专业无法获得消缺需求,也没法进行常态化的工作。
为了解决企业信息系统运行面临的这些问题,更好的实现调运检一体化协同,支撑爆炸性的系统增长需求,我们一起探讨了一个综合化改造方案,就是题目所说的“基于全链路监控与切片诊断的调运检一体化。逻辑架构如下图:

整个体系还是比较清晰的,大家看图就能大致理解其中之意。篇幅有限,老白今后再和大家细细聊聊。
最后修改时间:2020-03-13 15:39:17
文章转载自 白鳝的洞穴,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论