基于IT健康管理的整体理念,其要点是深度采集运维对象的运行指标,并通过数据建模、综合分析、类比比对等方式进行深度分析,发现其中可能存在的问题以及一些规律性的东西。IT健康管理的数据分析成果通过一些微应用场景投送到不同的运维岗位,供现场运维人员使用。从IT健康管理的概念上看,IT健康管理是一项技术含量很高,需要大量专家参与的工作。事实上,我们的现场运维人员往往不具备很强的专业能力,因此最初的IT健康管理工具并不能很好的在一线发挥出专家系统的水准。于是在IT健康管理团队驻场的地区,工作开展的十分顺利,成果也十分突出。而缺乏现场支撑的地区,现场人员只能使用其中最基础的日检等小工具做一些日常的小事。如何破解这个难题成为IT健康管理技术团队的重点工作,最终确定了采用IT健康管理微应用来改善IT健康管理的工作视角。首先微应用的视角从日常运维人员的各个专业出发,从调控、运检、检修、建设、管理等专业角度来看IT健康管理。将IT健康管理的能力赋能这些专业日常的工作。比如调控人员往往只是负责发现系统存在的问题或者隐患,并进行预警,调度相关专业技术人员进行故障消缺,那么一些较为深入的分析数据以及IT运维对象的一些指标对他们来说是没有太大意义的,那么他们的关注重点应该是整个系统逻辑拓扑的健康情况,而不是具体某个it组件的技术指标。今天老白给大家分享一些电力用户的IT健康管理微应用场景。
这是某用户的IT健康管理微应用入口。监控看板是调控人员使用的应用,调控人员负责信息系统日常监控与处置调度工作。他们对某个具体专业方面的专业技能不是很深入,他们需要及时掌握当前系统的健康状态,并把发现的问题推送给某专业的技术人员。


对于某个系统,可以看到全链路的逻辑拓扑,并通过逻辑拓扑上的告警信息及时发现问题。管理员具有具体进行专业化诊断分析能力的专业人员,其微应用注重一些技术细节与深度分析能力的提供。
对于存在问题的系统,可以进一步进行深入的分析与诊断。
一键体检是检修专业的人员的工作平台,与传统的巡检不同,对于某个系统,通过“一键巡检”可以立即生成巡检报告,其数据使用已经采集或者归集的数据,不需要额外采集。巡检工作在后台完成,不需要在生产系统上补充采集。

运行周报是业务管理部门使用的微应用,运检中心的领导以及信通公司、互联网部的相关专业领导与业务专责定期下载报告,进行业务归口管理。
IT健康管理微应用的目标是让复杂的IT健康分析与预警工作变得简单,大部分IT健康管理的深度分析能力都被隐藏起来了,分析工具的使用者也是专家与技术骨干。普通的运维人员只需要通过IT健康管理微应用提供的直观的工作界面开展工作。
对于专业人员,通过深度分析工具可以随时开展深入诊断的工作。针对不同的用户,可以根据其运维管理的特点与运维人员的技能水平来快速定制IT健康管理的微应用,让运维工具场景化。运维工具场景化有助于工具快速落地,并且能够持续应用。传统的运维工具一般来说是根据工具的内容进行组织的,在工具研发过程中虽然也考虑了一些场景,但是与实际应用环境的场景差异较大。另外由于工具中的数据架构往往只是为了完成工具的功能,因此数据架构也较难根据场景需要去做相应的调整。而IT健康管理是自顶向下设计,自底向上建设的。首先通过方法论确定IT健康管理的目标:
其建设愿景是通过对企业运维自动化数据的综合归集、综合分析,让数据发挥更大的作用。就像医院诊疗一样,在系统健康时养生预防,在亚健康状态时早发现早治疗,在发病时能五分钟快速抢救。
完成顶层设计后,针对企业的信息化现状进行运维对象梳理。深入了解各类运维对象的指标及指标分类,核心参数、配置文件以及运维中的要点,作为运维场景分析及模型设计的依据。

经过梳理后构建运维对象的标准化指标体系,提炼分析关键指标,构建运维维度体系,建立标准化评估体系,建立运行状态健康度模型,包括健康模型、容量模型、故障模型,使用运维对象的指标数据来构建状态模型生成运行状态评价指标。模型分专家模型和智能模型,专家模型用于评价打分,智能模型则提供智能评分及趋势预测。
经过上述工作,构建了IT系统深度分析能力,并构建核心知识库,并在此基础上构建“运维知识自动化平台”。有了这个基础平台,进一步构建运维能力组件,建立包括“全链路监控能力组件”、“切片分析能力组件”、“指标分析算法库”、“日志深度分析能力组件”等,形成运维分析开放能力库。有了这个开放能力库,构建IT健康管理微应用就十分快速和便捷了。