暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

IT综合网管平台建设思路

IT那活儿 2023-05-12
892

点击上方“IT那活儿”公众号,关注后了解更多内容,不管IT什么活儿,干就完了!!!




背景介绍



随着信息化建设的快速发展,现在很多政企都越来越依赖IT系统来支撑业务的运转和经营发展,满足对信息服务的需求。面对复杂多样的IT网络、设备和业务支撑系统,一线的IT运维人员长期面临下面这些问题:

  • 如何最大程度提前发现和改善IT系统中的不稳定因素?
  • 如何满足各级运维部门对IT资源的监控和管理需求?
  • 如何优化运维流程实现可以量化的管理考核?
  • 如何持续改进运维部门服务质量?
  • 如何实现IT资产和运行情况的统一管理分析?
  • 如何为IT系统建设提供量化的决策依据等等问题。

特别是随着IT技术最近十年的飞跃发展,各类开源组件、国产信创、容器化、云化等等概念、架构以及设备在政企客户的业务系统逐渐上马,IT的运维管理越来越重要,也越来越难以支撑。




问题分析



我们对云网融合环境下的IT网管所需要面对的需求和问题做了分析,主要包括以下这几个难点

首先是IT网管的场景覆盖范围大幅增加。
应用的微服务化带来了大量的容器和应用实例对象,再加上国产信创组件设备替换商业化组件,并且伴随着业务高速发展而来的变更需求猛增,IT网管所需要支撑的上线、扩容、变更等等场景需求越来越多,流程也越来越复杂了。
在原有IT网管覆盖范围的组件设备基础上,也增加了对接云管平台的需求。要实现从云下到云上的全链路流程管理。包括资产纳管、规范化配置、云上的应用监控、云网监控数据关联分析、对云上应用的巡检等运维操作、以及涉及云管应用的需求上线、变更管理等流程等等。
这些都给IT网管平台承载的运维流程管理带来的很大挑战。如何快速支撑流程的变更,以及满足各服务对象部门的需求,都是IT网管平台急需解决的问题。
其次,是大量国产信创软件的加入,增加了IT网管平台对业务系统的监控难度。
虽然最近这些年国产设备和应用中间件、数据库都有长足发展,但相比一些成熟商业软件,在接口丰富、文档完善、系统稳定等方面都还有比较大的差距。一方面,由于这些设备组件系统不够稳定,对于这些对象的监控变得更加重要,频度也需要更加的高,对实时监控告警能力提出高要求。另一方面,在IT网管平台的对接性能数据、日志数据进行采集时,由于对外开放接口以及原厂支撑方面不够友好,也增加了IT网管系统的接入纳管难度。
另外,由于信创软件在优化迭代方面更加频繁,因此在自动化配置变更、自动化运维操作等场景方面,也对IT网管的管理流程支撑和管控对接能力提出很高的要求。

第三,随着客户对业务连续性的关注,对于如何拉通对云网设备组件监控到业务监控,支撑对复杂的全业务链路的统一管理更加关注。IT网管平台需要能满足多维度,立体的可视化监控场景需求,通过关联性能指标数据、业务链路数据、日志数据等,构建更加全面的异常分析场景。在一些确定原因的监控告警输出时,能对接自动化能力实现系统故障的自愈。在运维分析方面,也需要通过建立历史性能数据的基线,实现对异常的更准确判定




解决思路



通过以上的分析,我们发现,这些面临的困难都对IT网管系统的能力提出了更高的要求。

我们把这些问题,归纳到几个关键的点上,即发现问题、分析问题、解决问题
围绕这几个点,IT网管需要支撑一系列的能力场景
  • 发现问题方面,IT网管需要支撑全域数据的采集、数据的统一加工处理、异常检测、以及输出告警。
  • 在问题分析阶段,平台要支持各类运维数据关联、业务系统的拓扑架构可视化分析、业务的链路可视化分析、以及关联影响分析等场景。
  • 在最后问题解决的环节,平台要能提供异常事件到预案选取,再到运维流程执行的全过程支撑。

另外,平台需要与第三方平台、本地设备、云平台等管理对象对接,最终能将管控指令下发。




能力建设方案



基于上面我们分析的IT网管平台所应该具备的场景支撑能力,我们构建了该IT综合网管产品应该具备的能力图谱,如下图所示:

最下层是基础平台层:包括数据的采集管理和对目标对象的控制管理。
  • 数据管控平台是对数据采集后的统一加工计算存储管理,以及根据监控指标配置、告警配置产生相应的指标数据、告警数据。
  • 流程平台可以通过配置方式完成流程和表单的开发,支撑新的流程需求,并通过流程引擎实现对各网管流程的调度执行。
IT网管的前台功能场景包括了监控管理中心、操作管理中心、运维管理中心、运营管理中心,以及业务管理中心。这些功能中心支撑运维人员所需要使用的各类网管场景,比如投诉管理、事件管理、需求管理、变更管理等等。
最上层是作为门户类的功能,例如个人门户,统计报表,大屏等等。运维人员登录到系统后千人千面,可以根据需要设定符合自己使用需求和习惯的工作台。统计报表和大屏提供模板和自定义的配置化支撑能力,满足客户对于报表和大屏的展示需求。
下图是该IT综合网管产品应具备的能力技术架构:
平台通过agent,proxy,server三层管理架构来支撑对复杂网络环境和设备的对接需求,在agent中支持对性能指标数据、日志数据、链路数据、kafka等管道数据的采集,通过对接api接口来与第三方平台对接实现采集。另外自动化能力的下发指令也会需要通过agent来执行。
在数智能力中,通过前台配置的指标计算规则、告警计算规则来实现从原始数据做加工处理,再到统计生成指标,计算产生告警,关联CMDB等维表数据,最终入库的全过程。
另外,平台需要提供大量的可配置能力,包括表单配置、流程配置、数据加工配置、指标计算配置、告警规则配置、大屏展现配置等,并通过数智能力、流程引擎来实现配置规则的执行。

通过这些能力,最终支撑起目标业务系统的可观测性、数据处理、流程执行、个性化工作台、统计报表、大屏展现等场景。




重点打造能力模块



1. 面向云网融合的资产自发现和纳管能力

正向的IT资产管理流程基本上是上线、监控、变更、下线这样的。但很多客户企业难以管好资产的主要原因是对于非正常流程的上线或变更缺乏反向的管理能力支撑。反向的管理流程可以总结为发现、认领、关联、稽核。
发现是通过平台的定期扫描动作,对企业内部网段的IP地址、设备端口扫描,已登记纳管的资产比对,发现未知或未登记的黑资产,并触发认领流程。认领后的设备需要建立与业务系统或其他设备的关联关系,形成拓扑,为监控和分析提供依据。另外,平台需要对纳管的资产设备做定期稽核,确保资产配置数据与实际生产环境状态的一致性。
由这套管理流程,梳理了资产管理应该具备的功能,比如资产发现方面,需要有导入导出、同步输出到监控、资产的扫描发现、第三方同步、数据比对稽核等等。在资产管理方面,需要一套配置库以及动态模型,以及变更管理功能、自动校验功能等等。以及通过对外数据输出来满足资产数据的消费场景。
2. 监控主流的IT设备和组件,包括各类国产信创设备和软件的能力
通过分析各类设备对象所能提供的对接方式,梳理了需要满足下面这些采集协议或者采集方式,通过管控平台部署agent采集设备或组件的运行时数据,通过kafka-topic管道传递数据,再经过对数据做指标化加工处理并按阈值或基线输出告警。
3. 建设云网业融合监控展现的一系列可视化场景,构建可视化运维能力
支持自发现和人工梳理的方式维护IAAS、PAAS、SAAS三层架构关系,并且自动生成拓扑。通过对三层架构包含的监控对象的性能数据采集生成指标,与拓扑结合形成可视化的监控展现场景。指标数据配置的阈值告警或基线告警也能在可视化中予以展现,使运维人员能力先于投诉发现问题并且解决问题。
另外,要支持基于对业务架构的梳理和维护,建立关键业务流程、关键业务场景、关键业务数据的异动展现和异动分析场景,并且将业务可视化与云网架构的可视化对接起来,建立从业务到设备对象的故障原因分析能力,以及从设备对象到业务的影响分析能力。
4. 建立对云网融合环境的自动化巡检能力
除了包括常规的主机、网络、数据库、中间件、应用模块、业务拨测等巡检外,针对云平台的关键性能数据、状态数据、容器内组件和应用实例也纳入到自动化巡检范畴,全面覆盖云网环境下的自动化巡检管理。
5. 建立对云网业数据的统一处理分析能力
通过平台提供的数据加工、数据关联、数据过滤、数据统计、规则计算等计算能力组件,实现将各类采集到的性能数据、日志数据、链路数据、指标数据、资产元数据建立关联,并根据运维分析的需要输出指标和告警。为了满足监控和告警的时效性,平台在数智计算能力方面引入流批一体的计算能力,满足实时性计算需求和历史批量数据计算的需求。
6. 可视化的配置开发流程能力
通过可视化拖拉拽方式串联人工审批节点、人工执行节点、条件判断节点、分支执行节点等环节,实现对复杂工单流程或运维管理流程的支撑。

另外平台对流程执行过程中的信息,例如执行时长、执行结果、执行反馈进行记录,方便后续对历史流程数据的回顾和分析,为流程优化提供数据依据。




建设达成目标



开发构建IT综合网管平台的基础平台能力,包括采集平台模块、控制平台模块、数据管控平台模块和流程平台模块。这些模块提供上层应用场景的底层能力。

在应用功能层建设监控管理中心模块、操作管理中心、运维管理中心、运营管理中心的部分核心功能,实现对IaaS,PaaS层各设备和组件的资产纳管、性能监控、异常告警等运维场景,通过流程编排和执行能力支撑对各设备的自动化巡检场景,通过事件工单、问题工单及其他服务工单,以及可视化拖拽实现的工单流程配置,支撑对各网管工单类服务场景的支撑。

END



本文作者:李秋霖(上海新炬中北团队)

本文来源:“IT那活儿”公众号

文章转载自IT那活儿,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论