暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

蓝鲸行业说第五期直播回顾:运维服务化统一告警中心建设实践

嘉为蓝鲸 2022-12-08
1266

导语


蓝鲸行业说是腾讯蓝鲸全新策划的落地实践系列直播专栏,以“行业”为主线,邀请来自各行业的资深运维主讲,分享原厂实践。我们希望通过一场场有料有深度的直播分享活动,让运维圈的小伙伴们进行深度的交流和学习,将经验应用于实际工作场景中。


某大型银行的运维服务化,也叫场景化运维,目的是让用户能够一站式的完成一件事情。结合该银行的统一监控告警中心平台的建设,来看看金融行业的运维服务化该如何做。



01

运维服务化转型历程


1

运维痛点亟待解决,转型升级


自动化率低

业务快速增长,运维种类多样且分散,自动化与手工交错,复杂且低效。


用户体验不佳

线上化、数字化取得了阶段性进展,但用户体验不佳。


一体化建设不成熟

运维一体化建设不成熟,缺乏一体化的运维平台。


2

运维服务化的目的


建设统一运维平台、场景化运维、提升工作效率。


3

引入蓝鲸平台,推进运维技术蓝图落地


在2018年,该大型银行内部系统运维中心围绕“提产能、促转型”的总体目标,完成了运维技术蓝图的规划设计。为推进运维技术蓝图的落地,于2019年4月启动了统一运维平台建设项目,引进了腾讯蓝鲸平台。


▲ 蓝色模块为一期完成的项目规划图


依托蓝鲸平台的SaaS开发框架、监控平台、配置管理、作业平台、API网关、用户管理等建设运维服务化。该大型银行自2020年2月起启动运维服务化筹建工作,经过两年多的建设,到2022年9月份,已经完成了95个常用运维服务发布。


4

三大类运维服务



IT基础设施服务

数据中心作为基础设施提供方,为IT提供机房基础环境、操作系统、数据库、存储、网络等支持。



运维流程管理

数据中心作为生产管理者,以流程的方式对外服务。



应用系统运维服务

数据中心作为应用运维方,提供应用系统变更、应急、取数等维护支持。


这三类应用服务,集成在该大型银行的统一运维门户Web页面上,上面不仅有运维服务,同时也是该大型银行数据运维中心的建设方向,主要是围绕生产调度、应用运维、系统运维、数据库运维、网络运维、存储运维、设备运维、机房运维、分行运维九大领域来建设。


在移动端界面,“智慧运维”作为统一运维门户的移动端应用,同样拥有审批待办、运维服务、全部应用三个部分,集成在行内的一个通讯软件上,流程审批、紧急告警等情况,可以在移动端随时查看并进行一些快捷操作。各模块功能和统一运维门户对应。


在用户的运营上,为用户提供行内论坛,方便用户的想法、意见建议公开讨论,根据用户的实际诉求,进一步优化运维服务,提升用户体验感、满意度。


02

统一告警中心建设


1

旧监控的不足


在旧监控上,纳管的操作系统、数据库、中间件这些量级其实并不大,大概几千左右。系统通过各式各样的监控工具进行自行监控,造成监控分散,监控告警也未能进行统一管理。


为解决数据分散,该大型银行团队内部自研了一套告警中心,将所有的告警都汇集到统一告警平台,同时考虑数据消费的需要。



2

数据消费的需要


● 上层场景化的数据消费需要更丰富、更全面的数据进行分析


● 各个平台间的事件数据只能相对表层的关联出事件关系


● 仅有的数据无法为后续故障分析、根因定位提供数据基础


针对上面的问题,需要将多源头的性能原始数据进行数据整合,为一个统一的告警中心,进而进行监控管理。


▲ 统一告警中心整体情况


3

统一告警中心技术架构


核心是采用微服务架构,数据源接入上,因为不同数据源告警格式不同,所以做了相应字段映射的标准字段,就可以在页面上进行灵活配置,新的数据源接入后也无需再进行变更和代码修改。消息微服务,通知方式有邮件,电话,自动语音等,不同通知方式对应不同的告警等级。


▲ 统一告警中心技术架构


4

统一告警中心逻辑架构


监控,拆开看为监+控

监:即监测,具备采集数据的能力

控:即控制,具备决策、应急处置的能力


▲ 统一告警中心逻辑架构


5

监控概况


新的监控平台,经过三年的时间从无到有,目前纳管600+业务、2.7w+主机、192w+指标

● 支持常用操作系统

● 支持mysql、oracle等各类数据库

● 支持redis、weblogic等各类中间件

● 支持容器集群的平台级监控

● 网络、存储监控


在策略方面,超过150条全局策略,涵盖各类操作系统、数据库、中间件、存储等。优化了手工下发策略的方式,在采集器下发后,可以自动加上策略,减少日常工作中策略延迟下发或者遗漏下发的情况。


在数据方面,

● 分钟级时延,部分到秒级,告警处理性能达到4000TPS,1.7TB/天

● 直通运维大数据,生成各类告警分析报告

● 与CMDB、运维大数据深度集成,告警丰富和收敛


6

功能点简介


● 活动告警

活动管理页面的主要目的,是针对当前班次未被处理的一些告警时间,管理员可以在上面做各种各样的一些操作,例如认领事件、关掉事件、再报再通知等。


● 压制规则历史

告警压制的规则清单,管理员在网上变更期间,如需压掉某些告警,或降低告警等级,都可以在清单上操作。


 通知日志

对接行内的通知平台,可以追踪这一条告警通知的具体情况,是否通知到位,最后是谁接的电话。


● 告警向上通知

根据告警唯一标识去cmdb找出受此告警影响的系统及告警翻译。


● 故障分析

通过报文交易或应用告警查看哪些系统故障,通过报文还原监控链路判断故障是否处于同一个链路。


● 趋势预测

将时间序列方法与机器学习结合,从而较好的适应数据中易出现波动变化的趋势项,有68%被趋势预测提前预测到。


● 动态基线

根据历史28天的数据,持续形成数据的动态阈值,引入基线告警后,整体告警量减少了47%。其中严重告警减少了38%。


● 告警开单

主要目的是做重要告警的回顾和溯源,做告警流程的闭环管理,通过告警开单的方式让管理员更加积极的反馈监控的整改意见,方便后续改进优化。



7

数据运营:告警治理


监控体系建设过程中,不仅完善监控工具本身的功能,在数据运营上需要进行数据治理,将数据治理形成治理手段、知识库,为后面的智能运维提供数据资产,增强监控的整体能力。


治理目标

1、不漏报

管理层面:是否有要求指标的100%覆盖率的制度,制度是否可以落地。

技术层面:是否从技术上默认100%的覆盖率,功能上是否设计不友好。


2、少误报

大量、反复的误报会让运维人员麻木,进而忽视监控报警,错过了真正的监控事件的处理。应对数据做好统计,发现共性,评估阈值、指标设置合理性。


3、高响应

借鉴互联网针对故障处理提出的1-5-10标准,保障业务主机平稳运行。


4、降数量

减少无用的告警数量,减轻平台及运维人员压力。


▲ 数据运营告警治理的总体目标


8

下一代监控建设目标



改造

与AIOps相结合,对现有监控体系进行精转性,大数据量,大计算量,智能化的改造,利用数字化思维,重塑运维数字世界的监控体系,建立一个全局式、可预测、可观察、可穿透的下一代监控。



挑战

一方面,监控工具繁多,不同层面的监控工具关注点不同,很难有合二为一的集中监控;另一方面,监控系统经过一段时间的沉淀,原有系统的最大价值可能已经不是监控系统技术的本身,而是上面的一些监控配置项,这是替换的一个难点。


03

蓝鲸平台赋能运维建设


基于蓝鲸平台底层服务资源,赋能运维服务化建设。

覆盖全面,支持快速迭代、部署,实现应用功能轻松、快速交付。




业务收益


● 提升用户服务能力和用户体验

统一告警中心结合运维API网管,流程引擎,开发框架,各类运维服务化工具,可以形成合力,发挥出了1+1>2的效果,提升用户服务化工具的服务能力和用户体验。


● 缩短流程服务时间,节省线下沟通成本

约70%的流程类服务能够在数小时内完成,服务发布从数月数天缩短至数小时,同时节省线下沟通成本30%。


● 降低信息不一致、手工运维风险

运维服务线上化,流程自动化,持续降低线下信息不一致的风险,降低手工运维操作的风险。


● 建立起完备的运营服务化生态

各类运营服务标准接入的API接近600个,形成了比较完备的运营服务化生态。



蓝鲸行业说专栏将暂时告一段落

预计将于2023年2月恢复更新,精彩继续


End

往期推荐

腾讯蓝鲸陈睿:蓝鲸研运体系在腾讯内的应用实践

蓝鲸版本再迎新升级,正式推出容器化部署版本V7.0

阅读原文,立即申请试用

文章转载自嘉为蓝鲸,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论