
导语
蓝鲸行业说是腾讯蓝鲸全新策划的落地实践系列直播专栏,以“行业”为主线,邀请来自各行业的资深运维主讲,分享原厂实践。我们希望通过一场场有料有深度的直播分享活动,让运维圈的小伙伴们进行深度的交流和学习,将经验应用于实际工作场景中。
某大型银行的运维服务化,也叫场景化运维,目的是让用户能够一站式的完成一件事情。结合该银行的统一监控告警中心平台的建设,来看看金融行业的运维服务化该如何做。
01
运维服务化转型历程
1
运维痛点亟待解决,转型升级
自动化率低
业务快速增长,运维种类多样且分散,自动化与手工交错,复杂且低效。
用户体验不佳
线上化、数字化取得了阶段性进展,但用户体验不佳。
一体化建设不成熟
运维一体化建设不成熟,缺乏一体化的运维平台。
2
运维服务化的目的
建设统一运维平台、场景化运维、提升工作效率。
3
引入蓝鲸平台,推进运维技术蓝图落地
在2018年,该大型银行内部系统运维中心围绕“提产能、促转型”的总体目标,完成了运维技术蓝图的规划设计。为推进运维技术蓝图的落地,于2019年4月启动了统一运维平台建设项目,引进了腾讯蓝鲸平台。

▲ 蓝色模块为一期完成的项目规划图
依托蓝鲸平台的SaaS开发框架、监控平台、配置管理、作业平台、API网关、用户管理等建设运维服务化。该大型银行自2020年2月起启动运维服务化筹建工作,经过两年多的建设,到2022年9月份,已经完成了95个常用运维服务发布。
4
三大类运维服务
IT基础设施服务
数据中心作为基础设施提供方,为IT提供机房基础环境、操作系统、数据库、存储、网络等支持。
运维流程管理
数据中心作为生产管理者,以流程的方式对外服务。
应用系统运维服务
数据中心作为应用运维方,提供应用系统变更、应急、取数等维护支持。
这三类应用服务,集成在该大型银行的统一运维门户Web页面上,上面不仅有运维服务,同时也是该大型银行数据运维中心的建设方向,主要是围绕生产调度、应用运维、系统运维、数据库运维、网络运维、存储运维、设备运维、机房运维、分行运维九大领域来建设。
在移动端界面,“智慧运维”作为统一运维门户的移动端应用,同样拥有审批待办、运维服务、全部应用三个部分,集成在行内的一个通讯软件上,流程审批、紧急告警等情况,可以在移动端随时查看并进行一些快捷操作。各模块功能和统一运维门户对应。
在用户的运营上,为用户提供行内论坛,方便用户的想法、意见建议公开讨论,根据用户的实际诉求,进一步优化运维服务,提升用户体验感、满意度。
02
统一告警中心建设
1
旧监控的不足
在旧监控上,纳管的操作系统、数据库、中间件这些量级其实并不大,大概几千左右。系统通过各式各样的监控工具进行自行监控,造成监控分散,监控告警也未能进行统一管理。
为解决数据分散,该大型银行团队内部自研了一套告警中心,将所有的告警都汇集到统一告警平台,同时考虑数据消费的需要。

2
数据消费的需要
● 上层场景化的数据消费需要更丰富、更全面的数据进行分析
● 各个平台间的事件数据只能相对表层的关联出事件关系
● 仅有的数据无法为后续故障分析、根因定位提供数据基础
针对上面的问题,需要将多源头的性能原始数据进行数据整合,为一个统一的告警中心,进而进行监控管理。

▲ 统一告警中心整体情况
3
统一告警中心技术架构
核心是采用微服务架构,数据源接入上,因为不同数据源告警格式不同,所以做了相应字段映射的标准字段,就可以在页面上进行灵活配置,新的数据源接入后也无需再进行变更和代码修改。消息微服务,通知方式有邮件,电话,自动语音等,不同通知方式对应不同的告警等级。

▲ 统一告警中心技术架构
4
统一告警中心逻辑架构
监控,拆开看为监+控
监:即监测,具备采集数据的能力
控:即控制,具备决策、应急处置的能力

▲ 统一告警中心逻辑架构
5
监控概况
新的监控平台,经过三年的时间从无到有,目前纳管600+业务、2.7w+主机、192w+指标
● 支持常用操作系统
● 支持mysql、oracle等各类数据库
● 支持redis、weblogic等各类中间件
● 支持容器集群的平台级监控
● 网络、存储监控
在策略方面,超过150条全局策略,涵盖各类操作系统、数据库、中间件、存储等。优化了手工下发策略的方式,在采集器下发后,可以自动加上策略,减少日常工作中策略延迟下发或者遗漏下发的情况。
在数据方面,
● 分钟级时延,部分到秒级,告警处理性能达到4000TPS,1.7TB/天
● 直通运维大数据,生成各类告警分析报告
● 与CMDB、运维大数据深度集成,告警丰富和收敛
6
功能点简介
● 活动告警
活动管理页面的主要目的,是针对当前班次未被处理的一些告警时间,管理员可以在上面做各种各样的一些操作,例如认领事件、关掉事件、再报再通知等。
● 压制规则历史
告警压制的规则清单,管理员在网上变更期间,如需压掉某些告警,或降低告警等级,都可以在清单上操作。
● 通知日志
对接行内的通知平台,可以追踪这一条告警通知的具体情况,是否通知到位,最后是谁接的电话。
● 告警向上通知
根据告警唯一标识去cmdb找出受此告警影响的系统及告警翻译。
● 故障分析
通过报文交易或应用告警查看哪些系统故障,通过报文还原监控链路判断故障是否处于同一个链路。
● 趋势预测
将时间序列方法与机器学习结合,从而较好的适应数据中易出现波动变化的趋势项,有68%被趋势预测提前预测到。
● 动态基线
根据历史28天的数据,持续形成数据的动态阈值,引入基线告警后,整体告警量减少了47%。其中严重告警减少了38%。
● 告警开单
主要目的是做重要告警的回顾和溯源,做告警流程的闭环管理,通过告警开单的方式让管理员更加积极的反馈监控的整改意见,方便后续改进优化。

7
数据运营:告警治理
监控体系建设过程中,不仅完善监控工具本身的功能,在数据运营上需要进行数据治理,将数据治理形成治理手段、知识库,为后面的智能运维提供数据资产,增强监控的整体能力。
治理目标
1、不漏报
管理层面:是否有要求指标的100%覆盖率的制度,制度是否可以落地。
技术层面:是否从技术上默认100%的覆盖率,功能上是否设计不友好。
2、少误报
大量、反复的误报会让运维人员麻木,进而忽视监控报警,错过了真正的监控事件的处理。应对数据做好统计,发现共性,评估阈值、指标设置合理性。
3、高响应
借鉴互联网针对故障处理提出的1-5-10标准,保障业务主机平稳运行。
4、降数量
减少无用的告警数量,减轻平台及运维人员压力。

▲ 数据运营告警治理的总体目标
8
下一代监控建设目标
改造
与AIOps相结合,对现有监控体系进行精转性,大数据量,大计算量,智能化的改造,利用数字化思维,重塑运维数字世界的监控体系,建立一个全局式、可预测、可观察、可穿透的下一代监控。
挑战
一方面,监控工具繁多,不同层面的监控工具关注点不同,很难有合二为一的集中监控;另一方面,监控系统经过一段时间的沉淀,原有系统的最大价值可能已经不是监控系统技术的本身,而是上面的一些监控配置项,这是替换的一个难点。
03
蓝鲸平台赋能运维建设
基于蓝鲸平台底层服务资源,赋能运维服务化建设。
覆盖全面,支持快速迭代、部署,实现应用功能轻松、快速交付。

业务收益
● 提升用户服务能力和用户体验
统一告警中心结合运维API网管,流程引擎,开发框架,各类运维服务化工具,可以形成合力,发挥出了1+1>2的效果,提升用户服务化工具的服务能力和用户体验。
● 缩短流程服务时间,节省线下沟通成本
约70%的流程类服务能够在数小时内完成,服务发布从数月数天缩短至数小时,同时节省线下沟通成本30%。
● 降低信息不一致、手工运维风险
运维服务线上化,流程自动化,持续降低线下信息不一致的风险,降低手工运维操作的风险。
● 建立起完备的运营服务化生态
各类运营服务标准接入的API接近600个,形成了比较完备的运营服务化生态。
蓝鲸行业说专栏将暂时告一段落
预计将于2023年2月恢复更新,精彩继续
End

往期推荐
腾讯蓝鲸陈睿:蓝鲸研运体系在腾讯内的应用实践
蓝鲸版本再迎新升级,正式推出容器化部署版本V7.0
点
阅读原文,立即申请试用




