暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

基于时序数据库构建监控大盘,实现轻量级全系统健康度可视化展示能力

开源节流 降本增效 2020-12-11
2753


江苏

公司

基于时序数据库构建监控大盘,实现轻量级全系统健康度可视化展示能力

背景介绍

江苏公司一级boss系统目前正处于x86云化架构演进过程,自19年开始持续2年。架构层面演进过程中存在多套架构并存,且新架构采用云化分布式部署。最终导致业务接入逻辑复杂度提高。架构多样化、物理节点上百倍增长。导致系统问题的发现难度增大,运维压力呈几何倍增长。问题恢复时常不可控。如按照传统的运维方式跟进,面临人力成本呈几何倍增长现象。

一级boss业务系统承接集团公司枢纽业务和省公司交互的关键系统,承担了敏感和重要的考核指标,在新的运化架构下,需要快速定位问题、快速恢复问题。能够实时监控系统健康度用于分析系统运行趋势。因此在系统运营工具上和能力上必须重点优化提升。

能力提升措施:建设一级boss业务健康度指标体系

从系统全局考虑,对一级boss业务系统进行健康度指标拆分和体系化建设。结合系统层级划分对健康度指标分层,分级管理。形成可度量的指标体系(kpi)

形成自动化采集能力,制定kpi的流量阈值和自动采集口径。基于阈值测算和匹配,实时探测系统运行成功率情况。

形成可视化监控大盘能力,对健康度指标实现趋势曲线展示,超阈值告警。重点及核心业务的监控大盘能力等。分层分级实时显示监控指标内容。使系统健康度可视化。

1

健康度量指标体系化

针对应用接入层按照业务层级划分,将系统运行指标抽象为4层应用架构体系,分别为网关层、业务层、中转层、数据库层规划。形成4层kpi体系。

2

指标自动采集能力

系统级运行过程指标需要实时采集,新增指标采集体系能力建设,支持配置原子采集口径,结合流程化配置采集能力,实现指标的自动化指标入库能力。用工具替代人工巡检。历史指标固化,做到历史问题可复现,最新动态实时记录。

采集能力管理流程

任务配置能力:

任务原子示例:

业务原子流程编排能力:

3

构建时序数据库监控大盘能力

系统运营指标如何实时展示给运营人员,提高问题定位,实时各个层次监控主机、数据库、业务数据,快定定位问题节点所在,直接显著提升运维效率。从页面大盘可以实时观察到当前业务流量、超时率、最大时长等业务健康度指标。同时当系统出现异常波动时,在性能曲线会有明显体现。用户系统级的快问题定位。

监控大盘展示能力:

主机层监控(用于定界系统组件是否出现异常波动):

数据库监控(体现及数据库的标准性能耗时是否健康):

业务监控(实现业务指标的统一展示如成功率,最大耗时等):

优化成效:持续改进,长效提升

持续运行3个月数据统计,在问题定界、日常循环、变更发布环节效率都有极大提升:问题定位时长从原来的30分钟缩短到5分钟内识别问题并确定问题根因;日常巡检实行界面化自动巡检,巡检周期由4小时缩短为0.5小时;例行变更上线时长工具化支撑,变更时长由5小时缩短为1.5小时,同时平均2人天缩短为1.5人天。

①   工具替代人工,界面化巡检,使运维成本降低平均4小时提高至0.5小时。

②   变更工具化操作,预制发布流程标准化操作,使发布效率由5小时提升至1.5小时,平均人力节省0.5人/天。

③   问题定界由页面入口快速确定故障根因,问题识别效率由30分钟提升至5分钟内。

④   综合运维效率节省7-10人天/月,年化效益节省60W/年。

投稿单位:江苏公司

关注微信公众号

“开源节流 降本增效”

随时关注小伙伴们的动态!

有好建议、好做法、好素材,可整理发送至jbzx@chinamobile.com

文章转载自开源节流 降本增效,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论