暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

江苏电信基于云眼创新工厂打造“智慧调度工具”,提升IT监控与调度效率

中国电信云荐社区 2021-05-08
1221

一、创新背景

1、集团云眼平台每天会下发各类告警到省内,告警指标多,部分指标偶尔抖动并未达到故障级别,因为缺少告警指标分析工具,导致系统风险被运维人员忽略,从而引发系统故障。

2、集团云眼平台告警是通知省IT监控中心一线值班人员,无法根据不同监控场景,直接通知省内二线运维人员。省内值班人员一旦出现变更,无法自行配置告警接收人员,需要集团协助调整,耗时较长。
3、省IT监控中心值班人员在接收集团云眼平台告警后,需要通过省内监控调度群或者电话通知专业二线人员,故障调度流程较长。
4、集团云眼平台告警方式为短信,往往容易出现因省内运维人员接收短信过多,遗漏某个重要告警,延误告警处理的最佳时间,导致系统故障,影响用户感知。

二、创新模式

1、云眼创新工厂

(1)汇聚全网告警数据,为江苏提供本省短信告警信息、原子告警信息。
(2)通过ES提供告警清单数据,通过kafka接口供江苏下载结果数据。
(3)提供Java相关版本和组件环境,用于获取ES数据加载到共享kafka中。
(4)提供grafana可视化工具。
2、江苏公司
(1)打通省内主机到集团kafka集群网络白名单。
(2)在创新工厂开发相关功能分析数据,对共享数据进行分析处理数据加工,并将结果加载到共享kafka。
(3)开发本地应用进行展现,提升故障调度效率。

三、创新方案

1、省内基于集团云眼平台提供的端到端业务监控、DCOOS能力调用监控、两级网络拨测监控、PaaS组件告警数据,通过部署在集团创新工厂的调度工具,实时将集团云眼平台短信告警数据、原子告警数据同步到省内平台,通过grafana打造告警指标统计报表,辅助日常运营分析。

2、梳理集团云眼平台不同监控场景,省内自行配置告警接收人员,将致命告警内容自动化推送到各专业二线运维群,避免因重要告警发给少数人而被忽略。
3、通过对接省内电话外呼监控能力,实现致命告警同时外呼到省IT监控中心值班台及省内专业二线,确保致命告警不被遗漏,缩短故障调度流程,提升了告警调度的及时性,降低故障影响面,提升客户感知。

四、运营成效

省内基于云眼平台创新工厂,完成IT监控中心“智慧调度工具”上线。目前已经将 “集团直充系统/业务/串联成功率”、“集团PaaS组件致命告警”等场景纳入智慧调度监控,后续将通过运营逐步将DCOOS监控、端到端业务监控等重点场景纳入自动化监控与调度。

“智慧调度工具”自上线以来,共触发自动化调度3次,运营成效显著,主要体现在以下2个方面:
1、缩短了省IT监控中心值班人员调度专业二线的时长,一线人员将主要精力放在跟踪业务指标恢复情况,及时向集团IT监控中心及省内领导汇报故障进展,并做好内外部客户解释工作,避免因系统故障影响客户感知。
2、压降了专业二线故障处理时长,提升了业务30分钟恢复及时率,减少客户对于故障感知。自2021年2月份运营以来,江苏IT系统总体运营平稳,未发生一起影响外部感知故障。

五、智慧调度案例

2021年3月17日因计费接口机出现共享池碎片太多,导致硬解析太高,影响集团直充日志上传及时率,出现集团直充场景串联成功率告警:【端到端日志采集串联成功率告警】03月17日11:35-11:40监测发现,江苏集团直充(SGW发起)的串联成功率为0.08%,低于严重告警阈值90%。【集团AIOPS】。省内IT监控中心依托集团“云眼平台”与“智慧调度工具”,开展IT系统监控与故障调度:

1、江苏IT监控中心一线值班人员,基于集团云眼平台实时跟踪监控指标恢复进展。

图1 云眼平台
2、通过事先已配置好的告警策略与专业二线接收人员,基于江苏IT监控与调度平台解析云眼平台告警事件,实现集团告警自动化推送并调度专业二线。

图2 江苏IT监控与调度平台
3、通过电话外呼及微信监控调度群等通知方式,自动化将集团云眼平台告警推送到专业二线运维人员,减少一线值班人员与专业二线之间调度时间,快速恢复端到端日志上传及时率,实现告警快速处理,保障系统稳定运营。

图3 智慧调度记录

六、全网推广价值

1、集团侧有全网告警数据清单,通过将数据共享到创新工厂,全网可以直接使用。基于集团提供原子告警信息,省内进行分析优化,可共享给集团进行告警策略优化与全网推广。

2、全网可以依托“智慧调度工具”方案,提升重要告警调度的及时性,降低故障影响面,提升客户感知。
3、基于电话外呼及微信群自动化告警监控,减轻各专业运维压力,降低企业人工成本。
文章转载自中国电信云荐社区,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论