暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

构建核心业务端到端可信接管能力,实现自智网络L4级场景新突破

三墩IT人 2021-12-31
1273
作者:陈青青、潘亮、傅建新、叶晓龙






浙江移动方舟应急系统,以核心业务场景为切入点,构建端到端的可信接管能力,实现在多跨复杂场景中由机器辅助人向人辅助机器的模式转变,率先为全网探索自智网络L4级场景提供实践案例。





复杂系统带来的运维挑战


随着云原生演进和信创工程的持续深入,诸多行业的IT系统的复杂程度又迎来了新的高峰。
IT系统的泛在依赖问题日益严峻,如网络专业的SDN、主机专业的DCOS、应用专业的ServiceMesh等带来复杂、动态的网状依赖,使得在实际生产故障排查中需要涉及多个专业的跨域协同。而人人沟通过程中的信息传输带宽约束,以及单专业人员对整体系统运行的认知局限,导致很难完成新环境下1-5-10的目标。
IT系统的异构化的问题日益突出,从服务器、数据库、容器平台到中间件、终端外设等,受到客观技术成熟度的影响,势必对原有系统的兼容性和服务SLA造成一定的影响。同时,上层应用系统只能通过架构试图屏蔽底层技术差异,这又进一步增加了IT架构的复杂程度。各类底座的灾难性故障、外围的安全攻击等等不确定因素,进一步加剧了运维管理的复杂化。
同时,业务的快速发展需要IT部门提供更加高质的支撑服务,不论是业务需求的快速迭代交付还是系统运行的稳定性,这就导致复杂系统架构和传统运维体系间的矛盾日益突出。如何确保在终极灾难情况下,依旧能确保企业核心业务场景不中断,被浙江移动的IT蓝军提上了纸牌推演的议程。
因此,浙江移动IT运维团队始终以AIOpsDev为核心理念,全力打造“方舟”应急系统,以核心业务场景为切入,构建端到端的业务守底能力,持续驱动IT运维人机共生的数智演进。


IT运维人机共生的数智演进


根据浙江移动IT团队早年的纸牌推演,面向未来的运维防御体系会逐步向数智化方向演进,“永远让机器先开第一枪”,“从机器辅助人到人辅助机器的转变”,人在数智化防御体系中的角色会逐步冲前台的运行态退向后台的设计态。
国际标准组织TM Forum于2019年5月发布自动驾驶网络项目,其发布的自动驾驶网络白皮书中定义的自动驾驶网络等级如图1所示。

自智网络实施路径


根据对标准定义的解读,按照目前行业的整体水平,无法在短期内实现完全自学习、自演进的L5级突破,因此会长期处于L3和L4级的人机共生的状态。其中L3级跟L4级最主要的区别在于:
■  L3级面向单一领域,L4级面向更加复杂的多跨领域
■  L3级面向局部自治,L4级面向端到端的闭环自治
■  L3级面向系统异常,L4级面向客户体验
L3级自动驾驶的典型场景是局部自愈。浙江移动从2015年就开始建设故障自愈能力,到目前构建了涵盖基础设施容灾自愈、平台网元级自愈、应用服务级自愈、业务数据级自愈的分层自愈体系,月均自愈量50w+,成功率99.7%,实现了L3级自动驾驶场景的规模化应用。
然而,虽然局部自愈能够很好地消除故障隐患,大大降低故障影响面,但面对复杂多跨场景下的故障,单一领域自愈往往难以解决。因此,浙江移动持续探索业务守底能力,实现多跨场景下故障自动预测、自动通报、自动降级、自动补偿的机器主动式可信接管,完成了自动驾驶网络L4级场景突破。


方舟系统的L4级场景探索


复杂系统的在不确定场景下,故障定界分析极其困难,往往难以通过“三板斧”进行快速恢复。而方舟应急系统的设计初衷即是借助数智化能力实现核心业务的端到端的应急守底。其设计理念是分布式系统的BASE理论,即为确保分布式系统的基本可用状态,可以通过中间柔性状态,实现业务数据的最终一致。
而要获得业务应急的更高的实战价值,必须要实现非常高效的可信接管能力,需要解决以下几个难题:
只有实现智能感知业务异常,才能实现快速接管。通过业务量、业务价值、客户感知、公司战略等维度综合考量,圈定核心业务场景,构建秒级的业务黄金指标,通过时序指标的异常检查,实现业务异动的快速感知。

业务黄金指标异常检测


只有实现智能感知受损边界,才能实现降级决策。方舟系统是要对核心业务的端到端过程进行拆解所有的服务依赖,并对服务依赖建立对应的监测以及合适的降级的通道,比如活体认证可以降级为短信认证。由于应急系统提供的是有损服务,有损的边界和程度是根据实际故障的影响边界来进行评估决策。当然,这是一个基于业务运维的专家经验系统,不是单纯的基于样本训练的AI系统。


 应急开户智能降级流程


只有实现智能调度引导一线,才能实现快速引流。由于业务应急通道是完全独立于日常生产通道的,一旦启用需要层层传递给一线人员进行通道切换,十分影响实际运行效率。因此,基于在线活跃用户的实时监测,方舟系统一旦接管业务,一方面自动拉起GOC的故障调度服务,另一方面直接触达提醒所有在线的一线人员,进行业务流量引导。


GOC自动故障调度


一线人员短信自动提醒


只有实现智能补偿异步修复,才能实现人机互信。系统受损期间,方舟系统实时监测服务恢复情况。生产通道恢复后,方舟系统的补偿模块会在事后对业务办理、认证、开通、计费、酬金等环节进行异步补偿修复,确保业务数据的最终一致性。一旦事后验证存在缺陷,则方舟自动会向一线人员推送相关信息,提醒及时回访或回收,从而确保业务的最终安全。

方舟系统自动补偿流程


方舟应急场景的实践效果


通过黄金指标异自动预测,实现业务应急平面1分钟内快速切换并自动引导一线使用,在故障解除后自动关闭应急通道,方舟应急系统已实现端到端的可信接管能力,显著提升了IT运维的生产效能和管理效能。
☞  面向故障总控台,应急系统通过智能识别系统异常,自动新建预警,自动调度,智能降级,提高故障调度效率;
☞  面向SRE,应急系统通过提供业务应急受理通道,有效缓解了生产故障抢修的压力,最大限度为故障抢修赢得宝贵时间。
☞  面向业务部门,应急系统保障核心业务受理不中断,为公司业务的开展保障护航,故障期间业务挽回率可达80%以上,有效挽回公司收入损失。
☞  面向一线操作员和用户,应急系统为核心业务提供了紧急受理的渠道,帮助一线操作员正常开展业务,保障客户“最多跑一次”。

故障期间方舟应急系统与生产系统预测业务量对比


自智场景探索的总结展望


浙江移动基于AIOpsDev和自智网络运维理念,不断探索自智网络L4级场景,通过建设方舟应急系统,在局部领域取得了显著的成效,实现了运维效率大幅提升。然而,因为云原生环境的复杂性,如何实现L4场景的规模化应用仍然是尚未破解的技术难题。未来,浙江移动将继续推进“自智网络”运维数智化转型,不断增强业务端到端的可信接管能力,扩大自智网络L4场景应用规模,为构建智慧中台不择时交付模式提供技术保障。


更多精彩

关注我获得


文章转载自三墩IT人,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论