2021年12月30日,浙江移动的SRE团队协同中国信通院测试工程师顺利完成了业界首个分布式系统保障能力评估。评估共涉及124个能力项,全方位覆盖了浙江移动核心IT系统的稳定性保障体系。这标志着业界首个稳定性保障能力评估的正式落地。

标准背景
随着各领域数字化转型的推进,为提升信息系统能力,企业信息系统逐渐向分布式转型,规模和复杂度也爆炸式提升,各类服务故障事件频发。如何防范分布式系统故障、提升分布式系统稳定性,成为机构业务成败的核心问题。
9月1日正式实施的我国关键信息基础设施安全保护重要法规《关键信息基础设施安全保护条例》对关键信息基础设施的相关保障工作提出了更高的要求。在此背景下,中国信通院组织进行了分布式系统稳定性保障评估工作,评估过程依据BDC 82-2021《分布式系统稳定性保障能力分级要求》。该标准已成功立项CCSA(中国信息通信标准化协会)行业标准,标准规范了分布式系统稳定性保障工作全流程能力要求,包括但不限于设计与开发流程管控、测试与评估、监控与应急、基础设施保障、管理保障等关键措施。

这些稳定性保障措施的实践有助于识别并控制系统内部隐患,在故障发生时维持服务的连续性并快速排查故障,最终达到延长系统的平均无故障时间(MTTF),降低系统平均维修时间(MTTR)的目的。
浙江移动的稳定性实践
浙江移动在数字化转型和云原生架构实践方面一直保持着先行先试的创新探索实践。2018年完成核心系统全面容器化、微服务化,截止目前容器规模已经突破十万级。云原生环境下分布式系统的高复杂度特性凸显,给系统运行稳定性带来巨大挑战。
同时,为助力在诸多“卡脖子”的关键领域尽早实现技术突破,做好未来极限情况下的技术储备,浙江移动全面推进多个技术领域的信创实践,从服务器、数据库、容器平台到中间件再到终端外设,导致在多层异构的环境中核心系统的兼容和稳定面临极大的冲击。
浙江移动多年来坚持AIOpsDev的运维转型理念,以SRE为破局转型,持续提升SRE团队的工程创新能力,沉淀出一套多维度、全周期、强实践的稳定性体系。可分为故障抵御、上线发布,交付护航三大体系,贯穿了系统从架构设计到线上治理的整个周期,和信通院的行业标准不谋而合。

1)故障抵御体系
稳定性最直接的反应就是故障抵御,浙江移动建设SRE塔台,实现网元、平台、应用、业务各层数据的融合融通。以1分钟发现,5分钟定位,10分钟恢复为目标,通过各类运行场景的持续建模,目前已完成L3级别的规模化应用,并实现了局部场景下L4级自智。

2)上线发布体系
浙江移动在蓝绿灰度发布的基础上,实现了基于弹性沙箱的灰度发布。融合全容器运行环境的弹性伸缩能力和精准的业务流量控制能力,支撑了从前台应用、中台服务、后台任务的全链路灰度验证能力。同时,可以从地市、工号、手机号等不同维度在生产平面和沙箱平面间做灵活调度,实现真实用户的分级充分测试,并保障系统在发布期间的逃生能力。

3)交付护航体系
在整个系统周期之始,需要把稳定性需求融入到架构设计中。浙江移动结合纸牌推演和混沌演练,对每项架构点做反脆弱的失效影响分析(FEMA)和优化,确保项目入网前基本完成重点风险的提前布防布控。同时,基于沙箱环境,开展日常的红蓝对抗演练,确保始终对运维各类应急预案的反腐治理能力。

浙江移动作为行业内数字化转型的先锋,在云原生环境下分布式系统的稳定性保障上有丰富的探索和实践经验。此次测评,对于浙江移动后续的体系演进、机制创新、场景实践、流程优化上提出了新的思路和指导意见,同时,也更加坚定了浙江移动以数智化为核心的运维转型信心。
中国信通院稳定性评测体系
分布式系统稳定性保障能力评估项目现已加入中国信通院稳定性评测体系,欢迎大家参与。

联系人:王超伦
电话:13011807607
邮箱:wangchaolun@caict.ac.cn




