暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

聚力完成运维百日攻坚,共筑安全生产保障防线

三墩IT人 2024-03-26
121

点击蓝字 关注我们

为积极响应贯彻落实党中央和集团公司决策部署,深入践行“以人民为中心”的发展思想,紧密围绕公司创世界一流“力量大厦”战略,坚持“服务领先”目标,提高服务站位,2023年8月信息技术与数据管理部启动以“筑强亚运盛会保障,守牢客户感知底线”为主题的安全生产100天的攻坚行动,截止2024年3月17日行动已圆满完成。
回顾行动历程,一路走来历经艰辛,但困难和挫折都转化成了我们的能力和收益,包括优化组织分工和技能提升,从故障全自动处置能力、业务自愈应急能力、批量投诉预警能力及投诉智能处置能力等多维度进行全面升级改革,最终实现“安全生产100天”的目标。其中,故障全自动处置能力建设方面,在集团公司的指导下,基于集团深瞳框架成功试点并落地“密集阵”智能体。集团公司深瞳在浙江移动的首创试点项目落地,不仅标志着中国移动大模型在IT运维领域迈出了重要一步,更为未来更多运维智能体应用和落地提供宝贵经验,推动风险防护能力和应急处置能力迈向新的里程碑。

01

搭建密集阵智能体,构建IT系统故障自动驾驶能力

面对日益严苛的用户感知体验要求,现有以人机协同故障处理模式存在对运维专家经验依赖大、日常故障处置效率低等问题,浙江移动结合自身多年SRE运维经验,基于集团公司广州业务支撑中心深瞳智维框架,打造符合故障场景的无人驾驶密集阵智能体。
通过深瞳多智能体交互技术框架,密集阵智能体底层采用通义千问、百川等开源模型训练IT运维领域智能体(Agent)基座,密集阵智能体具备自动匹配运维异常事件解决预案、自动调用预案API完成事件自愈,逐步替代运维专家及一线人员,打造运维领域的智慧运维Copilot。目前浙江公司基于深瞳框架故障处置预案开发提效25%,故障场景下密集阵异常事件无人化处置比例达到近50%,在安全生产100天攻坚行动中成功避免了13起连续性事件升级为重大故障。
密集阵智能体主要包括“深检”与“智驾”两大核心功能:

01

“深检”


主要聚焦于AZ单元和集群巡检、日志分析,包括AZ分片网关成功率和耗时、集群服务健康巡检、应用request巡检、内存OOM-killer日志检查、pod pending日志检查等25项能力。

02

“智驾”


将应用批量扩容、AZ平面智能切流、应用服务智能重启等常用故障恢复手段赋能产品,实现运维的自动化与智能化全面升级,重点攻关故障场景的“无人驾驶”。

02

落地业务自愈应急建设,实现多场景业务自动干预

为进一步夯实故障应急处置能力,信数部BOE运维团队通过平台化支撑业务数据实时交互稽核、差错数据自愈及业务应急平面等能力建设,落地“神策”数据治理平台和“方舟”方舟应急平台,实现用户业务异常数据的快速自动修复,提升业务SLA,2023年业务自愈量达200多万,业务自愈及时率达99.5%,在本次保障活动中成功规避投诉事件近千起 ,故障业务应急的挽回率达81.20%。

01

业务自愈


结合业务全景视图,梳理业务涉及的订单表、错单表、消息沉淀表等八类数据,完成业务数据的建模设计,通过监测程序,对业务过程中异常数据进行无间断补偿自愈,目前神策业务自愈平台覆盖102类业务场景,867个自愈预案 。


02

业务应急


组建全职业务运营研发团队,自主研发打造基于异地多活架构的独立业务应急平面——“方舟”业务应急系统,实现了核心业务“可守底”的应急保障能力。


通过业务黄金指标实时采集、指标异动分析及决策、决策动作执行等关键流程,实现生产系统故障时应急通道1分钟内快速启用,同时在故障解除,黄金指标恢复后应急通道自动关闭,在故障期间有效挽回业务损失,业务损失挽回率达81%,保障客户感知,真正实现业务应急守底功效。


03

构建批量投诉风险预警机制,提高舆情感知力
为达成故障、投诉协同舆情管控能力,在以上故障处置和业务应急自愈能力开发的基础上,完善批量投诉预警能力。目前已完成充值未到账、会员权益无法领取、发票打印失败等共12类核心敏感业务批量投诉预警能力。


通过对历史客服投诉数据精准采集、深入的基线计算,为每类业务设定了科学合理的偏移量阈值与预警,实现系统自动、快速感知客服投诉的异动情况并进行预警提示,提前介入人工进行排查截流,实现与在线、客服同步掌握舆情,降低投诉升级风险,工具自上线以来,未发生以上12类业务相关的批量投诉舆情。

04

“智晓”大模型赋能厅厅通,大幅提升业务投诉支撑效能
在本次安全生产活动中,除了提升应对、规避故障和批量投诉的能力外,为进一步提升一线运维支撑能力,改变运维支撑过程中业务咨询量大、基础问题重复性高、工单处理时间长等问题,信数部全网率先构建大语言模型增强工具“智晓”,应用于厅厅通智能投诉服务平台,开启千人千面客户服务模式。智晓采用了业内主流的RAG方案(基于LangChain框架结合向量数据库),底层采用清华ChatGLM3-6B开源模型和BGE向量化模型,目前已初步完成业务咨询智能问答和处理方案智能生成两大能力投产,月均咨询回复量突破3W+,投诉工单分流超30%,逐步实现投诉服务向AI+服务变革演进。



浙江移动“厅厅通”智能服务平台内置完备的知识库数据集,目前已面向一线、地市支撑、内部运维三大角色分权开放,涵盖个人业务、账管支付、计费出账等八大业务类型,包含业务介绍、业务流程、常见案例等全维度知识目录,为大模型学习行业知识提供了数据支撑,实现运维问题与知识库精准匹配,目前可用性已达85%以上 。


01

业务咨询智能问答


主要面向一线客户,在不推翻厅厅通原有使用习惯的基础上,“智晓”语言模型从“精确回答”转变为“智能交流”,以自然语言对话形式实现对海量业务咨询、常规问题处理的精准回复,降低日常工单提交量。目前月均咨询回复量突破3W+,投诉工单分流超30%。

02

处理方案智能生成


主要面向后台支撑人员、业务维护人员,通过大模型能力对专家经验沉淀、问题修复预案等知识进行总结和方案推荐,帮助支撑人员提升一线工单处理效率,后续将逐步尝试在部分业务场景下的智能修复能力,逐步打造覆盖服务投诉全流程的新型智能助手。

关山未度尘未洗,策马扬鞭再奋蹄,百日攻坚行动的圆满成功,不是结束而是新的开始,未来我们将继续坚守安全生产红线,秉承严谨务实的态度,以科技创新引领发展,持之以恒地推动安全生产工作,以一流服务赢取“人心红利”,为企业稳健前行提供坚实的安全保障,为公司实现高质量可持续发展再建新功。




文章转载自三墩IT人,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论