
最近被易烊千玺和雷佳音霸屏~~~

哈哈,就知道你晓得我说的啥~~
没错~~长安十二时辰

我先剧透一下下(为了让更多的人路转粉,板砖停停停啊~~)
唐朝上元节前夕,长安城陷入危局,长安死囚张小敬(雷佳音饰)临危受命,与李必(易烊千玺饰)守初心、担使命,携手在十二时辰拯救了长安。
作为海关科技国家队的系统人,也一直默默坚守初心和使命,不断鞭策自己,砥砺前行,迎接一个又一个新的挑战。


系统人就是做海关信息化的钢铁卫士,就是724保障信息系统稳定高效,724待命电脑电话不离手,724运维工作不停歇,保障海关信息系统安全稳定运行。
每一份荣誉和成绩背后,都有一段不为人知的故事。



2019年,挑战接踵而来,在业务压力巨大的情况下,系统人守初心、担使命,让党建为项目建设赋能,圆满完成中国首例32节点跨越2000多公里双集群HANA数据库大版本升级和容灾建设。
What? 哈那?哈哈?傻傻分不清楚。别急,往下看,就会了解啦!

2015年,海关选用SAP HANA平台构建了大数据分析和统计服务,逐步支撑海关业务全景展示和信息海关。它就好比海关的靖安司--勘乱平镇曰“靖”,四方无事曰“安”,是整个海关的监控指挥中心和管理中枢,统摄整个海关的业务策防。但在使用多年后年久失修,尤其在“狼卫”侵入后(业务压力大,bug多,频繁重启),要在十二时辰默默完成(不影响业务和数据的情况下,进行跨版本升级改造)。
辰时,制定升级作战方案,制作模拟沙盘。

巳时,是采用小步快跑式升级(升级四次),还是一步到位(打底数据升级两次),团队产生了很大的分歧。共产党员的使命战胜了一切,哪怕牺牲多个周末的休息,增加几倍的工作量,也不能因为升级影响一丝一毫业务的稳定运行和风险。最终决定采用小步快跑式升级,保障每一步操作都可回退。

午时,技术骨干分工协作,协调广东分中心开展升级测试和高仿环境验证,确保每一个操作尽量仿真验证,把风险化于无形。

未时,在广东分中心备用数据库中加载实际生产数据,正式开展一次全面的切换演练,技术人员得到了第一手的切换数据,并将切换过程烂熟于心。

申时,第一次切换。切换到广东分中心后,由于分中心网络环境的配置问题,出现了不稳定的情况,技术人员紧急更换了设备和配置,稳定运行一周,经受住了第一次挑战。

酉时,第二次切换。由于准备充分,切换回信息中心比较顺利,过渡版本1.102.06升级成功,系统运行稳定。

戌时,第三次切换。开展第三次升级前,按计划在广东分中心环境做了带数据测试。在正式升级到最终版本过程中,突然几台服务器无规律重启,技术团队尝试多种方法后均没有解决,经过排查初步找到原因,但解决时间较长,为不影响后续的业务运行,技术团队做了紧急的回退操作。

亥时, 根据问题现象和日志分析,在操作系统、数据库参数配置、分布式文件系统三个问题点一一排查,初步定位可能为操作系统版本升级过程中与其他组件参数配置不匹配造成,因此对广东分中心环境按新步骤进行了重新安装和配置。

子时,第四次切换。切换工作一开始比较顺利,但在最后一步切换完业务后,集群中的服务器又出现了不规律的重启。根据上次的经验,技术团队紧急抓取了更多的日志信息和配置信息,并进行了业务回退。

丑时,上两次的失败,系统人心中弥漫着沮丧、痛苦、不甘甚至是绝望的气氛。所有能查的信息都查了,所有能想到的故障点都进行了尝试,但还是一点线索和方向都没有。关键时刻显本色,每一名党员告诫自己,不能在失败中忘记初心和使命,不能被困难打败。解决了思想上的问题,大伙儿的积极性又高涨起来。
出于对细节的观察,以及平时积累的技术知识,系统人的认真劲和全局性思维发挥了作用,在茫茫海量的数据中进行挖掘,通过大案牍术精密分析,终于发现了一个特别容易忽略的线索,并提出一个大胆却不乐观的可能性,就是IBM网卡底层驱动与现有的高版本操作系统和数据库兼容性存在问题。经过紧急分工协作,紧急调用IBM国外资源,最终找到一个老版本的驱动文件进行替换测试,并进行业务加压测试,问题得到解决。

寅时,第五次切换。不到最后一刻谁也不知道能不能成功,每个技术人员都屏住了一口气,在按下最后一个操作命令的回车后,系统开始运行,压力开始上升,一分钟、两分钟……,随着时间一点一滴的流逝,系统没有出现任何问题,切换终于成功了!

卯时,第六次切换。由于信息中心、广东分中心带宽的影响,业务的处理效率还没有达到最优,因此技术团队在一周后切换回信息中心,并按计划配置了容灾复制软件,提高了资源使用效率和高可用性,整个升级改造工作全部完成。


历时180多个日日夜夜
6次升级
跨越两个软件版本

升级后实时指标计算失败数由一天3000个减少到10个以内,计算时长超过一分钟的指标占比由62%降低到0.4%,效率提升155倍。


编辑:王小奇、崔巍
部分图片来源网络





