暂无图片
暂无图片
10
暂无图片
暂无图片
暂无图片

就在日落以后——千亿决算背后的数据库赌局

原创 多明戈教你玩狼人杀 2025-06-17
757

极美

山 忽隐忽现
海市蜃楼是沙漠谎言
天 衔接水面
我的地平线越缩越远

故事要从2019年说起,彼时的我,刚刚完成了个人职业生涯涨幅最高的一次跳槽。

人总是在这时候会飘,因为之前压了四年没有升职。当然,职责范围也大了很多,从一开始只负责Oracle数据库,到SQL Server/MySQL都要负责,Oracle作为备岗存在。

值得一提的是,这是一家每年财务营收以千亿为单位计算的庞然大物,光是其中一个业务线销售额就800多亿,对于所有这样的财务体量,公司最终采购的是Oracle EBS+Exadata的组合。

这个组合的好处是,强耦合,从应用到数据库到操作系统到硬件,都是Oracle一家的,无论是技术支持还是售后服务,都不会出现踢皮球,从6月入职到年底,已经经历过半年结算和两个季度结算,即便这台一体机已经服役了3年多,公司实体规模大幅增长,仍然能够平滑完成。

而到了12月,就是公司年度决算,根据财务同事以及信息技术部同事们的反馈,这将是一个很大的挑战。不得不说,Exadata是一个贵而美的产品,如此巨大的并发量,同时还有海量数据做财务报表,仍然可以撑住。

财务决算的前三天,一切在平滑之中度过,仿佛一切烦恼都不存在。过往的烦恼,真的存在吗?


未知

我追 我推 我被
困在肢体范围
生活琐碎 捣碎 粉碎
是有或没 不再绝对

12月25日,圣诞节,4点钟我感觉有些头晕,考虑到即将到来的晚高峰,于是和领导请假提前回家。踏着寒冬的日落,回到家里。

然而刚到家躺下,领导的电话就来了,财务数据的Oracle出现了问题。等我赶到的时候,其他DBA同事反馈,已经无法启动实例,而且看起来是ASM服务的问题。

通过后台看到,在过去的24小时之内,Exadata的三个存储节点,诡异地故障了两个。有时候这事情就是这么倒霉,年结期间,财务系统宕机,3个存储节点短期内宕机2个。而且还是在我离岗的时候宕机了第二个。

作为责任人,我责无旁贷,也许两个小时前,还在洋洋得意的我,当下感觉到的只有刺骨的寒冷,怎么和部门领导交代,怎么和业务部门交代,是不是自己职业生涯也就要断送,都是未知数。

当晚,Exadata售后服务组的大哥就赶到了京郊的数据中心,两个存储节点,其中一个在他的努力之下修复,另一个却因为CPU硬件的问题没办法处理。软件问题,作为DBA我们都可以去想办法,但是硬件问题,除了更换备件,也做不了别的东西。

数据库服务启动了,然而仍然面临一个巨大的潜在风险,一旦另一个存储节点再出现故障,只能再度抓瞎。然而作为物理Standby的另一台Exadata,一个是配置只有主库的一半,再就是那上面的配件早就已经更换更多次,可靠性只能更糟糕。

事情发展到今天,已经不再是我一个人能左右的了的,更像是在坐牢等待刑满释放。


梦境

我在 日落到来
遥望太阳 潜入深海


这种级别的事故,肯定是要上报,部门领导和财务领导都得知了。

此时部门领导做出了如下安排:

1. 公司办公室内,24小时有人值守,我和另一个同事轮流值班;
2. 京郊数据中心,安排正编岗位驻守,有问题随时处理;
3. Oracle原厂工程师留在京郊数据中心;
4. 集成商调配一台同样型号的Exadata,紧急情况拔下配件替换我们生产;
5. 每隔1小时群里同步是否有问题;
6. Oracle原厂尽快安排,修复最后那个故障的存储单元,并且将曾经故障的那个排查好消除潜在风险。

不能不说,部门领导的魄力和人脉在此时管用了,五件事情在24小时内全部就位。这也给我好好上了一课。但是问题的核心仍然需要时间解决,按照Oracle原厂的反馈,从调配到安装完成,最少要3-5个工作日。

也就是说,在未来的一周左右的时间里,事关公司千亿级别的财务决算,我们所有人都在进行一场豪赌,赌这段时间,硬件不会再有问题。我如同在梦里一样,嘈杂的声音在耳边反复,我想去捕捉又什么都捕捉不到。同时还有一种无力感,似乎当下的我,除了盯着监控,又什么都做不了。

日落,看着夕阳下晚高峰的人群,我不知道自己何去何从,也不知道一周以后,自己还会不会坐在这里。


生活

等待季节更改
年复一年 行程没改

2020年的元旦,我在机房值守中度过。没有了跨年夜的兴奋,而焦灼的情绪也在这几天慢慢消退。

我在机房所在的院子里,隔着栅栏看着外面的人流,不自觉哼起孙燕姿的歌词:我遇见谁会有怎样的对白,我等的人她在多远的未来,我听见风来自地铁和人海……

在那一刻,我甚至觉得,回归往日平淡的生活,在当下来说,是一种奢望。

元旦之后的第一个工作日,Oracle终于送来了备件,那台故障的存储服务器终于得以修复。

日落以后,深夜之中,我们将它重新上架开机,进入ASM提示行,我重新对ASM磁盘组做rebalance,确保三个节点的存储条带化能同步。我甚至能感觉到自己的手在抖,这场赌局的最后一刻,就此到来。

数据量太大导致了Rebalance做了很久,几个小时里我一直祈祷业务部门根据提前的通知,不要做什么太大的动作,但是我也很清楚,业务部门有自己的压力,总要做好意外的准备。

当操作提示完成的那一刻,我悬着的心终于落地,千亿级别的数据库赌局,是不是赌赢了?我看了一眼旁边的原厂工程师,他脸上也有一点轻松,连续两周的驻守,让他也十分疲惫。

我和他聊起生活的细节,他和我说,快过年了,媳妇还等着他先送回老家,我说我也有一周没回家了,也想早点回去,狠狠睡一觉,打打游戏。


人物

尽管被夜取代
不表示光不存在

备件换完的第三天,我回到家里,第二天再回到办公室,甚至有了陌生感。年终决算已经完成,业务部门固然有诸多不满,但是在现实问题面前,又只能妥协。

而另一个中途修复的存储节点最终也找到了问题核心,也同样是硬件故障,Oracle原厂另一位工程师将会周五晚上与我一起去机房更换配件,这件事请就算阶段性结束了。更换完备件,重新做ASM的rebalance,此次的我再也没有了上次的紧张感。

第二天,走出数据中心大院,早晨的阳光有点刺眼,连续三周昼伏夜出的日子似乎就这样结束了。

三周时间里,仿佛是一幕群像剧,有领导乾纲独断的历程,有原厂工程师兢兢业业的支持,有业务部门往复的需求,有部门同事们尽心竭力的支持。这一刻觉得自己真渺小,在大家帮助下,才能把这场事故彻底弥合。

当然,事后的报告少不了,从技术上的复盘,到监控和响应级别的调整以及业务方面的投诉,也还要继续处理,此时已经是2020年的1月中旬。此刻的我还不知道,未来的半个月会发生什么。

“起初没有人在意这场灾难,这不过是一场山火、一次旱灾、一个物种的灭绝、一座城市的消失,直到这场灾难和每个人息息相关”,流浪地球的开场白,竟然一语成谶,在人类命运共同体面前,个人的喜怒哀乐,又是如此渺小。


Encore

你的爱让我明白
视线之外 无形同载

事情到此结束了吗?并没有,领导很快找到业务部门——要预算。

服务器已经进入第五年,超龄服役阶段,未来故障只会预期更多,你们也不想来年财务决赛再出问题吧,打钱,买新设备。

就这样,这个项目的负责人成了我,也是给我一次弥补自己的机会。3月立项,4月签约,5月服务器上架,6月安装环境,7月UAT,8月演练,9月交割。

就在日落以后,夏日的晚上,原厂工程师开始了EBS和Exadata的交割,这场交割足足持续了22小时,直到下一个日落以后。

伴随着2020年用新设备年终决算的丝滑,一切尘埃落地,我也在半年后离职,淡出大家视线。

钱真是个好东西,难怪人人都爱。只是这世界上,哪有什么真正的性能不足,只要肯投入,终究可以解决,只不过这个成本投入,却又是大多数公司所难以承担的。



这场千亿决算的赌局,作为往事慢慢被淡忘,曾经百人规模的部门,也伴随着公司的沉浮最终只剩下个位数字。
就在日落以后,仿佛什么都没发生过。

最后修改时间:2025-06-17 13:25:29
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论