深夜一声惊雷.客户炸了群

原创布衣 2024-08-05

822

深夜一声惊雷，窗外，大雨倾盆而下，雨滴噼里啪啦地打在窗户上，拿起手机一看，2套Oracl RAC 集群同时宕掉了，信息还在不停的刷新着。
急忙打开电脑连上vpn查看日志，同时打电话给上级领导汇报情况。不到10分钟客户群炸锅了。2个主业绩线数据库不可用，想想就汗如雨下。

发现集群日志一直再报crs 盘IO error,当时第一反应是crs盘损坏了。

查看一下多路径的状态，发现所有的路径都是： failed ，当时方向指向了光纤交换机或存储，于是赶快给我们的存储工程师打电话确认，让其确认光纤和存储状态。
果然存储工程师反馈存储界面三块硬盘状态都故障了，大大的“incredible”，三块硬盘一起坏了，这“幸运”职业生涯头一次啊。

联系机房更换了硬盘没一会又故障了，联系厂商需要现场排查问题，考虑到业务不能再等了，于是领导决定启用备库恢复业务，RAC环境继续维修，如果能抢修过来到时候重做DG-RAC再切回来（此次领导与甲方沟通环节略）。于是来了一次Failover操作，幸亏我们每年都会做一次灾备演练，今年上个月演练完。

 alter database disable thread 2;

文章推荐

欢迎赞赏支持或留言指正

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者