暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

莫名其妙的RAC节点重启

白鳝的洞穴 2020-07-02
956
客户的一套新系统的RAC两个节点中有一个经常莫名其妙的重启,在上线后的两天里,平均每天宕机五六次,而且日志里没啥有用的信息,从messages里也看不出什么头绪。刚刚听到这个消息,我立马想到了是不是因为VM的问题导致了节点重启。由于重启的节点上经常连ALERT LOG都丢失了,所以我们从另外一个节点去查找蛛丝马迹。

从这上面看,节点1发现了另外一个节点死掉了,于是做了reconfiguration。如果是这样,我们就需要把更多的精力放到查找节点1死掉的原因上了。在对messages文件进行仔细分析后终于发现了一点有用的信息

既然是硬件错误,那么就很可能和服务器重启有关了,因为记录了check events log,所以我们马上找出了这个日志:

从上面的日志可以看出,这是一个和DATA CACHE有关的错误,CPU从Data Cache里读取数据出现了错误。通过STATUS 8c00004000000114的后四位0X0114可以定位是IO错误。该错误的原因是PCI-E插槽中的某个卡存在问题或者没有插好。由于是新上线的系统,客户决定让服务器厂商更换服务器来解决该问题。
文章转载自白鳝的洞穴,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论