暂无图片
分享
leey
2019-06-18
RAC数据库一节点重启

 三节点数据库,其中一个节点突然重启。从时间上看应该是系统日志13:08:18时私网网卡down掉,alertwscard06.log日志看13:08:47.824 心跳检测到丢失导致重启。这个心跳丢失去年到今年出现过多次了,三个节点都出现过。如何判断是网络问题还是数据库的bug?  (去年10月心跳网线、心跳交换机都换了今年又出现了这个问题)

收藏
分享
4条回答
默认
最新
leey
上传附件:log20190618.rar
暂无图片 评论
暂无图片 有用 0
曾令军

Jun 18 13:08:18 wscard06 kernel: igb: eth1 NIC Link is Down

Jun 18 13:08:21 wscard06 kernel: igb: eth1 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None

Jun 18 13:29:35 wscard06 kernel: igb: eth1 NIC Link is Down

Jun 18 13:29:39 wscard06 kernel: igb: eth1 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None

Jun 18 13:29:48 wscard06 kernel: igb: eth1 NIC Link is Down

Jun 18 13:29:51 wscard06 kernel: igb: eth1 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None

Jun 18 13:29:53 wscard06 kernel: igb: eth1 NIC Link is Down

Jun 18 13:29:56 wscard06 kernel: igb: eth1 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None

Jun 18 13:30:35 wscard06 kernel: igb: eth1 NIC Link is Down


主要问题是网卡1down掉,心跳网断开,引起RAC节点驱逐用ifconfig命令检查,如果输出中的“errors”字段是非零值,那么就是硬件(网线,网卡或交换机)有问题。如果前几次一直是wscard06有问题,建议把网卡换掉。有时候会遇到网卡没完全坏,但硬件有问题了,会偶尔宕掉的情况。

这种存在明显操作系统层面报错的,可以排除数据库BUG的原因。


暂无图片 评论
暂无图片 有用 0
leey

好的,谢谢专家指导。wscard06出现重启的次数最多,其他节点也重启过,ifconfig查看eth1上errors确实不是0,能确认是硬件问题就有方向了。因为网卡是集成网卡,一直没换。昨天尝试又重新换了心跳网线,换了交换机端口。再观察,后面再发生这种问题就只能换主板了

暂无图片 评论
暂无图片 有用 0
盖国强
问题已关闭: 问题已经得到解决
暂无图片 评论
暂无图片 有用 0
回答交流
提交
问题信息
请登录之后查看
附件列表
请登录之后查看
邀请回答
暂无人订阅该标签,敬请期待~~
暂无图片墨值悬赏