rac心跳机制导致重启的问题
rac心跳机制包括网络和磁盘心跳,如遇节点间心跳超时(可能是由于服务器hang住或者网络出现问题),是否会重启非主节点的服务器?
收藏
复制链接
微信扫码分享
在小程序上查看
分享
4条回答
默认
最新
网络心跳:ocssd.bin进程每秒钟向集群中的各个节点通过私网发送网络心跳信息,以确认各个节点是否正常。如果某个节点连续丢失网络心跳达到阀值,misscount(默认为30秒,如果存在其他集群管理软件则为600秒),集群会通过表决盘进行投票,使丢失网络心跳的节点被主节点驱逐出集群,即节点重启。如果集群只包含2个节点,则会出现脑裂,结果是节点号小的节点存活下来,即使是节点号小的节点存在网络问题。
磁盘心跳:ocssd.bin进程每秒钟都会向所有表决盘(Voting File)注册本节点的状态信息,这个过程叫做磁盘心跳。如果某个节点连续丢失磁盘心跳达到阀值,disk timeou(一般为200秒),则该节点会自动重启以保证集群的一致性。
评论
有用 0这里所讲的节点重启,是指集群服务重启还是服务器重启?如果服务器hang住,可以理解为不能对磁盘进行读写,磁盘心跳超时问题就一定会重启服务器?另外根据mos文档指出,11.2.0.2之后的版本,节点驱逐并不一定会导致服务器重启。
评论
有用 0这个叫rebootless restart, 从11.2.0.2开始,当集群中的某个节点被驱逐(例如丢失网络心跳)或者该节点的ocssd.bin出现问题时,集群将不会直接重新启动该节点,而是首先尝试重新启动GI stack来解决问题,如果GI stack不能够在指定的时间内(short disk I/O timeout)完成graceful shutdown,才会重新启动节点。
评论
有用 0回答交流
提交
问题信息
请登录之后查看
邀请回答
暂无人订阅该标签,敬请期待~~
墨值悬赏

