rac心跳机制导致重启的问题

原创问题归档 2019-04-14

2851

问题描述

rac心跳机制包括网络和磁盘心跳，如遇节点间心跳超时（可能是由于服务器hang住或者网络出现问题），是否会重启非主节点的服务器？

节点重启是指集群服务重启还是服务器重启？如果服务器hang住，可以理解为不能对磁盘进行读写，磁盘心跳超时问题就一定会重启服务器？另外根据mos文档指出，11.2.0.2之后的版本，节点驱逐并不一定会导致服务器重启。

专家解答

网络心跳：ocssd.bin进程每秒钟向集群中的各个节点通过私网发送网络心跳信息，以确认各个节点是否正常。如果某个节点连续丢失网络心跳达到阀值，misscount（默认为30秒，如果存在其他集群管理软件则为600秒），集群会通过表决盘进行投票，使丢失网络心跳的节点被主节点驱逐出集群，即节点重启。如果集群只包含2个节点，则会出现脑裂，结果是节点号小的节点存活下来，即使是节点号小的节点存在网络问题。

磁盘心跳：ocssd.bin进程每秒钟都会向所有表决盘（Voting File）注册本节点的状态信息，这个过程叫做磁盘心跳。如果某个节点连续丢失磁盘心跳达到阀值，disk timeou(一般为200秒)，则该节点会自动重启以保证集群的一致性。

这个叫rebootless restart, 从11.2.0.2开始,当集群中的某个节点被驱逐（例如丢失网络心跳）或者该节点的ocssd.bin出现问题时，集群将不会直接重新启动该节点，而是首先尝试重新启动GI stack来解决问题，如果GI stack不能够在指定的时间内（short disk I/O timeout）完成graceful shutdown，才会重新启动节点。

oracle

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者

rac心跳机制导致重启的问题

问题描述

专家解答

评论