0

rac心跳机制导致重启的问题

问题归档 2019-04-14
308
摘要:rac心跳机制包括网络和磁盘心跳,如遇节点间心跳超时(可能是由于服务器hang住或者网络出现问题),是否会重启非主节点的服务器?节点重启是...

问题描述

rac心跳机制包括网络和磁盘心跳,如遇节点间心跳超时(可能是由于服务器hang住或者网络出现问题),是否会重启非主节点的服务器?

节点重启是指集群服务重启还是服务器重启?如果服务器hang住,可以理解为不能对磁盘进行读写,磁盘心跳超时问题就一定会重启服务器?另外根据mos文档指出,11.2.0.2之后的版本,节点驱逐并不一定会导致服务器重启。

专家解答

网络心跳:ocssd.bin进程每秒钟向集群中的各个节点通过私网发送网络心跳信息,以确认各个节点是否正常。如果某个节点连续丢失网络心跳达到阀值,misscount(默认为30秒,如果存在其他集群管理软件则为600秒),集群会通过表决盘进行投票,使丢失网络心跳的节点被主节点驱逐出集群,即节点重启。如果集群只包含2个节点,则会出现脑裂,结果是节点号小的节点存活下来,即使是节点号小的节点存在网络问题。

磁盘心跳:ocssd.bin进程每秒钟都会向所有表决盘(Voting File)注册本节点的状态信息,这个过程叫做磁盘心跳。如果某个节点连续丢失磁盘心跳达到阀值,disk timeou(一般为200秒),则该节点会自动重启以保证集群的一致性。


这个叫rebootless restart, 从11.2.0.2开始,当集群中的某个节点被驱逐(例如丢失网络心跳)或者该节点的ocssd.bin出现问题时,集群将不会直接重新启动该节点,而是首先尝试重新启动GI stack来解决问题,如果GI stack不能够在指定的时间内(short disk I/O timeout)完成graceful shutdown,才会重新启动节点。

「喜欢文章,快来给作者赞赏墨值吧」

评论

0
0
最新发布
暂无内容,敬请期待...
数据库资讯
最新 热门 更多
本月热门
近期活动
全部
暂无活动,敬请期待...
相关课程
全部
暂无课程,敬请期待...