万里数据库GreatDB集中式故障诊断：组复制问题处理-1

原创 Dbb 2024-03-01

134

集群 MGR 故障监控规则

目前，集群在添加节点过程中，会持久化如下 MGR 的系统变量，用户故障的处理：

group_replication_start_on_boot： ON，重启后自动尝试加入 MGR 集群。
group_replication_autorejoin_tries： 2016，在 MySQL 服务没有停止的情况下，出现故障时，会自动尝试加入集群，尝试次数为 2016 次，每次失败后，会间隔 5 分钟进行下一次尝试。总的尝试时间大概为 7 天。
group_replication_unreachable_majority_timeout： 30，默认情况下，如果多数节点同时故障（或者网络分区），剩余的少数节点会一直保持 ONLINE 状态，影响系统使用。集群将该值设置为 30 s的时间，超过该时间后，该节点状态贵变成 ERROR 状态。如果是因为网络故障，网络恢复后，故障的节点通过 group_replication_autorejoin_tries 配置，会再次加入集群。
group_replication_member_expel_timeout： 5s，保持默认值为 5 秒。如果一个节点出现故障，5-10s后，其它正常节点会将节点自动踢出 MGR 集群。

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者