暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

openGauss 基于流式复制的异地容灾解决方案 (故障处理之灾备集群数据库实例故障)

李二果 2022-09-27
496

灾备集群数据库实例故障

灾备集群数据库实例错误信息参考故障描述

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

故障描述

原因和解决方案

灾备集群节点CM_AGENT故障。该节点上DN实例状态显示为Unknown;部分首备显示Main Standby Need repair(Connecting)。

原因:节点CM_AGENT发生故障

  • 该节点上DN状态无法上报CM_SERVER,DN实例显示为Unknown。
  • 若该节点上存在首备实例(Main Standby),则会触发首备切换。由于原首备实例并无异常,并与主数据库实例主DN存在正常流复制关系,而主数据库实例该分片主DN只允许一个首备的连接,导致新首备无法连接到主集群分片主DN,实例状态显示为Main Standby Need repair(Connecting)。

解决方案:

  • 等观察灾备集群的CM_AGENT告警信息“ALM_AI_AbnormalCMSProcess”,并尝试修复发生故障的CM_AGENT。故障排除后新首备的连接可恢复。
  • 若如果故障的CM_AGENT短时间内无法修复,执行gs_ctl stop -D DATADIR命令或者kill命令手动停止该节点上的DN进程,可恢复。