灾备集群节点CM_AGENT故障。该节点上DN实例状态显示为Unknown;部分首备显示Main Standby Need repair(Connecting)。
|
原因:节点CM_AGENT发生故障
- 该节点上DN状态无法上报CM_SERVER,DN实例显示为Unknown。
- 若该节点上存在首备实例(Main Standby),则会触发首备切换。由于原首备实例并无异常,并与主数据库实例主DN存在正常流复制关系,而主数据库实例该分片主DN只允许一个首备的连接,导致新首备无法连接到主集群分片主DN,实例状态显示为Main Standby Need repair(Connecting)。
解决方案:
- 等观察灾备集群的CM_AGENT告警信息“ALM_AI_AbnormalCMSProcess”,并尝试修复发生故障的CM_AGENT。故障排除后新首备的连接可恢复。
- 若如果故障的CM_AGENT短时间内无法修复,执行gs_ctl stop -D DATADIR命令或者kill命令手动停止该节点上的DN进程,可恢复。
|