Greenplum集群状态不平衡？手把手教你10分钟恢复

原创曾云林 2026-04-30

436

早上到公司刚打开电脑，GPCC监控突然弹红色告警：「集群状态不平衡」，点进去一看，十几个Segment的状态全是Not In Sync，当时心里一紧：完了，是不是数据要丢了？

别慌，这种90%的场景都是同步问题，跟着下面的步骤走，10分钟就能恢复：

先source一下Greenplum的环境变量，再执行状态查询命令，先看整体情况：

[gpadmin@node1 ~]$ source /usr/local/greenplum-db-6.23.0/greenplum_path.sh
[gpadmin@node1 ~]$ gpstate -s

输出里重点看Status列：如果是Down就是Segment进程挂了，如果是Not In Sync就是主备镜像没同步上，先记下来哪些Segment出问题，对应的主机是哪台。

执行镜像查询命令，看每个Segment的主备角色和同步状态：

[gpadmin@node1 ~]$ gpstate -m

输出里会显示每个Segment是Primary还是Mirror，Sync Status是Sync还是Not In Sync，如果Mirror状态是Not In Sync，基本就是同步链路断了。

先执行恢复命令，让主备镜像重新同步：

[gpadmin@node1 ~]$ gprecoverseg

执行完别急着下一步，等个1-2分钟，再跑一次gpstate -m，看所有Segment的Sync Status都变成Sync了再往下走。这里踩过坑的都知道：没等同步完成就执行重平衡，等于白干，还会加重集群负载。

同步完成后执行重平衡命令，让数据在集群里均匀分布：

[gpadmin@node1 ~]$ gprecoverseg -r

等输出出现The rebalance operation has completed successfully.就说明成功了。

最后再跑一次gpstate -s，看所有Segment的状态都是Normal，GPCC监控里的告警消失，就完全恢复了。

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者