集群状态查询
GaussDB 100支持查看整个集群、主机、实例(CN、DN、CM、ETCD等)的状态以及节点平衡状态,通过查询结果确认其运行状态是否正常。
前提条件
集群已经启动。
操作步骤
- 以omm用户身份登录GaussDB 100所在的任意服务器。
- 使用如下命令查询集群状态。
gs_om -t status
集群状态显示结果的参数说明请参见状态说明。
状态说明
- 集群状态详解
集群状态如表1所示。
表1 集群状态说明 字段
字段含义
字段值
az_state
az状态
- fine:正常状态。
- cm_stopped:表示cm没有启动无法写入
az状态。
- split_brain:脑裂状态,主备AZ断网,其他正常。
- single_az_down:主或备站点不可用。
- static_first:仲裁站点不可用。
- single_az:仅主站点可用。
- unknown:表示出现未知错误。
cluster_state
集群状态
- Normal:表示集群可用,CN、DN主全部在线。
- Unavailable:表示集群不可用,某Group的DN无主,CN全部掉线;或者某Group中online的节点个数小于等于该Group节点总数的一半(节点总数不包含Passive节点)。
- Degraded:表示集群可用,但数据没有冗余备份,某Group的DN裸奔(Group只有一个主运行,备全部停止运行且无法启动)/CN裸奔(CN仅有一台online)。
- Abnormal:表示集群中CN、DN中某台机器状态不是online。
balanced
显示是否有集群实例发生过主备切换。
- true:集群DN分布与load/reload时保持一致。
- false:不一致。
- AZ Status状态详解
每一行表示一个AZ状态,每个AZ状态包含3个字段:AZ,ROLE,STATUS
表2 AZ状态说明 字段
字段含义
字段值
AZ
站点名称
配置文件中的命名。
ROLE
站点角色
分为3种角色:主、备、仲裁,对应primary,standby,quorum。
STATUS
站点状态
- ONLINE:站点中至少有一个主机在线。
- OFFLINE:站点上所有主机掉线。
- Host Status状态详解
每一行表示一个Host状态,每个Host包含HOST、AZ、STATUS、IP信息。
表3 Host状态说明 字段
字段含义
字段值
HOST
主机名称
配置文件中的命名,一般是主机名。
AZ
站点名称
配置文件中的命名,主机所在的站点名。
STATUS
主机状态
- ONLINE:主机在线。
- OFFLINE:主机掉线。
- STOPPED:实例从未上线或者用户手动停止该实例。
IP
主机IP
主机的IP。
- 实例详解
实例包含CM/ETCD/CN/DN/GTS。
其中静态信息:INSTANCE,ID,HOST,PORT,DataDir,字段值含义针对不同实例基本相同。
动态信息:STATUS,ROLE,字段值含义针对不同实例有所区别。
说明:当配置文件不配置GTS实例时,可以正常安装集群,只是集群状态中不会显示GTS的实例信息。
表4 实例静态信息说明 字段
字段含义
字段值
INSTANCE
实例名称
配置文件中的实例命令。
ID
实例ID
实例ID。
HOST
主机名称
实例所在的主机名。
PORT
端口
CM不涉及端口,所以不显示;
ETCD显示的是Client Port;
CN、DB Group显示提供服务的端口。
DataDir
各实例存储数据的目录
CM不存储本地信息,不涉及,所以不显示。
表5 CM动态信息说明 字段
字段含义
字段值
STATUS
实例状态
- ONLINE:实例在线。
- OFFLINE:实例掉线。
- STOPPED:实例从未上线或者用户手动停止该实例。
ROLE
实例角色
- primary:主CM。
- slave:备CM。
- 空:表示所有CM都不在线,无人抢主。
表6 ETCD动态信息说明 字段
字段含义
字段值
STATUS
实例状态
- ONLINE:实例在线。
- OFFLINE:实例掉线。
- STOPPED:实例从未上线或者用户手动停止该实例。
ROLE
实例角色
- leader:主ETCD。
- follower:从ETCD。
- backup:不在ETCD集群中,备用。
表7 CN动态信息说明 字段
字段含义
字段值
STATUS
实例状态
- ONLINE:实例在线。
- OFFLINE:实例掉线。
- STOPPED:实例从未上线或者用户手动停止该实例。
- NEED_REPAIR:出现故障需要修复。
- DELETED:实例由于出现故障被隔离。
- ROUTE_CONFLICT:实例的路由表sys_data_nodes信息与查询出来的集群状态不一致(如实例个数,端口号,IP等)。正常情况下,该状态属于中间态,可自动恢复为其他正常状态。
ROLE
实例角色
no role:CN不分主备,所以没有角色。
表8 DN(DB Group)动态信息说明 字段
字段含义
字段值
STATUS
实例状态
- ONLINE:实例在线。
- OFFLINE:实例掉线。
- STOPPED:实例从未上线或者用户手动停止该实例。
- DISCONNECTED:备机与主机失联。
- NEED_REPAIR:出现故障需要修复。
- BUILDING:正在building。
- UNSTABLE:DB在某种不稳定状态,比如磁盘满等。
- ROUTE_CONFLICT:实例的路由表sys_data_nodes信息与查询出来的集群状态不一致(如主备关系,实例个数,端口号,IP等)。正常情况下,该状态属于中间态,可自动恢复为其他正常状态。
ROLE
实例角色
- primary:主DB。
- standby:备DB。
- passive:passiveDB。
表9 GTS动态信息说明 字段
字段含义
字段值
STATUS
实例状态
- ONLINE:实例在线。
- OFFLINE:实例掉线。
- STOPPED:实例从未上线或者用户手动停止该实例。
- NEED_REPAIR:出现故障需要修复。
- UNSTABLE:GTS在某种不稳定状态,比如磁盘满等。
- ROUTE_CONFLICT:实例的路由表sys_data_nodes信息与查询出来的集群状态不一致(如主备关系,实例个数,端口号,IP等)。正常情况下,该状态属于中间态,可自动恢复为其他正常状态。
ROLE
实例角色
- primary:主GTS。
- slave:备GTS。
- 管理IP详解
每一行表示一个主机上配置的管理IP,管理平面通过管理IP登录主机。
表10 管理IP信息说明 字段
字段含义
字段值
HOST
主机名称
配置文件中的命名,一般是主机名。
IP
管理平面登录主机所使用的IP
配置文件中innerManageIp1的参数值。如果未配置该参数,则使用backIP。一个主机上可配置多个管理IP。
示例
查看集群详细状态信息,含实例状态信息。
omm@plat1:~> gs_om -t status Set output to terminal. --------------------------------------------------------------------Cluster Status-------------------------------------------------------------------- az_state : fine cluster_state : Normal balanced : true ----------------------------------------------------------------------AZ Status----------------------------------------------------------------------- AZ:AZ1 ROLE:primary STATUS:ONLINE AZ:AZ2 ROLE:standby STATUS:ONLINE AZ:AZ3 ROLE:quorum STATUS:ONLINE ---------------------------------------------------------------------Host Status---------------------------------------------------------------------- HOST:plat1 AZ:AZ1 STATUS:ONLINE IP:10.10.0.11 HOST:plat2 AZ:AZ2 STATUS:ONLINE IP:10.10.0.12 HOST:plat3 AZ:AZ3 STATUS:ONLINE IP:10.10.0.13 ----------------------------------------------------------------Cluster Manager Status---------------------------------------------------------------- INSTANCE:CM1 ROLE:primary STATUS:ONLINE HOST:plat1 ID:1 INSTANCE:CM2 ROLE:slave STATUS:ONLINE HOST:plat2 ID:2 INSTANCE:CM3 ROLE:slave STATUS:ONLINE HOST:plat3 ID:3 ---------------------------------------------------------------------ETCD Status---------------------------------------------------------------------- INSTANCE:ETCD1 ROLE:follower STATUS:ONLINE HOST:plat1 ID:7001 PORT:22231 DataDir:/guassdb/data/data_etcd INSTANCE:ETCD2 ROLE:follower STATUS:ONLINE HOST:plat2 ID:7002 PORT:22231 DataDir:/guassdb/data/data_etcd INSTANCE:ETCD3 ROLE:leader STATUS:ONLINE HOST:plat3 ID:7003 PORT:22231 DataDir:/guassdb/data/data_etcd ----------------------------------------------------------------------CN Status----------------------------------------------------------------------- INSTANCE:cn_5001 ROLE:no role STATUS:ONLINE HOST:plat1 ID:5001 PORT:9079 DataDir:/gaussdb/data/data_cn1 ----------------------------------------------------------Instances Status in Group (group1)---------------------------------------------------------- INSTANCE:DB1_1 ROLE:primary STATUS:ONLINE HOST:plat1 ID:6001 PORT:15431 DataDir:/gaussdb/data/data_dn INSTANCE:DB2_1 ROLE:standby STATUS:ONLINE HOST:plat2 ID:6002 PORT:15431 DataDir:/gaussdb/data/data_dn ---------------------------------------------------------------------Manage IP------------------------------------------------------------------------ HOST:plat3 IP:10.10.0.19 HOST:plat2 IP:10.10.0.22 HOST:plat1 IP:10.10.0.24
- 集群状态详解