ob_cluster_exists_inactive_server OB 集群存在不工作 OBServer 节点 OceanBase工具学习笔记297

数据库新手 2023-06-22

197

欢迎访问 OceanBase 官网获取更多信息：https://www.oceanbase.com/

告警描述

该告警监测 OceanBase 集群中是否存在不工作的 OBServer 节点，存在则上报告警。

告警原理

下表列出了该告警监控逻辑中涉及的关键参数。

参数	值
监控指标	ob_cluster_inactive_server_count
数据来源	SQL 语句： select group_concat(svr_ip SEPARATOR ',') as servers, status, count(1) as count from __all_server group by status; inactive_server_count 取 count 字段的值。
采集指标	inactive_server_count
监控指标表达式	max(server_count{metric_group="all_server",status="inactive",@LABELS}) by (@GBLABELS)
采集周期	60 秒

规则信息

监控指标	默认阈值	持续时间	检测周期	消除周期
ob_cluster_inactive_server_count	0	0 秒	10 秒	5 分钟

告警信息

告警触发方式	告警等级	范围
基于监控指标表达式	停服	集群

告警模板

告警概述模板：${alarm_target} ${alarm_name}
告警详情模板：集群：${ob_cluster_name}，告警：${alarm_name}，不工作 OBServer 节点数量为 ${value}，不工作 OBServer 节点有 ${server_ips}
告警概述样例：ob_cluster=obcluster-1 OB 集群存在不工作 OBServer 节点
告警详情样例：集群：obcluster-1，告警：OB 集群存在不工作 OBServer 节点，不工作 OBServer 节点数量为 2.0 ，不工作 OBServer 节点为 xxx.xxx.xxx.1,xxx.xxx.xxx.2

其中，${alarm_target} 表示产生告警的对象。格式为 ob_cluster=xxxxxxx。ob_cluster 为产生告警的集群的名称。

对系统的影响

可用的 OBServer 节点数量减少，导致集群可用性下降。

如 3 节点集群中 1 个节点异常停止后，则三副本变为两副本，此时如果再有 1 个节点异常停止，则该集群将不可用。

可能原因

常见于以下三种情况：

处理方法

确认是否还需要使用该 OBServer 节点。
- 需要，则继续执行下一步，排查该 OBServer 节点不工作的原因。
- 不需要，可直接删除该 OBServer 节点。
检查是否网络通信故障。

参考如下命令检查 OBServer 节点和 Leader OBServer 节点之间是否网络故障。

#在 OBServer 节点上 ping Leader OBServer 节点，xxx.xxx.xxx.1 为备份存储主机的示例 IP。

ping xxx.xxx.xxx.1

#在 Leader OBServer 节点上 ping OBServer 节点，xxx.xxx.xxx.2 为 OCP 主机的示例 IP。

ping xxx.xxx.xxx.2

- 是，则 OBServer 节点故障或进程异常，请先参考 ob_cannot_connected OB 服务器无法连接解决。
- 否，可能是其他原因，继续执行下一步进行排查。

通过 OCP 的 主机列表 进入对应 OBServer 节点，查看 OCP Agent 页签中的进程是否正常。

若进程正常但该 OBServer 节点仍然连不上则可能是心跳未上报。建议检查磁盘或内存是否充足。

#检查内存剩余

free -m

#检查 OBServer 节点目录（默认为 /home/admin）磁盘剩余

df -h

欢迎访问 OceanBase 官网获取更多信息：https://www.oceanbase.com/

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者