欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/
告警描述
该告警监测 OceanBase 集群中是否存在不工作的 OBServer 节点,存在则上报告警。
告警原理
下表列出了该告警监控逻辑中涉及的关键参数。
参数 | 值 |
|---|---|
监控指标 | ob_cluster_inactive_server_count |
数据来源 | SQL 语句: select group_concat(svr_ip SEPARATOR ',') as servers, status, count(1) as count from __all_server group by status; |
采集指标 | inactive_server_count |
监控指标表达式 | max(server_count{metric_group="all_server",status="inactive",@LABELS}) by (@GBLABELS) |
采集周期 | 60 秒 |
规则信息
监控指标 | 默认阈值 | 持续时间 | 检测周期 | 消除周期 |
|---|---|---|---|---|
ob_cluster_inactive_server_count | 0 | 0 秒 | 10 秒 | 5 分钟 |
告警信息
告警触发方式 | 告警等级 | 范围 |
|---|---|---|
基于监控指标表达式 | 停服 | 集群 |
告警模板
- 告警概述模板:${alarm_target} ${alarm_name}
- 告警详情模板:集群:${ob_cluster_name},告警:${alarm_name},不工作 OBServer 节点数量为 ${value},不工作 OBServer 节点有 ${server_ips}
- 告警概述样例:ob_cluster=obcluster-1 OB 集群存在不工作 OBServer 节点
- 告警详情样例:集群:obcluster-1,告警:OB 集群存在不工作 OBServer 节点,不工作 OBServer 节点数量为 2.0 ,不工作 OBServer 节点为 xxx.xxx.xxx.1,xxx.xxx.xxx.2
其中,${alarm_target} 表示产生告警的对象。格式为 ob_cluster=xxxxxxx。ob_cluster 为产生告警的集群的名称。
对系统的影响
可用的 OBServer 节点数量减少,导致集群可用性下降。
如 3 节点集群中 1 个节点异常停止后,则三副本变为两副本,此时如果再有 1 个节点异常停止,则该集群将不可用。
可能原因
常见于以下三种情况:
- 网络通信故障。
- OBServer 节点故障或进程异常停止。
- observer 进程存活但无响应,心跳不上报。
处理方法
- 确认是否还需要使用该 OBServer 节点。
- 需要,则继续执行下一步,排查该 OBServer 节点不工作的原因。
- 不需要,可直接删除该 OBServer 节点。
- 检查是否网络通信故障。
参考如下命令检查 OBServer 节点和 Leader OBServer 节点之间是否网络故障。
#在 OBServer 节点上 ping Leader OBServer 节点,xxx.xxx.xxx.1 为备份存储主机的示例 IP。
ping xxx.xxx.xxx.1
#在 Leader OBServer 节点上 ping OBServer 节点,xxx.xxx.xxx.2 为 OCP 主机的示例 IP。
ping xxx.xxx.xxx.2
- 检查 OBServer 节点是否故障或进程异常停止。
查看是否有 ob_cannot_connected OB 服务器无法连接 告警上报。
- 是,则 OBServer 节点故障或进程异常,请先参考 ob_cannot_connected OB 服务器无法连接 解决。
- 否,可能是其他原因,继续执行下一步进行排查。
- 检查是否 observer 进程正常但心跳不上报。
通过 OCP 的 主机列表 进入对应 OBServer 节点,查看 OCP Agent 页签中的进程是否正常。
若进程正常但该 OBServer 节点仍然连不上则可能是心跳未上报。建议检查磁盘或内存是否充足。
#检查内存剩余
free -m
#检查 OBServer 节点目录(默认为 /home/admin)磁盘剩余
df -h
- 磁盘或内存不足,可能导致 OBServer 节点心跳不上报。
- 磁盘和内存充足,请继续执行下一步。
- 联系 OCP 技术支持人员定位。
欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/




