暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

ob_cluster_exists_inactive_server OB 集群存在不工作 OBServer 节点 OceanBase工具学习笔记297

数据库新手 2023-06-22
196

欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/

告警描述

该告警监测 OceanBase 集群中是否存在不工作的 OBServer 节点,存在则上报告警。

告警原理

下表列出了该告警监控逻辑中涉及的关键参数。

参数

监控指标

ob_cluster_inactive_server_count

数据来源

SQL 语句: select group_concat(svr_ip SEPARATOR ',') as servers, status, count(1) as count from __all_server group by status;
inactive_server_count 取 count 字段的值。

采集指标

inactive_server_count

监控指标表达式

max(server_count{metric_group="all_server",status="inactive",@LABELS}) by (@GBLABELS)

采集周期

60 秒

规则信息

监控指标

默认阈值

持续时间

检测周期

消除周期

ob_cluster_inactive_server_count

0

0 秒

10 秒

5 分钟

告警信息

告警触发方式

告警等级

范围

基于监控指标表达式

停服

集群

告警模板

  • 告警概述模板:${alarm_target} ${alarm_name}
  • 告警详情模板:集群:${ob_cluster_name},告警:${alarm_name},不工作 OBServer 节点数量为 ${value},不工作 OBServer 节点有 ${server_ips}
  • 告警概述样例:ob_cluster=obcluster-1 OB 集群存在不工作 OBServer 节点
  • 告警详情样例:集群:obcluster-1,告警:OB 集群存在不工作 OBServer 节点,不工作 OBServer 节点数量为 2.0 ,不工作 OBServer 节点为 xxx.xxx.xxx.1,xxx.xxx.xxx.2

其中,${alarm_target} 表示产生告警的对象。格式为 ob_cluster=xxxxxxx。ob_cluster 为产生告警的集群的名称。

对系统的影响

可用的 OBServer 节点数量减少,导致集群可用性下降。

如 3 节点集群中 1 个节点异常停止后,则三副本变为两副本,此时如果再有 1 个节点异常停止,则该集群将不可用。

可能原因

常见于以下三种情况:

  • 网络通信故障。
  • OBServer 节点故障或进程异常停止。
  • observer 进程存活但无响应,心跳不上报。

处理方法

  1. 确认是否还需要使用该 OBServer 节点。
    • 需要,则继续执行下一步,排查该 OBServer 节点不工作的原因。
    • 不需要,可直接删除该 OBServer 节点。
  2. 检查是否网络通信故障。

参考如下命令检查 OBServer 节点和 Leader OBServer 节点之间是否网络故障。

#在 OBServer 节点上 ping Leader OBServer 节点,xxx.xxx.xxx.1 为备份存储主机的示例 IP。

ping xxx.xxx.xxx.1

#在 Leader OBServer 节点上 ping OBServer 节点,xxx.xxx.xxx.2 为 OCP 主机的示例 IP。

ping xxx.xxx.xxx.2

  1. 检查 OBServer 节点是否故障或进程异常停止。

查看是否有 ob_cannot_connected OB 服务器无法连接 告警上报。

  1. 检查是否 observer 进程正常但心跳不上报。

通过 OCP 的 主机列表 进入对应 OBServer 节点,查看 OCP Agent 页签中的进程是否正常。

若进程正常但该 OBServer 节点仍然连不上则可能是心跳未上报。建议检查磁盘或内存是否充足。

#检查内存剩余

free -m

#检查 OBServer 节点目录(默认为 /home/admin)磁盘剩余

df -h

    • 磁盘或内存不足,可能导致 OBServer 节点心跳不上报。
    • 磁盘和内存充足,请继续执行下一步。
  1. 联系 OCP 技术支持人员定位。

欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论