暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

ob_cluster_status_check_failed OB 集群状态检测失败 OceanBase工具学习笔记296

数据库新手 2023-06-22
266

欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/

告警描述

该告警监测 OCP 对其管理的 OceanBase 集群进行的状态检测是否成功。若失败,则上报告警。

告警原理

OCP 服务器通过定时任务检测 OB 集群状态,该定时任务每 30s 执行一次,每次检测时会使用 OB SDK 连接 OceanBase 集群,若连接失败则触发告警。

规则信息

监控指标

默认阈值

持续时间

检测周期

消除周期

NA

NA

0 秒

15 秒

5 分钟

告警信息

告警触发方式

告警等级

范围

OCP 定时任务

严重

集群

告警模板

  • 告警概述模板:${alarm_target} ${alarm_name}
  • 告警详情模板:集群:${ob_cluster_name},告警:${alarm_name},集群状态:${ob_cluster_status}, 检查项:${check_item}, 失败原因:${failed_reason}
  • 告警概述样例:ob_cluster=obcluster-1 OB 集群状态检测失败
  • 告警详情样例:集群:obcluster-1,告警:OB 集群状态检测失败,集群状态:Unavailable,检查项:cluster connect check,失败原因:some reason

对系统的影响

可能带来如下影响:

  • OCP 无法连接 OBProxy。
  • OceanBase 集群状态异常。

可能原因

该告警的上报常见于以下几种原因:

  • OCP 与 OceanBase 集群连接失败。
    • 是 OCP 与 OBServer 之间网络故障。
    • OceanBase 集群不可用,由 Root Service 无主或者 sys 租户存在无主的表导致。
  • OceanBase 数据库的 sys 租户异常导致无法登录,可能有如下原因:
    • sys 租户异常,如 ocp_monitor@sys 账号不存在。
    • sys 租户密码错误。

处理方法

  • 如果 告警详情 中失败原因提示 Access Denied,则可能是 ocp_monitor@sys 账号被删除或该账号的密码被修改了。
    • 使用 root@sys 账号黑屏登录 OceanBase 集群,并执行如下语句新建 ocp_monitor@sys 账号。
    • 执行如下语句查看 ocp_monitor 账号及权限。
    • select user_name,priv_select from __all_user;

查看返回信息中 user_name 字段值是否有 ocp_monitor,其对应的 priv_select 值是否为 1。

若密码箱中已存了该集群的 ocp_monitor@sys 账号,请先删除。

  • 如果 告警详情 中失败原因提示的是连接失败。
    • 查看此时 OCP 中是否有关于该 OceanBase 集群的其他告警,
      • 若有,则参考相关文档,优先处理其他告警,然后再观察该告警是否消除。
      • 若无,则顺序执行步骤 2.
    • 查看是否 OCP 与 OBServer 节点之间网络故障。

在 OCP 服务器上执行 obclient -hxxx.xxx.xxx.xxx -P2888 -u<用户名称>@<租户名词#集群名称> -p -Doceanbase 命令查看是否能连接上该 OceanBase。

欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论