欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/
告警对象
告警对象的格式取决于告警项的维度,可能是标签值或标签值的组合,如 obregion=obocp:svr_ip=*.*.*.* 标识 OceanBase 或 OCP 集群上的一台服务器。
告警范围
告警范围用于定义某个告警对应的范围,和指标范围保持一致。例如,CPU 使用率超限可能是集群整体使用率超限、租户 CPU 使用率超限、磁盘使用率超限等不同范围的含义。
告警范围包括以下值:
- OB 集群 ObCluster
- OB 租户 ObTenant
- 应用集群 AppCluster
- 服务 Service
- 服务器主机 Host
- 进程 Process (预留类型)
告警规则
告警规则是告警的元数据,包括告警对象、名称、触发规则和告警详情配置等。
告警项按照生成方式可以分为 2 种类型:
- 表达式触发 :控制台上创建的告警,告警规则引擎基于监控指标生成。
- 自定义触发 :告警由其它组件自动触发。
对于表达式触发的告警,其告警规则表达式在告警项里配置;对于自定义触发的告警,告警规则表达式为空。
告警
告警是一个告警规则在一个告警对象上发生的状态。
告警项分组
每个告警项可以设置多个分组,分组的目的是为了方便对告警项进行管理及推送告警消息。
告警等级
每个告警项都有对应的告警级别。
级别 | 英文含义 | 中文含义 | 颜色 | 说明 |
|---|---|---|---|---|
1 | Down | 停服 | 紫 | 完全不可用,需要立即介入修复,如 OB 服务启动失败。 |
2 | Critical | 严重 | 红 | 系统可用性下降,需要紧急修复,避免完全不可用, 如 机器内存使用率大于 90% 持续 3 分钟。 |
3 | Alert | 警告 | 橙 | 系统仍然可用,但是即将达到不可用状态,需要采取措施防止可用性下降, 如 OB 租户连接数大于上限的 80%。 |
4 | Caution | 注意 | 蓝 | 根据趋势判断,系统关键性能指标正在下降,但是还没达到触发警告的程度,此时可以通过排查发现潜在的问题,避免警告产生(保留类型,目前尚未有匹配的告警项)。 |
5 | Info | 提醒 | 绿 | 操作提醒,本质上不是告警,通常是管理员执行重要操作,如 管理员执行集群下线操作。 |
模板
模板用于运行期根据变量生成动态内容,可以用于:
- 告警生成 (在告警规则中配置 告警详情配置 模板 )
- 通知内容(通道中的 告警消息模板 和 告警消息聚合模板 )
- 通道参数 (如 HTTP 通道配置 URL、Header 和 Body 的内容模板)
告警聚合
为避免告警数量过多导致的告警风暴,告警通道支持配置聚合。
聚合规则为:
- OceanBase 日志告警,按照告警类型、日志错误码、OceanBase 集群进行聚合。
- 其它 OceanBase 告警,按照告警类型、OceanBase 集群进行聚合。
- 应用告警,按照告警类型、告警对象进行聚合。
告警消除
告警消除的概念就是故障恢复。故障恢复的感知可能通过监控模块确定故障消除了通知告警服务,也可能由告警服务基于告警消除超时自动实现。
告警超时自动消除逻辑:
- 每个告警项有检查周期,和忽略周期。
- 新的检查周期监控发现告警项已经满足消除条件,调用告警接口把告警项置为已消除。
- 到达忽略周期后,如果告警项没有继续报出来,认为告警项已消除。
告警 API
为方便管理 OB 资源和开发自己的应用程序,OCP 公开符合 REST 规范的 HTTP API。告警 API 中提供了告警相关的 API 的描述、语法及示例。A
快速入门
告警和告警通知是 OCP 重要的状态监控功能,不同的角色在使用告警功能时需要采取不同的操作。
OCP 告警模块推荐配置流程为:
- 管理员操作:
- (可选)配置告警规则和告警模板。 部署 OCP 之后,管理员可以根据业务需求,对已存在的告警规则与告警模板进行管理。
- 配置告警通道。 设置告警推送方式(钉钉、飞书、邮件等)及推送目标、消息格式。
- 配置告警推送。 将平台产生的告警消息通过指定的告警通道通知用户。
- 用户操作:
- 查看告警事件。 OCP 用户在日常使用中,可以针对不同模块查看告警事件和通知。
- (可选)屏蔽告警。 支持 OCP 用户对告警信息进行屏蔽。
欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/




