监控告警模块
1 监控
监控进入方式,导航主菜单-->点击【监控告警】
选择【数据库类型】,之后选择【数据库】通过下拉框选择数据库,在监控维度中,提供4类标签【概述】整体查看当前数据库的运行状态,通过【主机】查看数据库数据库部署的主机节点的负载状态,通过【数据节点】查看数据库的数据监控历史
下方的监控展示栏中,根据类别分别进行聚合展示,可根据业务需要进行位置拖动调整。
【分屏】功能,主要进行多个节点之间的数据比对,和监控数据展示
2 告警
此页面展示数据库告警的内容界面,以及针对配置告警规则、告警联络人等信息。
2.1 告警消息
告警消息页面会展示所有数据库发生的告警信息,并可针对某一条告警消息,查看每次发生告警的时间,并可以进行告警等级和处理状态的筛选。
选择一个或多个未确认的告警消息 -> 点击批量确认 -> 输入确认备注信息 -> 确定。
- 确认后的告警规则仍然触发告警,将产生一条新的记录,不再已确认的记录上进行累加。
- 展开告警规则,可查看告警消息触发的时间及详细信息
2.2 告警模板
点击,一键启动告警模板,选择数据库进行告警启用。默认告警规则不生效,需要手动开启。
2.3 告警规则
平台默认内置了告警规则,告警可针对每一个数据库单独设定开启与否。也可以按需进行告警规则的添加和扩展。
点击一键应用告警模板,可一键将告警模板应用至多个数据库,如下:
点击【添加告警规则】可看到告警规则类别分为日志告警、指标类告警
添加日志类告警,编写告警触发条件,和触发的关键词
定义告警规则,和告警等级
2.4 联络点
联络点是用来定义当警报触发时如何通知您的联系人。一个联络点可以有一个或多个联络点类型,例如电子邮件、Syslog、webhook 等。 触发警报时,会向为某个联络点列出的所有联络点类型发送通知。
2.5 通知策略
通知策略确定如何将警报路由到联系点。每个策略可以匹配特定的警报标签。从而实现按策略发送通知, 比如:
- 将主机类告警发送给系统运维组联络点
- 将数据库类告警发送给DBA组联络点
- 告警级别为紧急的告警发送给A组联络点
警报默认设置
- 组等待时间: 如果在此期间接收到同一组内的其他告警,则这些告警会被合并,将一同发送一个紧凑的通知,其中包含此警报规则的所有受影响环境。此参数的作用是防止短时间内出现大量告警的情况下,接收者被告警淹没。
- 组间隔: 在该组的告警第一次被发送后,该组会进入睡眠/唤醒周期,睡眠周期将持续组间隔配置时间,在睡眠状态下该group不会进行任何发送告警的操作(但会插入/更新(根据fingerprint)group中的内容),睡眠结束后进入唤醒状态,然后检查是否需要发送新的告警或者重复已发送的告警(resolved类型的告警在发送完后会从group中剔除)。
- 重复间隔: 聚合组在每次唤醒才会检查上一次发送告警是否已经超过重复间隔时间,如果超过则再次发送该告警。因此重复间隔并不代表告警的实际重复间隔,因为在第一次发送告警的重复间隔时间后,聚合组可能还处在睡眠状态,所以实际的告警间隔应该大于重复间隔且小于重复间隔+组间隔。因此实际生产中重复间隔值不可设得太大。
什么是警告组?
- 默认以alertname(告警规则名称)进行分组
- 如果创建了告警策略, 那么每个告警策略既是一个分组
添加策略
添加Matcher
- 标签是指监控指标的的labels
- 常用默认标签
- severity: 告警级别
- cid: ADM元信息数据库中的集群id
- mid: ADM元信息数据库中的集群成员id
- job: 监控目标类型 (greatdb_cluster or greatdb_node)
- name: 实例名
- address: IP地址
- mnet_ip: 管理网IP
- port: 端口
- 也可以在创建告警规则时, 指定告警规则的自定义标签
表达式
- = : 绝对匹配
- !=: 绝对不匹配
- =~: 模糊匹配, 支持正则
- !~: 模糊不匹配, 支持正则
静音时间
绑定到通知策略, 指定时间范围内若产生告警, 不发送告警通知
2.6 告警维护
可在维护窗口期通过告警维护批量进行告警消息的静默,主要针对于短信告警方式告警配置,触发告警不发送告警通知,只进行计数统计,维护结束后统一发送一条聚合消息。




