监控告警主要用于系统异常信息发生时,可以及时记录下异常信息并提示用户,实时告警记录当前发生的异常信息,历史告警用于记录曾经发生过的异常信息。实时告警回放会记录到历史告警中。用户可以通过告警信息查询异常信息、告警发生原因以及解决方法。
告警机制
当告警发生时,会记录到实时告警中,部分告警可以点击恢复来恢复告警,点击修复提示可以查看告警修复建议,如果告警恢复,会从实时告警移除,记录进历史告警。告警合并策略:根据告警任务名,组件名,告警源所在用户,告警源类型,告警原因编码,告警 ip 以及业务 key(组件上报传上来的mergeKey)且告警状态为正在告警来合并告警信息,抑制告警风暴。
自动修复的告警列表:
| 告警原因码 | 告警描述 | 告警来源 |
|---|---|---|
| 3010201 | ZK服务异常 | 管理节点 |
| 3010202 | Kafka服务异常 | 管理节点 |
| 3010204 | 同步组件异常退出 | 管理节点 |
| 3010206 | 同步组件切换成功 | 管理节点 |
| 3010207 | 同步组件切换失败 | 管理节点 |
| 3010208 | 管理节点接入集群 | 管理节点 |
| 3010209 | 管理节点停止服务 | 管理节点 |
| 3010210 | 服务器CPU使用率超阈值 | 管理节点 |
| 3010211 | 服务器内存使用率超阈值 | 管理节点 |
| 3010212 | 服务器磁盘使用率超阈值 | 管理节点 |
| 3010213 | 组件重要文件被删除或文件无法访问 | 管理节点 |
| 3010214 | [zookeeper]重要文件被删除或文件无法访问 | 管理节点 |
| 3010215 | [kafka]重要文件被删除或文件无法访问 | 管理节点 |
| 3010216 | 服务器磁盘I/O超阈值 | 管理节点 |
| 3010217 | 管理节点网络异常 | 管理节点 |
| 3010218 | 文件权限被修改 | 管理节点 |
| 3010219 | RDB状态异常! | 管理节点 |
| 3010220 | RDB无法登录! | 管理节点 |
| 3010221 | IA节点异常! | 管理节点 |
| 3010223 | [zookeeper]文件权限被修改! | 管理节点 |
| 3010224 | [kafka]文件权限被修改! | 管理节点 |
| 3010225 | 任务状态异常 | 管理节点 |
| 3010226 | 管理节点自动切换 | 管理节点 |
| 3010227 | 备RDB接入当前主机失败 | 管理节点 |
| 3010228 | 服务器用户密码即将过期 | 管理节点 |
| 3010229 | RDB备机时延超阈值 | 管理节点 |
| 3010302 | SQL处理异常 | 采集组件 |
| 3010308 | 切换同步源成功 | 采集组件 |
| 3010310 | 采集组件自动切换 | 采集组件 |
| 3010311 | 发送数据到kafka失败 | 采集组件 |
| 3010313 | 采集链路时间超出阈值 | 采集组件 |
| 3010314 | 采集组件自动切换-无可用组件 | 采集组件 |
| 3010316 | 采集组件停止服务 | 采集组件 |
| 3010317 | 采集组件调用sm接口异常 | 采集组件 |
| 3010101 | sql处理异常 | 回放组件 |
| 3010102 | 目标端连接异常 | 回放组件 |
| 3010107 | SQL转换异常 | 回放组件 |
| 3010108 | 回放表加入黑名单 | 回放组件 |
| 3010109 | 回放sql超时阈值 | 回放组件 |
| 3010113 | 批量包处理线程数量低于并发数 | 回放组件 |
| 3010114 | SQL执行线程数量低于并发数 | 回放组件 |
| 3010116 | 计算线程数量低于并发数 | 回放组件 |
| 3010117 | 写入线程数量低于并发数 | 回放组件 |
| 3010401 | 比对批次主键缺失异常 | 比对组件 |
| 3010402 | 数据库连接异常 | 比对组件 |
| 3010408 | 数据比对异常 | 比对组件 |
| 3010409 | 发送差异化数据到Kafka diff topic异常 | 比对组件 |
| 3010410 | 发送进度数据到ZK节点异常 | 比对组件 |
| 3010412 | 拉取全量/增量数据异常 | 比对组件 |
| 3010413 | 拉取差异化数据异常 | 比对组件 |
| 3010415 | 数据修复失败 | 比对组件 |
| 3010416 | 比对组件自动切换 | 比对组件 |
| 3010417 | 比对存在表加入黑名单告警 | 比对组件 |
| 3010418 | 长时间比对不一致的行 | 比对组件 |
| 3010419 | 比对链路延迟 | 比对组件 |
| 3010420 | 比对组件退出 | 比对组件 |
| 3010422 | 比对组件自动切换-无可用组件 | 比对组件 |
| 3010423 | 比对组件停止服务 | 比对组件 |
| 3010424 | 线程状态异常 | 比对组件 |
| 3010426 | 在t时刻检查t0,差异未消除告警 | 比对组件 |
| 3010426 | 在t时刻检查t0,差异消除通知 | 比对组件 |
监控指标
记录系统组件以及任务产生的异常情况
| 监控指标 | 指标说明 | 备注 |
|---|---|---|
| 告警位置 | 告警发生的用户以及组件ip | 告警源所在用户(主机级别告警不填) |
| 任务名称 | 告警关联的任务名称 | 没有任务时为空 |
| 告警源类型 | 告警来源 | 0:sloth_manager 1:采集组件 2:回放组件 3:比对组件 4:zookeeper 5:Kafka 6:RDB 7:HOST |
| 告警级别 | 告警重要等级 | 1-紧急,2-重要,3-次要,4-警告,5-通知 |
| 最新产生时间 | 告警最后一次发生的时间 | - |
| 告警原因 | 描述告警产生的原因 | - |
| 操作 | 修复提示 | 提供异常修复方式 |
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




