- 性能相关告警:
- CPU 使用率过高告警:当计算节点、数据节点或全局事务管理节点等的 CPU 使用率超过设定的阈值(比如 80% 或 90%),并持续一定时间(如 5 分钟、10 分钟等)时触发告警。这可能表示数据库正在处理大量复杂的查询或计算任务,或者存在某些性能瓶颈,需要进一步排查。
- 内存使用量告警:如果节点的内存使用量接近或达到其物理内存的特定比例(例如 70%、80%),并且持续一段时间,系统会发出告警。内存不足可能会导致数据库性能下降,甚至可能引发内存溢出等严重问题。
- 查询响应时间过长告警:设定一个查询响应时间的阈值,当某个查询的执行时间超过该阈值时触发告警。这有助于及时发现执行效率低下的查询语句,以便进行优化。例如,对于一些关键业务的查询,如果响应时间超过 2 秒就触发告警。
- 事务处理时间过长告警:对于分布式事务,当事务的处理时间超出预设的时间范围时,触发告警。长时间的事务处理可能会影响数据库的并发性能,并且如果事务长时间未完成,可能会导致资源占用过多等问题。
- 连接数相关告警:
- 连接数过多告警:当数据库的连接数达到系统所能承受的最大连接数的一定比例(如 80%),或者超过某个绝对数值时,触发告警。过多的连接数可能会导致数据库性能下降,甚至可能使数据库无法接受新的连接请求。
- 连接异常告警:当出现大量的连接异常断开、连接超时等情况时,触发告警。这可能是由于网络问题、客户端程序异常或者数据库服务器的问题导致的,需要及时排查以确保数据库的正常使用。
- 数据存储相关告警:
- 磁盘空间不足告警:当数据库所在的磁盘空间使用率达到一定比例(如 90%),或者剩余可用空间小于某个设定值时,触发告警。磁盘空间不足会影响数据库的正常运行,可能导致数据无法写入或备份等操作无法进行。
- 数据一致性告警:在分布式数据库中,数据一致性非常重要。如果检测到数据节点之间的数据不一致,或者主从节点的数据同步出现异常,触发告警。例如,主节点的数据已经更新,但从节点在一定时间内未能同步更新,就会触发该告警。
- 节点状态相关告警:
- 节点故障告警:当计算节点、数据节点或全局事务管理节点等出现故障,无法正常工作时,触发告警。这可能是由于硬件故障、软件错误或者网络问题等原因导致的,需要及时进行修复以恢复数据库的正常运行。
- 节点心跳异常告警:节点会定期向管理节点发送心跳信号,以表示其正常运行。如果某个节点的心跳信号中断或异常,触发告警。这可能是节点出现故障或者网络通信出现问题的迹象。
- 安全相关告警:
- 非法访问告警:当检测到有未经授权的访问尝试,或者有异常的访问行为(如频繁尝试登录失败、在非工作时间的大量访问等)时,触发告警。这有助于及时发现潜在的安全威胁,保护数据库的安全。
- 数据泄露告警:如果系统检测到可能存在的数据泄露风险,例如敏感数据的异常访问或传输,触发告警。这对于保护用户的隐私和企业的敏感信息非常重要。
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




