GoldenDB 的 Insight 常见告警

原创韦 2024-09-23

314

性能相关告警：
- CPU 使用率过高告警：当计算节点、数据节点或全局事务管理节点等的 CPU 使用率超过设定的阈值（比如 80% 或 90%），并持续一定时间（如 5 分钟、10 分钟等）时触发告警。这可能表示数据库正在处理大量复杂的查询或计算任务，或者存在某些性能瓶颈，需要进一步排查。
- 内存使用量告警：如果节点的内存使用量接近或达到其物理内存的特定比例（例如 70%、80%），并且持续一段时间，系统会发出告警。内存不足可能会导致数据库性能下降，甚至可能引发内存溢出等严重问题。
- 查询响应时间过长告警：设定一个查询响应时间的阈值，当某个查询的执行时间超过该阈值时触发告警。这有助于及时发现执行效率低下的查询语句，以便进行优化。例如，对于一些关键业务的查询，如果响应时间超过 2 秒就触发告警。
- 事务处理时间过长告警：对于分布式事务，当事务的处理时间超出预设的时间范围时，触发告警。长时间的事务处理可能会影响数据库的并发性能，并且如果事务长时间未完成，可能会导致资源占用过多等问题。
连接数相关告警：
- 连接数过多告警：当数据库的连接数达到系统所能承受的最大连接数的一定比例（如 80%），或者超过某个绝对数值时，触发告警。过多的连接数可能会导致数据库性能下降，甚至可能使数据库无法接受新的连接请求。
- 连接异常告警：当出现大量的连接异常断开、连接超时等情况时，触发告警。这可能是由于网络问题、客户端程序异常或者数据库服务器的问题导致的，需要及时排查以确保数据库的正常使用。
数据存储相关告警：
- 磁盘空间不足告警：当数据库所在的磁盘空间使用率达到一定比例（如 90%），或者剩余可用空间小于某个设定值时，触发告警。磁盘空间不足会影响数据库的正常运行，可能导致数据无法写入或备份等操作无法进行。
- 数据一致性告警：在分布式数据库中，数据一致性非常重要。如果检测到数据节点之间的数据不一致，或者主从节点的数据同步出现异常，触发告警。例如，主节点的数据已经更新，但从节点在一定时间内未能同步更新，就会触发该告警。
节点状态相关告警：
- 节点故障告警：当计算节点、数据节点或全局事务管理节点等出现故障，无法正常工作时，触发告警。这可能是由于硬件故障、软件错误或者网络问题等原因导致的，需要及时进行修复以恢复数据库的正常运行。
- 节点心跳异常告警：节点会定期向管理节点发送心跳信号，以表示其正常运行。如果某个节点的心跳信号中断或异常，触发告警。这可能是节点出现故障或者网络通信出现问题的迹象。
安全相关告警：
- 非法访问告警：当检测到有未经授权的访问尝试，或者有异常的访问行为（如频繁尝试登录失败、在非工作时间的大量访问等）时，触发告警。这有助于及时发现潜在的安全威胁，保护数据库的安全。
- 数据泄露告警：如果系统检测到可能存在的数据泄露风险，例如敏感数据的异常访问或传输，触发告警。这对于保护用户的隐私和企业的敏感信息非常重要。

goldendb 连接数数据库事务

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者

GoldenDB 的 Insight 常见告警

评论