近年,随着信息业务需求的快速增长,各企业数据库的需求逐年增加,数据库的数量在飞速的增长,动辄几百上千套的数据库给企业运维人员带来了巨大的运维压力。如何及时发现数据安全、可用性及性能问题,能够对数据库容量及健壮性进行评估,成为了运维工作展开的重要前提。
因此,监控告警功能成为了各运维平台不可缺少的模块,个性化告警配置,为用户和运维人员及时发现问题提供了重要帮助。
AntDB运维管理平台(AntDB Control Center,简称ACC)结合自身产品需求、业务需求、客户需求,设计开发支持AntDB全系数据库的监控告警模块,实现自动化、可视化管理告警信息,降低DBA运维工作上手难度,保障数据库的安全、稳定、有效运行。
AntDB监控告警功能设计
ACC数据库监控告警模块通过对数据库的性能、状态、资源利用率等指标进行实时或定期的检测,以及对异常情况进行及时的通知和处理,保证数据库的稳定运行,提高数据库的可用性和可靠性,防止数据丢失或损坏,优化数据库的性能和效率,以及提供数据库的运维和管理依据。
告警模块相关概念
告警指标:告警指标是告警功能的基础,是实际监控的内容,如:TPS、QPS、连接数等。
告警策略:告警策略用于触发告警,同一指标可按告警等级配置多条告警策略。
告警规则:告警规则是同一告警指标的告警策略的集合。告警规则分为默认告警规则和自定义告警规则,默认规则是系统提供的基础告警项,用户只需要简单的配置;当默认告警无法满足用户需求时可根据自己的实际需求创建自定义告警。
告警流程
数据库告警流程是指在数据库出现异常或者达到预设的阈值时,通过监控系统及时发出告警信息,通知相关人员进行处理的过程。一般来说,数据库告警流程包括以下几个步骤:
1. 配置监控指标和告警规则:根据数据库的性能、状态、容量等指标,设置合理的监控频率和阈值,并定义告警级别、触发条件、通知方式等规则。
2. 采集和分析数据:通过专业的监控工具或者脚本,定期或者实时地采集数据库的相关数据,并进行分析和判断,判断是否满足告警条件。
3. 发送告警信息:如果满足告警条件,根据配置的规则,发送相应的告警信息到指定的邮箱、手机、平台等渠道,通知相关人员进行处理。
4. 处理和恢复:收到告警信息后,根据问题的严重程度和影响范围,及时进行排查和处理,恢复数据库的正常运行,并记录处理过程和结果。
5. 评估和优化:在问题解决后,对数据库的监控指标和告警规则进行评估和优化,调整阈值或者增加新的指标或者规则,以提高数据库的稳定性和可靠性。

图1:AntDB数据库ACC运维管理平台-告警流程图
告警指标采集
指标采集是监控告警的基础,ACC通过Agent周期性的采集数据库和集群的数据,结合告警策略触发告警。
ACC数据库监控告警指标采集包括以下几个方面:
•
数据库性能:通过收集和分析数据库的各种性能指标,如CPU使用率、内存使用率、磁盘使用率、连接数、事务数、QPS、TPS等,来评估数据库的运行状况和负载情况,以及发现潜在的性能瓶颈和优化点。
•
数据库故障:通过检测数据库的可用性和健康度,如响应时间、错误率、故障次数等,来及时发现并报告数据库的异常情况和故障原因,以及提供恢复建议和方案。
•
数据库安全:通过审计数据库的访问日志和操作日志,如登录用户、执行语句、操作结果等,来检测并防范数据库的非法访问和恶意操作,以及记录并追溯数据库的变更历史。
告警策略配置
在告警策略配置中,告警收敛是一个重要功能。运维平台每天会产生大量的告警,这些告警信息都需要运维人员去进行分析和处理。如果平台触发的告警信息不加以收敛,运维人员将会淹没在不断地发出的重复告警中,势必会增大运维人员的工作压力。
针对这种情况,ACC告警模块采取了首次告警等待以及告警间隔的方式降低告警噪音。首次告警等待可通过触发条件控制,只有满足连续触发多次的条件才会发出告警信息;而通过配置发送间隔时间,可以在一段时间内不发送相同的告警信息,降低了告警发送的频率。
告警策略通过给指标设置不同阈值,配置出不同级别的告警。下图是告警策略的组成:
图2:AntDB数据库ACC运维管理平台-告警策略构成
告警通知关联
每一条告警规则都可以分别关联告警联系人,当出现告警后,会将告警消息发送给告警规则对应的联系人,而不是一条告警发送给所有人,减少运维人员的信息干扰。

图3:AntDB数据库ACC运维管理平台-告警通知关联
未来展望
AntDB数据库是亚信科技凭借15年运营商核心系统应用经验以及对IT和CT的深刻理解,打造的一款与应用紧耦合的数据库产品。针对核心应用需求,在稳定性指标、安全关键目标、高可用性及快速回复能力、性能指标等方面,ACC有一套完整的运维管理工具,包括数据库组件及相关资源(主机、网络和软件包等)的全生命周期管理、故障恢复、性能诊断、监控告警等,帮助用户更加高效地管理 AntDB数据库 集群,更好地满足企业监管的要求和业务的变化。
未来,ACC将增加更多维度的监控指标,支持个性化的策略配置方式,引入智能AI根因分析等。对于后续ACC监控告警模块的演进发展,ACC将会从智能化、自动化、精准化、个性化四个方向对监控功能进行优化,具体为:
•
智能化:利用人工智能技术,如机器学习、深度学习、自然语言处理等,对数据库的性能、状态、日志等数据进行分析和预测,实现异常检测、故障诊断、优化建议等功能,提高数据库监控告警的效率和准确性。
•
自动化:利用自动化技术,如脚本、流程引擎、编排工具等,实现数据库监控告警的自动配置、执行、响应和恢复,减少人工干预和误操作,提高数据库监控告警的可靠性和安全性。
•
精准化:利用数据挖掘技术,如聚类分析、关联规则挖掘、异常值检测等,对数据库监控告警的指标和阈值进行动态调整和优化,实现针对不同场景和需求的精细化管理,提高数据库监控告警的灵敏度和适应性。
•
个性化:利用用户画像技术,如标签系统、偏好分析、推荐系统等,对数据库监控告警的内容和形式进行个性化定制和推送,实现针对不同用户和角色的差异化服务,提高数据库监控告警的满意度和参与度。
当然,根技术的发展绝不是一蹴而就,我们将继续坚定关键技术的克难攻坚,不断提升和创造价值,为客户提供更优质的产品和服务。
关于亚信安慧AntDB数据库
AntDB数据库始于2008年,在运营商的核心系统上,服务国内24个省市自治区的数亿用户,具备高性能、弹性扩展、高可靠等产品特性,峰值每秒可处理百万笔通信核心交易,保障系统持续稳定运行超十年,并在通信、金融、交通、能源、物联网等行业成功商用落地。




