Prometheus一条告警是怎么触发的 - 爱可生开源社区 - OSCHINA - 中文开源技术交流社区.pdf

张鹏

131

10页

0次

2023-09-19

5墨值下载

Prometheus一条告警是怎么触发的 - 爱可生开源社区 -

OSCHINA

文章来源：爱可生云数据库

作者：张沈波

第一节：监控采集、计算和告警

第二节：告警分组、抑制、静默

告警分组

告警抑制

告警静默

收敛小结

第三节：告警延时

延时的三个参数

延时小结

总结

Prometheus+Grafana是监控告警解决方案里的后起之秀，比如大家熟悉的PMM，就是使用了这个方案；前不

久罗老师在3306pi公众号上就写过完整的使用教程《构建狂拽炫酷吊的MySQL 监控平台》，所以我们在这里

就不再赘述具体如何搭建使用。

今天我们聊一些Prometheus几个有意思的特性，这些特性能帮助大家更深入的了解Prometheus的一条告警是

怎么触发的；本文提纲如下：

监控采集，计算和告警

告警分组，抑制和静默

告警延时

第一节监控采集、计算和告警

Prometheus以scrape_interval（默认为1m）规则周期，从监控目标上收集信息。其中scrape_interval可以基

于全局或基于单个metric定义；然后将监控信息持久存储在其本地存储上。

Prometheus以evaluation_interval（默认为1m）另一个独立的规则周期，对告警规则做定期计算。其中

evaluation_interval只有全局值；然后更新告警状态。

其中包含三种告警状态：

inactive：没有触发阈值

pending：已触发阈值但未满足告警持续时间

firing：已触发阈值且满足告警持续时间

举一个例子，阈值告警的配置如下：

groups:

- name: example

rules:

- alert: mysql_uptime

expr: mysql:server_status:uptime < 30

for: 10s

labels:

level: "CRITICAL"

annotations:

detail: 数据库运行时间

收集到的mysql_uptime>=30,告警状态为inactive

收集到的mysql_uptime<30,且持续时间小于10s，告警状态为pending

收集到的mysql_uptime<30,且持续时间大于10s，告警状态为firing

of 10

5墨值下载

prometheus

关注

评论