20240826 zabbix报警10.44.76.101 cpu iowait time 监控达到67%;disk I/O is overloaded on oadb02
监控触发器:{oadb02:system.cpu.util[,iowait].avg(5m)}>40 监测服务器CPU等待I/O完成的时间量。当平均5分钟的值大于40%会进行报警,5分钟内cpu iowait平均负载大于40触发警告。
zabbix_get -s 192.168.76.101 -p 10050 -k "system.cpu.util" zabbix服务器 查看
zabbix_get -s 192.168.76.101 -k system.cpu.load 查看1分钟的平均负载
1.查看top
%wa:cpu运行时在等待io的时间占比,CPU空闲且等待I/O操作完成的时间 当cpu在等待硬盘读写操作结束时,这部分时间标记为iowait,高iowait时间通常表明系统的I/O性能瓶颈,可能是磁盘速度不足以满足CPU的需求
iowait高并不总是意味着系统出现了问题,实际上,可能是正常的行为,如大量读写或系统负载较高,cpu可能暂时放慢其他任务,以便集中处理I/O操作。
I/O 等待时间就是 CPU 等待 I/O 完成所花费的时间;CPU的 I/O 等待意味着即使没有进程处于可运行状态,但至少有一个 I/O 操作正在进行中
2.pidstat
pidstat -d -p 42581 1 5
-d 展示I/O统计信息
-p 指定进程号
间隔1秒输出5组数据
kB_rd 每秒读的KB数
kB_wr 每秒写的KB数
3.iostat 可以查看具体哪块磁盘正在写入
iostat -x 2 5
await 平均每次设备I/O操作的等待时间 毫秒
svctm 平均每次设备I/O操作的服务时间 毫秒,反应了磁盘的负载情况,大于15ms且util接近100%说明磁盘为瓶颈
%util 一秒中有百分之多少的时间用于I/O操作,多少I/O队列非空的;接近100%说明io请求多,满负载,磁盘可能有瓶颈
4.lsof 查看哪个文件引起的iowait
lsof -p 87571 展示一个进程打开的所有文件




