点击上方“IT那活儿”公众号--专注于企业全栈运维技术分享,不管IT什么活儿,干就完了!!!
问题背景
11月28日在接入监控的时候,在确定配置文件和启动程序都正常,之后启动程序过3-5分钟agent服务就会掉线,平台显示:
Get value from agent failed: cannot connect to [[XXX.XXX.XXX.60]:10055]: [111] Connection refused
zabbix agent日志显示如图:

问题排查
2.1 检查操作系统与agent的启动包
在zabbix agent中操作系统不同会导致agent的启动包zabbix_agentd启动失败,需要根据系统版本更换启动包,我这里更换了centos8的启动包,发现还是原来报错,无法解决。

2.2 检查配置文件信息
检查了agent的配置文件,发现配置文件的超时时间是Timeout=30,怀疑可能超时时间太短了,就调整到Timeout=60,保存后启动agent,过了一会还是掉线。

2.3 检查系统时间
查看系统时间,发现系统时间还是早上7点40,最终确定是系统时间不匹配,导致zabbix agent频繁掉线,修改系统时间后,zabbix agent正常启动不掉线了。如果有配置时间ntp,查看ntp服务是否掉线。
问题总结
时间不同步不仅会导致掉线问题,还可能影响监控数据的采集,在接入监控时最好是先查看机器上是否配置了ntp服务,如果没有配置可以临时使用date 命令的-s参数手动修正时间。

本文作者:陈 聪(上海新炬中北团队)
本文来源:“IT那活儿”公众号

文章转载自IT那活儿,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




