暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

从一次核心系统宕机看杀毒软件兼容性问题的诊断方法

IT那活儿 2025-06-26
118

点击上方“IT那活儿”公众号--专注于企业全栈运维技术分享,不管IT什么活儿,干就完了!!!



故障现象

某客户现场核心业务系统出现业务系统故障:
  • pinpoint监控发现该业务系统报错、出现慢请求告警
  • zabbix监控平台出现域名异常的告警。同时,个别用户反馈,业务系统首页出现空白、时好时坏等故障现象。紧急拉起故障响应群,运维、开发等多方协同分析处理故障。
业务架构图:


处理过程

2.1 重启APP中间件
在未明确找到根因前,急需恢复业务系统,程序日志没有发现明确错误信息,依次重启中间件应用程序,故障未恢复。
2.2 重启数据库
在未明确找到根因前,急需恢复业务系统,数据库日志未发现明确错误信息,重启数据库,故障未恢复。
2.3 切换NG
在未明确找到根因前,急需恢复业务系统,nginx日志未发现明确错误信息,切换nginx VIP地址,故障未恢复。
2.4 停止防火墙
初步定位原因,紧急停止nginx主机中防火墙,业务系统恢复正常。
主机系统日志/var/log/messages中发现大量的连接跟踪表连接满的错误信息:
XX  XX08:28:45XXX-nginx1kernelnf_conntracktablefulldroppingpacket.
XXXX08:28:45XXX-nginx1kernelnf_conntracktablefulldroppingpacket.
XXXX08:28:45XXX-nginx1kernelnf_conntracktablefulldroppingpacket.
XXXX08:28:45XXX-nginx1kernelnf_conntracktablefulldroppingpacket.
XXXX08:28:45XXX-nginx1kernelnf_conntracktablefulldroppingpacket.
XXXX08:28:45XXX-nginx1kernelnf_conntracktablefulldroppingpacket.



故障根因

3.1 根本原因
客户现场防病毒软件在系统故障前一天进行了升级,本次系统故障主要原因是该款防病毒系统功能缺陷,在Redhat 6系统下防病毒客户端升级会执行查询iptables规则状态和插入业务端口4118到iptables的命令,命令如下:
iptables –nL
iptables –Nl INPUT
iptables –I INPUT –j ACCEPT –m state –state NEW,ESTABLISHED –proto tcp –dport 4118

从而导致原先关闭状态的iptables防火墙被开启,在业务请求量上去后就出现连接跟踪表连接满的情况,进而触发业务系统访问异常故障。
经过测试验证:
Redhat 7及以上操作系统,防火墙模块为firewalld,因此改款防病毒升级在次系统下不会受到影响。
3.2 针对本次系统故障的后续改进措施
  • 要求改款防病毒软件厂商改进程序缺陷,确保新版本客户端升级时Redhat 6防火墙功能不会被启用;
  • 防止类似故障再次触发,在Redhat6系统中添加防火墙定时关闭的执行计划;
  • 增加Redhat6系统的防火墙开启状态的监控;
  • 将Redhat6操作系统升级列入改造计划。

END


本文作者:程继贵(上海新炬中北团队)

本文来源:“IT那活儿”公众号

文章转载自IT那活儿,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论