暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

记一次weblogic故障分析

原创 Digital Observer 2024-10-11
311

现象描述

客户生产系统于2月29号8点40分钟左右监控告警业务异常,最后weblogic中间件异常重启后恢复。

问题详细诊断

检查weblogic业务server日志,最早异常发生于2月29日8点37分,如下图:
图片 1we.png

weblogic.utils.net.SocketResetException.
 Linked exception: java.lang.exception: weblogic.rjvm.peergoneexception

以上报错是一个连接异常,业务尝试连接一个JMSPool,不能正常连接导致的报错。与业务方交流后,发现jms部署在管理控制台服务上。
检查管理服务进程日志,并没有发现日志记录有jms相关的异常报错,管理进程主要是管理控制台和监控相关server状态的进程服务,日志记录级别较低,故建议jms部署到业务服务。
在8点48分~49分钟有大量的StuckThread,线程执行超过600秒就会发生stuck,说明很多线程长时间执行未释放,如下图:
图片 we1.png
发生这种情况跟前面的jms连接异常有很大的关联,由于不能正常连接jms所以导致了线程等待现象。
另外在8点49分钟时发生了“java.net.socketException: Broken pipe”现象,如下图:
图片 132.png
这个报错一般是业务断开或者网络中断的报错,在这里由于大量的stuck线程,最后超时断开报错。

故障原因

故障期间业务服务不能正常连接jms,导致进程都处于stuck状态,由于jms服务部署在管理服务上,但是管理服务日志记录不全,没有生成jms的异常记录。

建议

1、 servers管理控制台不会输出服务的out日志,建议将jms服务从管理服务上分离出来,部署到独立的服务上,独立的服务进程会输出out日志,避免jms和管理控制台的相互干扰。
hhh6.jpg

最后修改时间:2024-10-11 18:22:46
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论