暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
江门MQ故障分析报告-工程师版.pdf
124
2页
2次
2022-03-09
免费下载
温室小花.技术.博客 纯粹的 unix 技术博客 http://www.evanjiang.net QQ:3819468
红颜弹指老,刹那芳华,与其天涯思君,恋恋不舍,心绕不断,莫若相忘于江湖!
多年 Unix/Linux 经验,丰富 MiddleWare /DataBase 经验,现居广州.
技术博客: http://www.evanjiang.net QQ: 438549233
Skype/MSN:zymh_zy@hotmail.com Mail: zymh_zy@163.com
- 1 -
江门 MQ 故障分析报告
时间:2017 11 28 日报告
应用系统:MQ7 For AIX
系统问题:MQ7 数据传输中断
客户人员:省高 徐科
工程师:丰德 MQ 工程师
故障描述
2017 11 28 日前后左右,收到报障:江门法院一台负责往省高院传输数据的 MQ
出故障,江门 MQ 跟省高 MQ 之间无法如常传输数据,传输中断。
故障分析
第一次去现场排查:去到现场,就在终端机登陆江门MQ和省高院MQ机器,确认江MQ
MQ队列器JIANGM显示正常运行状态,并且监听端口正常打开,并且在终端机安MQ
客户端管理软件,可以正常连接到MQ JIANGM队列管理器,只查看到队列管理器的通
道有点异常。跟现场工程师沟通/了解MQ机器应用背景,了解到这台江门MQ前几天因硬件
故障重启过,并且也从系统层面,确认系统的确是两天前重启过,也查看过MQ应用日
志,也没有明显的报错信息,就结合以往的运维经验和排障经验,就给出如下诊断和结
论:检查网络和应用,确认网络和应用没有问题后,就重置一下通道,让江门MQ和省
院的通道状态一致,正常情况下,江门MQ和省高院之间MQ通信就可恢复。
第二次去现场排查:去现场前一天,继续收到报障,客户重置过通道后,江门MQ跟省
MQ之间还是不通,还是无法联通,在第二次去现场的前一晚,连夜在本机笔记本电脑
连夜搭建测试环境,在WIN10LINUX系统里安装MQ,搭建跟客户现场一模一样的环
境,模拟省高院和江门MQ一样的环境,并且确认测试环境MQ互相之间完全传输数据正
常,通道也正常。跟着,第二天下午,就到达客户现场再次排查,并在客户现场,即江门
MQ和省高院MQ里,搭建跟本机笔记本电脑一模一样的测试环境,继而测试MQ间的数
据传输的正确性发现还是不成功,故障情况跟以往排除MQ故障经历所遇到的因网络异
常而造成的MQ通道异常的情况一样,就初步认为是网络问题造成,加上,当时,客户应
用运维商东软曹工也上来一起交流,也反馈他以前做测试时候的所遇到的情况一样,并反
馈说以往也出现类似情况,出现过FTP不能用,同,MQ通道不可用的情况,也认为是
络问题,最后,就和曹工达成一致意见,说这是江门和省高院之间的网络异常所至,并跟
客户沟通,落实由江门那边排查网络。
第三次去现场排查:去到现场,就用终端机登陆到江门MQ机器,确认MQ机器情况跟之前
两次来的情况一样,JIANGM还是显示正常runinging状态,监听器正常开放,MQ户端正
常连接。
,由于怀疑这个JIANGM队列管理器可能有问题,就决定要在江门MQ机器重新建一个MQ
队列管理器JIANGMBAK,于是,就重建JIANGMBAK队列管理器并作江门MQ 和省高院
之间的连接测试,确认通道启动正常,于是就作省高院和江门MQ之间的互传信息测试,
温室小花.技术.博客 纯粹的 unix 技术博客 http://www.evanjiang.net QQ:3819468
红颜弹指老,刹那芳华,与其天涯思君,恋恋不舍,心绕不断,莫若相忘于江湖!
多年 Unix/Linux 经验,丰富 MiddleWare /DataBase 经验,现居广州.
技术博客: http://www.evanjiang.net QQ: 438549233
Skype/MSN:zymh_zy@hotmail.com Mail: zymh_zy@163.com
- 2 -
确认互传信息测试正常,通道状态也正常,不作显示retring状态,确认江门MQ和省高院之
MQ通信正常,传输信息正常。因而就跟客户反映,江门MQ和省高院之间测试正常,可
以正常互传信息,然后就联络东软曹工作其它应用的设置,东软曹工反馈说,东软的应用
绑定了JIANGM这个MQ队列管理器名,如果要用到其它MQ队列管理名,例如新建的测试
正常的JIANGMBAK,东软的应用会改动很大。要求要用JIANGM这个MQ队列管理器
名。于是,就提议删除掉JIANGM这个队列管理器,重建JINANG 队列管理器。考虑到东
软曹工熟悉东软应用跟这JIANGM的互连和设置,就决定让东软曹工删除重建这
JIANGM的队列管理器,并完成其余的跟东软应用相关的设置。在曹工删除这个JIANGM
的队列管理器时候,说不能删除,并且有报错,用正确的MQ 删除命令来删除,果然不
正常删除,并且报出有文件结构已损坏的报错,由此可以再次确认到这JIANGM已经损
坏,不可用。最后,从系统文件层面,用系统命令删除,最后重建,并完成余下的应用配
置,并最终由客户应用运维商东软曹工确认东软应用恢复正常。
总结建议
1128日前后左右江门MQ发生故障,造成江门MQ跟省高院MQ之间不能正常传输
数据,经过三次到现场排查与诊断,并最终在12.18日,查出江门MQ原有的JIANGMQ队列
管理器,或者可能因硬件故障等原因而损坏,最终需要删除,重建,并最终解决问题,恢
复应用,恢复江MQ和省高院之间正常的MQ数据传送。
建议
1. 定时检查/演练应用运行环境,确认应用的稳定性和可用性,定时做好应用巡检,定时
做好安全演练,模拟断网,断电的故障,做好应对措施。
2. 涉及到硬件变更操作,尽量在已正常停应用,正常关闭操作系统的前提下,作硬件
更。避免冒然变更硬件,对应用系统造成损坏。并且在变更之前,互相知会,做好预防措
施。
这次故障,排除人为破坏的原因外,很大可能是因为硬件故障,或者更换硬件,而
晌到I/0的正常访问,从而影晌到应用系统,特别是底层的传输数据通道,特别是有
量数据在高速传输的情况下,如果硬件故障,真的会影晌很大的。
补充
1、这次故障,也比较少见,很容易迷惑排障人员,因为,这个JIANGM MQ 队列管理器
正常显示运行状态,监听器也访问正常。也可以正常连接。只是通道不正常,也很容易让
人以为JIANGM MQ队列管理器还是正常的只是出现简单的通道故障和网络问题,所
以,一开始没有确认这个JIANGM MQ队列管理器内部已经出现问题,二则,考虑这个
JIANGM MQ队列管理器绑定了东软核心应用,前两次都没考虑和决定删除重建。
2017/12/18
of 2
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜