暂无图片
暂无图片
2
暂无图片
暂无图片
暂无图片
xxx就业云系统数据库hang死,LCK1 (ospid:) waits for event 'libcache interrupt action by LCK'等待,怀疑命中BUG 28111583
2064
11页
7次
2019-10-29
5墨值下载
1
1.1 背景说明:
本故障怀疑是 Oracle12.2 命中 BUG 28111583此故障现象最初是在 06 月份 xxx
就业云数据库遇到,后面同事在某市局 4 节点 RAC 环境也遇到,导致两次宕机故障。
关于此故障问题,做了一次分析,未能明确解决,期间有在摩天轮上提问,将
此文分析和相关 trac 和日志文件上传,还特意请盖总分析了,也未能解决。
xxx 市局 4 节点 RAC 相继宕机问题相似:节点 4 异常 HANG 住重启,原因是
LCK1 进程长时间 STUCK libcache interrupt action by LCK 等待事件上,总共等待
时间为 354 分钟 23 秒,最后阻塞了 LMD2 进程导致 LMHB 进程终止了节点 4 实例。其它
节点在进行节点重配的过程当中依次宕机,是因为在进行全局数据交互的时候,怀疑
流量过大,丢包严重,与文档 12.2: 'IPC Send timeout' in RAC Environment
Followed by Instance Crash (文档 ID 2429375.1) 比较相似,但不完全匹配,最
后这个问题是命中命中 BUG 28111583,这个 BUG 12.2.0.1.190115DBRU 版本修复。
当然也有在 MOS 上提交 SR,回复如下,也是说命中 BUG 28111583,也许后面
考虑打补丁吧。。
以下是 xxx 就业数据库 hang 死故障分析:
1.2 故障描述:
xxx 就业云数据库无法登录,本地 sys 能登录。数据库 hang 死,数据库从昨晚 10 点后
就没有快照信息生成,无法生成 awr 报告。
本地 sys 登录查看很 enqSQ-contention library cache lock
Kill RAC 所有节点 LOCAL=NO 会话后,立马又有堵塞系统还是 hang 死,业务用户
无法登录。
AIX7.2,两节点 RAC 数据库 12.2.0.1 无补丁集。
1.3 故障分析
主机 CPU 资源使用正常。
2
由于系统 hang 死,kill 杀掉 LOCAL=NO 还是无法解决。
立马对数据库做 hanganalyze 分析:
Connected to:
Oracle Database 12c Enterprise Edition Release 12.2.0.1.0 - 64bit Production
SQL> oradebug setmypid
Statement processed.
SQL> oradebug tracefile_name
/u01/app/oracle/diag/rdbms/jyydb/jyydb1/trace/jyydb1_ora_27591072.trc
SQL> oradebug dump hanganalyze 3
Statement processed.
SQL>
SQL> oradebug close_trace
Statement processed.
SQL>
SQL> exit
Disconnected from Oracle Database 12c Enterprise Edition Release 12.2.0.1.0 - 64bit
Production
[oracle@jyydb1]$ more
/u01/app/oracle/diag/rdbms/jyydb/jyydb1/trace/jyydb1_ora_27591072.trc
of 11
5墨值下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜