
第 1 页
1.1 背景说明:
本故障怀疑是 Oracle12.2 命中 BUG 28111583,此故障现象最初是在 06 月份 xxx
就业云数据库遇到,后面同事在某市局 4 节点 RAC 环境也遇到,导致两次宕机故障。
关于此故障问题,做了一次分析,未能明确解决,期间有在摩天轮上提问,将
此文分析和相关 trac 和日志文件上传,还特意请盖总分析了,也未能解决。
xxx 市局 4 节点 RAC 相继宕机问题相似:节点 4 异常 HANG 住重启,原因是
LCK1 进程长时间 STUCK 在 libcache interrupt action by LCK 等待事件上,总共等待
时间为 354 分钟 23 秒,最后阻塞了 LMD2 进程导致 LMHB 进程终止了节点 4 实例。其它
节点在进行节点重配的过程当中依次宕机,是因为在进行全局数据交互的时候,怀疑
流量过大,丢包严重,与文档 12.2: 'IPC Send timeout' in RAC Environment
Followed by Instance Crash (文档 ID 2429375.1) 比较相似,但不完全匹配,最
后这个问题是命中命中 BUG 28111583,这个 BUG 在 12.2.0.1.190115DBRU 版本修复。
当然也有在 MOS 上提交 SR,回复如下,也是说命中 BUG 28111583,也许后面
考虑打补丁吧。。
以下是 xxx 就业数据库 hang 死故障分析:
1.2 故障描述:
xxx 就业云数据库无法登录,本地 sys 能登录。数据库 hang 死,数据库从昨晚 10 点后
就没有快照信息生成,无法生成 awr 报告。
本地 sys 登录查看很多 enq:SQ-contention 和 library cache lock
Kill RAC 所有节点的 LOCAL=NO 会话后,立马又有堵塞系统还是 hang 死,业务用户
无法登录。
AIX7.2,两节点 RAC 数据库 12.2.0.1 无补丁集。
1.3 故障分析
主机 CPU 资源使用正常。
文档被以下合辑收录
评论