暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

最常见的5个导致RAC实例崩溃的问题

Oracle微学堂 2018-08-21
4040
问题 1ORA-29770 LMHB终止实例

症状:

LMON (ospid:31216) waits for event 'control file sequential read' for 88 secs.
Errors in file
Oracle/base/diag/rdbms/prod/prod3/trace/prod3_lmhb_31304.trc(incident=2329):
ORA-29770: global enqueue process LMON (OSID 31216) is hung for more than 70seconds
LMHB (ospid: 31304) is terminating the instance.

LMON (ospid: 8594) waits for event 'control file sequential read' for 118 secs.
ERROR: LMON is not healthy and has no heartbeat.
ERROR: LMHB (ospid: 8614) is terminating the instance.

可能的原因:

LMON 等待读取控制文件,导致LMHB 使实例崩溃
Bug 11890804 LMHB crashes instance withORA-29770 after long "control file sequential read" waits

解决方案:

Bug 8888434 已在 11.2.0.2 及以上版本 中得到修正
Bug 11890804 已在 11.2.0.3及以上版本中得到修正

问题 2ORA-481导致的实例崩溃

症状:

1. PMON (ospid:12585): terminating the instance due to error 481
LMON
进程跟踪文件显示:
Begin DRM(107) (swin 0)
* drm quiesce <kjxgmrcfg: Reconfiguration started, type 6 
LMS<x>
进程跟踪文件显示:
2011-07-05 10:53:44.218905 : Start affinity expansion for pkey 81885.0
2011-07-05 10:53:44.498923 : Expand failed: pkey 81885.0, 229 shadowstraversed, 153 replayed 1 retries
2. PMON (ospid: 4915562): terminating the instance due to error 481
Sat Oct 01 19:21:37 2011
System state dump requested by (instance=2, osid=4915562 (PMON)),summary=[abnormal instance termination].

可能的原因:

1. Bug 11875294 LMS gets stuck during DRM,Instance crashed with ORA-481
2. HAIP
在部分集群节点上离线,或者 HAIP 在所有集群节点上都在线,但是无法通过其进行通信,例如ping操作失败。

解决方案:

1. Bug 11875294 已在 11.2.0.3 中得到修正,绕过问题的方法是:
通过设置
_gc_read_mostly_locking=FALSE
来禁用read  mostly
问题 3ORA-600[kjbmprlst:shadow]....

症状:

由于 ORA-600[kjbmprlst:shadow]ORA-600[kjbrref:pkey]ORA-600[kjbmocvt:rid][kjbclose_remaster:!drm] ORA-600 [kjbrasr:pkey] 导致 RAC 实例崩溃

可能的原因:

这一组 ORA-600 DRMdynamic resourceremastering)消息或 read mostly 锁有关。涉及多个 bug,包括:
Document 9458781.8 Missing close message tomaster leaves closed lock dangling crashing the instance with assorted Internalerror 
Document 9835264.8 ORA-600 [kjbrasr:pkey] ORA-600 [kjbmocvt:rid] in RAC with dynamic remastering
Document 10200390.8 ORA-600[kjbclose_remaster:!drm]in RAC with fix for 9979039
Document 10121589.8 ORA-600[kjbmprlst:shadow] can occur in RAC
Document 11785390.8 Stack corruption incorrect behaviour possible in RAC
Document 12408350.8 ORA-600 [kjbrasr:pkey]in RAC with read mostly locking
Document 12834027.8 ORA-600[kjbmprlst:shadow] ORA-600 [kjbrasr:pkey] with RAC read mostly locking

解决方案:

上述大部分 bug 都在 11.2.0.3 中得到了修正,安装 11.2.0.3 补丁集应该可以避免这些 bug,除了 Bug 12834027,此 bug 将在 12.1 中进行修正。绕过这个 bug 的方法是:

禁用 DRM

禁用read mostly
例如:设置 "_gc_read_mostly_locking"=FALSE

问题 4:启用flash cache后产生kcldle...导致实例崩溃

症状:

警报日志中报告了 ORA-7445[kcldle]
ORA-7445[kclfplz]
ORA-7445[kcbbxsv_12]
ORA-744[kclfprm]

可能的原因:

它们是由不同的 bug 引起的,而这些bug都归结为 基础bug Bug 12337941 Dumps on kcldle kclfplz kcbbxsv_l2 kclfprm using flash

解决方案:

bug 已在 11.2.0.3 中得到修正,请安装补丁集或使用以下方法绕过这个问题:禁用 Flash Cache.
问题 5LMS ORA-600[kclpdc_21]错误

症状:

警报日志中报告了ORA-600[kclpdc_21]

可能的原因:

Document 10040035.8  LMS gets ORA-600[kclpdc_21] and instance crashes 

解决方案:

bug 已在 11.2.0.3 中得到修正.

10.2.0.5的问题

症状:

1. LMS进程 ORA-600[kjccgmb:1]错误导致实例崩溃, LMS<n>:terminating instance due to error 484
2.
由于以下原因导致实例崩溃:
Received an instance abort message from instance 2 (reason 0x0)
Please check instance 2 alert and LMON trace files for detail.
LMD0: terminating instance due to error 481

可能的原因:

1. Bug 11893577 - LMD CRASHED WITH ORA-00600 [KJCCGMB:1] 
2. Bug 9577274 - 1OFF:UNABLE TO VIEW REQUEST OUTPUT AND LOG AFTER APPLYING FIXTO ISSUE IN BUG 9400041

解决方案:

1. 对于 10.2.0.5.0,安装合并的补丁 12616787
2.
对于 10.2.0.5.5,安装合并的补丁 13470618
撰写本文时,只有特定平台才有可用补丁。对于任何 10.2.0.5.x 版本,不需要同时安装上述两个补丁。

扫描二维码关注我的微学堂

搜索刘老师微信号:Rman-2014,备注“Oracle学习与咨询”,即可添加好友;或者扫描下面二维码,关注我的“微学堂”公众号,了解最新OCP认证动态、题库及答案解析、培训机构及讲师介绍、课堂授课内容等。每天还有一篇技术文章发布哦!


最后修改时间:2020-01-13 22:18:59
文章转载自Oracle微学堂,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论