故障诊断：DRM导致Oracle RAC节点Hang住

Enmotech 2017-07-13

1168

生活就像一盒巧克力，你永远不知道下一颗是什么味道。

--《阿甘正传》

在DBA的世界里，数据库的新特性就是这样一盒巧克力，可能是惊喜也可能是坑。毋庸置疑，新特性总是伴随着新功能而来，然而在企业最核心的数据资产面前，某些新功能的出现所带来的好处，远远不及其对于性能和稳定性带来的危害。因此我们常常会选择禁用一些新特性，今天要分享的DRM就属于其中一个。

为什么DRM通常会被列入禁用的名单，今天我通过一个真实案例来认识DRM可能会导致的数据库故障。

什么是DRM

在Oracle 10g版本中，开始提出了DRM特性，默认情况下，当某个对象的被访问频率超过某阈值，并且在某一节点的访问远高出其他节点，而同时该对象的master又是其他节点时，那么Oracle则会触发DRM操作来修改master节点。

DRM的好处是通过动态修改资源的主节点，可以大幅降低某些场景下的gc grant之类的等待事件而带来性能的提升。

但Oracle DRM的Bug也非常多，常常会引发各种奇异的故障。这类故障如何分析呢，我们今天结合具体的案例来学习。

故障现象

在我们维护的一套系统上，某一时刻业务部反应业务无法正常进行，系统hang住。

当时查看alert日志，结果如下：

在01:19的时候实例1连接中断，01:29实例1恢复正常。实例2在这个时间段内是可以正常访问的，并且数据库alert日志正常。

错误分析：

从dba_hist_active_session以及后台进程trace文件中看到01:17时实例2的8248会话出现了大量gc current request等待，并且此会话也阻塞了其它很多session,引起很多control file sequential read、log file switch(checkpoint incomplete)、buffer busy waits这些等待。
从LMD进程的trace文件中看到的确出现了DRM事件，trace文件中看到有日志：Rcvd DRM(36333) READMOSTLYTransfer pkey 519282.0 to 1 oscan 0.1。随后就出现了”gc currentrequest”、”log file switch(checkpoint incomplete)”这样的等待事件。总结来说，看到的等待现象都是表象，问题的根源是数据库进行了DRM资源的动态调整，DRM会造成各种bug问题，这一点官方在SR中也承认了。

从收集的信息资料来看，数据库实例因为DRM而hang住的现象和BUG12998795基本匹配。但是SR中并没有明确给出确定的BUG号。

接收到个人账户数据库的严重告警后，第一时间检查了数据库后台告警日志、进程trace文件、ASH、AWR报告等相关重要信息。在排除了一些明显故障点后，立马收集告警日志、trace文件、dba_hist_active_session、oswatcher监控数据、数据库版本等信息。

分析如下：

1、数据库alert告警日志中失去连接响应前的告警日志：

数据库后台经常出现这样的告警，与ADG的传输进程有关，主库负载较高、主备库之间的网络抖动或网络丢包现象都会出现这个告警，传输进程LNS会重新尝试日志传输。

分析ORA-03113:end-of-file on communication channel相关的trace文件spaydbwr1_nsa3_58917326.trc、spaydbwr1_nsa4_20121152.trc以及NSA: Error 3113 archiving log6 to 'gzrz1'这样的错误告警，发现竟然是磁盘IO造成的？难道是存储有问题？

***2016-08-05 01:19:30.185
***2016-08-05 01:19:30.185 3327 krsb.c
krsb_iorb_reap:Error 3135 reaping buffers
krsb_bcb_get:Error 3135 performing stall for 1 BCB I/O completion check
***2016-08-05 01:19:30.186 4320 krsh.c
NSA: Error 3135 archiving log 6 to 'spaydbb'
Error1041 detaching RFS from standby instance at host 'spaydbb'
***2016-08-05 01:19:30.186 2961 krsi.c
krsi_dst_fail:dest:3 err:3135 force:0 blast:1
ORA-03135:connection lost contact
Closing Redo Read Context