故障处理之数据库节点实例异常重启

IT那活儿 2022-10-24

512

点击上方“IT那活儿”公众号，关注后了解更多内容，不管IT什么活儿，干就完了！！！

一

故障现象

数据库节点3因大量高并发insert语句导致sql积压，从而短时间内消耗大量主机资源，对数据库性能产生了很大影响，严重影响数据库的正常运行，导致节点3数据库发生重启。

二

故障分析

2.1 20点28分左右，收到节点3大量sql积压短信告警,积压SQL主要为：9yy1zhgjvfbpj.

节点3：

2.2 登陆环境核查数据库实例状态及实例启动时间，20点36分确认数据库实例状态正常，且实例没有重启。当即对异常等待事件的sql进行查杀，但是由于应用还在不停的发起连接，在20点45分时节点3发生重启。

2.3 查看主机日志，并确认无异常报错信息。

节点3主机日志：

2.4 通过检查数据库运行状况时发现节点3上有大量sql积压的等待事件。

对应等待事件主要为：

附：

enq:us-contention
这个等待事件有许多脱机撤消段，并且工作负载在短时间内开始联机许多撤消段。当使用具有自动调整的撤销保留期的系统管理撤销时，这可能会导致在DC_ROLLBACK_SEGMENTS上出现高“闩锁：行缓存对象”争用，同时出现高“enq:US-争用”等待。
rowcache local
该是一个共享池相关的等待事件。是由于对于字典缓冲的访问造成的。每一个行缓冲队列锁都对应一个特定的数据字典对象，这被叫做队列锁类型，并可以在V$ROWCACHE视图中找到。在AWR中需要查看DictionaryCache Stats部分用以确定问题。
enq:IV - contention
物化视图（mview）有两部分：
1）保存数据的表；
2）摘要对象。
当提交mview基表上的DML时，summary对象将失效。这是必要的，因为mview可能需要用于查询重写。失效采用IV排队，直到summary对象在所有节点上失效为止。如果存在大量摘要无效，则会导致此排队上的争用。

2.5 通过核查节点3上sql积压等待事件对应的会话信息，定位到积压sql对应的sql_id，查到其sql文本就是一个insert语句。

节点3：