等待事件（latch: undo global data）性能故障处理

原创王菠云和恩墨交付战队 2022-07-24

1981

概述

2021年07月13日凌晨，某数据库负载同之前相比较高，通过分析主要是由于大量并发insert操作导致undo相关异常等待事件。

问题现象

2021年07月14日凌晨开始某库db_time较以往有大幅升高：

登录数据库核查后发现大量undo相关等待事件：

通过查看awr发现大量insert语句执行：

问题根源

数据库负载升高主要是由于14号凌晨insert SQL相关业务量升高导致。

问题分析

负载趋势分析

通过核查tps和qps情况发现，14号凌晨开始数据库db_time、db_cpu、tps 、qps均大幅升高。所以负载升高主要还是由于数据库繁忙导致。(tps、qps越高数据库相对越繁忙)

13号和16号Awr top sql对比：

13号awr top sql

16号awr top sql：

Undo表空间大小以及相关参数

通过核查发现数据库4节点undo表空间（undo_3）大小为32G：

Undo_retention参数当前为10800属于正常范围，由于_undo_autotune 为false 数据库将优先保证10800秒内的一致性查询。

通过核查undo_3过期的undo空间有0.5G，未过期的undo表空间有31.9G, 由于过期的undo比率较小，而且参数_undo_autotune 为false数据库优先保证未过期的undo不被覆盖，导致数据库不得不花费了较长事件寻找过期的undo和将部分已过期的undo设置为过期状态的时间较长。