暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Oracle 11g新特性direct path read引发的系统停运故障诊断处理

DBA黎俊杰 2021-04-21
821

声明:部分表名为了脱敏而用XX代替


1、故障现象

(1)一个业务系统输入用户名与密码后无法进入首页,表现为一直在运行等待,运行缓慢

(2)整个系统无法正常使用,接近停运状态

2、故障解决方法

调整数据库参数alter system setevent='10949 trace name context forever, level 1'来关闭“direct path read”(直接路径读)特性,使SQL语句可以从缓存中查询数据,达到降低I/O读取量,使全表扫描的数据从缓存中读取,加快SQL语句运行速度的目的

3、故障原因总结

(1)由于部分SQL语句设计或编写效率低下,以及表缺少适应的索引,导致SQL语句需要全表扫描,在表较小时,ORACLE数据库将数据读取到缓存后,后续虽然是全表扫描,但均是从缓存中读取,所以问题未体现出来

(2)在表的大小不断增大后,根据ORACLE 11g数据库的算法,在表达到db_cache_size(GB)的2%(默认值)以后,认为采用直接路径读(跳过缓存,直接从磁盘文件中全扫描读取)

(3)DX_T_XXVIATE表大小为1GB,在大量反复以direct pathread磁盘重复读取的情况下,消耗大量的I/O资源,将服务器I/O几乎耗尽

(4)在主机I/O耗尽的情况下,系统的读、写,均几乎处于瘫痪状态

(5)在关闭ORACLE 11G数据库的direct path read新特性功能后,读取方式恢复到从缓存中读取,磁盘读降到“0”,系统恢复正常

4、改进建议

(1) 优化访问DX_T_XXVIATE 相关的SQL语句与设计合适的索引,避免大表全表扫描。

5、故障原因分析

 5.1  711日故障时段数据库服务器I/O等待严重


5.2  711日故障时段磁盘响应非常缓慢

 

5.3  对比故障当日(711日)与上周的I/O磁盘读取量,比上周大十倍



故障前、中、后磁盘读取量对比图: 



上面高的蓝色线,是故障当日(2016年7月1日,周一)的磁盘Disk Read KB/s指标线

5.4  高度消耗I/OSQL语句。


上面SQL_ID为b8m6wy846qgbk的SQL语句,physical reads鹤立鸡群,可见此SQL语句的影响最为严重。

 

5.5  全表扫描单次超过6秒的表与其SQL语句统计。

统计汇总时间:08:00—10:00



统计时间:08:00—10:00单次扫描超过6秒的SQL语句及时长详细清单


上面数据显示,08:00—10:00统计时间内,所有全表扫描超过6秒的表,全部是DX_T_XXVIATE这一张表,涉及到的SQL语句有60多条,执行次数最多的数SQL_ID为b8m6wy846qgbk的语句。

5.6  全表扫描最严重SQL语句故障前、后、故障解决后磁盘读取数量对比

5.6.1  711日以前系统运行正常的情况下SQL_IDb8m6wy846qgbk的语句执行统计信息

--执行统计信息(buffer get很大,但是disk reads0,判定数据基本从buffer中读取):


 

--执行计划(对DT_T_OBVIATE全表扫描,预计时间为5分钟30秒):



 

5.6.2  711日故障当日SQL_IDb8m6wy846qgbk的语句执行统计信息

--执行统计信息(buffer getdisk reads都一样的巨大,基本判定每次数据全是从磁盘读取到BUFFER):


--执行计划(对DT_T_OBVIATE全表扫描,预计时间为5分钟30秒,从执行计划的PHVplan均看出执行计划在系统故障时与正常时,是保持一致的):



 

5.6.3  故障解决后(取712日数据)SQL_IDb8m6wy846qgbk的语句执行统计信息

--执行统计信息(故障解决后,PVH值不变,Disk Reads又恢复到了故障前的“0”,说明每次执行数据又是从BUFFER中读取的):



 

5.7 等待事件变化识别数据读取方式变化比较



看来,系统实际上在2016年7月10日(周日),SQL语句的数据读取方式就发生了少量的direct path read,系统实际上已经处于间歇式缓慢状态,到了2016年7月11日(周一),问题特别严重,约99%左右的执行是direct path read,导致I/O耗尽,系统瘫痪。 

 


文章转载自DBA黎俊杰,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论