问题概述
某交易型数据库1节点与7月11号00:14:14左右发生实例重启,经查看故障时间点LGWR进程被阻塞74秒,在等待"enq:CF - contention",随后LMHB进程将数据库实例终止。00:48:20实例启动成功
问题原因
数据库两个节点lgwr进程在故障前均出现了不同程度的控制文件写等待(enq: CF - contention),1节点等待长达74秒,2节点等待4秒。随后LMHB进程检测到后台进程lgwr异常,于是终止实例,释放资源。经查看故障时间段有很高的IO性能问题。同时存在数据备份。从磁盘IO性能数据和日志显示的磁盘相关等待可以判定此次故障根源是因磁盘IO性能引起
解决方案
临时处置措施:重新拉起实例。恢复正常。
查看告警日志

从告警日志可以看出LGWR进程遭遇了“enq: CF - contention”队列等待超过74秒,7秒后LMHB终止了实例。
Trace信息

Trace日志显示LMHB进程检测到LGWR进程82秒无响应,状态为无心跳。
Trace详细信息


由上图trace详细跟踪日志可见,故障前数据库在长时间等待磁盘IO操作。
进一步查看osw磁盘相关相关数据


从osw数据也同样显示故障时间段存在很高的IO压力
Awr数据


从故障时间前的awr报告可以看出,数据库持续存在磁盘性能问题,换句话说:磁盘IO性能很差。正常磁盘平均等待应该在1-2ms,而报告显示IO类的平均等待有大几百毫秒。至此,故障脉络清晰,原因明了。
硬件厂商解决磁盘IO问题,提高性能。
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




