RAC集群异常宕机
专家好:
我公司有一套RAC集群每各一个月左右就会出现异常宕机,至今未找到根本原因,很困惑,还请大神帮忙排查。
最近一次,昨日凌晨6点左右运维打电话反馈数据库连接数飙升,赶到现场后其中一节点已经宕机,查看集群状态一台节点已经关闭,单节点启动不成功,为了快速恢复使用,将数据库整体重启后,短时间恢复,由于当时应用并发比较高,所以没多久又一节点性能耗尽,跟运维沟通限流后,又将数据库重启逐渐恢复正常,但根本原因到现在也不太清楚是因为什么,还得麻烦各位大神帮忙排查,万分感谢。
告警日志稍后上传
我来答
添加附件
收藏
复制链接
微信扫码分享
在小程序上查看
分享
添加附件
问题补充
6条回答
默认
最新
平时的数据库连接数是多少?每次都是进程数先达到1500,没有数据库宕机的日志,只有启动的日志
Setting Resource Manager plan SCHEDULER[0x32DF]:DEFAULT_MAINTENANCE_PLAN via scheduler window Setting Resource Manager plan DEFAULT_MAINTENANCE_PLAN via parameter Sun Jul 21 06:00:00 2019 Starting background process VKRM Sun Jul 21 06:00:00 2019 VKRM started with pid=490, OS id=18522 Sun Jul 21 06:00:04 2019 Begin automatic SQL Tuning Advisor run for special tuning task "SYS_AUTO_SQL_TUNING_TASK" Sun Jul 21 06:02:59 2019 Thread 1 advanced to log sequence 14192 (LGWR switch) Current log# 6 seq# 14192 mem# 0: +DJDATA/bgpprd/onlinelog/group_6.267.967846459 Current log# 6 seq# 14192 mem# 1: +ARCH/bgpprd/onlinelog/group_6.259.967846461 Sun Jul 21 06:02:59 2019 ****************************************************************** LGWR: Setting 'active' archival for destination LOG_ARCHIVE_DEST_2 ****************************************************************** LNS: Standby redo logfile selected for thread 1 sequence 14192 for destination LOG_ARCHIVE_DEST_2 Sun Jul 21 06:03:00 2019 Archived Log entry 55623 added for thread 1 sequence 14191 ID 0xb640512e dest 1: Sun Jul 21 06:08:15 2019 opidcl aborting process unknown ospid (14606) as a result of ORA-2396 Sun Jul 21 06:10:52 2019 Warning: VKTM detected a time drift. Time drifts can result in an unexpected behavior such as time-outs. Please check trace file for more details. Sun Jul 21 06:11:38 2019 ORA-00020: maximum number of processes (1500) exceeded ORA-20 errors will not be written to the alert log for the next minute. Please look at trace files to see all the ORA-20 errors. Sun Jul 21 06:22:50 2019 Starting ORACLE instance (normal) ************************ Large Pages Information ******************* Per process system memlock (soft) limit = UNLIMITED
另外一个节点
Sun Jul 21 06:16:32 2019 ORA-00020: maximum number of processes (1500) exceeded ORA-20 errors will not be written to the alert log for Sun Jul 21 06:16:32 2019
首先,从日志来看,6点有资源限制的计划启动,这个可以禁用,有一些bug。其次SQL Tuning Advisor自动任务也可以关闭。
另外,请上传5-6点的AWR进一步排查,并确认6点应用是否有其他批处理或者批量连接的操作,导致进程数达到上限,应用无法连接。
评论
有用 0好的,AWR稍后上传,早上5点30左右开始用户访问高峰期,初步判断没有定时任务等操作,看其中一个节点日志是先监听关闭切断了好多连接,导致所有请求都开始往另外一个节点连接,但很奇怪的是没有宕机的日志,我赶到现场时发现确实一个节点已经宕掉。唯一发现异常的就是一个VKTM的警告。
我上传awr的时候不知道为什么提示我不支持11.2.0.3及以下的版本上传,我的是11.2.0.4的呀
评论
有用 0
评论
有用 0
评论
有用 0回答交流
提交
问题信息
请登录之后查看
附件列表
请登录之后查看
邀请回答
暂无人订阅该标签,敬请期待~~
墨值悬赏

