暂无图片
RAC集群异常宕机
我来答
分享
温君
2019-07-22
RAC集群异常宕机

专家好:

    我公司有一套RAC集群每各一个月左右就会出现异常宕机,至今未找到根本原因,很困惑,还请大神帮忙排查。

最近一次,昨日凌晨6点左右运维打电话反馈数据库连接数飙升,赶到现场后其中一节点已经宕机,查看集群状态一台节点已经关闭,单节点启动不成功,为了快速恢复使用,将数据库整体重启后,短时间恢复,由于当时应用并发比较高,所以没多久又一节点性能耗尽,跟运维沟通限流后,又将数据库重启逐渐恢复正常,但根本原因到现在也不太清楚是因为什么,还得麻烦各位大神帮忙排查,万分感谢。

告警日志稍后上传

我来答
添加附件
收藏
分享
问题补充
6条回答
默认
最新
温君
上传附件:alert.log
暂无图片 评论
暂无图片 有用 0
温君
上传附件:alert2.log
暂无图片 评论
暂无图片 有用 0
章芋文

平时的数据库连接数是多少?每次都是进程数先达到1500,没有数据库宕机的日志,只有启动的日志

Setting Resource Manager plan SCHEDULER[0x32DF]:DEFAULT_MAINTENANCE_PLAN via scheduler window
Setting Resource Manager plan DEFAULT_MAINTENANCE_PLAN via parameter
Sun Jul 21 06:00:00 2019
Starting background process VKRM
Sun Jul 21 06:00:00 2019
VKRM started with pid=490, OS id=18522 
Sun Jul 21 06:00:04 2019
Begin automatic SQL Tuning Advisor run for special tuning task  "SYS_AUTO_SQL_TUNING_TASK"
Sun Jul 21 06:02:59 2019
Thread 1 advanced to log sequence 14192 (LGWR switch)
  Current log# 6 seq# 14192 mem# 0: +DJDATA/bgpprd/onlinelog/group_6.267.967846459
  Current log# 6 seq# 14192 mem# 1: +ARCH/bgpprd/onlinelog/group_6.259.967846461
Sun Jul 21 06:02:59 2019
******************************************************************
LGWR: Setting 'active' archival for destination LOG_ARCHIVE_DEST_2
******************************************************************
LNS: Standby redo logfile selected for thread 1 sequence 14192 for destination LOG_ARCHIVE_DEST_2
Sun Jul 21 06:03:00 2019
Archived Log entry 55623 added for thread 1 sequence 14191 ID 0xb640512e dest 1:
Sun Jul 21 06:08:15 2019
opidcl aborting process unknown ospid (14606) as a result of ORA-2396
Sun Jul 21 06:10:52 2019
Warning: VKTM detected a time drift.
Time drifts can result in an unexpected behavior such as time-outs. Please check trace file for more details.
Sun Jul 21 06:11:38 2019
ORA-00020: maximum number of processes (1500) exceeded
 ORA-20 errors will not be written to the alert log for
 the next minute. Please look at trace files to see all
 the ORA-20 errors.
 
Sun Jul 21 06:22:50 2019
Starting ORACLE instance (normal)
************************ Large Pages Information *******************
Per process system memlock (soft) limit = UNLIMITED

另外一个节点

Sun Jul 21 06:16:32 2019
ORA-00020: maximum number of processes (1500) exceeded
 ORA-20 errors will not be written to the alert log for
Sun Jul 21 06:16:32 2019


首先,从日志来看,6点有资源限制的计划启动,这个可以禁用,有一些bug。其次SQL Tuning Advisor自动任务也可以关闭。

另外,请上传5-6点的AWR进一步排查,并确认6点应用是否有其他批处理或者批量连接的操作,导致进程数达到上限,应用无法连接。

暂无图片 评论
暂无图片 有用 0
温君

好的,AWR稍后上传,早上5点30左右开始用户访问高峰期,初步判断没有定时任务等操作,看其中一个节点日志是先监听关闭切断了好多连接,导致所有请求都开始往另外一个节点连接,但很奇怪的是没有宕机的日志,我赶到现场时发现确实一个节点已经宕掉。唯一发现异常的就是一个VKTM的警告。


我上传awr的时候不知道为什么提示我不支持11.2.0.3及以下的版本上传,我的是11.2.0.4的呀


暂无图片 评论
暂无图片 有用 0
温君
暂无图片 评论
暂无图片 有用 0
温君
暂无图片 评论
暂无图片 有用 0
回答交流
提交
问题信息
请登录之后查看
附件列表
请登录之后查看
邀请回答
暂无人订阅该标签,敬请期待~~
暂无图片墨值悬赏