一、监控分析
1、节点一(服务器)主机空闲内存在7点21急剧下降
2、节点一(服务器)性能急剧下降
二、后台日志分析
1、节点一的alert日志,反映在7:21的存在Time drift detected。
以此到oracle官方查询如下:
2、由于节点一资源耗尽,导致IPC(进程间)通信time out,具体如下节点二的alert日志截图,根据oracle rac的机制节点二会将节点一踢出集群,发起远程重启实例,具体如下节点二日志截图:
3、节点一在收到节点二的重启要求后,进行重启,如下节点一的alert日志截图。
三、问题总结
Oracle 集群在发现一些严重问题时会将一个或多个节点从集群中驱逐出去。这种严重问题包括节点没有网络心跳、节点没有磁盘心跳、服务器无响应或者有严重性能问题、或者 ocssd.bin 无响应。节点驱逐的目的是通过去除一些节点来维护整个节点的健康。
从 11.2.0.2 RAC (或者是 Exadata),节点驱逐也许并不会真正重启主机。这称为 rebootless restart。这种情况下,我们会重启大部分的集群进程来确认是否可以解决这台节点的问题。
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




