记一次数据库节点重启原因

原创 subverter 2024-02-29

一、监控分析

1、节点一（服务器）主机空闲内存在7点21急剧下降

2、节点一（服务器）性能急剧下降

二、后台日志分析

1、节点一的alert日志，反映在7:21的存在Time drift detected。

以此到oracle官方查询如下：

2、由于节点一资源耗尽，导致IPC（进程间）通信time out，具体如下节点二的alert日志截图，根据oracle rac的机制节点二会将节点一踢出集群，发起远程重启实例，具体如下节点二日志截图：

3、节点一在收到节点二的重启要求后，进行重启，如下节点一的alert日志截图。

三、问题总结

Oracle 集群在发现一些严重问题时会将一个或多个节点从集群中驱逐出去。这种严重问题包括节点没有网络心跳、节点没有磁盘心跳、服务器无响应或者有严重性能问题、或者 ocssd.bin 无响应。节点驱逐的目的是通过去除一些节点来维护整个节点的健康。
从 11.2.0.2 RAC (或者是 Exadata)，节点驱逐也许并不会真正重启主机。这称为 rebootless restart。这种情况下，我们会重启大部分的集群进程来确认是否可以解决这台节点的问题。

墨力计划

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者

记一次数据库节点重启原因

一、监控分析

二、后台日志分析

三、问题总结

评论