0
16.【故障分析】xxx数据库未设置大页,导致集群心跳超时,私网不通,节点频繁重启
814
4页
12次
墨值5
问题描述:
xxx 生产数据库 RAC 集群节点实例出现了反复重启,故障期间出现私网不通,CPU 内存爆满
的情况。
问题分析:
通过集群 alert 日志发现心跳超时错误并重启节点
dc1 节点 crs 日志显示:09-09 10:30 分集群重启
dc2 集群 crs 日志显示 09-09 10:23 分开始心跳超时,dc1 被驱逐
dc2 集群 crs 日志显示 dc1 主机集群重启后 10:31 新注册到集群
并且故障期间发现私网网络不通。
TOP 发现主机负载超高,CPU 主要在 sys 78.5%ocssd.bin 进程 CPU 1112%,系统空闲内存
低,并且有大量换页内存使用的情况:
内存监控发现 PageTables 接近 170GB(物理内存 512G
综合上述分析,大致断定是由于未配置大页导致页面消耗大量内存,内存不足导致 swap
换,然后心跳无法响应,集群脑裂被驱逐重启。
此问题也跟透明大页有关,检查 dc1 dc2,发现 dc1 未关闭透明大页,而 dc2 关闭了透明
大页,两主机节点设置不一致。
of 4
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜
近期活动
全部
暂无活动,敬请期待...
相关课程
全部