书接上回
深夜一声惊雷.客户炸了群,深夜炸群后,为了保障应用的高可用性,我们需要尽快恢复RAC集群环境,于是历经2天完成了2个业务线备RAC恢复搭建,计划09号凌晨开始将2个业务线切回RAC环境。
此次切换方案:ORACLE-主备备-Failover
计划凌晨01开始切换,在00:05数据库日志突然疯狂报ASM连接异常,心都提起来了,关键的时候可别集群出问题,要不就被客户骂死了,一群人等着切换操作呢。
- ASM 异常报错
Fri Aug 09 00:05:26 2024
WARNING: ASM communication error: op 0 state 0x0 (15055)
ERROR: direct connection failure with ASM
- 日志截图:

分析
官方解释

- 原因
Oracle用户在用as sysdba访问v$asm_diskgroup时,发现没在oinstall组中,因此报错。 - 解决方案
将Oracle用户添加到oinstall组中。
排查环境
- oracle 在oinstall 组,状态:正常,线索断了
[root@dbrac1 ~]# id oracle
uid=600(oracle) gid=600(oinstall) 组=600(oinstall),601(dba),602(asmdba)
- 回忆报错前的操作
10点左右检查环境的时候发现zabbix监控没打开,于是把zabbix监控打开了,再然后就发现报错了。那应该和zabbix监控可能有关,于是翻看监控脚本Check_Oracle,发现有个监控asm空间,正好用到了v$asm_diskgroup视图
select name,(1-FREE_MB/TOTAL_MB)*100 pct from v$asm_diskgroup;
- 查看zabbix所属组
[oracle@dbrac1 ~]$ id zabbix
uid=555(zabbix) gid=555(zabbix) groups=555(zabbix)
- 将zabbix 添加数据库相关组
[root@dbrac1 ~]# usermod -G zabbix,asmadmin,oinstall,dba zabbix
[root@dbrac1 ~]# id zabbix
uid=555(zabbix) gid=555(zabbix) 组=555(zabbix),600(oinstall),601(dba),604(asmadmin)
- 解决
手动执行监控脚本,日志不输出报错,但日志还在不停的刷报错。没办法又重启了下zabbix agent 程序,发现没有报错了,看来系统当时缓存以前zabbix的组权限没有重新加载权限。
终章
终于在切换前10分钟排查到了问题,确认集群环境没有隐患,不要影响切换流程必定大家都在等待中。数据库切换完后,继续解决监控zabbix脚本的问题。
总结
- 细节决定成败,这是的问题在于部署监控的时候,没给相关的所属组;
- 具体问题还是需要具体分析,不能太依赖官方,官方只能给方向;
- 没有无缘无故的报错,一切都会根源,需要清醒的头脑一点点抽丝剥茧;
文章推荐
- 故障处理
《Oracle HASH JOIN 引起的TEMP爆满分析总结》
《expdp/impdp 任务终止不能靠Ctrl+C》
《Oracle_索引重建—优化索引碎片》
《Oracle 自动收集统计信息机制》
《DBA_TAB_MODIFICATIONS表的刷新策略测试》
《FY_Recover_Data.dbf》
《Oracle RAC 集群迁移文件操作.pdf》
《Oracle Date 字段索引使用测试.dbf》
《Oracle 诊断案例 :因应用死循环导致的CPU过高》
《记录一起索引rebuild与收集统计信息的事故》
《RAC DG删除备库redo时报ORA-01623》
《问答榜上引发的Oracle并行的探究(一)》
《问答榜上引发的Oracle并行的探究(二)》
《DG 同步延迟之奇怪的经典报错:ORA-16191》 - 等待事件
《log file sync》 等待事件问题分析汇总
《ASH报告发现:os thread startup 等待事件分析》 - 监控&脚本
《DG standby time 监控脚本部署》
《Oracle 慢SQL监控脚本》
《Oracle 慢SQL监控测试及监控脚本.pdf》
《oracle 监控表空间脚本 每月10号0点至06点不报警》
《Oracle 脚本实现简单的审计功能》 - 安装系列
《ORACLE_19C_linux安装.pdf》
《Oracle 19c-手工建库.pdf》
《19c单库升级19.11补丁.pdf》
《19c_rac补丁《19.11-p32841500》.pdf 》
《oracle_图形-单实例11.2.0.4升级19.3.pdf》
《oracle_11.2.0.3升级11.2.0.4–单实例升级.pdf》
《oracle_静默-单实例 11.2.0.4升级19.3.pdf》
《CentOS_6.7系统一步一步 RAC 11.2.0.4升级19.3.pdf》
《整理后_RAC_11.2.0.4升级19c.pdf》
欢迎赞赏支持或留言指正

最后修改时间:2024-08-16 23:26:32
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




