暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

oracle rac频繁掉盘处理记录

原创 dm5250 2024-11-28
254

最近一个客户,一套11.2.0.4环境的rac,一周内掉盘掉了2次,找人查看硬件也说没有报错,刚好有时间,抽空下来好好的看看日志

1、出现掉盘

监控告警,asm空间异常,登录系统看,果然有问题

图片

显示一块磁盘offline。


2、查看asm日志

    这个asm日志很大,而且一直在刷重复的信息,感觉是踩了bug。

NOTE: Voting file relocation is required in diskgroup OCRVOTENOTE: Attempting voting file relocation on diskgroup OCRVOTENOTE: Successful voting file relocation on diskgroup OCRVOTE

翻了好久,才有点端倪,凌晨4点的时候,告警:

WARNING: Waited 15 secs for write IO to PST disk 1 in group 3.WARNING: Waited 15 secs for write IO to PST disk 1 in group 3.Wed Nov 27 04:40:39 2024NOTE: process _b000_+asm2 (49704) initiating offline of disk 1.3915955794 (DATA4) with mask 0x7e in group 3NOTE: checking PST: grp = 3GMON checking disk modes for group 3 at 44 for pid 39, osid 49704NOTE: group DATA2: updated PST location: disk 0000 (PST copy 0)NOTE: checking PST for grp 3 done.NOTE: sending set offline flag message 1401034769 to 1 disk(s) in group 3WARNING: Disk DATA4 in mode 0x7f is now being offlinedNOTE: initiating PST update: grp = 3, dsk = 1/0xe968be52, mask = 0x6a, op = clearGMON updating disk modes for group 3 at 45 for pid 39, osid 49704NOTE: group DATA2: updated PST location: disk 0000 (PST copy 0)NOTE: group DATA2: updated PST location: disk 0000 (PST copy 0)

    一看15s这个告警,结合11g的环境,想到了"_asm_hbeatiowait"这个参数,这个参数是11.2.0.3推出来的,用于心跳磁盘超时检测,超时15s未响应就会踢出磁盘或者dismount磁盘组,很庆幸这次只是drop一个磁盘,业务没有受到影响。这个参数在12c默认值就很大了,达到120s,在19c就更大。可以通过以下语句修改:

sqlplus / as sysasmalter system set "_asm_hbeatiowait"=120s scope=spfile sid='*';


3、加回磁盘

--查看磁盘状态select GROUP_NUMBER,NAME,PATH,MOUNT_STATUS,STATE from v$asm_disk;
--确定好掉的盘后加盘 kfod disks=all status=TRUE dscvgroup=TRUEkfed read /dev/磁盘   |grep 'kfdhdb.dskname'alter diskgroup data add disk 'ORCL:DATA4' force;
--查看重平衡select operation,est_minutes from v$asm_operation当est_minutes为0时表示完成。


结束,最后再找个时间修改下隐藏参数。


「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论