暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

一体机系统盘offline的处理过程

IT那活儿 2022-10-15
1827
点击上方“IT那活儿”公众号,关注后了解更多内容,不管IT什么活儿,干就完了!!!

  

概述:

一体机有数据盘和系统盘,数据盘要是missing可以由其它柜数据盘重平衡后修复,但是系统盘在硬件上只有一组冗余,坏了之后需要即时修复。




事情发生及分析

1. 发现问题
收到一体机数据库ASM存在离线磁盘组的告警告警。
2. ASM检查
数据库检查ASM磁盘情况,发现存在offline disk磁盘。
3. 临时方案
尝试手动online asm disk,执行后失败报not visible cluster-wide
说明存在损坏,有可能是物理坏盘了。
4. 分析日志
1)查看ASM日志,确认为底层磁盘有问题。
2)登录一体机进行状态检查,发现所有磁盘组为正常,对应ASM的的磁盘组提示状态未更新。
找到对应的节点进行日志检查,发现存在ERROR日志,确认为00号盘损坏,需要及时更换注:一个cell节点有12块盘其中00和01为系统盘所以存在异常需要立马进行更换,避免出现因系统盘异常导致的二次故障)


解决过程

经过和同事分析后,必须尽快对物理盘进行修复,先对坏盘drop,再修复物理盘。

1. 旧盘清理drop

在db节点上grid用户登录,这是要确认一下asm disk是不是被drop掉。drop掉就可以直接更换,如果没有,就需要手动去drop。
[root@dw01db01 ~]# su - oracle
[oracle@dw01db01 ~]$ ssh oracle@dw01db02
[oracle@dw01db01 ~]$ env
[oracle@dw01db01 ~]$ export ORACLE_SID=+ASM1
[oracle@dw01db01 ~]$ export ORACLE_HOME=/u01/app/11.2.0.3/grid
[oracle@dw01db01 ~]$ sqlplus as sysasm
SQL> set linesize 132
SQL> col path format a50
SQL> select group_number,name,state from v$asm_diskgroup;
GROUP_NUMBER NAME STATE
------------ ------------------------------ -----------
1 DATAC1 MOUNTED
2 DATAC2 MOUNTED
3 DATAC3 MOUNTED
4 DBFS_DG MOUNTED
5 RECOC1 MOUNTED
SQL>select group_number,path,header_status,mount_status,mode_status,name from V$ASM_DISK where path like '%CD_00_ndw1celadm02';SQL> SQL>

GROUP_NUMBER PATH HEADER_STATU MOUNT_S MODE_ST NAME
------------ -------------------------------------------------- ------------ ------- ------- ------------------------------
0      o/192.168.XX.7;192.168.XX.8/RECOC1_CD_00_ndw1celad UNKNOWN CLOSED ONLINE
m02

0      o/192.168.XX.7;192.168.XX.8/DATAC1_CD_00_ndw1celad UNKNOWN CLOSED ONLINE
m02

本次磁盘损坏ASM相关的磁盘没有drop,需手动drop,在手动drop之前还需要确认当前的ASM实例是否仍在reblance。
SQL> select * from gv$asm_operation where state='RUN';
no rows selected------没有正在运行的reblance

没有运行的reblance,进行磁盘drop:
SQL> alter diskgroup RECOC1 drop disk RECOC1_CD_00_ndw1celadm02 
rebalance power 4;----并发可根据实际情况进行调整

2. 机房现场检查
完成drop后即可进行磁盘更换,在机房找到指定一体机,上方为db节点,下方为cell节点(drop掉后到对应cell节点检查状态会发现该块异常盘未提出节点,cell节点的顺序是由下至上),查看故障指示灯,橙灯亮表示为有异常!

3. 机房硬盘更换

找到指定位置后进行拔插,注意拔掉磁盘后等待5-10分钟再将磁盘插入。

在此过程中遇到问题:

  • 本次X5-X6为一套集群,并且X5-X6的硬件可以共用的,但是X5的硬盘为4T,X6为8T。刚好携带的硬件为8T进行插盘后无法兼容。导致插入新盘状态持续未恢复!

    此过程中重新插入拔出不会有任何影响,重新跟换适配盘进行插入。所以更换前一定确认清楚设备型号已经其他节点已经运行的设备容量

  • 更换为指定符合要求的硬件后,插入硬盘指示灯闪烁后仍为橙灯,检查发现为新盘一直未加入到节点组中。通过cellcli -e list alerthistory命令可查看新盘插入后的分配情况,提示未分配到指定的组中,检查发现为节点的/目录满了导致,清理后再次拔插磁盘恢复正常。
    由于00和01为系统盘所以当/目录空间不足时无法进行重新平衡)插入后观察指示灯,绿灯快速闪烁后恢复正常闪烁。登录对应cell节点检查日志。
[root@ndw1celadm02 ~]# cellcli -e list alerthistory---查看日志
[root@ndw1celadm02 ~]#cellcli -e list griddisk---检查状态

都恢复正常后进行rebalance操作:
alter diskgroup DATAC1 rebalance power 32;

至此一体机换盘全部完成!


事情总结

  1. 每天做好一体机硬件巡检。
  2. 每天做好数据库存储ASM巡检。
  3. 坏盘后即时做好应急方案,根据实际情况制定处理方案并解决。
  4. 事情出现后,若无法自己判断严重性,应该立即上报,寻求专家协同分析后,再制定相应措施,避免二次故障及人为问题。
  5. 做好备件核查及备件入库,避免出现硬件问题,无法即时得到更换。

本文作者:曹安匀(上海新炬王翦团队)

本文来源:“IT那活儿”公众号

文章转载自IT那活儿,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论