暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

使用Raid卡工具更换磁盘重做raid0不重启服务器方法

IT那活儿 2024-09-19
1074
点击上方“IT那活儿”公众号--专注于企业全栈运维技术分享,不管IT什么活儿,干就完了!!!   

  
因机房一批超6年的老旧的设备依然服役中,进而这批磁盘设备的故障率相比其他新设备高出很多,而硬盘主要给大数据组件使用,都是统一做的单盘Raid0,每次更换硬件都需要我们重启服务器重新更换硬盘重做Raid才能使用,于是搜集了对应Raid卡厂商的工具包,可以在线不停机进行硬盘的更换和重做Raid0。


更换磁盘过程
Step1 查看损坏磁盘,UBad为2号槽位
Step2 通知硬件更换2号槽位的坏盘
Step3 更换后再次查看磁盘
已经变为UGood,可以进行操作了。
Step4 服务器查看文件系统
/data1对应即为损坏的2号槽磁盘252:2,也即消失的sdb,现在该路径是无法读写状态:
Step5 umount发现目录无法卸载,检查发现是进程14624的datanode服务仍有占用导致
Step6 先停止该节点的datanode,再尝试卸载目录
再次umount发现成功:
此处报错是因为进入了/data1目录,退出后再查查看发现/data1已经不在mount中了。
因为磁盘单独挂载的,此时我们需要对新盘重新做raid才能被linux系统识别到:
发现报错,原因是之前的坏盘还在raid卡中有缓存,我们需要命令清除一遍缓存。
清除vd1的缓存:
./storcli64 c0 /v1 delete preservedcache
Step7 cache清理完成后,再次创建raid0,发现可以创建成功并识别到新的磁盘sdb
可以mkfs和挂在磁盘再次进行使用了:
Step8 此时新的问题再次出现,mount过后发现没有新的盘出现,而且无任何报错
Step9 检查系统日志messages,发现给出了我们的答案
原因大致是data1可能与之前的旧sdb还有绑定关系,我们需要手动reload一下,识别新的sdb。
systemctl daemon-reload,执行此命令后再次挂载,我们发现已经可以正常使用/data1:
测试使用,一切正常。
恢复hdfs服务正常:
至此,硬盘更换并重新使用完成。

END


本文作者:何 青(上海新炬中北团队)

本文来源:“IT那活儿”公众号

文章转载自IT那活儿,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论