使用Raid卡工具更换磁盘重做raid0不重启服务器方法

IT那活儿 2024-09-19

1092

点击上方“IT那活儿”公众号--专注于企业全栈运维技术分享，不管IT什么活儿，干就完了！！！

因机房一批超6年的老旧的设备依然服役中，进而这批磁盘设备的故障率相比其他新设备高出很多，而硬盘主要给大数据组件使用，都是统一做的单盘Raid0，每次更换硬件都需要我们重启服务器重新更换硬盘重做Raid才能使用，于是搜集了对应Raid卡厂商的工具包，可以在线不停机进行硬盘的更换和重做Raid0。

更换磁盘过程

Step1 查看损坏磁盘，UBad为2号槽位

Step2 通知硬件更换2号槽位的坏盘

Step3 更换后再次查看磁盘

已经变为UGood，可以进行操作了。

Step4 服务器查看文件系统

/data1对应即为损坏的2号槽磁盘252:2,也即消失的sdb，现在该路径是无法读写状态：

Step5 umount发现目录无法卸载，检查发现是进程14624的datanode服务仍有占用导致

Step6 先停止该节点的datanode，再尝试卸载目录

再次umount发现成功：

此处报错是因为进入了/data1目录，退出后再查查看发现/data1已经不在mount中了。

因为磁盘单独挂载的，此时我们需要对新盘重新做raid才能被linux系统识别到：

发现报错，原因是之前的坏盘还在raid卡中有缓存，我们需要命令清除一遍缓存。

清除vd1的缓存：

./storcli64 c0 /v1 delete preservedcache

Step7 cache清理完成后，再次创建raid0，发现可以创建成功并识别到新的磁盘sdb

可以mkfs和挂在磁盘再次进行使用了：

Step8 此时新的问题再次出现，mount过后发现没有新的盘出现，而且无任何报错

Step9 检查系统日志messages，发现给出了我们的答案

原因大致是data1可能与之前的旧sdb还有绑定关系，我们需要手动reload一下，识别新的sdb。

systemctl daemon-reload,执行此命令后再次挂载，我们发现已经可以正常使用/data1：

测试使用，一切正常。

恢复hdfs服务正常：

至此，硬盘更换并重新使用完成。

END

本文作者：何青(上海新炬中北团队）

本文来源：“IT那活儿”公众号

文章转载自IT那活儿，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

评论