LocalBackup分区目录挂载硬盘故障
现象描述
当前集群中的本地备份数据(元数据、OMS数据)都保存在OMS节点的“${BIGDATA_DATA_HOME}/LocalBackup”目录下,在FusionInsight Manager上出现“ALM-12014 分区丢失”告警,并且告警信息的“定位信息”中出现“DirName=${BIGDATA_DATA_HOME}/LocalBackup”。
定位思路
集群内的节点硬盘出现故障时,首先需要参考更换硬盘必读章节的步骤进行排查,确认需要更换硬盘后,按照以下步骤进行处理。
- 单OMS上“${BIGDATA_DATA_HOME}/LocalBackup”分区故障:备份数据未丢失,故障恢复后需要触发主备备份数据同步。
- 主备OMS上“${BIGDATA_DATA_HOME}/LocalBackup”分区故障:备份数据丢失,需要故障恢复后,手工执行默认备份任务重新备份数据。
处理步骤
- 检查发生硬盘故障的OMS节点的主备状态。
使用PuTTY工具以root用户登录硬盘故障的服务器,执行“${BIGDATA_HOME}/om-server/om/sbin/status-oms.sh”脚本,查看主备状态。
- 如果当前节点是主OMS,执行2。
- 如果当前节点是备OMS,执行4。
- 登录FusionInsight Manager,选择“运维 > 备份恢复 > 备份管理”,停止(选择“更多 > 停止”)所有当前正在执行的任务,挂起(选择“更多 > 挂起”)所有周期备份类型的任务,并等待当前系统的恢复任务以及Manager任务列表中的任务都执行完成。

- 进行OMS节点主备倒换。
- 使用PuTTY工具以root用户登录硬盘故障的节点,切换到omm用户下,执行命令${OMS_RUN_PATH}/workspace/ha/module/hacom/tools/ha_client_tool --ip=127.0.0.1 --port=20013 --switchover --name=product进行主备OMS倒换。
- 等待倒换成功。
执行${BIGDATA_HOME}/om-server/om/sbin/status-oms.sh,查看主备状态,等待主备OMS的“HAAllResOK”状态都变成“normal”。
- 禁止主备倒换。
使用PuTTY工具以root用户登录主OMS节点,切换到omm用户下,执行${OMS_RUN_PATH}/workspace/ha/module/hacom/tools/ha_client_tool --ip=127.0.0.1 --port=20013 --forbidswitch --name=HA --time=600。
- 卸载故障分区。
- 使用PuTTY工具以root用户登录硬盘故障的节点。
- 执行mount -o remount rw /命令,以便允许修改“/etc/fstab”文件。
- 在“/etc/fstab”中注释掉故障硬盘对应的行。
- 执行reboot命令重启。
- 恢复硬盘原有的RAID阵列,具体操作请咨询硬件厂商。等待操作系统可以识别出新加入的硬盘后(执行lsscsi命令查看),需要手工完成磁盘格式化和目录挂载操作。
- 使用PuTTY工具以root用户登录硬盘故障的服务器并格式化磁盘。例如,RedHat6.X系统中执行mkfs.xfs /dev/sdx命令格式化磁盘,SUSE11.X系统中执行mkfs.ext3 /dev/sdx命令格式化磁盘。(sdx为查询出来的硬盘)
说明:
如果需要手动格式化磁盘分区,建议根据操作系统版本选择正确的文件系统格式:SUSE12.X、RedHat7.X/CentOS 7.X、EulerOS 2.X版本操作系统的数据目录建议使用xfs格式文件系统、SUSE11.X版本系统的数据目录建议使用ext3格式、RedHat6.X/CentOS 6.X版本系统的数据目录建议使用xfs格式。
- 格式化完成后查看之前挂载的目录是否存在,如果不存在则创建“${BIGDATA_DATA_HOME}/LocalBackup”目录并执行chmod 000 ${BIGDATA_DATA_HOME}/LocalBackup命令,然后重新赋权,确保目录的权限是为700,所有者为omm:wheel。
- 执行blkid命令查询磁盘UUID信息,然后编辑“/etc/fstab”文件,用查到的新的UUID信息,替换原有故障磁盘的UUID信息。
- 执行mount -a命令,完成挂载。
- 使用PuTTY工具以root用户登录硬盘故障的服务器并格式化磁盘。
- 进行主备备份数据同步,检查同步结果。
- 使用PuTTY工具以root用户登录主OMS服务器,切换到omm用户下,执行${OMS_RUN_PATH}/workspace/ha/module/hacom/tools/ha_client_tool --ip=127.0.0.1 --port=20013 --syncfile --name="${BIGDATA_DATA_HOME}/LocalBackup",界面显示“execute command syncfile successfully.”表示开始同步数据。
- 等待同步完成,查看备OMS的“${BIGDATA_DATA_HOME}/LocalBackup”目录下的文件恢复成和主OMS下相应的目录一致。
- 取消禁止主备倒换功能。
执行${OMS_RUN_PATH}/workspace/ha/module/hacom/tools/ha_client_tool --ip=127.0.0.1 --port=20013 --cancelforbidswitch --name=HA命令。
- 登录FusionInsight Manager,选择“运维 > 备份恢复 > 备份管理”,单击“即时备份”启用所有周期任务。
- 选择“更多 > 重新执行”手工启动“default”备份任务(包含集群中关键元数据的备份)。
查看更多:华为GaussDB 200 硬盘故障处理




