暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

华为GaussDB A LocalBackup分区目录挂载硬盘故障

墨天轮 2019-10-12
1305

LocalBackup分区目录挂载硬盘故障

现象描述

当前集群中的本地备份数据(元数据、OMS数据)都保存在OMS节点的${BIGDATA_DATA_HOME}/LocalBackup”目录下,在FusionInsight Manager上出现“ALM-12014 分区丢失”告警,并且告警信息的“定位信息”中出现“DirName=${BIGDATA_DATA_HOME}/LocalBackup”

定位思路

集群内的节点硬盘出现故障时,首先需要参考更换硬盘必读章节的步骤进行排查,确认需要更换硬盘后,按照以下步骤进行处理。

  • 单OMS上“${BIGDATA_DATA_HOME}/LocalBackup”分区故障:备份数据未丢失,故障恢复后需要触发主备备份数据同步。
  • 主备OMS上“${BIGDATA_DATA_HOME}/LocalBackup”分区故障:备份数据丢失,需要故障恢复后,手工执行默认备份任务重新备份数据。

处理步骤

  • 检查发生硬盘故障的OMS节点的主备状态。

    使用PuTTY工具以root用户登录硬盘故障的服务器,执行${BIGDATA_HOME}/om-server/om/sbin/status-oms.sh”脚本,查看主备状态。

    • 如果当前节点是主OMS,执行2。
    • 如果当前节点是备OMS,执行4。

  • 登录FusionInsight Manager,选择运维 > 备份恢复 > 备份管理,停止(选择更多 > 停止)所有当前正在执行的任务,挂起(选择更多 > 挂起)所有周期备份类型的任务,并等待当前系统的恢复任务以及Manager任务列表中的任务都执行完成。

  • 进行OMS节点主备倒换。

    • 使用PuTTY工具以root用户登录硬盘故障的节点,切换到omm用户下,执行命令${OMS_RUN_PATH}/workspace/ha/module/hacom/tools/ha_client_tool --ip=127.0.0.1 --port=20013 --switchover --name=product进行主备OMS倒换。
    • 等待倒换成功。

      执行${BIGDATA_HOME}/om-server/om/sbin/status-oms.sh,查看主备状态,等待主备OMS的“HAAllResOK”状态都变成“normal”

    • 禁止主备倒换。

      使用PuTTY工具以root用户登录主OMS节点,切换到omm用户下,执行${OMS_RUN_PATH}/workspace/ha/module/hacom/tools/ha_client_tool --ip=127.0.0.1 --port=20013 --forbidswitch --name=HA --time=600

  • 卸载故障分区。

    • 使用PuTTY工具以root用户登录硬盘故障的节点。
    • 执行mount -o remount rw /命令,以便允许修改“/etc/fstab”文件。
    • 在“/etc/fstab”中注释掉故障硬盘对应的行。
    • 执行reboot命令重启。

  • 恢复硬盘原有的RAID阵列,具体操作请咨询硬件厂商。等待操作系统可以识别出新加入的硬盘后(执行lsscsi命令查看),需要手工完成磁盘格式化和目录挂载操作。

    • 使用PuTTY工具以root用户登录硬盘故障的服务器并格式化磁盘。
      例如,RedHat6.X系统中执行mkfs.xfs /dev/sdx命令格式化磁盘,SUSE11.X系统中执行mkfs.ext3 /dev/sdx命令格式化磁盘。(sdx为查询出来的硬盘)
      说明:

      如果需要手动格式化磁盘分区,建议根据操作系统版本选择正确的文件系统格式:SUSE12.X、RedHat7.X/CentOS 7.X、EulerOS 2.X版本操作系统的数据目录建议使用xfs格式文件系统、SUSE11.X版本系统的数据目录建议使用ext3格式、RedHat6.X/CentOS 6.X版本系统的数据目录建议使用xfs格式。

    • 格式化完成后查看之前挂载的目录是否存在,如果不存在则创建“${BIGDATA_DATA_HOME}/LocalBackup”目录并执行chmod 000 ${BIGDATA_DATA_HOME}/LocalBackup命令,然后重新赋权,确保目录的权限是为700,所有者为omm:wheel
    • 执行blkid命令查询磁盘UUID信息,然后编辑“/etc/fstab”文件,用查到的新的UUID信息,替换原有故障磁盘的UUID信息。
    • 执行mount -a命令,完成挂载。

  • 进行主备备份数据同步,检查同步结果。

    • 使用PuTTY工具以root用户登录主OMS服务器,切换到omm用户下,执行${OMS_RUN_PATH}/workspace/ha/module/hacom/tools/ha_client_tool --ip=127.0.0.1 --port=20013 --syncfile --name="${BIGDATA_DATA_HOME}/LocalBackup",界面显示“execute command syncfile successfully.”表示开始同步数据。
    • 等待同步完成,查看备OMS的“${BIGDATA_DATA_HOME}/LocalBackup”目录下的文件恢复成和主OMS下相应的目录一致。
    • 取消禁止主备倒换功能。

      执行${OMS_RUN_PATH}/workspace/ha/module/hacom/tools/ha_client_tool --ip=127.0.0.1 --port=20013 --cancelforbidswitch --name=HA命令。

  • 登录FusionInsight Manager,选择运维 > 备份恢复 > 备份管理,单击“即时备份”启用所有周期任务。
  • 选择“更多 > 重新执行”手工启动“default”备份任务(包含集群中关键元数据的备份)。


查看更多:华为GaussDB 200 硬盘故障处理
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论