暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Etcd集群重做步骤

瀚高PG实验室 2025-07-16
105
症状
应用无法连接数据库,无法对外提供服务。
问题原因
检查操作系统日志记录,发现故障时间段内etcd集群各节点间出现长时间的网络故障,导致etcd集群不可用。 etcd集群是存储集群主备切换仲裁信息的分组件,导致数据集群无法维持正常的运行状态,首先降级为只读集群。
解决方案
整体处理思路为停止hghac服务,首先恢复etcd集群,之后选择合适的主节点启动hghac服务,最后恢复整个hac集群的服务,详细步骤如下:

1、按照先备后主的顺序停止整个集群的hghac服务

    #确定集群主备状态
    hghactl -c usr/local/hghac/hghac.yml list
    #按照先备后主的顺序关闭hghac服务
    systemctl stop hghac.service

    2、恢复etcd服务

      #停止所有节点上的etcd服务
      systemctl stop etcd.service
      #所有节点备份原来的etcd data目录
      cp /usr/local/hghac/etcd/data    /usr/local/hghac/etcd/data.bak
      #清空所有节点的data目录
      cd /usr/local/hghac/etcd/data
      rm -rf *
      #启动所有节点的etcd服务,各节点启动服务时间不要超过5秒
      systemclt status etcd.service
      #检查etcd集群状态
      etcdctl V2版本
      etcdctl cluster-health
      etcdctl V3版本
      etcdctl endpoint health --write-out=table

      3、按照先主后备的顺序启动hac集群

        #启动主节点hghac服务
        systemctl start  hghac.service
        #检查hghac服务状态
        systemctl status hghac.service
        #启动备节点hghac服务
        systemctl start  hghac.service
        #确定集群主备状态
        hghactl -c /usr/local/hghac/hghac.yml list
        版权声明:本文由瀚高及PG志愿者翻整理,转载请注明出处,本页面内容均源自PostgreSQL Weekly英文官网,翻译目的在于传递更多信息,并不意味着瀚高赞同其观点或证实其内容的真实性。如果其他媒体、网站或其他任何形式的法律实体和个人使用,必须经过著作权人合法书面授权并自负全部法律责任。不得擅自使用瀚高名义进行转载,或盗用瀚高名义发布信息。否则瀚高将保留追究法律责任的权利

        文章转载自瀚高PG实验室,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

        评论