暂无图片
暂无图片
1
暂无图片
暂无图片
暂无图片

TBASE分布式数据库故障容灾和自动故障切换的处理过程

原创 陈昊 2020-09-19
1060

由于硬件故障等原因,导致系统局部出现故障,这是难免的,尤其是在在生产系统中。
因此,要保证系统的不间断运行,需要采用高可用方案来保证系统可靠或者出现故障后
能及时恢复。数据库作为系统中数据存储和服务的核心部件,其可靠性和可用性要求高
于计算服务资源。目前,TBase 高可用方案设计就主要通过每个部件的多副本冗余来实
现,当一个部件的主出现故障不可恢复,将自动从对应的备份部件中选出新的主工作,
这样就可以做到不中断服务或中断时间很短,该方案简称主从高可用(主备高可用)。
在普通的主从高可用基础上,TBase 支持:

  1. 支持故障自动转移,集群中主节点故障是,系统将自动从对应的从节点中选出新的
    主,故障节点自动备集群隔离;基于强同步复制策略下,主从切换将保证主从数据
    完全一致,可满足金融级数据一致性要求。
  2. 支持故障恢复,故障的节点,如果因磁盘点故障导致数据丢失,DBA 可以通过重做
    备机恢复备机的可靠性;可以选择新的物理节点上添加备机,恢复主从的备份关系,
    提供系统的可靠性。
  3. 每组主从节点(可以是 1 主 N 从), 每个节点都包含完整的数据副本,可以根据
    DBA 需求切换;
  4. TBase 支持设置禁止切换,即可以设置在某一特殊时期,不处理故障转移。
  5. TBase 支持跨可用区部署,节点的主机和从机可分处于不同机房,数据之间通过专
    线网络进行实时的数据复制。本地为主机,远程为从机,首先访问本地的节点,若
    本地实例发生故障或访问不可达,则远程的从机升主提供服务。
    TBase 每个部件支持基于强同步的高可用方案,主节点故障时将自动选举出最优备节点
    立即顶替工作,切换过程对用户透明,且不改变访问 IP。TBase 对系统中组件支持 7X24
    小时持续监控。发生故障时,TBase 将自动重启节点或者隔离节点,从备节点选出新主
    提供服务。
    TBASE分布式数据库,每台数据节点上都会存在一个agent类似于客户端的程序,周期性的
    来执行节点状态信息的上报,在TBASE的管控平台上会有一个组件OSSmaster负责信息的记录,
    来进行故障时的判断的。判断探测时间是60s,总共探测次数6次,每次间隔10s,然后来
    判断节点的状态是否正常,如果出现异常,且OSSmanster端的相关自动切换开关也已经设置
    打开的话,则数据节点会向从节点或取从节点的最新状态,将最新如日志或最先反馈到OSSmaster的
    从节点选为新主,发送主从切换的决策,然后完成主从的切换,同时向协调节点CN发送数据
    节点路由更新的指令,将协调节点的路由映射信息调整为新的主节点。
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论