暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

华为GaussDB A 可靠性增强特性

墨天轮 2019-10-12
598

可靠性增强特性

GaussDB 200在可靠性方面进行了优化和提升。

系统可靠性

  • 所有组件的管理节点均实现HA。

    华为GaussDB 200产品对所有业务组件的管理节点都提供了类似的双机机制,包括OMSServer、KerberosServer、LdapServer等,全部采用主备或负荷分担配置,有效避免了单点故障场景对系统可靠性的影响。

  • 异常场景下的可靠性保证。

    通过可靠性分析方法,梳理软件、硬件异常场景下的处理措施,提升系统的可靠性。

    • 保障意外掉电时的数据可靠性,不论是单节点意外掉电,还是整个集群意外断电,恢复供电后系统能够正常恢复业务,除非硬盘介质损坏,否则关键数据不会丢失。
    • 硬盘亚健康检测和故障处理,对业务不造成实际影响。
    • 自动处理文件系统的故障,自动恢复受影响的业务。
    • 自动处理进程和节点的故障,自动恢复受影响的业务。
    • 自动处理网络故障,自动恢复受影响的业务。
  • 数据备份与恢复。

    为应对数据丢失或损坏对用户业务造成不利影响,在异常情况下快速恢复系统,GaussDB 200根据用户业务的需要提供全量备份、增量备份和恢复功能。

    • 自动备份

      GaussDB 200对集群管理系统Manager上的数据提供自动备份功能,根据制定的备份策略可自动备份集群上的数据,包括OMSServer、LDAPServer的数据以及ESN编码。

    • 手动备份

      在系统进行扩容、升级、打补丁等重大操作前,需要通过手动备份集群管理系统的数据,以便在系统故障时,恢复集群管理系统功能。

      为进一步提供系统的可靠性,在将Manager上的数据备份到第三方服务器时,也需要通过手动备份。

节点可靠性

  • 硬件健康状态监控

    GaussDB 200通过调用服务器的IPMI接口,监视服务器的物理健康特征,如温度、电压、风扇工作状态、电源状态等。

    GaussDB 200当前可监控的硬件状态包括:处理器状态、交流供电状态、直流电源模块状态、内存状态、硬盘状态、电池状态。但具体的支持项,还取决于服务器的供应商。

  • 操作系统健康状态监控

    GaussDB 200针对操作系统提供了如下监控措施:

    • 支持开启硬件看门狗功能。
    • 支持对操作系统内核参数进行微调,在操作系统出现致命异常,如内存耗尽、非法地址访问、内核死锁、调度器失效时,重启操作系统,恢复业务。
    • 周期采集操作系统运行状况数据,包括处理器状态、内存状态、硬盘状态、网络状态等。
  • 进程健康状态监控

    GaussDB 200在各节点上部署了代理进程NodeAgent,负责监控业务实例的状态以及业务实例进程的健康指标信息。

  • 硬盘故障的自动处理

    GaussDB 200可以监控各节点上的硬盘状态,以及文件系统状态。如果出现异常,立即将相关分区移出存储池;如果硬盘恢复正常(通常是因为用户更换了新硬盘),也会采取措施,将新硬盘重新加入业务运作。这样,极大简化了维护人员的工作,更换故障硬盘可以在线完成;同时,用户可以设置热备盘,从而大大缩减了故障硬盘的修复时间,有利于提高系统的可靠性。

  • 节点RAID组的配置

    GaussDB 200建议按照实际业务需要,合理规划节点的硬盘资源,以提高系统对硬盘故障的抵御能力。

    • 各节点的操作系统,建议安装在两块硬盘做成的RAID1上,以保障系统盘的稳定。
    • 如果条件允许,管理节点关键进程使用的硬盘尽量做成RAID1,以保证元数据的可靠性。
    • 数据盘可以做成单盘RAID5。

数据可靠性

GaussDB 200通过对节点硬件(特别是硬盘)、操作系统、进程的监控,及时发现相关部件的异常状况,缩短了对应部件的故障检测时间和修复时间,从而提高了系统整体的数据持久度。


查看更多:华为GaussDB 200 企业级增强特性
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论