可靠性增强特性
GaussDB 200在可靠性方面进行了优化和提升。
系统可靠性
- 所有组件的管理节点均实现HA。
华为GaussDB 200产品对所有业务组件的管理节点都提供了类似的双机机制,包括OMSServer、KerberosServer、LdapServer等,全部采用主备或负荷分担配置,有效避免了单点故障场景对系统可靠性的影响。
- 异常场景下的可靠性保证。
通过可靠性分析方法,梳理软件、硬件异常场景下的处理措施,提升系统的可靠性。
- 保障意外掉电时的数据可靠性,不论是单节点意外掉电,还是整个集群意外断电,恢复供电后系统能够正常恢复业务,除非硬盘介质损坏,否则关键数据不会丢失。
- 硬盘亚健康检测和故障处理,对业务不造成实际影响。
- 自动处理文件系统的故障,自动恢复受影响的业务。
- 自动处理进程和节点的故障,自动恢复受影响的业务。
- 自动处理网络故障,自动恢复受影响的业务。
- 数据备份与恢复。
为应对数据丢失或损坏对用户业务造成不利影响,在异常情况下快速恢复系统,GaussDB 200根据用户业务的需要提供全量备份、增量备份和恢复功能。
- 自动备份
GaussDB 200对集群管理系统Manager上的数据提供自动备份功能,根据制定的备份策略可自动备份集群上的数据,包括OMSServer、LDAPServer的数据以及ESN编码。
- 手动备份
在系统进行扩容、升级、打补丁等重大操作前,需要通过手动备份集群管理系统的数据,以便在系统故障时,恢复集群管理系统功能。
为进一步提供系统的可靠性,在将Manager上的数据备份到第三方服务器时,也需要通过手动备份。
- 自动备份
节点可靠性
- 硬件健康状态监控
GaussDB 200通过调用服务器的IPMI接口,监视服务器的物理健康特征,如温度、电压、风扇工作状态、电源状态等。
GaussDB 200当前可监控的硬件状态包括:处理器状态、交流供电状态、直流电源模块状态、内存状态、硬盘状态、电池状态。但具体的支持项,还取决于服务器的供应商。
- 操作系统健康状态监控
GaussDB 200针对操作系统提供了如下监控措施:
- 支持开启硬件看门狗功能。
- 支持对操作系统内核参数进行微调,在操作系统出现致命异常,如内存耗尽、非法地址访问、内核死锁、调度器失效时,重启操作系统,恢复业务。
- 周期采集操作系统运行状况数据,包括处理器状态、内存状态、硬盘状态、网络状态等。
- 进程健康状态监控
GaussDB 200在各节点上部署了代理进程NodeAgent,负责监控业务实例的状态以及业务实例进程的健康指标信息。
- 硬盘故障的自动处理
GaussDB 200可以监控各节点上的硬盘状态,以及文件系统状态。如果出现异常,立即将相关分区移出存储池;如果硬盘恢复正常(通常是因为用户更换了新硬盘),也会采取措施,将新硬盘重新加入业务运作。这样,极大简化了维护人员的工作,更换故障硬盘可以在线完成;同时,用户可以设置热备盘,从而大大缩减了故障硬盘的修复时间,有利于提高系统的可靠性。
- 节点RAID组的配置
GaussDB 200建议按照实际业务需要,合理规划节点的硬盘资源,以提高系统对硬盘故障的抵御能力。
- 各节点的操作系统,建议安装在两块硬盘做成的RAID1上,以保障系统盘的稳定。
- 如果条件允许,管理节点关键进程使用的硬盘尽量做成RAID1,以保证元数据的可靠性。
- 数据盘可以做成单盘RAID5。
数据可靠性
GaussDB 200通过对节点硬件(特别是硬盘)、操作系统、进程的监控,及时发现相关部件的异常状况,缩短了对应部件的故障检测时间和修复时间,从而提高了系统整体的数据持久度。
查看更多:华为GaussDB 200 企业级增强特性