集群高可用说明
管理节点支持双机配置
华为FusionInsight产品对所有业务组件的管理节点,都实现了双机机制,这包括OMS Server、数据库、Kerberos Server、Ldap Server等,它们全部采用主备或负荷分担配置,有效避免了单点故障场景对系统可靠性的影响。
系统的掉电可靠性保障
FusionInsight对数据写入的全路径进行了优化,确保系统异常掉电后,业务仍能可靠地启动。不论是单节点意外掉电,还是整个集群意外断电,恢复供电后,系统都能正常恢复业务,关键数据不会丢失。
这里的关键数据至少包括:
- 操作系统启动和正常运行所需的文件;
- 为业务组件提供的基本运行环境(如JDK);
- 启动和运行业务组件所需的文件,包括程序文件、配置文件等;
- 由用户输入的、长期生效的配置信息,如用户账户信息/权限信息,上级网管的SNMP对接地址等。
集群HA方案
为了在集群出现故障时减少服务中断时间,GaussDB 200提供了高可靠机制,通过保护关键用户程序对外不间断提供服务,把因为硬件、软件和人为造成的故障对业务的影响程度降到最低,以保证业务的持续性。
请参见集群HA介绍。
节点健康度监控
监控项 |
监控内容 |
---|---|
硬件健康状态监控 |
FusionInsight当前可监控的硬件状态包括:处理器状态、交流供电状态、直流电源模块状态、内存状态、硬盘状态、电池状态等。但具体的支持项,还取决于x86服务器硬件供应商。 |
操作系统健康状态监控 |
FusionInsight对操作系统采取了多种监控措施:
|
进程健康状态监控 |
FusionInsight在各节点上都部署了代理进程,负责监控业务实例的状态。如果业务实例进程故障,代理进程会尝试自动重启对应的业务实例进程,如无法启动,会向OMS Server发送告警。 代理进程会周期向OMS Server发送心跳。如果代理进程故障,OMS Server也会检测到异常,发送节点故障告警,并尝试自动重启对应的代理进程。 |
硬盘故障的自动检测 |
大型GaussDB 200集群中,硬盘数量可能高达成百上千。由于机械硬盘的故障率偏高,系统运行一段时间之后,故障硬盘就会不断出现。 FusionInsight会监控各节点上的硬盘状态,以及文件系统状态,如果出现异常,立即上报告警,通常情况下Raid组能自动修复,就不需要人工干预,如果不能自动修复,需要人工干预,这种可靠性保证机制,可以提前告知用户进行磁盘修复,不至于没有监控,没人工干预,导致数据丢失,造成不必要的损失,有利于提高系统的可靠性。 |
节点RAID组的配置 |
FusionInsight建议按照实际业务需要,合理规划节点的硬盘资源,以提高系统对硬盘故障的抵御能力。
|
查看更多:华为GaussDB 200 故障管理