华为GaussDB A 集群高可用说明

墨天轮 2019-10-12

1302

集群高可用说明

管理节点支持双机配置

华为FusionInsight产品对所有业务组件的管理节点，都实现了双机机制，这包括OMS Server、数据库、Kerberos Server、Ldap Server等，它们全部采用主备或负荷分担配置，有效避免了单点故障场景对系统可靠性的影响。

系统的掉电可靠性保障

FusionInsight对数据写入的全路径进行了优化，确保系统异常掉电后，业务仍能可靠地启动。不论是单节点意外掉电，还是整个集群意外断电，恢复供电后，系统都能正常恢复业务，关键数据不会丢失。

这里的关键数据至少包括：

操作系统启动和正常运行所需的文件；
为业务组件提供的基本运行环境（如JDK）；
启动和运行业务组件所需的文件，包括程序文件、配置文件等；
由用户输入的、长期生效的配置信息，如用户账户信息/权限信息，上级网管的SNMP对接地址等。

集群HA方案

为了在集群出现故障时减少服务中断时间，GaussDB 200提供了高可靠机制，通过保护关键用户程序对外不间断提供服务，把因为硬件、软件和人为造成的故障对业务的影响程度降到最低，以保证业务的持续性。

请参见集群HA介绍。

节点健康度监控

表1 节点健康度监控
监控项	监控内容
硬件健康状态监控	FusionInsight当前可监控的硬件状态包括：处理器状态、交流供电状态、直流电源模块状态、内存状态、硬盘状态、电池状态等。但具体的支持项，还取决于x86服务器硬件供应商。
操作系统健康状态监控	FusionInsight对操作系统采取了多种监控措施：支持对节点运行状态的监控。如果节点进入假死状态，严重影响业务的运作，就会自动执行节点复位，迅速恢复业务。支持对操作系统内核参数进行微调，在操作系统出现致命异常，如内存耗尽、非法地址访问、内核死锁、调度器失效时，重启操作系统，恢复业务。周期采集节点上各类硬件资源运行状况的数据，包括处理器状态、内存状态、硬盘状态、网络状态等，如果发现异常，会触发告警，此时该节点是个亚健康状态的节点，报警携带相关的异常指示信息，包括“CPU过载”、“内存过载”、“发现慢盘”、“TCP重传率越限”等，维护人员可据此对相关节点的操作系统状态进行检查，排除故障。
进程健康状态监控	FusionInsight在各节点上都部署了代理进程，负责监控业务实例的状态。如果业务实例进程故障，代理进程会尝试自动重启对应的业务实例进程，如无法启动，会向OMS Server发送告警。代理进程会周期向OMS Server发送心跳。如果代理进程故障，OMS Server也会检测到异常，发送节点故障告警，并尝试自动重启对应的代理进程。
硬盘故障的自动检测	大型GaussDB 200集群中，硬盘数量可能高达成百上千。由于机械硬盘的故障率偏高，系统运行一段时间之后，故障硬盘就会不断出现。 FusionInsight会监控各节点上的硬盘状态，以及文件系统状态，如果出现异常，立即上报告警，通常情况下Raid组能自动修复，就不需要人工干预，如果不能自动修复，需要人工干预，这种可靠性保证机制，可以提前告知用户进行磁盘修复，不至于没有监控，没人工干预，导致数据丢失，造成不必要的损失，有利于提高系统的可靠性。
节点RAID组的配置	FusionInsight建议按照实际业务需要，合理规划节点的硬盘资源，以提高系统对硬盘故障的抵御能力。各节点的操作系统，建议安装在两块硬盘做成的RAID 1上，以保障系统盘的稳定，避免一块盘损坏就导致操作系统崩溃，整个节点不可用。如果条件允许，管理节点关键进程使用的硬盘（如Manager数据库等）尽量做成RAID 1，以保证元数据的可靠性。读写模式差异很大的业务组件，应当避免共用同一块硬盘。数据盘（GaussDB 200数据盘）可以做成单盘RAID 5（即每个RAID 5组内至少要3块硬盘）。RAID组内的硬盘自身具有容错能力，如果一块硬盘坏掉，可以自修复，数据丢失几率大大降低，保证可靠性提升。

查看更多：华为GaussDB 200 故障管理

gaussdb a

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者