暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

华为GaussDB A 集群高可用说明

墨天轮 2019-10-12
925

集群高可用说明

管理节点支持双机配置

华为FusionInsight产品对所有业务组件的管理节点,都实现了双机机制,这包括OMS Server、数据库、Kerberos Server、Ldap Server等,它们全部采用主备或负荷分担配置,有效避免了单点故障场景对系统可靠性的影响。

系统的掉电可靠性保障

FusionInsight对数据写入的全路径进行了优化,确保系统异常掉电后,业务仍能可靠地启动。不论是单节点意外掉电,还是整个集群意外断电,恢复供电后,系统都能正常恢复业务,关键数据不会丢失。

这里的关键数据至少包括:

  • 操作系统启动和正常运行所需的文件;
  • 为业务组件提供的基本运行环境(如JDK);
  • 启动和运行业务组件所需的文件,包括程序文件、配置文件等;
  • 由用户输入的、长期生效的配置信息,如用户账户信息/权限信息,上级网管的SNMP对接地址等。

集群HA方案

为了在集群出现故障时减少服务中断时间,GaussDB 200提供了高可靠机制,通过保护关键用户程序对外不间断提供服务,把因为硬件、软件和人为造成的故障对业务的影响程度降到最低,以保证业务的持续性。

请参见集群HA介绍。

节点健康度监控

表1 节点健康度监控

监控项

监控内容

硬件健康状态监控

FusionInsight当前可监控的硬件状态包括:处理器状态、交流供电状态、直流电源模块状态、内存状态、硬盘状态、电池状态等。但具体的支持项,还取决于x86服务器硬件供应商。

操作系统健康状态监控

FusionInsight对操作系统采取了多种监控措施:

  • 支持对节点运行状态的监控。如果节点进入假死状态,严重影响业务的运作,就会自动执行节点复位,迅速恢复业务。
  • 支持对操作系统内核参数进行微调,在操作系统出现致命异常,如内存耗尽、非法地址访问、内核死锁、调度器失效时,重启操作系统,恢复业务。
  • 周期采集节点上各类硬件资源运行状况的数据,包括处理器状态、内存状态、硬盘状态、网络状态等,如果发现异常,会触发告警,此时该节点是个亚健康状态的节点,报警携带相关的异常指示信息,包括“CPU过载”、“内存过载”、“发现慢盘”、“TCP重传率越限”等,维护人员可据此对相关节点的操作系统状态进行检查,排除故障。

进程健康状态监控

FusionInsight在各节点上都部署了代理进程,负责监控业务实例的状态。如果业务实例进程故障,代理进程会尝试自动重启对应的业务实例进程,如无法启动,会向OMS Server发送告警。

代理进程会周期向OMS Server发送心跳。如果代理进程故障,OMS Server也会检测到异常,发送节点故障告警,并尝试自动重启对应的代理进程。

硬盘故障的自动检测

大型GaussDB 200集群中,硬盘数量可能高达成百上千。由于机械硬盘的故障率偏高,系统运行一段时间之后,故障硬盘就会不断出现。

FusionInsight会监控各节点上的硬盘状态,以及文件系统状态,如果出现异常,立即上报告警,通常情况下Raid组能自动修复,就不需要人工干预,如果不能自动修复,需要人工干预,这种可靠性保证机制,可以提前告知用户进行磁盘修复,不至于没有监控,没人工干预,导致数据丢失,造成不必要的损失,有利于提高系统的可靠性。

节点RAID组的配置

FusionInsight建议按照实际业务需要,合理规划节点的硬盘资源,以提高系统对硬盘故障的抵御能力。

  • 各节点的操作系统,建议安装在两块硬盘做成的RAID 1上,以保障系统盘的稳定,避免一块盘损坏就导致操作系统崩溃,整个节点不可用。
  • 如果条件允许,管理节点关键进程使用的硬盘(如Manager数据库等)尽量做成RAID 1,以保证元数据的可靠性。读写模式差异很大的业务组件,应当避免共用同一块硬盘。
  • 数据盘(GaussDB 200数据盘)可以做成单盘RAID 5(即每个RAID 5组内至少要3块硬盘)。RAID组内的硬盘自身具有容错能力,如果一块硬盘坏掉,可以自修复,数据丢失几率大大降低,保证可靠性提升。

查看更多:华为GaussDB 200 故障管理
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论