暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

华为GaussDB A 例行维护

墨天轮 2019-10-12
875

例行维护

为了保证系统长期正常、稳定的运行,系统管理员或维护工程师需要定期对表1所示的项目进行检查,并根据检查出的异常结果排除故障。建议检查人员根据企业管理规范,记录每个任务场景的结果并签名确认。

表1 项目一览表

例行维护周期

任务场景

例行维护内容

每天

检查集群服务状态

  • 检查每个服务的运行状态和配置状态是否正常,是否为绿色。
  • 检查每个服务中,角色实例的运行状态和配置状态是否正常,是否为绿色。
  • 检查每个服务中,角色实例的主备状态是否可以正常显示。

检查集群主机状态

  • 检查每个主机当前的运行状态是否正常,是否为绿色。
  • 检查每个主机当前的磁盘使用率、内存使用率和CPU使用率。关注当前内存与CPU使用率是否处于上升趋势。

检查集群告警信息

检查前一天是否生成了未处理异常告警,包含已自动恢复的告警。

检查集群审计信息

检查前一天是否有“高危”和“危险”的操作,是否已确认操作的合法性。

检查集群备份情况

检查前一天OMS、LDAP是否自动备份。

检查健康检查结果

在FusionInsight Manager执行健康检查,下载健康检查报告确认当前集群是否存在异常状态。建议启用自动健康检查,并及时导出最新的集群健康检查结果,根据检查结果修复不健康项目。

检查网络通讯

检查集群网络工作状态,节点之间的网络通讯是否存在延时。

检查存储状态

检查集群总体数据存储量是否出现了突然的增长:

  • 磁盘使用量是否已接近阈值,排查原因,例如是否有业务留下的垃圾数据或冷数据需要清理。
  • 业务是否有增长需求,磁盘分区是否需要扩容。

检查日志情况

备份日志到存储服务器。

每周

用户管理

检查用户密码是否将要过期并通知修改。“机机用户”用户修改密码需要重新下载keytab文件。

分析告警

导出指定周期内产生的告警并分析。

扫描磁盘

对磁盘健康状态进行检查,建议使用专门的磁盘检查工具。

统计存储

分批次排查集群节点磁盘数据是否均匀存储,筛选出明显数据增加或不足的硬盘,并确认硬盘是否正常。

记录变更

安排并记录对集群配置参数和文件实施的操作,为故障分析处理场景提供依据。

每月

分析日志

  • 收集集群节点服务器的硬件日志,例如BMC系统日志,并进行分析。
  • 收集集群节点服务器的操作系统日志,并进行分析。
  • 收集集群日志,并进行分析。

诊断网络

对集群的网络健康状态进行分析。

管理硬件

检查设备运行的机房环境,安排清洁设备。


查看更多:华为GaussDB 200 管理员指南
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论