暂无图片
暂无图片
4
暂无图片
暂无图片
暂无图片

GaussDB(for openGauss)服务的巡检项---深度巡检租户项

原创 哇哈哈 2022-12-06
872
序号 巡检项名称 检查标准
1 租户侧节点cpu占用率检查 1. 登陆节点,执行"top"命令查看当前CPU使用率
2. 节点cpu使用率超过85%,巡检不通过
2 租户侧节点磁盘使用率检查 1. 登陆节点,执行“df -h”命令计算查看当前节
点/var/chroot/var/lib/engine/data*的磁盘使用率
2. 节点磁盘使用率超过85%,巡检不通过
3 租户侧节点内存使用率检查 1.      登陆节点,执行“top”命令计算查看当前节点的内存使用率
2.      节点内存使用率超过90%,巡检不通过
4 租户侧节点etcd磁盘使用率检查 1.      登录节点,执行“df -h”命令计算查看当前节点的/var/chroot/usr/local/etcd磁盘使用率。
2.      节点etcd磁盘使用率超过60%,巡检不通过。
5 租户侧节点主备复制的RTO检查 1.      通过在分布式任意CN节点(集中式DN主节点)上面运行SQL: SELECT
standby_node_name,current_rto FROM dbe_perf.global_recovery_status,观察各节点的 current_rto值。
2.      节点RTO时间超过了60,巡检不通过。
6 租户侧节点数据库 buffer命中率检查 1.      分布式实例通过在任意CN(集中式DN主节点)上面运行SQL:select node_name, datname,
(blks_hit / (blks_hit + blks_read)) as hit_ratio from DBE_PERF.global_stat_database where datname not in ('template1', 'template0');查看 hit_ratio值。
2.      节点数据库buffer命中率低于95%,巡检不通过。
7 租户侧CN或者DN 节点已使用内存百分比检查 1.      分布式实例通过在任意CN(集中式DN主节点)上面运行SQL: select nodename, memorytype, memorymbytes from
DBE_PERF.global_memory_node_detail order by
nodename, memorytype,然后对每个节点,计算
process_used_memory/max_process_memory值
2.      当前CN或者DN节点已使用内存百分比超过 90%,巡检不通过。
8 租户侧CN或者DN 上动态内存使用率检查 1.      分布式实例通过在任意CN(集中式DN主节点)上
面运行SQL: select nodename, memorytype, memorymbytes from
DBE_PERF.global_memory_node_detail order by
nodename, memorytype,然后对每个节点,计算
dynamic_used_memory/max_dynamic_memory值
2.      当前节点CN或者DN节点动态内存百分比超过 90%,巡检不通过。
9 租户侧节点 1.      检查各$GAUSSLOG下面子目录中system_alarm_*.log是否有新增项(op_type)
op_type类型内核告警检查 2.      节点存在新增op_type类型内核告警,巡检不通过。
10 用户事务回滚率 1.      分布式实例通过在任意CN(集中式DN主节点)上面运行SQL:select node_name, workload, rollback_counter/(commit_counter +rollback_counter) as rollback_ratio from
DBE_PERF.global_workload_transaction;
2.      观察rollback_ratio值
3.      用户事务回滚率超过1%,巡检不通过。
11 om agent进程状 1.      检查项用于检查租户面实例节点om_agent进程是否存在。
态检查 2.      登录节点,执行“cat /dbs/om-agent/
  agent_xxx/agent.pid”命令查看当前om_agent进程是否存在。
  3.      om agent 进程运行状态异常,巡检不通过。
12 om monitor监控进程状态检查 1.      检查项用于检查租户面实例节点om_monitor进程是否存在。
2.      登录节点,执行“ps -ef | grep om_monitor |
grep -v grep”命令查看当前om_monitor进程是否存在。
3.      om monitor进程运行状态异常,巡检不通过。
13 Agent主进程状态检查 1.      检查项用于检查租户面实例节点dbmanager进程是否存在。
2.      登录节点,执行“ps -ef | grep dbmanager |
grep -v grep”命令查看当前dbmanager进程是否存在。
3.      Agent主进程异常,巡检不通过。
14 Agent watch dog 监控进程状态检查 1.      检查项用于检查租户面实例节点watchdog进程是否存在。
2.      登录节点,执行“ps -ef | grep watchdog | grep
-v grep”命令查看当前watchdog进程是否存在。
3. Agent watch dog监控进程状态异常,巡检不通过。
15 实例磁盘使用率检查 1.      通过ManageOne OC平台的实例性能监控查看该节点的实例磁盘使用率。
2.      磁盘整体磁盘使用率超过85%,巡检不通过。
16 租户实例备份结果检查 1.      通过客户帐号登录GaussDB(for openGauss)控制台查看当前实例备份情况。
2.      当前实例全量备份和差异备份失败,巡检不通过。
17 AgentMonitor进程状态检查 1、  登陆节点,执行命令检查ps -ef | grep agent_monitor
2、  如果进程不存在,则巡检不通过
18 检查数据磁盘单次写入花费的时间 1、  登陆节点,获取/proc/diskstats文件中磁盘写的次数以及写花费的时间
2、  间隔一秒,获取/proc/diskstats文件中磁盘写的次数以及写花费的时间,计算两者之间的差值
3、  写花费的时间/写的次数 即为单次写入花费的时间
4、  如果单次写入花费的时间连续超过阈值,则巡检不通过
19 检查数据磁盘单次读取花费的时间 1、  登陆节点,获取/proc/diskstats文件中磁盘读的次数以及读花费的时间
2、  间隔一秒,获取/proc/diskstats文件中磁盘读的次数以及读花费的时间,计算两者之间的差值
3、  读花费的时间/读的次数 即为单次读取花费的时间
4、  如果单次读取花费的时间连续超过阈值,则巡检不通过
20 检查当前节点系统盘磁盘使用率 1、  登陆节点,执行命令df -h,检查系统根目录/以及系统盘日志目录/var/log的使用率
2、  如果使用率超过阈值,则巡检不通过
21 检查当前分片内备机redo进度 1.检查项用于统计分片内备机redo进度,表示备机和主机的差距。
2.      连接数据库CN节点,查询
global_wal_sender_status,其中
sender_flush_location与receiver_replay_location 的差值及为当前的主备差异(集中式查询
pg_stat_get_wal_senders())
3.      如果主备差异持续超过阈值(10GB),则检查不通过
22 检查CN上的在线会话比例 1.      检查项用于该值用于统计CN上的在线会话比例,即连接的会话数占CN大连接数的比例;
2.      分布式环境上连接数据库CN节点,查询视图
SELECT coorname, count(coorname) FROM pgxc_stat_activity GROUP BY coorname;即可获取每个CN在线会话数量,该值与CN上的参数
max_connections的比值即为所求。集中式环境查
询select count(*) from pg_stat_activity;
max_connections的值通过语句show max_connections来获取。
3.      如果在线会话率持续超阈值(90%),则检查不通过
23 检查当前数据库 95% SQL的响应时间 1. 检查项用于统计数据库95% SQL的响应时间;
2. 连接数据库CN节点(集中式为DN)查询视图
dbe_perf.statement_responsetime_percentile(需要有monadmin权限)即可得到P95时间
3. 如果P95持续超过阈值(5000000us),则检查不通
24 检查CN和DN的线程池使用率 1.      检查项用于统计CN和DN的线程池使用率;
2.      连接数据库CN节点,查询视图SELECT node_name,worker_info FROM dbe_perf.GLOBAL_THREADPOOL_STATUS;其中
acutal数量减去idle数量即为当前使用的线程数量,已使用线程数除以acutal数量数量,即为线程池使用率
3.      如果线程池使用率持续超过阈值(90%),则检查不通过
25 检查独立部署形态非dn节点的log盘使用率 1.      检查项用于检查租户面实例节点log盘使用率;
2.      登录独立部署形态的非dn节点,执行“df -h”命令计算查看当前节点的/var/chroot/var/lib/log磁盘使用率;
3.      如果使用率超过90%,则检查不通过
26 检查租户侧节点的 1.      登录DBS运维管理平台,当前实例节点的HA开关是否打开;
HA开关是否打开 2.      如果HA开关关闭,则巡检不通过
27 检查租户侧节点状态是否异常 1.      登录DBS运维管理平台,当前实例节点的状态是否异常;
2.      如果状态异常,则巡检不通过
28 租户侧DN节点的临时目录大小检查 1.      检查项用于检查租户面DN节点的临时目录大小;
2.      登录节点执行“du -sm dn目录/base/pgsql_tmp
| awk '{print $1}'”语句,查询当前DN节点的临时
目录大小,dn目录可以通过cm_ctl query -Cvid查
询集群状态获取,获取的目录需要加上/var/chroot 沙箱路径。查询出来没有临时目录则大小返回0M.
29 租户侧节点活跃会话率检查 1.      连接数据库执行以下SQL语句,分别查询活跃会话数量和在线会话数量,活跃会话数量除以在线会话数量,即为节点活跃会话率。
2.      分布式环境上连接数据库CN节点,查询视图
SELECT coorname, count(coorname) FROM pgxc_stat_activity WHERE state='active' GROUP BY coorname;
集中式环境查询SELECT count(*) FROM
pg_stat_activity WHERE state = 'active';即可获取
节点活跃会话数量。;
3.      分布式环境上连接数据库CN节点,查询视图
SELECT coorname, count(coorname) FROM pgxc_stat_activity GROUP BY coorname;,集中式环境查询select count(*) from pg_stat_activity;即可获取节点在线会话数量。
30 租户侧节点 1. 检查项用于统计数据库80% SQL的响应时间;
80%SQL的响应时间检查 2. 连接数据库CN节点(集中式为DN)查询视图
  SELECT P80 FROM dbe_perf.statement_responsetime_percentile;即可得到P80响应时间。
31 租户侧死锁次数检查 1.      检查项用于统计数据库发生事务死锁的次数,取该时间段的增量值;2
2.      连接数据库CN节点(集中式为DN)执行SELECT
datname, pg_stat_get_db_blocks_hit(oid), pg_stat_get_db_blocks_fetched(oid), pg_stat_get_db_deadlocks(oid) FROM pg_database WHERE datname NOT IN ('template0','template1','postgres');查询结果中
pg_stat_get_db_deadlocks表示当前死锁次数,查
询结果为空,表示死锁次数为0;
3.      进入cd $PGHOST目录下,
metric_last_info_MetricSummaryStat文件中保存
了上一次的死锁次数。当前死锁次数减去上一次的死锁次数即为该时间段的增量值.
32 租户侧节点主机流控时间检查 1.      连接数据库执行以下SQL语句,通过查询内核视图获取当前主机流控时间。
2.      DN备机执行SELECT standby_node_name, current_sleep_time, current_rto FROM
local_recovery_status();查询结果中取第一行的
current_sleep_time字段即为当前节点主机流控时间。
33 租户侧泄漏句柄数检查 1.      使用如下命令查看具体泄漏的句柄内容。
2.      登录节点执行ps ux | grep -E -- 'gaussdb| cm_agent|gs_gtm|agent|cm_server|etcd' |grep -v 'grep' | awk '{print $2}' | xargs -n1 lsof -p 2>&1 | grep 'delete' | wc -l返回结果即为泄漏句柄数。
34 租户侧CN节点临时目录大小检查 1. 检查项用于检查租户面CN节点的临时目录大小。
2. 登录节点执行“du -sm cn目录/base/pgsql_tmp
| awk '{print $1}'”语句,查询当前CN节点的临时
目录大小,cn目录可以通过cm_ctl query -Cvid查询集群状态获取,获取的目录需要加上/var/chroot沙箱路径。查询出来没有临时目录则大小返回0M.
 
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论