| 序号 | 巡检项名称 | 检查标准 |
| 1 | 租户侧节点cpu占用率检查 | 1. 登陆节点,执行"top"命令查看当前CPU使用率 |
| 2. 节点cpu使用率超过85%,巡检不通过 | ||
| 2 | 租户侧节点磁盘使用率检查 | 1. 登陆节点,执行“df -h”命令计算查看当前节 |
| 点/var/chroot/var/lib/engine/data*的磁盘使用率 | ||
| 2. 节点磁盘使用率超过85%,巡检不通过 | ||
| 3 | 租户侧节点内存使用率检查 | 1. 登陆节点,执行“top”命令计算查看当前节点的内存使用率 |
| 2. 节点内存使用率超过90%,巡检不通过 | ||
| 4 | 租户侧节点etcd磁盘使用率检查 | 1. 登录节点,执行“df -h”命令计算查看当前节点的/var/chroot/usr/local/etcd磁盘使用率。 |
| 2. 节点etcd磁盘使用率超过60%,巡检不通过。 | ||
| 5 | 租户侧节点主备复制的RTO检查 | 1. 通过在分布式任意CN节点(集中式DN主节点)上面运行SQL: SELECT |
| standby_node_name,current_rto FROM dbe_perf.global_recovery_status,观察各节点的 current_rto值。 | ||
| 2. 节点RTO时间超过了60,巡检不通过。 | ||
| 6 | 租户侧节点数据库 buffer命中率检查 | 1. 分布式实例通过在任意CN(集中式DN主节点)上面运行SQL:select node_name, datname, |
| (blks_hit / (blks_hit + blks_read)) as hit_ratio from DBE_PERF.global_stat_database where datname not in ('template1', 'template0');查看 hit_ratio值。 | ||
| 2. 节点数据库buffer命中率低于95%,巡检不通过。 | ||
| 7 | 租户侧CN或者DN 节点已使用内存百分比检查 | 1. 分布式实例通过在任意CN(集中式DN主节点)上面运行SQL: select nodename, memorytype, memorymbytes from |
| DBE_PERF.global_memory_node_detail order by | ||
| nodename, memorytype,然后对每个节点,计算 | ||
| process_used_memory/max_process_memory值 | ||
| 2. 当前CN或者DN节点已使用内存百分比超过 90%,巡检不通过。 | ||
| 8 | 租户侧CN或者DN 上动态内存使用率检查 | 1. 分布式实例通过在任意CN(集中式DN主节点)上 |
| 面运行SQL: select nodename, memorytype, memorymbytes from | ||
| DBE_PERF.global_memory_node_detail order by | ||
| nodename, memorytype,然后对每个节点,计算 | ||
| dynamic_used_memory/max_dynamic_memory值 | ||
| 2. 当前节点CN或者DN节点动态内存百分比超过 90%,巡检不通过。 | ||
| 9 | 租户侧节点 | 1. 检查各$GAUSSLOG下面子目录中system_alarm_*.log是否有新增项(op_type) |
| op_type类型内核告警检查 | 2. 节点存在新增op_type类型内核告警,巡检不通过。 | |
| 10 | 用户事务回滚率 | 1. 分布式实例通过在任意CN(集中式DN主节点)上面运行SQL:select node_name, workload, rollback_counter/(commit_counter +rollback_counter) as rollback_ratio from |
| DBE_PERF.global_workload_transaction; | ||
| 2. 观察rollback_ratio值 | ||
| 3. 用户事务回滚率超过1%,巡检不通过。 | ||
| 11 | om agent进程状 | 1. 检查项用于检查租户面实例节点om_agent进程是否存在。 |
| 态检查 | 2. 登录节点,执行“cat /dbs/om-agent/ | |
| agent_xxx/agent.pid”命令查看当前om_agent进程是否存在。 | ||
| 3. om agent 进程运行状态异常,巡检不通过。 | ||
| 12 | om monitor监控进程状态检查 | 1. 检查项用于检查租户面实例节点om_monitor进程是否存在。 |
| 2. 登录节点,执行“ps -ef | grep om_monitor | | ||
| grep -v grep”命令查看当前om_monitor进程是否存在。 | ||
| 3. om monitor进程运行状态异常,巡检不通过。 | ||
| 13 | Agent主进程状态检查 | 1. 检查项用于检查租户面实例节点dbmanager进程是否存在。 |
| 2. 登录节点,执行“ps -ef | grep dbmanager | | ||
| grep -v grep”命令查看当前dbmanager进程是否存在。 | ||
| 3. Agent主进程异常,巡检不通过。 | ||
| 14 | Agent watch dog 监控进程状态检查 | 1. 检查项用于检查租户面实例节点watchdog进程是否存在。 |
| 2. 登录节点,执行“ps -ef | grep watchdog | grep | ||
| -v grep”命令查看当前watchdog进程是否存在。 | ||
| 3. Agent watch dog监控进程状态异常,巡检不通过。 | ||
| 15 | 实例磁盘使用率检查 | 1. 通过ManageOne OC平台的实例性能监控查看该节点的实例磁盘使用率。 |
| 2. 磁盘整体磁盘使用率超过85%,巡检不通过。 | ||
| 16 | 租户实例备份结果检查 | 1. 通过客户帐号登录GaussDB(for openGauss)控制台查看当前实例备份情况。 |
| 2. 当前实例全量备份和差异备份失败,巡检不通过。 | ||
| 17 | AgentMonitor进程状态检查 | 1、 登陆节点,执行命令检查ps -ef | grep agent_monitor |
| 2、 如果进程不存在,则巡检不通过 | ||
| 18 | 检查数据磁盘单次写入花费的时间 | 1、 登陆节点,获取/proc/diskstats文件中磁盘写的次数以及写花费的时间 |
| 2、 间隔一秒,获取/proc/diskstats文件中磁盘写的次数以及写花费的时间,计算两者之间的差值 | ||
| 3、 写花费的时间/写的次数 即为单次写入花费的时间 | ||
| 4、 如果单次写入花费的时间连续超过阈值,则巡检不通过 | ||
| 19 | 检查数据磁盘单次读取花费的时间 | 1、 登陆节点,获取/proc/diskstats文件中磁盘读的次数以及读花费的时间 |
| 2、 间隔一秒,获取/proc/diskstats文件中磁盘读的次数以及读花费的时间,计算两者之间的差值 | ||
| 3、 读花费的时间/读的次数 即为单次读取花费的时间 | ||
| 4、 如果单次读取花费的时间连续超过阈值,则巡检不通过 | ||
| 20 | 检查当前节点系统盘磁盘使用率 | 1、 登陆节点,执行命令df -h,检查系统根目录/以及系统盘日志目录/var/log的使用率 |
| 2、 如果使用率超过阈值,则巡检不通过 | ||
| 21 | 检查当前分片内备机redo进度 | 1.检查项用于统计分片内备机redo进度,表示备机和主机的差距。 |
| 2. 连接数据库CN节点,查询 | ||
| global_wal_sender_status,其中 | ||
| sender_flush_location与receiver_replay_location 的差值及为当前的主备差异(集中式查询 | ||
| pg_stat_get_wal_senders()) | ||
| 3. 如果主备差异持续超过阈值(10GB),则检查不通过 | ||
| 22 | 检查CN上的在线会话比例 | 1. 检查项用于该值用于统计CN上的在线会话比例,即连接的会话数占CN大连接数的比例; |
| 2. 分布式环境上连接数据库CN节点,查询视图 | ||
| SELECT coorname, count(coorname) FROM pgxc_stat_activity GROUP BY coorname;即可获取每个CN在线会话数量,该值与CN上的参数 | ||
| max_connections的比值即为所求。集中式环境查 | ||
| 询select count(*) from pg_stat_activity; | ||
| max_connections的值通过语句show max_connections来获取。 | ||
| 3. 如果在线会话率持续超阈值(90%),则检查不通过 | ||
| 23 | 检查当前数据库 95% SQL的响应时间 | 1. 检查项用于统计数据库95% SQL的响应时间; |
| 2. 连接数据库CN节点(集中式为DN)查询视图 | ||
| dbe_perf.statement_responsetime_percentile(需要有monadmin权限)即可得到P95时间 | ||
| 3. 如果P95持续超过阈值(5000000us),则检查不通 | ||
| 过 | ||
| 24 | 检查CN和DN的线程池使用率 | 1. 检查项用于统计CN和DN的线程池使用率; |
| 2. 连接数据库CN节点,查询视图SELECT node_name,worker_info FROM dbe_perf.GLOBAL_THREADPOOL_STATUS;其中 | ||
| acutal数量减去idle数量即为当前使用的线程数量,已使用线程数除以acutal数量数量,即为线程池使用率 | ||
| 3. 如果线程池使用率持续超过阈值(90%),则检查不通过 | ||
| 25 | 检查独立部署形态非dn节点的log盘使用率 | 1. 检查项用于检查租户面实例节点log盘使用率; |
| 2. 登录独立部署形态的非dn节点,执行“df -h”命令计算查看当前节点的/var/chroot/var/lib/log磁盘使用率; | ||
| 3. 如果使用率超过90%,则检查不通过 | ||
| 26 | 检查租户侧节点的 | 1. 登录DBS运维管理平台,当前实例节点的HA开关是否打开; |
| HA开关是否打开 | 2. 如果HA开关关闭,则巡检不通过 | |
| 27 | 检查租户侧节点状态是否异常 | 1. 登录DBS运维管理平台,当前实例节点的状态是否异常; |
| 2. 如果状态异常,则巡检不通过 | ||
| 28 | 租户侧DN节点的临时目录大小检查 | 1. 检查项用于检查租户面DN节点的临时目录大小; |
| 2. 登录节点执行“du -sm dn目录/base/pgsql_tmp | ||
| | awk '{print $1}'”语句,查询当前DN节点的临时 | ||
| 目录大小,dn目录可以通过cm_ctl query -Cvid查 | ||
| 询集群状态获取,获取的目录需要加上/var/chroot 沙箱路径。查询出来没有临时目录则大小返回0M. | ||
| 29 | 租户侧节点活跃会话率检查 | 1. 连接数据库执行以下SQL语句,分别查询活跃会话数量和在线会话数量,活跃会话数量除以在线会话数量,即为节点活跃会话率。 |
| 2. 分布式环境上连接数据库CN节点,查询视图 | ||
| SELECT coorname, count(coorname) FROM pgxc_stat_activity WHERE state='active' GROUP BY coorname; | ||
| 集中式环境查询SELECT count(*) FROM | ||
| pg_stat_activity WHERE state = 'active';即可获取 | ||
| 节点活跃会话数量。; | ||
| 3. 分布式环境上连接数据库CN节点,查询视图 | ||
| SELECT coorname, count(coorname) FROM pgxc_stat_activity GROUP BY coorname;,集中式环境查询select count(*) from pg_stat_activity;即可获取节点在线会话数量。 | ||
| 30 | 租户侧节点 | 1. 检查项用于统计数据库80% SQL的响应时间; |
| 80%SQL的响应时间检查 | 2. 连接数据库CN节点(集中式为DN)查询视图 | |
| SELECT P80 FROM dbe_perf.statement_responsetime_percentile;即可得到P80响应时间。 | ||
| 31 | 租户侧死锁次数检查 | 1. 检查项用于统计数据库发生事务死锁的次数,取该时间段的增量值;2 |
| 2. 连接数据库CN节点(集中式为DN)执行SELECT | ||
| datname, pg_stat_get_db_blocks_hit(oid), pg_stat_get_db_blocks_fetched(oid), pg_stat_get_db_deadlocks(oid) FROM pg_database WHERE datname NOT IN ('template0','template1','postgres');查询结果中 | ||
| pg_stat_get_db_deadlocks表示当前死锁次数,查 | ||
| 询结果为空,表示死锁次数为0; | ||
| 3. 进入cd $PGHOST目录下, | ||
| metric_last_info_MetricSummaryStat文件中保存 | ||
| 了上一次的死锁次数。当前死锁次数减去上一次的死锁次数即为该时间段的增量值. | ||
| 32 | 租户侧节点主机流控时间检查 | 1. 连接数据库执行以下SQL语句,通过查询内核视图获取当前主机流控时间。 |
| 2. DN备机执行SELECT standby_node_name, current_sleep_time, current_rto FROM | ||
| local_recovery_status();查询结果中取第一行的 | ||
| current_sleep_time字段即为当前节点主机流控时间。 | ||
| 33 | 租户侧泄漏句柄数检查 | 1. 使用如下命令查看具体泄漏的句柄内容。 |
| 2. 登录节点执行ps ux | grep -E -- 'gaussdb| cm_agent|gs_gtm|agent|cm_server|etcd' |grep -v 'grep' | awk '{print $2}' | xargs -n1 lsof -p 2>&1 | grep 'delete' | wc -l返回结果即为泄漏句柄数。 | ||
| 34 | 租户侧CN节点临时目录大小检查 | 1. 检查项用于检查租户面CN节点的临时目录大小。 |
| 2. 登录节点执行“du -sm cn目录/base/pgsql_tmp | ||
| | awk '{print $1}'”语句,查询当前CN节点的临时 | ||
| 目录大小,cn目录可以通过cm_ctl query -Cvid查询集群状态获取,获取的目录需要加上/var/chroot沙箱路径。查询出来没有临时目录则大小返回0M. | ||
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




