1、实例状态
gs_om -t status --查询集群状态,正常未Nomal,balanced为YES
gs_om -t status detail --详细查看集群各节点上的实例进程状态
2、会话信息
SQL> select * from pg_stat_activity; --当前会话数
SQL> show max_active_statements; --最高连接会话数
SQL> select usename,pid,application_name,client_addr from pg_stat_activity order by usename,pid; --当前数据库连接详情
SQL> select pg_terminate_backent(pid); --强制停止会话
3、参数检查
SQL> show max_active_statements; --查询给定参数的设定值,示例参数缺省值为60,推荐设置为cpu内核数*2.5/DN总数
4、参数修改
gs_guc reload -Z coordinator -N all -I all -c "max_active_statements=10"
gs_guc reload -Z datanode -N all -I all -c "max_active_statements=10"
5、实例异常
当连接数据库出现缓慢、挂起等现象,需要诊断和分析,甚至可能需要重新启动数据库实例
集群监控检查:
gs_checkos -i A --检查操作系统参数
gs_check -i CheckClusterState --检查集群数据库状态
gs_checkperf --检查数据库性能
修复故障实例:
gs_om -t status --detail --查找异常实例
gs_replace -t config -h host1, host2 gs_replace -t start -h host1, host2 --修复异常实例
gs_om -t switch --reset --重置实例状态,以保证各主机的负载均衡
6、信息采集
gs_collector --begin-time="20190820 11:00" --end-time="20190820 14:00" --通过采集系统的HANG信息、系统状态信息等,可以分析系统挂起的原因,间隔采样,可以用于对比变化,辅助分析。
7、清理运行日志
cd $GAUSSLOG rm log_name --请谨慎清理
8、停库
gs_om -t stop -m smart --安全停库
gs_om -t stop -m immediate --强制停库