暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

国产库PolarDB共享存储使用异常故障处理

IT那活儿 2025-06-19
54

点击上方“IT那活儿”公众号--专注于企业全栈运维技术分享,不管IT什么活儿,干就完了!!!



故障现象

对国产库PolarDB进行日巡检发现共享存储空间使用率异常增长较快


故障分析

由于磁盘空间增常较快初步怀疑是因为WAL日志目录膨胀导致随后登陆数据库进程排查,执行SQL
SELECTCOUNT(1FROM pg_ls_waldir()
获取pg_wal目录下WAL日志文件的个数为1549,单个WAL文件大小为1GB该目录占用空间约1.5TB
pg_wal目录膨胀可能是有以下三种情况之一导致
  • wal_keep_segmentsmax_wal_sizemin_wal_size参数设置不合理;
  • 数据库中存在不使用的复制槽;
  • 数据库开启归档但未正确处理。
2.1 针对上述第一种情况“wal_keep_segments、max_wal_size、min_wal_size参数设置不合理”进行排查
数据库GUC参数如下
上述参数均在合理值范围内,且不会导致pg_wal目录膨胀至1.5TB大小因此排除此种情况
2.2 针对上述第二种情况“数据库中存在不使用的复制槽”进行排查
结果如下
数据库中存在两个活跃的事务槽但不存在非活跃事务槽因此排查此种情况
2.3 针对上述第三种情况“数据库开启归档,但未正确处理”进行排查
检查数据库GUC参数archive_mode的值为on,表示开启归档模式检查最近的备份情况如下
最近的备份全部失败
综上分析
判断pg_wal目录膨胀的原因是WAL日志未正确归档导致堆积


故障处理

备份工具日志将磁盘空闲写满导致备份服务运行异常手工清理数据库备份日志;
数据库备份组介入处理将备份服务重启启动。
本次故障排查处理后梳理起因:
PolarDB数据库备份服务器运行异常导致WAL日志无法正常归档最终导致pg_wal目录下的WAL文件堆积

END


本文作者:魏 强(上海新炬中北团队)

本文来源:“IT那活儿”公众号

文章转载自IT那活儿,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论