【常见场景】目前识别到的数据磁盘使用率超阈值告警触发场景主要有如下几种:
1 用户数据持续增长(vacuum等);
2 临时数据落盘;
3 xlog回收不及时;
4 产生core文件;
【基本处理方法】数据磁盘告警阈值一般都比只读阈值小,以保证只读风险被提前识别,此告警处理的基本思路是确认数据磁盘中哪些文件是不该存在的并清理掉他们。
步骤1:收到告警后,首先确认触发告警的节点及节点类型(CN/DN/GTM/CMS);
步骤2:登陆对应节点,查看集群状态,若集群状态为只读,则说明当前阈值已经超过参数datastorage_threshold_value_check的限制,业务受损,需要快速恢复;使用df -h命令查看当前磁盘使用情况,然后cd命令进入磁盘使用率高的那个目录下,一般情况下会是CN或者DN,对应的数据目录分别为/usr/local/cn和/var/lib/engine/data1/data/dn_x,然后使用du -sh命令确认具体目录的空间占用,排查占用较高的几个子目录,包括core文件,base/pgsql_tmp目录,pg_xlog目录等。
步骤3;登录ops运维管理平台,查看实例磁盘使用率,判断是否为用户数据持续增长,如果是用户数据正常增长,需要联系业务侧SRE扩容。
步骤4:若pg_xlog目录下文件数量超过10K(当前常见xlog保留数量为256和9600),则说明pg_xlog可能没有正常回收,需要进一步分析xlog不回收的原因,确认原因后(或者磁盘已经只读,需要清理),若当前节点为备机,可以直接将备机的xlog文件删除.
步骤5;若数据目录下存在core文件,建议将core文件另外归档后删除。
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




