修改core dump配置参数
操作场景
集群如果开启了core dump功能,在配置了core文件存储目录的场景下,core文件总量的大小,每个core文件保存的时长以及core文件的检测周期,分别由系统参数core_max_size_reserved、core_max_time_reserved和core_check_period控制。在重启NodeAgent或重装主机之后这些参数会恢复为初始配置,需要重新进行配置。
本章节指导系统管理员通过gs_ssh工具修改这些参数。
不建议频繁更改该参数配置,如果需要的话一般建议在安装完集群或升级之后根据集群磁盘等配置调整一次。
背景信息
当集群开启core dump功能后,当core文件在满足以下两个条件之一时,操作系统都会自动清理core文件。
- 当集群中某个节点的“/var/log/core”目录下存储的core文件总量超过设定值(默认为30*(DN_NUM+4) +20)时,系统会从最早生成的core文件开始删除,直到“/var/log/core”目录下的总大小小于30*(DN_NUM+4) +20为止。其中“DN_NUM”为单个节点的DN数。
- 某个core文件从生成时间开始计算,文件生成超过3天时间时也将被系统删除。
当出现core文件告警时,一定要及时处理,否则会导致core文件保存超时被删除,管理员无法定位问题。
在不配置core文件存储目录的场景下,core文件将被存储在各进程启动的目录,此时由于core文件是分散存储的,所以每个目录下只保存最大100GB的core文件总量,每个文件同样只保留3天。
core_max_size_reserved
参数说明:单个节点上core文件的存储总量,单位为GB。
默认值:30*(DN_NUM+4) +20,其中DN_NUM为单个节点上的DN数。
- 本操作仅限于单独配置了core文件存储目录的场景。
- 该参数值在部署集群时会根据每个节点部署的DN数目以及所挂载的core目录所在分区的剩余空间大小自动计算,如非必要,不建议手动修改
修改方法:
- 登录集群的某个数据节点,并切换用户为omm。
su - omm
- 执行source $BIGDATA_HOME/mppdb/.mppdbgs_profile使用环境变量。
- 执行以下命令修改文件存储总量。
gs_ssh -c "sed -i 's/^core_max_size_reserved.*/core_max_size_reserved=文件总量大小/g' /home/omm/.dumpprofile"
例如,修改文件存储总量为300GB。
gs_ssh -c "sed -i 's/^core_max_size_reserved.*/core_max_size_reserved=300/g' /home/omm/.dumpprofile"
core_max_time_reserved
参数说明:每个core文件的保存时长,单位为天。
默认值:3
修改方法:
- 登录集群的某个数据节点,并切换用户为omm。
su - omm
- 执行source $BIGDATA_HOME/mppdb/.mppdbgs_profile使用环境变量。
- 执行以下命令修改最大保留天数。
gs_ssh -c "sed -i 's/^core_max_time_reserved.*/ core_max_time_reserved=保留天数/g' /home/omm/.dumpprofile"
例如,修改最大保留天数为1天。
gs_ssh -c "sed -i 's/^core_max_time_reserved.*/ core_max_time_reserved=1/g' /home/omm/.dumpprofile"
core_check_period
参数说明:core文件的检测周期,单位为分钟。取值最小为1分钟。
默认值:1
修改方法:
- 登录集群的某个数据节点,并切换用户为omm。
su - omm
- 执行source $BIGDATA_HOME/mppdb/.mppdbgs_profile使用环境变量。
- 执行以下命令修改检测周期。
gs_ssh -c "sed -i 's/^core_check_period.*/ core_check_period=检测周期/g' /home/omm/.dumpprofile"
例如,修改检测周期为5分钟。
gs_ssh -c "sed -i 's/^core_check_period.*/ core_check_period=5/g' /home/omm/.dumpprofile"
查看更多:华为GaussDB 200 集群管理




