暂无图片
暂无图片
1
暂无图片
暂无图片
暂无图片

磐维数据库集群升级启动hang住问题处理

原创 皮蛋 2025-08-29
90

问题现象:

磐维数据库集群从3.0.0版本升级到3.0.1版本后cm_server服务启动不起来,日志处于卡住的状态。

问题分析

由于是使用的虚拟机,通过2025-01-14快照恢复的,系统时间还停留在2025-01-14号,启动集群失败,cm_ctl start 一直打点。怀疑是CMM保活机制影响的,CMM保活机制由系统定时任务来兜底

解决方案

全部节点:

  1. 先注释掉crontab中的om_monitor相关定时任务。(CMM 每秒检查一次 CMA 健康状态。若进程不存在,拉起进程;若进程僵死,则杀死僵死进程,重新拉起)
crontab -e

#*/1 * * * * source /etc/profile;(if [ -f ~/.profile ];then source ~/.profile;fi);source ~/.bashrc;nohup /database/panweidb/app/bin/om_monitor -L /database/panweidb/log/omm/cm/om_monitor >>/dev/null 2>&1 &
  1. kill掉om_monitor进程(进程号可通过ps -ef|grep om_monitor查看)
  2. 删除/mv走cm的元数据。
    在cm目录下
mv dcf_data dcf_data_bak
mv gstor gstor_bak
  1. 还原在crontab里注释的om_monitor相关任务,等待om_monitor自动拉起。
  2. 再次查看集群状态,恢复正常。
最后修改时间:2025-08-29 16:16:36
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论