暂无图片
暂无图片
2
暂无图片
暂无图片
暂无图片

磐维数据库运维系列:常见故障解决指南(一)

原创 呵呵 2024-01-25
1460

PanWeiDB故障解决指南(一)


1. 故障一:PanWeiDB软件包不是修改后的最新版本,部分系统不支持

2. 故障二:权限问题 

3. 故障三:字符集问题 

4. 故障四:内存太小导致整套集群无法启动 

5. 故障五:系统scp版本问题

6. 故障六:信号量参数没有自动修改,从而值设置过小导致数据库及cm无法启动 

7. 故障七:文件句柄值设置过小导致monitor无法启动

8. 故障八:cm集群中node1节点无法启动

9. 故障九:其它节点python3不存在导致

10. 故障十:ssh-keygen相关报错 


故障一:PanWeiDB软件包不是修改后的最新版本,有些系统不支持

解决方案:

更换最新版本的PanWeiDB-1.0.1-CentOS-64bit-all.tar.gz重新安装即可。


故障二:权限问题

解决方案:

赋予属主及属组权限即可:

chown -R omm:dbgrp 软件路径

如果还是报同样的错误,赋予0700权限即可:

chmod 700 软件路径


故障三:字符集问题

解决方案:

不要使用./gs_install,直接使用gs_install,如果还是有相同报错,请参考如下步骤:

执行如下命令查看是否有乱码:

gs_guc encrypt -M server -K '密码' -D /express-data/cmdb/app/bin/

有乱码分为两种情况:

  1. 特殊符号
  2. 密码长度过长


故障四:内存太小导致整套集群无法启动

具体报错如下:

2022-09-08 14:27:11.074 63198b3e.1 [unknown] 140329475185728 [unknown] 0 dn_6001_6002_6003 00000 0 [BACKEND] LOG: loaded library "security_plugin"
2022-09-08 14:27:11.076 63198b3e.1 [unknown] 140329475185728 [unknown] 0 dn_6001_6002_6003 01000 0 [BACKEND] WARNING: could not create any HA TCP/IP sockets
2022-09-08 14:27:11.078 63198b3e.1 [unknown] 140329475185728 [unknown] 0 dn_6001_6002_6003 00000 0 [BACKEND] LOG: InitNuma numaNodeNum: 1 numa_distribute_mode: none inheritThreadPool: 0.
2022-09-08 14:27:11.078 63198b3e.1 [unknown] 140329475185728 [unknown] 0 dn_6001_6002_6003 01000 0 [BACKEND] WARNING: Failed to initialize the memory protect for g_instance.attr.attr_storage.cstore_buffers (1024 Mbytes) or shared memory (1894 Mbytes) is larger.
2022-09-08 14:27:11.132 63198b3e.1 [unknown] 140329475185728 [unknown] 0 dn_6001_6002_6003 00000 0 [CACHE] LOG: set data cache size(805306368)
2022-09-08 14:27:11.170 63198b3e.1 [unknown] 140329475185728 [unknown] 0 dn_6001_6002_6003 00000 0 [CACHE] LOG: set metadata cache size(268435456)
cm_server: opendir failed!
write_log_file,log file is null now:2022-09-08 14:27:11.900 tid=29765 MAIN ERROR: read staticNodeConfig failed! errno = 12.

cm_server: opendir failed!
write_log_file,log file is null now:2022-09-08 14:27:11.911 tid=29765 MAIN ERROR: read_config_file_check failed!

解决方案:
增加物理内存即可


故障五:系统scp版本问题

故障描述:

经过排查数据库代码,发现是系统scp版本问题导致,当scp进行分发文件时,本机文件会被清空,从而导致脚本中一些安装被跳过。

解决方案:

将其它机器scp可执行文件拷贝到本机,将软连接重新制向到拷贝过来的scp路径下即可。


故障六:信号量参数没有自动修改,从而值设置过小导致数据库及cm无法启动

1)dn无法启动:

2)数据库无法启动:

解决方案:

修改kernel.sem参数:

kernel.sem = 250 6400000 1000 25600

将数据库手动启动。

删除gstor

/express-data/crmdb/cmserver

rm -rf gstor


故障七:文件句柄值设置过小导致monitor无法启动

解决方案:

将文件句柄改大即可:

vi /etc/security/limits.d/90-nproc.conf

* soft nofile 655361

* hard nofile 655361

su – omm

ulimit -n


故障八:cm集群中node1节点无法启动

故障描述:

IO问题导致。

其它故障:

例如xml文件中主机名要与机器的hostname一致,tmpMppdbPath路径不能指定到CMDB根目录等。


故障九:其它节点python3不存在导致

故障描述:在系统各节点中执行yum安装依赖后,显示安装成功,执行gs_preinstall依然报错,显示其它节点py不存在,报错如下:

解决方案:

在本地测试环境打包好rpm包,然后上传到sit环境,执行yum localinstall之后,再次执行gs_preinstall命令即可。


故障十:ssh-keygen相关报错

解决方案:将第四行注释即可

vi /root/.bashrc


最后修改时间:2024-01-25 11:03:11
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论