暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

磐维数据库运维系列:常见故障解决指南(二)

原创 呵呵 2024-01-25
2029

PanWeiDB故障解决指南(二)


11. 故障十一:互信相关错误 

11.1. 报错故障一

11.2. 报错故障二

11.3. 报错故障三

11.4. 报错故障四

12. 故障十二:系统扇区大小导致cmdb数据库无法创建问题:

13. 故障十三:dcc日志相关报错:

14. 故障十四:fs.file-max参数设置过小 

15. 故障十五:因无法加载环境变量,找不到包中的libcrypto.so.1.1文件 

16. 故障十六:找不到lib64/libssl.so.1.1文件 

17. 故障十七:kernel.shmmax以及kernel.shmall设置过小: 

18. 故障十八:openssh的版本过高 

19. 故障十九:su – omm失败,无法加载如下模块 

20. 故障二十:gs_preinstall执行时报[GAUSS-50612] [GAUSS-51632] 


故障十一:互信相关错误

检查主备机两两之间root和安装用户下ssh ip以及ssh 主机名的互信,不需要交互

报错故障一:

执行gs_preinstall,如果遇到如下两个报错都是互信问题。

解决办法:

手动配置互信即可


报错故障二:

执行gs_preinstall后,具体报错如下:

解决办法:

手动将root用户配置互信即可。

如手动配置互信依然有问题,可以手动尝试检查各台机器的互信情况,如下图所示,出现主机用户密码无法识别:

解决办法如下:

1)修改sshd_config配置文件,并重启sshd:

vi /etc/ssh/sshd_config

PermitRootLogin yes

systemctl restart sshd

2)手动配置互信,再次尝试预安装命令:

出现如上报错,说明各台机器安装目录权限有问题,需要进行手动授权:

所有节点执行如下命令:

chown -R omm:dbgrp 数据库安装目录

  1. 再次执行预安装出现如下报错:

如上报错说明omm用户互信有问题,手动创建各台机器omm用户互信即可。然后再次执行预安装命令:

如上图所示,预安装成功。


报错故障三:

执行gs_install具体报错如下:

出现此报错其实依然是互信的问题,在使用“ssh 主机名 hostname”验证互信过程中发现会出现交互,遇到此问题其实解决办法很简单,我们只需要在验证每台机器互信时手动输入yes即可,如下图所示:

然后再次执行gs_install命令:

遇到如上问题后没有关系,我们再次执行gs_install命令即可:

如上图所示,数据库安装成功。


报错故障四:

执行gs_install,启动数据库超时,具体报错如下:

26d5823d687697193a98da38745f98f

出现此报错其实依然是互信的问题,在使用“ssh ip hostname”验证互信过程中发现会出现交互,遇到此问题其实解决办法很简单,我们只需要在验证每台机器互信时手动输入yes即可。然后gs_om -t stop && gs_om -t start重启数据库。


故障十二:系统扇区大小导致cmdb数据库无法创建问题

具体报错如下:

cd /express-data/log/omm/cm/cm_server

tail -20 cm_server-2022-09-14_102649-current.log

cd /express-data/log/omm/cm/cm_agent

tail -20 cm_agent-2022-09-14_102649-current.log

cd /express-data/log/omm/cm/dcc/run

tail -20 dcc.rlog

cd /express-data/log/omm/cm/dcc/debug

tail -20 dcc.dlog

cd /express-data/log/omm/cm/cm_ctl

tail -20 cm_ctl-2022-09-14_102605-current.log

解决方案:

将扇区重新格式化到512bytes即可,或者重新分区,重新分区请参考如下网址:

http://javabk.com/2020/linux-init-disk/

扇区对比:

正常的:

如下图所示,也可以安装成功,后期影响未知:

mkfs.xfs -f -s size=512 /dev/vg-docker/vg-cmdb

不正常的:


故障十三:dcc日志相关报错

此报错,是因为集群刚启动的时候dcc集群状态可能还没有完全正常,所以会打印一会儿,等集群状态完全正常之后就不会再打印了,是正常的


故障十四:fs.file-max参数设置过小

报错信息如下:

su: failed to execute /bin/bash: Too many open files in system

解决办法:

vi /etc/sysctl.conf

fs.file-max = 6553600 


故障十五:因无法加载环境变量,找不到包中的libcrypto.so.1.1文件

解决办法:

ln -s /database/tool/script/gspylib/clib/libcrypto.so.1.1 /lib64/libcrypto.so.1.1


故障十六:找不到lib64/libssl.so.1.1文件

解决方案:

ln -s /usr/lib64/libssl.so.10 /usr/lib64/libssl.so.1.1

ln -s /usr/lib64/libssl.so.10 /usr/lib/libssl.so.1.1


故障十七:kernel.shmmax以及kernel.shmall设置过小

具体报错如下:

$GAUSSLOG/cm/cm_agent

解决办法:

kernel.shmmax = 201885507584

kernel.shmall = 49288454

以上参数计算方式:

计算共享内存段的最大大小,以及所有进程可以使用的共享内存总页数:

vi shmsetup.sh

#!/bin/bash

# simple shmsetup script

page_size=`getconf PAGE_SIZE`

phys_pages=`getconf _PHYS_PAGES`

shmall=`expr $phys_pages / 2`

shmmax=`expr $shmall \* $page_size`

echo kernel.shmmax = $shmmax

echo kernel.shmall = $shmall


故障十八:openssh的版本过高

现象描述:复制文件到本地文件内容被清空

[omm@node1 ~]$ cat 1.txt

1234

[omm@node1 ~]$ scp /node1/omm/1.txt node1:/node1/omm/1.txt

1.txt

[omm@node1 ~]$ cat 1.txt

[omm@node1 ~]$

问题原因:openssh版本过高,版本降低至7.x即可解决,相关代码待合入后可解决

[omm@node1 ~]$ ssh -v

临时解决方案:

改OS openssh版本为9.0,此处通过修改软链接临时规避

1. 上传openssh-8.8p1包到/usr/local并解压:

cd /usr/local

tar -zxvf openssh-8.8p1.tar.gz

2. 解除原来的软连接:

ll /usr/bin/scp

lrwxrwxrwx 1 root root 32 Oct 31 16:01 /usr/bin/scp -> /usr/local/openssh-9.0p1/bin/scp

unlink /usr/bin/scp

3. 创建新的软连接:

ln -s /usr/local/openssh-8.8p1/bin/scp /usr/bin/scp


故障十九:su – omm失败,无法加载如下模块

vi /var/log/secure

解决方法:
1) ld不要写到/etc/profile里

2) 安装源都一致为el8

如上可以看出该主机的内核版本的内核版本来自el8,但是openssl的源来自an8,安装源不一致,导致不兼容。正常机器截图如下:

建议重装系统,安装源统一为el8


故障二十:gs_preinstall执行时报[GAUSS-50612] [GAUSS-51632]

故障描述:[GAUSS-50612] : Failed to obtain network card RX value. Error: Cannot get device ring settings: Operation not supported.

解决办法:修改gs_checkos文件第98行,去除98行把A11删除,重新运行gs_preinstall程序

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论