PanWeiDB故障解决指南(二)
12. 故障十二:系统扇区大小导致cmdb数据库无法创建问题:
15. 故障十五:因无法加载环境变量,找不到包中的libcrypto.so.1.1文件
16. 故障十六:找不到lib64/libssl.so.1.1文件
17. 故障十七:kernel.shmmax以及kernel.shmall设置过小:
20. 故障二十:gs_preinstall执行时报[GAUSS-50612] [GAUSS-51632]
故障十一:互信相关错误
检查主备机两两之间root和安装用户下ssh ip以及ssh 主机名的互信,不需要交互
报错故障一:
执行gs_preinstall,如果遇到如下两个报错都是互信问题。
解决办法:
手动配置互信即可
报错故障二:
执行gs_preinstall后,具体报错如下:
解决办法:
手动将root用户配置互信即可。
如手动配置互信依然有问题,可以手动尝试检查各台机器的互信情况,如下图所示,出现主机用户密码无法识别:
解决办法如下:
1)修改sshd_config配置文件,并重启sshd:
vi /etc/ssh/sshd_config
PermitRootLogin yes
systemctl restart sshd
2)手动配置互信,再次尝试预安装命令:
出现如上报错,说明各台机器安装目录权限有问题,需要进行手动授权:
所有节点执行如下命令:
chown -R omm:dbgrp 数据库安装目录
- 再次执行预安装出现如下报错:
如上报错说明omm用户互信有问题,手动创建各台机器omm用户互信即可。然后再次执行预安装命令:
如上图所示,预安装成功。
报错故障三:
执行gs_install具体报错如下:
出现此报错其实依然是互信的问题,在使用“ssh 主机名 hostname”验证互信过程中发现会出现交互,遇到此问题其实解决办法很简单,我们只需要在验证每台机器互信时手动输入yes即可,如下图所示:
然后再次执行gs_install命令:
遇到如上问题后没有关系,我们再次执行gs_install命令即可:
如上图所示,数据库安装成功。
报错故障四:
执行gs_install,启动数据库超时,具体报错如下:
出现此报错其实依然是互信的问题,在使用“ssh ip hostname”验证互信过程中发现会出现交互,遇到此问题其实解决办法很简单,我们只需要在验证每台机器互信时手动输入yes即可。然后gs_om -t stop && gs_om -t start重启数据库。
故障十二:系统扇区大小导致cmdb数据库无法创建问题
具体报错如下:
cd /express-data/log/omm/cm/cm_server
tail -20 cm_server-2022-09-14_102649-current.log
cd /express-data/log/omm/cm/cm_agent
tail -20 cm_agent-2022-09-14_102649-current.log
cd /express-data/log/omm/cm/dcc/run
tail -20 dcc.rlog
cd /express-data/log/omm/cm/dcc/debug
tail -20 dcc.dlog
cd /express-data/log/omm/cm/cm_ctl
tail -20 cm_ctl-2022-09-14_102605-current.log
解决方案:
将扇区重新格式化到512bytes即可,或者重新分区,重新分区请参考如下网址:
http://javabk.com/2020/linux-init-disk/
扇区对比:
正常的:
如下图所示,也可以安装成功,后期影响未知:
mkfs.xfs -f -s size=512 /dev/vg-docker/vg-cmdb
不正常的:
故障十三:dcc日志相关报错
此报错,是因为集群刚启动的时候dcc集群状态可能还没有完全正常,所以会打印一会儿,等集群状态完全正常之后就不会再打印了,是正常的
故障十四:fs.file-max参数设置过小
报错信息如下:
su: failed to execute /bin/bash: Too many open files in system
解决办法:
vi /etc/sysctl.conf
fs.file-max = 6553600
故障十五:因无法加载环境变量,找不到包中的libcrypto.so.1.1文件
解决办法:
ln -s /database/tool/script/gspylib/clib/libcrypto.so.1.1 /lib64/libcrypto.so.1.1
故障十六:找不到lib64/libssl.so.1.1文件
解决方案:
ln -s /usr/lib64/libssl.so.10 /usr/lib64/libssl.so.1.1
ln -s /usr/lib64/libssl.so.10 /usr/lib/libssl.so.1.1
故障十七:kernel.shmmax以及kernel.shmall设置过小
具体报错如下:
$GAUSSLOG/cm/cm_agent
解决办法:
kernel.shmmax = 201885507584
kernel.shmall = 49288454
以上参数计算方式:
计算共享内存段的最大大小,以及所有进程可以使用的共享内存总页数:
vi shmsetup.sh
#!/bin/bash
# simple shmsetup script
page_size=`getconf PAGE_SIZE`
phys_pages=`getconf _PHYS_PAGES`
shmall=`expr $phys_pages / 2`
shmmax=`expr $shmall \* $page_size`
echo kernel.shmmax = $shmmax
echo kernel.shmall = $shmall
故障十八:openssh的版本过高
现象描述:复制文件到本地文件内容被清空
[omm@node1 ~]$ cat 1.txt
1234
[omm@node1 ~]$ scp /node1/omm/1.txt node1:/node1/omm/1.txt
1.txt
[omm@node1 ~]$ cat 1.txt
[omm@node1 ~]$
问题原因:openssh版本过高,版本降低至7.x即可解决,相关代码待合入后可解决
[omm@node1 ~]$ ssh -v
临时解决方案:
改OS openssh版本为9.0,此处通过修改软链接临时规避
1. 上传openssh-8.8p1包到/usr/local并解压:
cd /usr/local
tar -zxvf openssh-8.8p1.tar.gz
2. 解除原来的软连接:
ll /usr/bin/scp
lrwxrwxrwx 1 root root 32 Oct 31 16:01 /usr/bin/scp -> /usr/local/openssh-9.0p1/bin/scp
unlink /usr/bin/scp
3. 创建新的软连接:
ln -s /usr/local/openssh-8.8p1/bin/scp /usr/bin/scp
故障十九:su – omm失败,无法加载如下模块
vi /var/log/secure
解决方法:
1) ld不要写到/etc/profile里
2) 安装源都一致为el8
如上可以看出该主机的内核版本的内核版本来自el8,但是openssl的源来自an8,安装源不一致,导致不兼容。正常机器截图如下:
建议重装系统,安装源统一为el8
故障二十:gs_preinstall执行时报[GAUSS-50612] [GAUSS-51632]
故障描述:[GAUSS-50612] : Failed to obtain network card RX value. Error: Cannot get device ring settings: Operation not supported.
解决办法:修改gs_checkos文件第98行,去除98行把A11删除,重新运行gs_preinstall程序




