更换管理节点
操作场景
OMS所在服务器出现系统故障无法恢复或者服务器操作系统或者硬件故障无法使用的场景下进行节点更换,更换过程中请保持被更换节点下电状态。
前提条件
- 准备新的硬件服务器,新服务器的硬件(CPU,内存,磁盘等指标)条件必须满足GaussDB 200安装的基本要求,等同或者优于被更换服务器的配置。
- FusionInsight SetupTool工具软件包已上传至主管理节点。
注意事项
- 更换过程中,请不要对OMS主节点进行下电或者停止进程等操作,防止在数据未完全同步完成前发生主备倒换,导致数据丢失。
- 新节点的root用户密码与环境中其他节点的root用户密码保持一致。
- 升级过程中、打补丁过程中、升级观察期不允许更换管理节点。
准备数据
- FusionInsight Manager系统管理员帐户的用户名、密码。
- 服务器的操作系统管理员帐户密码。
- 服务器BMC系统帐户密码。
处理步骤
- 选取新节点安装与被替换节点相同版本的操作系统,新节点配置的网卡名、网关、IP地址、主机名、时间时区信息需要与被替换节点保持一致。
- 使用《配置规划工具》生成安装配置文件:
- 在“基础配置”页签中,“安装模式”选择“更换管理节点”,“是否自定义套餐”选择“Yes”,“扩容节点数量”为“2”,安装目录等参数和更换前一致。
- 在“IP规划与进程部署”中,填入主备管理节点的IP地址信息,在此次需要更换的节点的相应的角色下选择“Y”,去除不相关的角色下的“Y”;对于此次不需要替换的节点,请去除所有角色下的“Y”。
- 其他配置参数请根据参数描述说明及集群的实际情况填写即可,填写完成后,单击“生成配置文件”,生成Manager安装配置文件、preinstall和precheck的配置文件,并上传到主管理节点的相应位置。
说明:
若主管理节点故障,需上传配置文件到备管理节点,并上传操作系统镜像到备管理节点中。
- 在主管理节点执行preinstall脚本,完成OS的预配置和分区挂载。
具体操作请参考配置并检查安装环境。
执行preinstall操作前,需要修改对应的操作系统配置文件“preinstall.ini”,只保留需要替换节点的IP地址及分区信息,防止影响到集群内的其他正常节点。
例如,需要替换的节点IP地址为192.168.10.10,修改“preinstall.ini”文件内的“g_hosts”和“g_parted_conf”参数如下(通常放置于主管理节点,例如“/opt/FusionInsight_SetupTool/preinstall”):
g_hosts="192.168.10.10" g_user_name="root" g_port=22 g_parted=2 g_parted_conf="192.168.10.10:host0.ini;" g_add_pkg=1 g_pkgs_dir="redhat-6.4:/media/" g_log_file="/tmp/fi-preinstall.log" g_debug=0 g_hostname_conf="192.168.10.10:192.168.20.10:host0;192.168.10.11:192.168.20.11:host1;192.168.10.12:192.168.20.12:host2;" g_swap_off=1 g_platform="x86_64"- 使用PuTTY工具以omm用户登录主管理节点,执行以下命令查看当前集群已安装的部件。
cd ${BIGDATA_HOME}/om-server/om/sbin/pack
./queryPack.sh
参考准备工具和软件章节,获取FusionInsight Manager及当前集群已安装部件的软件包,并上传至新准备节点“/opt”目录下。
- 参考配置软件包章节解压软件包,并将所有部件的安装包拷贝至“/opt/FusionInsight_Manager/software/packs”路径下。
- 参考安装双机Manager,使用2中生成的Manager安装配置文件(如“192.168.10.10.ini”)在新节点上安装Manager及4中查询出的部件包。
说明:
- 新节点如果不是全新节点,可能由于之前卸载不完全,遗留残余信息(如操作系统中存在omm用户或ID为2000的用户等),导致Manager安装失败。此时,请根据界面提示,在“${BIGDATA_HOME}/om-server/om/inst”目录执行./uninstall.sh命令,卸载Manager后,再重新安装Manager。
- 如果用户更换过HA根证书,在被更换节点解压软件包后(例如解压到“/opt”),需要执行以下步骤添加证书:
- 进入“/opt/FusionInsight_Manager/software/hasslCert”目录。
cd /opt/FusionInsight_Manager/software/hasslCert
- 准备根证书,使用omm用户登录故障节点,将故障节点中“${BIGDATA_HOME}/om-server_6.5.1/om/security/certHA/”的HA根证书文件“root-ca.crt”和密钥文件“root-ca.pem”复制到新节点“/opt/FusionInsight_Manager/software/hasslCert”目录内。
此根证书需要与更换管理节点前的根证书一致。
- 修改“/opt/FusionInsight_Manager/software/hasslCert/hasslCert.ini”文件内的“password”(默认为空)为生成根证书的密码。
例如修改为“password=Bigdata_123”,集群安装完成后会删除这个密码。
- 使用PuTTY,以omm用户分别登录主管理节点及新替换节点,执行ls -l $BIGDATA_HOME/common查看runtime软链接的指向是否一致。
- 是,继续执行8。
- 否,需要更新新替换节点common工作区,使其与主OMS一致,再执行8。
- 以root用户登录新替换节点,进入切换工作区工具脚本所在路径。
cd /opt/FusionInsight_Manager/software/om/script/
- 执行切换工作区工具脚本,切换到目标工作区(主OMS节点runtime软链接所指向的工作区,runtime0或者runtime1)。
./switchCommonWorkspace.sh 目标工作区
- 以root用户登录新替换节点,进入切换工作区工具脚本所在路径。
- 使用PuTTY,以root用户登陆新节点,执行su - omm切换到omm用户,执行如下两条命令,删除默认的用户数据,准备同步系统中主节点ldap的数据。
rm -f ${BIGDATA_DATA_HOME}/ldapData/oldap/data/*
cp ${CONTROLLER_HOME}/ldapserver/ldapserver/local/conf/DB_CONFIG ${BIGDATA_DATA_HOME}/ldapData/oldap/data/
- 使用PuTTY,以root用户登录新节点,执行如下命令,删除默认的gaussDB数据,并从系统中主节点同步gaussDB的数据。
rm -rf ${BIGDATA_DATA_HOME}/dbdata_om/db
scp -r oms_floatip:${BIGDATA_DATA_HOME}/dbdata_om/db ${BIGDATA_DATA_HOME}/dbdata_om/db
chown ommdba:wheel ${BIGDATA_DATA_HOME}/dbdata_om/db -R
说明:
- oms_floatip为OMS Server的浮动IP地址。
- 当gaussDB数据量较大时,使用scp命令,远程拷贝会耗费一定时间。
- 使用root或omm用户登录新节点,执行ps -ef |grep ldap |grep om-server查询oldap的进程PID,使用kill -9 PID,结束找到的oldap进程,让系统自动重新启动该进程。
- 使用root或omm用户登录更换后的新节点,执行ps -ef | grep krb5kdc | grep om-server和ps -ef | grep kadmind | grep om-server查询okerberos的krb5kdc和kadmind的两个进程PID,执行kill -9 PID命令,结束找到的okerberos的两个进程,让系统自动重新启动这两个进程。
说明:
若进程不存在,则说明已经处于重启过程中,可以忽略本操作步骤。
- 使用PuTTY工具以root用户登录主管理节点,执行su - omm切换到omm用户,执行sh ${CONTROLLER_HOME}/sbin/status-oms.sh查看主备节点的gaussDB资源状态,若资源不正常,等待1-3分钟。
说明:
若更换OMS备节点前,数据库密码与默认密码不一致,需执行以下操作:
- 以omm用户登录OMS备节点,执行以下命令停止OMS:
bash ${BIGDATA_HOME}/om-server/om/sbin/stop-oms.sh
- 以root用户登录OMS备节点,切换到ommdba用户下,执行以下命令同步主备数据库数据:
su - ommdba
gs_ctl build
执行成功后界面回显:
192-168-64-154:/var/log/Bigdata #su - ommdba ommdba@192-168-64-154:~> gs_ctl build waiting for server to shut down.... done server stopped gs_ctl: connect to server, build started. xlog start point: 1/49000020 gs_ctl: starting background WAL receiver 1525133/1525133 kB (100%), 1/1 tablespace xlog end point: 1/4906B908 gs_ctl: waiting for background process to finish streaming... gs_ctl: build completed. server starting.... done server started- 以omm用户登录OMS备节点,执行以下命令启动OMS:
bash ${BIGDATA_HOME}/om-server/om/sbin/start-oms.sh
- 以omm用户登录OMS备节点,执行以下命令启动OMS:
- 使用PuTTY,以root登录主管理节点,执行命令su - ommdba切换到ommdba用户。执行以下命令查看主备OMS是否完成数据同步,其中OMS数据库管理员用户密码默认为“dbChangeMe@123456”:
gs_ctl query -P OMS数据库管理员用户密码
Ha state: LOCAL_ROLE : Primary ... Senders info: ... RECEIVER_REPLAY_LOCATION : 1/24C11300 SYNC_PERCENT : 99% SYNC_STATE : sync ...若“SYNC_PERCENT”为“99%”,则同步完成,同步完成后可进行下一步操作,否则请继续等待。
- 使用PuTTY,以root用户登录主管理节点,执行以下命令查看主备OMS是否完成文件同步。
su - omm
cd ${OMS_RUN_PATH}/workspace0/ha/module/hacom/tools
./ha_client_tool --syncallfile
./ha_client_tool --getsyncfilestatus
完成文件同步,执行结果如下:
omm@192-168-64-154:/opt/huawei/Bigdata/om-server/OMS/workspace0/ha/module/hacom/tools> ./ha_client_tool --syncallfile execute command syncallfile successfully. omm@192-168-64-154:/opt/huawei/Bigdata/m-server/OMS/workspace0/ha/module/hacom/tools> ./ha_client_tool --getsyncfilestatus execute command getsyncfilsStatus successfully.- 使用omm用户登录新节点,执行以下命令更新节点中的“/etc/hosts”文件。
sh ${BIGDATA_HOME}/om-server/om/sbin/updateOMSHosts.sh
界面提示以下信息表示执行成功:
Succeed to update /etc/hosts.- 在主OMS节点上以omm用户执行以下命令禁止OMS双机主备倒换。
cd ${OMS_RUN_PATH}/workspace/ha/module/hacom/tools/
./ha_client_tool --forbidswitch --name=product --time=360
- 如果原OMS节点存在补丁,则需要进行补丁的安装,例如OMS的安装目录为“/opt/huawei/Bigdata”,使用omm用户登录主OMS节点,进入“/opt/huawei/Bigdata/om-server/om/sbin”目录,执行如下命令:./install_standby_oms_patches.sh 备OMS的IP地址。
根据提示,等待几分钟,如果显示信息如下,则表明安装完成。
The patch installation is complete on the standby OMS.如果失败,进入“/var/log/Bigdata/patch”日志目录,查看“install_standby_oms_patches.log”日志文件,来确认补丁包的安装状态。
说明:
已安装的补丁中,如果不包含针对OMS的补丁包,则不会进行实际的安装。
- 检查集群中是否有“XX服务不可用”的告警:
- 是,先按照告警帮助处理告警,再执行19。
- 否,执行19。
- 登录FusionInsight Manager界面,单击“主机”,查看是否能够查看到新节点信息。
- 是,在“运行状态”转为“良好”后(如果为“未知”,等待2分钟左右会变为“良好”),等待10分钟。参考重装主机,恢复节点的服务和实例部署,继续执行20。
- 否,请联系技术支持。
- 使用omm用户登录更换后的新节点,执行如下两条命令,删除默认的用户数据,准备同步系统中主节点ldap的数据。
rm -rf ${BIGDATA_DATA_HOME}/ldapData/oldap/data/*
cp ${BIGDATA_HOME}/om-server/om/ldapserver/ldapserver/local/conf/DB_CONFIG ${BIGDATA_DATA_HOME}/ldapData/oldap/data
- 使用omm用户登录更换后的新节点,执行如下命令,查看新节点上的密文为是否为短密文。
vi ${CONTROLLER_HOME}/ldapserver/ldapserver/local/cert/password.property
短密文样例:
password=90E173DD8BB8939CBF672548418D6B4F长密文样例:
password=d2NjX2NyeXB0ATQxNDU1MzVGNDM0MjQzOzMyMzQ0MjQ0Mzg0MTM4MzEzNTQxMzUzNzQxMzAzMjMxMzMzNzM5NDM0MTM0Mzk0N jM3MzQ0NDQzNDEzMTM5Mzg7OzMyMzUzMDMwOzg3NUY4RjRBMDk5QzUwOTdFOTlCMTJCMTM4OTQxNTUxOzdCNFBNzVFNThBM0IwNjA7MzY zODM3MzgzODY0NjYzOTJENjU2NDY0NjUyRDM0MzkzMzY2MkQzOTMwNjMzODJEMzAzODY2MzUzMDYxMzY2NDM2MzUzNTMwOw- 是,执行下列命令删除更换后的新节点的“password.changed”文件。
rm -f ${CONTROLLER_HOME}/security/cert/subcert/certFile/password.changed
rm -f ${CONTROLLER_HOME}/ldapserver/ldapserver/local/cert/password.changed
- 否,为长密文的场景下,“password.changed”文件存在即可。
- 使用root或omm用户登录更换后的新节点,执行ps -ef |grep ldap |grep om-server_6.5.1/om查询oldap的进程PID,使用kill -9 PID,结束找到的oldap进程,让系统自动重新启动该进程。
- 使用root或omm用户登录更换后的新节点,执行ps -ef | grep kerberos_user_specific_binay/kerberos/sbin/krb5kdc | grep -v grep命令,查询okerberos的krb5kdc进程PID。
执行ps -ef | grep kerberos_user_specific_binay/kerberos/sbin/kadmin | grep -v grep命令,查询okerberos的kadmind进程PID。
执行kill -9 PID命令,结束找到的okerberos的两个进程,让系统自动重新启动这两个进程。
说明:
若进程不存在,则说明已经处于重启过程中,可以忽略本操作步骤。
- 在主OMS节点上使用omm用户执行以下命令取消禁止OMS双机主备倒换。
cd ${OMS_RUN_PATH}/workspace/ha/module/hacom/tools/
./ha_client_tool --cancelforbidswitch --name=product
- 等待几分钟后,登录FusionInsight Manager,检查是否存在“ALM-12006 节点故障”告警信息。
- 是,请参考ALM-12006 节点故障进行处理。
- 否,结束操作。
验证服务器更换情况
- 登录FusionInsight Manager,如果登录成功,并且页面正常显示信息则证明OMS运行正常。
- 管理节点安装了agent进程时,单击“主机”页面跳转到主机列表中查看新添加的主机是否运行状态为“良好”,CPU使用率、内存和磁盘监控信息是否正确。图1 主机监控信息

- 管理节点安装了agent进程,并部署服务或者实例时,选择“主机 > 新节点名称”、“集群 > 待操作的集群名称 > 服务”到“新节点名称”和“服务”页面下查看安装在新节点下的实例状态和相应的服务状态是否正常。图2 查看实例状态
图3 查看服务状态
- 如果是主备双机,选择“运维 > 告警 > 告警”页签查看是否存在ID为12010的“Manager主备节点间心跳中断”的告警,如果不存在该告警则证明主备通信正常。
- 使用PuTTY工具以root用户登录主管理节点,执行su - omm切换到omm用户,执行以下脚本查看主备节点的资源状态。
sh ${BIGDATA_HOME}/om-server/om/sbin/status-oms.sh
主备数据同步完毕,可以正常访问,进行主备倒换等。进行管理节点更换后几分钟(视系统需要同步的数据库量而定),备节点数据库状态可能为“reparing”状态,正在进行数据同步,同步完成后恢复为“Standby_normal”状态。
说明:
如果在更换管理节点之前,集群中已经安装了UpdateService,需要首先卸载UpdateService,否则可能导致主备倒换失败。- 进入UpdateService安装目录,如:
cd /opt/huawei/Bigdata/update-service
- 执行卸载脚本:
sh uninstall.sh
[omm@mgtomsdat-sh-3-01-1 ~]#sh ${BIGDATA_HOME}/om-server/om/sbin/status-oms.sh HAMode double NodeName HostName HAVersion StartTime HAActive HAAllResOK HARunPhase 10-10-0-30 10-10-0-30 V100R001C01 2015-10-15 12:09:31 active normal Actived 10-10-0-24 10-10-0-24 V100R001C01 2015-10-15 12:09:55 standby normal Deactived NodeName ResName ResStatus ResHAStatus ResType 10-10-0-30 acs Normal Normal Single_active 10-10-0-30 aos Normal Normal Single_active 10-10-0-30 cep Normal Normal Single_active 10-10-0-30 controller Normal Normal Single_active 10-10-0-30 feed_watchdog Normal Normal Double_active 10-10-0-30 floatip Normal Normal Single_active 10-10-0-30 fms Normal Normal Single_active 10-10-0-30 gaussDB Active_normal Normal Active_standby 10-10-0-30 heartBeatCheck Normal Normal Single_active 10-10-0-30 httpd Normal Normal Single_active 10-10-0-30 iam Normal Normal Single_active 10-10-0-30 ntp Active_normal Normal Active_standby 10-10-0-30 okerberos Normal Normal Double_active 10-10-0-30 oldap Active_normal Normal Active_standby 10-10-0-30 pms Normal Normal Single_active 10-10-0-30 tomcat Normal Normal Single_active 10-10-0-24 acs Stopped Normal Single_active 10-10-0-24 aos Stopped Normal Single_active 10-10-0-24 cep Stopped Normal Single_active 10-10-0-24 controller Stopped Normal Single_active 10-10-0-24 feed_watchdog Normal Normal Double_active 10-10-0-24 floatip Stopped Normal Single_active 10-10-0-24 fms Stopped Normal Single_active 10-10-0-24 gaussDB Standby_normal Normal Active_standby 10-10-0-24 heartBeatCheck Stopped Normal Single_active 10-10-0-24 httpd Stopped Normal Single_active 10-10-0-24 iam Stopped Normal Single_active 10-10-0-24 ntp Standby_normal Normal Active_standby 10-10-0-24 okerberos Normal Normal Double_active 10-10-0-24 oldap Standby_normal Normal Active_standby 10-10-0-24 pms Stopped Normal Single_active 10-10-0-24 tomcat Stopped Normal Single_active - 进入UpdateService安装目录,如:
查看更多:华为GaussDB 200 更换故障节点「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」关注作者【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。评论
- 使用PuTTY工具以omm用户登录主管理节点,执行以下命令查看当前集群已安装的部件。




