暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

磐维数据库_双中心常用操作以及常见问题处理经验分享

原创 磐维数据库 2024-10-31
325

双中心常用操作:


  1. 双中心搭建:

      主中心搭建

       与主集群部署配置基本相同,仅添加了以下三个sdr特有参数,其中value字段中的每个括号为一个数据库服务器的两个IP。如灾备环境不跨池,两个IP均配置为服务器业务IP;如为跨池资源,localStreamIpmap1两个IP均配置为服务器业务IP,remoteStreamIpmap1前一个配置为资源池内业务IP,后一个配置为跨资源池承载网IP(三个节点均需要配置)

<!-- sdr 配置 -->

<PARAM name="localStreamIpmap1" value="(xx.xx.xx.xx, xx.xx.xx.xx),( xx.xx.xx.xx xx.xx.xx.xx), x.xx.xx.xx, xx.xx.xx.xx)"/>

<PARAM name="remoteStreamIpmap1" value="(x.xx.xx.xx, xx.xx.xx.xx), x.xx.xx.xx, xx.xx.xx.xx),( x.xx.xx.xx, xx.xx.xx.xx)"/>

<PARAM name="remotedataPortBase" value="17700"/>


     从中间搭建:

      与从集群部署配置基本相同,仅添加了以下三个sdr特有参数,其中value字段中的每个括号为一个数据库服务器的两个IP。如灾备环境不跨池,两个IP均配置为服务器业务IP;如为跨池资源,localStreamIpmap1两个IP均配置为服务器业务IP,remoteStreamIpmap1前一个配置为资源池内业务IP,后一个配置为跨资源池承载网IP(三个节点均需要配置)。

<!-- sdr 配置 -->

<PARAM name="localStreamIpmap1" value=""(xx.xx.xx.xx, xx.xx.xx.xx),( xx.xx.xx.xx xx.xx.xx.xx), x.xx.xx.xx, xx.xx.xx.xx)"/>

<PARAM name="remoteStreamIpmap1" value=""(xx.xx.xx.xx, xx.xx.xx.xx),( xx.xx.xx.xx xx.xx.xx.xx), x.xx.xx.xx, xx.xx.xx.xx)"/>

<PARAM name="remotedataPortBase" value="17700"/>


1) 启动主中心:

主中心在创建容灾关系过程中,会等待从中心启动,因此在启动主中心后,不需要等待主中心启动完毕,即启动从中心。

在xxxxxxxxx安装用户下执行:

gs_sdr -t start -m primary -X /data/pw1115/soft/pwdb_h_sdr.xml -U xxxxxx -W sxxxxxxxx

Gs_sdr -t query

2) 在启动主中心后,不需要等待主中心启动完毕,即启动从中心。

gs_sdr -t start -m disaster_standby -X /data/pw1115/test/sdr_test/155_pw1115_sdr.xml -U xxxxxx -W xxxxxxxx


可能出现的问题:

1)容灾搭建中主数据库实例执行容灾搭建返回如下错误,执行超时

     Result exception error : Failed to do check main standby connection. Because Waiting timeout: XXs。

     原因:在主数据库实例数据量较大,或者异地网络带宽较小时,可能会出现灾备数据库实例未完成数据拷贝,主数据库实例就已经超时退出容灾搭建流程的情况。

    解决方案:若灾备数据库实例处于搭建过程中或者搭建已完成,可直接重入主数据库实例容灾搭建流程,主数据库实例会重新进入等待灾备连接状态。若能重新设置超时参数,可根据主数据库实例数据量大小与异地网络带宽,重新估算超时时间后再执行重入。


若灾备数据库实例搭建过程也失败了,需要先针对灾备数据库实例进行故障处理,再重入数据库实例容灾搭建流程。


 2) 备中心主状态出现

     Main Standby Need repair(Disconnectd)

     原因:可能是主从中心间网络异常。

     解决方案:确认主从中心间网络正常,通过以下步骤解除主备中心容灾关系,重新创建。

     备中心执行:gs_sdr -t failover

     备中心执行:gs_sdr -t stop

    主中心执行:gs_sdt -t stop

 

手动双中心角色切换:

主:gs_sdr -t switchover -m disaster_standby

备:gs_sdr -t switchover -m primary

不需要等待主中心启动完毕,即在从中心任一节点安装用户下执行


可能出现的问题:

命令报错:

6d114b424dbe73115e30a0d7e854ae2

c7d08b44da5f42a4e1d531266971dc1

日志报错:

Result exception error : Failed to generate switchover barrier before switchover

383005767e849593acab88b0c0e7c26

Dn 错误日志:

99d894c417c1050f37eddbfe01ae518


双中心容灾关系解除:

主集群执行:

gs_sdr -t stop -X /database/panweidb/soft/cluster_config.xml -U xxxxxxx -W xxxxxxxx

备集群主节点执行:

gs_sdr -t failover

备集群主节点不能使用 gs_sdr -t stop,会报错:


可能出现的问题:

1) 提示无法解除

需要修改三个参数:

cm_ctl set --param --agent -k 'agent_backup_open=0'
cm_ctl set --param --server -k 'backup_open=0'
cm_ctl ddb --put /omm/CMServer/backup_open 0


2)从集群,集群状态异常

解除成功之后 从集群状态正常,但是进程状态还是 cascade standby 状态,且手动切换从集群内的主节点无法成功。

或者使用下面命令:

gs_om -t status --detail

Pending . casade standby

pw_guc set -Z cmserver -N all -I all -c "backup_open = 0"

pw_guc set -Z cmagent -N all -I all -c "agent_backup_open=0"

pw_guc set -Z cmagent -N all -I all -c "disaster_recovery_type= 0"


3)streaming_lock 文件无法删除

手动删除这个文件或者mv掉

4)pssh问题

b8b7e7383f688fb5155a6c18efdf6c4

根据日志内容手动执行pssh命令:


通常这种问题在网络无异常的情况下是由于/etc/hosts 配置出现问题,需要去检查hosts文件和本身主机名的对应情况。

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论