暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

DM8读写分离自动切换集群部署教程

热衷于分享各种干货知识,大家有想看或者想学的可以评论区留言,秉承着“开源知识来源于互联网,回归于互联网”的理念,分享一些日常工作中能用到或者频率比较的内容,希望大家能够喜欢,并提出宝贵地意见,我们一起提升,守住自己的饭碗。


一、环境准备

1、环境规划


A 机器B 机器C机器
业务 IP192.168.59.172192.168.59.136192.168.59.137
心跳 IP192.168.1.1192.168.1.2监控机器
实例名PRODBACK
实例端口52365236
MAL 端口53365336
MAL 守护进程端口54365436
守护进程端口55365536
OGUID4533145331
安装目录/dm/dbms/dm/dbms
实例目录/dm/data/dm/data
网卡情况双网卡双网卡

备注:C机器只需要安装好数据库即可,不用建实例,这里我们为了方便直接一键安装3台机器。

安装脚本如下:

DM8一键安装脚本

2、集群架构

3、参数注意(最关键)


dmarchdmwatcherdmmonitor
故障手动切换ARCH_WAIT_APP LY=0DW_MODE= MANUALMON_DW_CON FIRM=0
故障自动切换ARCH_WAIT_APP LY= 1DW_MODE= AUTOMON_DW_CON FIRM=1

与数据守护集群唯一不一样的就是这三个点

二、开始部署

(一)配置A机器

1、开启归档日志
[dmdba@mydm data]$ disql SYSDBA/SYSDBA
SQL> ALTER DATABASE MOUNT;
SQL> ALTER DATABASE ARCHIVELOG;
SQL> ALTER DATABASE ADD ARCHIVELOG 'DEST=/dm/arch, TYPE=LOCAL, FILE_SIZE=1024,
SPACE_LIMIT=51200';
SQL> ALTER DATABASE OPEN;

2、备份数据

这里我们选择直接杀掉进程,必须主备库数据不一致的情况

[dmdba@mydm data]$ps -ef|grep dms
[dmdba@mydm data]$kill -9 2409
[dmdba@mydm data]$mkdir -p dm/data/PROD/bak/BACKUP_FILE

使用dmrman进行备份

[dmdba@mydm data]$/dm/dbms/bin/dmrman CTLSTMT="BACKUP DATABASE '/dm/data/
PROD/dm.ini'
FULL TO
BACKUP_FILE2 BACKUPSET '/dm/data/PROD/bak/BACKUP_FILE'"

##拷贝备份文件到 B 机器

[dmdba@~]$ scp -r dm/data/PROD/bak/BACKUP_FILE dmdba@192.168.59.136:/dm/data/
PROD/bak

3、修改参数
(1)修改 dmarch.ini
vi dm/data/PROD/dmarch.ini
ARCH_WAIT_APPLY = 0 #0:高性能 1:事务一致
[ARCHIVE_LOCAL]
ARCH_TYPE = LOCAL #本地归档类型
ARCH_DEST = dm/arch/ #本地归档存放路径
ARCH_FILE_SIZE = 1024 #单个归档大小,单位 MB
ARCH_SPACE_LIMIT = 51200 #归档上限,单位 MB

[ARCHIVE_TIMELY1]
ARCH_TYPE = TIMELY #即时归档类型
ARCH_DEST = BACK #即时归档目标实例名

(2)创建 dmmal.ini
[dmdba@mydm data]$ mkdir malpath

vi dm/data/PROD/dmmal.ini
MAL_CHECK_INTERVAL = 10 #MAL 链路检测时间间隔
MAL_CONN_FAIL_INTERVAL = 10 #判定 MAL 链路断开的时间
MAL_TEMP_PATH = dm/malpath/ #临时文件目录
MAL_BUF_SIZE = 512 #单个 MAL 缓存大小,单位 MB
MAL_SYS_BUF_SIZE = 2048 #MAL 总大小限制,单位 MB
MAL_COMPRESS_LEVEL = 0 #MAL 消息压缩等级,0 表示不压缩

[MAL_INST1]
MAL_INST_NAME = PROD #实例名,和 dm.ini 的 INSTANCE_NAME 一致
MAL_HOST = 192.168.1.1 #MAL 系统监听 TCP 连接的 IP 地址
MAL_PORT = 5336 #MAL 系统监听 TCP 连接的端口
MAL_INST_HOST = 192.168.59.172 #实例的对外服务 IP 地址
MAL_INST_PORT = 5236 #实例对外服务端口,和 dm.ini 的 PORT_NUM 一致
MAL_DW_PORT = 5436 #实例对应的守护进程监听 TCP 连接的端口
MAL_INST_DW_PORT = 5536 #实例监听守护进程 TCP 连接的端口

[MAL_INST2]
MAL_INST_NAME = BACK
MAL_HOST = 192.168.1.2
MAL_PORT = 5336
MAL_INST_HOST = 192.168.59.136
MAL_INST_PORT = 5236
MAL_DW_PORT = 5436
MAL_INST_DW_PORT = 5536

(3)创建 dmwatcher.ini
vi dm/data/PROD/dmwatcher.ini
[GRP1]
DW_TYPE = GLOBAL #全局守护类型
DW_MODE = AUTO #MANUAL:故障手切 AUTO:故障自切
DW_ERROR_TIME = 20 #远程守护进程故障认定时间
INST_ERROR_TIME = 20 #本地实例故障认定时间
INST_RECOVER_TIME = 60 #主库守护进程启动恢复的间隔时间
INST_OGUID = 45331 #守护系统唯一 OGUID 值
INST_INI = dm/data/PROD/dm.ini #dm.ini 文件路径
INST_AUTO_RESTART = 1 #打开实例的自动启动功能
INST_STARTUP_CMD = dm/dbms/bin/dmserver #命令行方式启动
RLOG_SEND_THRESHOLD = 0 #指定主库发送日志到备库的时间阈值,默认关闭
RLOG_APPLY_THRESHOLD = 0 #指定备库重演日志的时间阈值,默认关闭

4、注册服务

注册数据库启动服务和守护进程启动服务

[root@~]# dm/dbms/script/root/dm_service_uninstaller.sh -n DmServicePROD #删除自启服务
[root@~]# dm/dbms/script/root/dm_service_installer.sh -t dmserver -p PROD -dm_ini
/dm/data/PROD/dm.ini -m mount
[root@~]# dm/dbms/script/root/dm_service_installer.sh -t dmwatcher -p Watcher
-watcher_ini dm/data/PROD/dmwatcher.ini

(二)配置B机器

1、恢复A机器的备份数据

此处B机器也必须处于关闭的状态。

[dmdba@mydm data]$ps -ef|grep dms
[dmdba@mydm data]$kill -9 2409

[dmdba@mydm data]$ dm/dbms/bin/dmrman CTLSTMT="RESTORE DATABASE '/dm/data/PROD/
dm.ini'
FROM
BACKUPSET '/dm/data/PROD/bak/BACKUP_FILE'"
[dmdba@mydm data]$/dm/dbms/bin/dmrman CTLSTMT="RECOVER DATABASE '/dm/data/PROD/
dm.ini'
FROM
BACKUPSET '/dm/data/PROD/bak/BACKUP_FILE'"
[dmdba@mydm data]$ dm/dbms/bin/dmrman CTLSTMT="RECOVER DATABASE '/dm/data/PROD/
dm.ini'
UPDATE
DB_MAGIC"

2、修改参数
(1)配置dmarch.ini
[root@mydm network-scripts]# vi dm/data/PROD/dmarch.ini

#DaMeng Database Archive Configuration file
#this is comments

ARCH_WAIT_APPLY = 1

[ARCHIVE_LOCAL1]
ARCH_TYPE = LOCAL
ARCH_DEST = dm/arch
ARCH_FILE_SIZE = 128
ARCH_SPACE_LIMIT = 0
ARCH_FLUSH_BUF_SIZE = 0
ARCH_HANG_FLAG = 1
[ARCHIVE_TIMELY1]
ARCH_TYPE = TIMELY #即时归档类型
ARCH_DEST = PROD #即时归档目标实例名

(2)创建 dmmal.ini
[dmdba@mydm data]$ mkdir malpath

vi dm/data/PROD/dmmal.ini
MAL_CHECK_INTERVAL = 10 #MAL 链路检测时间间隔
MAL_CONN_FAIL_INTERVAL = 10 #判定 MAL 链路断开的时间
MAL_TEMP_PATH = dm/malpath/ #临时文件目录
MAL_BUF_SIZE = 512 #单个 MAL 缓存大小,单位 MB
MAL_SYS_BUF_SIZE = 2048 #MAL 总大小限制,单位 MB
MAL_COMPRESS_LEVEL = 0 #MAL 消息压缩等级,0 表示不压缩

[MAL_INST1]
MAL_INST_NAME = PROD #实例名,和 dm.ini 的 INSTANCE_NAME 一致
MAL_HOST = 192.168.1.1 #MAL 系统监听 TCP 连接的 IP 地址
MAL_PORT = 5336 #MAL 系统监听 TCP 连接的端口
MAL_INST_HOST = 192.168.59.172 #实例的对外服务 IP 地址
MAL_INST_PORT = 5236 #实例对外服务端口,和 dm.ini 的 PORT_NUM 一致
MAL_DW_PORT = 5436 #实例对应的守护进程监听 TCP 连接的端口
MAL_INST_DW_PORT = 5536 #实例监听守护进程 TCP 连接的端口

[MAL_INST2]
MAL_INST_NAME = BACK
MAL_HOST = 192.168.1.2
MAL_PORT = 5336
MAL_INST_HOST = 192.168.59.136
MAL_INST_PORT = 5236
MAL_DW_PORT = 5436
MAL_INST_DW_PORT = 5536

(3)创建 dmwatcher.ini
vi dm/data/PROD/dmwatcher.ini
[GRP1]
DW_TYPE = GLOBAL #全局守护类型
DW_MODE = AUTO #MANUAL:故障手切 AUTO:故障自切
DW_ERROR_TIME = 20 #远程守护进程故障认定时间
INST_ERROR_TIME = 20 #本地实例故障认定时间
INST_RECOVER_TIME = 60 #主库守护进程启动恢复的间隔时间
INST_OGUID = 45331 #守护系统唯一 OGUID 值
INST_INI = dm/data/PROD/dm.ini #dm.ini 文件路径
INST_AUTO_RESTART = 1 #打开实例的自动启动功能
INST_STARTUP_CMD = dm/dbms/bin/dmserver #命令行方式启动
RLOG_SEND_THRESHOLD = 0 #指定主库发送日志到备库的时间阈值,默认关闭
RLOG_APPLY_THRESHOLD = 0 #指定备库重演日志的时间阈值,默认关闭

(4)修改dm.ini

将MAL_INI = 0 改为MAL_INI = 1

3、注册服务

注册数据库启动服务和监听启动服务

[root@mydm network-scripts]# dm/dbms/script/root/dm_service_uninstaller.sh -n 
DmServiceBACK #删除之前建的自启服务
[root@mydm network-scripts]#/dm/dbms/script/root/dm_service_installer.sh -t
dmserver
-p BACK -dm_ini dm/data/PROD
/dm.ini -m mount
[root@mydm network-scripts]# dm/dbms/script/root/dm_service_installer.sh -t
dmwatcher
-p Watcher -watcher_ini dm/data/PROD/dmwatcher.ini

(三)配置C机器

1、编辑dmmonitor.ini

vi dm/data/PROD/dmmonitor.ini

MON_DW_CONFIRM             = 1  #0:非确认(故障手切) 1:确认(故障自切)
MON_LOG_PATH = ../log #监视器日志文件存放路径
MON_LOG_INTERVAL = 60 #每隔 60s 定时记录系统信息到日志文件
MON_LOG_FILE_SIZE = 512 #单个日志大小,单位 MB
MON_LOG_SPACE_LIMIT = 2048 #日志上限,单位 MB

[GRP1]
MON_INST_OGUID = 45331 #组 GRP1 的唯一 OGUID 值
MON_DW_IP = 192.168.59.172:5436
MON_DW_IP = 192.168.59.136:5436

2、注册服务

注册监控器自启动服务

[root@mydm ~]# dm/dbms/script/root/dm_service_installer.sh -t dmmonitor -p Monitor 
-monitor_ini /dm/data/PROD/dmmonitor.ini

三、启动读写分离集群(自动切换)

1、启动数据库并设置主备

机器A

[dmdba@mydm data]$ DmServicePROD start
[dmdba@mydm data]$ disql SYSDBA/SYSDBA
SQL> SP_SET_OGUID(45331);
SQL> ALTER DATABASE PRIMARY;

机器B

[dmdba@mydm data]$ DmServiceBACK start
[dmdba@mydm data]$disql SYSDBA/SYSDBA
SQL> SP_SET_OGUID(45331);
SQL> ALTER DATABASE STANDBY;

2、关闭机器A和机器B的数据库

[dmdba@mydm data]$DmServicePROD stop
[dmdba@mydm data]$DmServiceBACK stop

3、启动守护进程

机器B

[dmdba@mydm data]$DmWatcherServiceWatcher start

机器A

[dmdba@mydm data]$DmWatcherServiceWatcher start

4、启动监控器进程

选择其中一种即可

[dmdba@mydm PROD]$ dmmonitor /dm/data/PROD/dmmonitor.ini #前台启动
[dmdba@mydm data]$DmMonitorService start #后台启动
如果想要配置监控器自启动,则必须再建一个普通监视器
[dmdba@mydm PROD]$ mv /dm/data/PROD/dmmonitor.ini /dm/data/PROD/dmmonitorbak.ini
[dmdba@mydm PROD]$ dmmonitor /dm/data/PROD/dmmonitorbak.ini

至此DM读写分离自动切换集群已搭建完毕。

5、测试主备是否一致

1、查询主备库的状态

机器B:

SQL> SELECT CASE WHEN "STATUS$" = '1' THEN 'Startup' WHEN "STATUS$" = '2' THEN 
'After Redo' WHEN "STATUS$" = '3' THEN 'MOUNT' WHEN "STATUS$" = '4' THEN 'OPEN' WHEN
"STATUS$" = '5' THEN 'SUSPEND' END "库状态" , CASE WHEN "ROLE$" = '0' THEN
'Normal' WHEN "ROLE$" = '1' THEN 'Parmary' WHEN "ROLE$" = '2' THEN
'Standby' END "模式" FROM v$database;`

机器A:

SQL> SELECT CASE WHEN "STATUS$" = '1' THEN 'Startup' WHEN "STATUS$" = '2' THEN 'After
Redo' WHEN "STATUS$" = '3' THEN 'MOUNT' WHEN "STATUS$" = '4' THEN 'OPEN' WHEN "STATUS$"
= '5' THEN 'SUSPEND' END "库状态" , CASE WHEN "ROLE$" = '0' THEN 'Normal'
WHEN "ROLE$" = '1' THEN 'Parmary' WHEN "ROLE$" = '2' THEN 'Standby'
END "模式" FROM v$database;`

2、查看主备库的SCN是否一致
SQL> select file_LSN, cur_LSN from v$rlog;

3、查看主备库的permanent值是否一致:
select permanent_magic;

4、模拟主库新增一条数据

机器B:

SQL>create table test (id number);
SQL>insert into test values(1);
SQL> select * from test;
SQL> commit;

5、去备库查看是否有新增数据

机器A:

SQL> select * from test;
SQL> insert into test values(2); #发现备份插入数据失败


四、集群管理

1、关闭集群

(1)关闭监控进程
[dmdba@mydm PROD]$ DmMonitorServiceMonitor stop

(2)关闭B机器守护进程

[dmdba@mydm PROD]$ DmWatcherServiceWatcher stop

(3)关闭A机器守护进程
[dmdba@mydm PROD]$  DmWatcherServiceWatcher stop

2、启动集群

1、启动B机器守护进程
[dmdba@mydm PROD]$ DmWatcherServiceWatcher start

2、启动A机器守护进程
[dmdba@mydm PROD]$ DmWatcherServiceWatcher start

3、启动监控进程
[dmdba@mydm PROD]$ DmMonitorServiceMonitor start


文中的概念来源于互联网,如有侵权,请联系我删除。

欢迎关注公众号:小周的数据库进阶之路,一起交流数据库、中间件和云计算等技术。如果觉得读完本文有收获,可以转发给其他朋友,大家一起学习进步!感兴趣的朋友可以加我微信,拉您进群与业界的大佬们一起交流学习。


文章转载自小周的数据库进阶之路,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论