
425 > 第 5 章:运维 OceanBase 数据库
5.6 如何快速处理 OceanBase 数据库故障
如何定位判断 OceanBase 数据库故障
当 OceanBase 数据库故障时,应用端会反馈有很多报错信息。此时需要初步判断应用是全部
失败,还是部分失败。
理论上 OceanBase 数据库局部节点故障时,应用只会是局部数据库读写故障或者中断,在 1
分钟左右应用就能全部恢复。同时需按以下步骤尽快确认 OceanBase 集群的状态。
1、确认集群节点状态
select a.zone,concat(a.svr_ip,':',a.svr_port) observer, cpu_total, (cpu_total-cpu_assigned)
cpu_free, round(mem_total/1024/1024/1024) mem_total_gb, round((mem_total-mem_
assigned)/1024/1024/1024) mem_free_gb, usec_to_time(b.last_offline_time) last_offline_
time, usec_to_time(b.start_service_time) start_service_time, b.status, usec_to_time(b.st
op_time) stop_time
from __all_virtual_server_stat a join __all_server b on (a.svr_ip=b.svr_ip and a.svr_por
t=b.svr_port)
order by a.zone, a.svr_ip
;
您需关注:
节点状态 status:升级前没有 inactive 值,升级过程中会有。
节点服务时间 start_service_time:是否是默认值(1970-01-01 08:00:00.000000)。如果是,
则表示节点还没有恢复结束。
节点停止时间 stop_time:是否是默认值(1970-01-01 08:00:00.000000),如果不是,则表
示节点被停服( stop server)了,需要先启动服务(start server)。
评论