本节介绍除节点宕机、网络抖动、obproxy 故障外的其他可能的硬件和网络相关异常问题,并提出对应的应急解决方案。
应急处理方法
硬件异常除了常见的节点宕机、网络抖动、obproxy 故障外,还有其他比如磁盘 IO 异常、掉盘、网卡异常、节点 CPU/内存异常等。在这些硬件异常一般都会导致 RT 增长,事务无法提交等影响。
对于任何不明确的疑似硬件问题,都可以先执行 stop server。 stop server 是无损的安全操作,对于第一时间故障隔离是最有效的手段。但请注意该操作会在客户端访问该节点时报错,如果场景允许,请先执行isolate server 操作。具体示例如下:
ALTER SYSTEM ISOLATE SERVER 'xxx.xxx.xxx.xxx:2882';
ALTER SYSTEM STOP SERVER 'xxx.xxx.xxx.xxx:2882';
对于明确是硬件异常导致的数据库问题,直接替换故障机器即可。详细的操作步骤参见 故障 OBServer 节点替换。
替换 OBServer
OCP 提供了替换 OBServer 节点的功能。集群节点的替换操作常用于替换掉损坏节点。替换后集群的节点数量不变。替换过程需要涉及节点的 Stop Server 操作和 Add Server 操作,整体时间比较长。
前提条件
请确认您的 OceanBase 集群可以在当前 OCP 中管理。
如果不能在当前 OCP 中管理,请参考 OCP 对应版本的《用户指南》文档将您的 OceanBase 集群接管到当前 OCP 中。
替换 OBServer 前,请确认当前登录用户已具备集群的管理权限。
如果当前用户没有集群管理的权限,请联系管理员为您添加相应权限的角色,具体操作方法请参见 OCP 对应版本的《用户指南》文档中的 编辑用户 。
操作步骤
登录 OCP。
在 集群 页面的集群列表中单击集群名,进入集群详情页面。
在 OBServer 列表 部分,单击需要替换的 OBServer 操作列的 替换 。

在弹出框中选择新的主机,单击 替换 。
说明
仅可选择匹配当前集群硬件架构的主机。




