欢迎访问OceanBase官网获取更多信息:https://www.oceanbase.com/
网络故障的场景一般分为单机网卡、网线故障以及机房网络设备故障,或者机房间专线传输抖动几种情况。对于明确的网络问题,OceanBase 采取的方案都是先隔离后分析的策略。
场景描述
当网络发生故障或抖动,集群内的分区会反复发起无主选举,具体表现在应用层就是应用请求超时,写入失败。
应急处理流程
首先检查网络监控指标是否出现了丢包、超时重传等。
tsar --tcp -i 1 -d20190902 可以看网络情况。如果看到 retran >= 0.05,持续 10s,即认为网络传输出现异常。
注意
20190902替换成具体要查看的那天的年月日;-i 1表示记录间间隔为 1 分钟。
若是偶尔网络抖动可以先忽略;若网络抖动导致机器或机房故障,按照如下步骤处理。
单机网络故障
如果是单机网络问题(如单机 retran 重传率较高),需要隔离单个节点--stop server,等单机故障恢复后开启节点服务--start server。如果进一步明确是单机的网卡故障,则应该替换故障节点。具体步骤参见 故障 OBServer 节点替换。
机房网络抖动
对于整个机房的网络抖动,需要暂时隔离问题机房的副本--stop zone,待网络恢复后重新提供服务--start zone。具体步骤参见 停机运维 zone。
欢迎访问OceanBase官网获取更多信息:https://www.oceanbase.com/
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




