1. 业务及数据库表现
业务表现:前台直接报错,无法受理业务,接口异常,业务日志直接抛错:SQL 执行失败。
数据库表现:SQL 执行失败,返回错误码、错误信息。
2. 应急排查方向
优先根据错误码+错误信息查找错误的原因。
检查环境,是否数据库节点宕机导致的异常。数据库节点宕机,其上处理的业务会失败。GoldenDB 有高可用机制,节点宕机都是短暂的影响业务,1分钟内系统会自动切换恢复正常
- CN 宕机:业务方做为客户端会收到 TCP 层链路断开的通知。
- 主 DN 宕机:业务方会收到错误码:
10905:ERR:There are some groups that disabled! - 主 GTM 宕机:业务方会收到错误码:
10805:ERR:GTM abnormal!
检查是否业务版本问题。
3. 应急流程

4. 应急流程启动的原则和前置条件
- 根据错误信息进行初步判断是否是数据库节点宕机。
- 数据库节点宕机优先由 GoldenDB 的高可用能力进行自动修复。在自动修复失效时,才手工切换。
5. 应急操作指导
CN宕机重启
CN 宕机,后续业务由
JDBC负载均衡到其他 CN 节点正常处理。宕机 CN 节点,会有监控
dbmoni自动拉起。登录 Insight,观察故障 CN 是否已经重启,状态是否正常。 如果已正常,无须处理。

如果状态异常,发起重启。

主 DN 宕机主备切换
- 登录 Insight, 观察 Insight 上故障分片是否已有新主。已有新主,结束处理。没有新主,转人工切换。
菜单:[ 租户管理→实例→数据节点→分片 ]

- 人工切换。Insight 页面发起 DN 主备切换,切换到正常备机。
菜单:[ 租户管理→实例→数据节点→故障分片 ],选择正常备机,执行切主。

主 GTM 宕机主备切换
- 检查 Insight GTM 界面,已有主节点,且业务恢复正常。则系统已恢复正常,无须处理。

- 检查 Insight GTM 界面,没有主节点,发起主备切换。

根据错误码处理
参考产品包文档《doc_ZXCLOUD GoldenDB 数据库 告警管理.doc》。
其他类型的错误码信息,参考上面错误码文档,进行解决,若成功,问题解决;不成功,联系金篆信科工程师。
6. 业务监控
业务受理正常。
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




