暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

GoldenDB应急场景处理方法

Whill 2024-12-30
515

数据库响应慢

1. 业务及数据库表现

业务表现:业务响应慢,业务超时等,服务器资源占用率上升,TPS 下降。

数据库表现:SQL 执行时间长,服务器资源占用率上升。或 SQL 执行超时,前端驱动主动断开。

2. 应急排查方向

数据库响应慢,主要原因有慢 SQL,执行计划不合理,组件异常,数据冲突,服务器资源瓶颈等,针对以上场景制定不同的应急方案。

3. 应急排查流程

4. 应急流程启动的原则和前置条件

  • 所有应急处置需要先获取客户授权审批后进行。
  • TOP SQL 导致的数据库响应慢,先找出对应的 SQL,交由业务优化。征得客户同意,可以采用杀 SQL,加黑名单的方式解决 CPU 冲高导致慢的问题。
  • 执行计划的变动,可以通过绑定执行计划应对。
  • DN 锁等待与数据活跃会造成部分业务响应慢,最终报错。可以依据报错信息识别、处理。
  • 组件异常会导致业务报错或短暂的响应慢,数据库会依靠高可用机制在 1 分钟内自动修复。如果已经自愈,不用处理。如果没有自愈,参考 数据库节点宕机 处理。
  • 数据库提供一键诊断工具,包含 CPU 资源、连接数、消息积压等维度的检查诊断,现场已部署,在诊断响应慢的问题时,可以先执行诊断,获取诊断信息,帮助定位问题原因。

5. 应急操作指导

  • TOP SQL 查询

    对于 TOP SQL 导致的异常,主要的解决手段之一是优化 SQL,优化后可能会影响部分业务。

    应急处理操作

    • 定位 TOP SQL

      a. 登录 Insight,打开 TOP SQL 页面,查询租户的 TOP SQL 。设置查询时间范围、选择 CN 节 点,进行查询。 定位topsql列管理图

      b. 可以通过 列管理 展示 SQL 执行更多维度的信息。 定位topsql列管理图
    • 分析执行计划: EXPLAIN <SQL>;
      SHOW CREATE TABLE <table_name>;
      如果没有合适的索引,需要通过新增索引解决。继续下一步处理。

    • 创建索引: CREATE INDEX idx_xxx on TABLE(column);

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论