数据库响应慢
1. 业务及数据库表现
业务表现:业务响应慢,业务超时等,服务器资源占用率上升,TPS 下降。
数据库表现:SQL 执行时间长,服务器资源占用率上升。或 SQL 执行超时,前端驱动主动断开。
2. 应急排查方向
数据库响应慢,主要原因有慢 SQL,执行计划不合理,组件异常,数据冲突,服务器资源瓶颈等,针对以上场景制定不同的应急方案。
3. 应急排查流程

4. 应急流程启动的原则和前置条件
- 所有应急处置需要先获取客户授权审批后进行。
- TOP SQL 导致的数据库响应慢,先找出对应的 SQL,交由业务优化。征得客户同意,可以采用杀 SQL,加黑名单的方式解决 CPU 冲高导致慢的问题。
- 执行计划的变动,可以通过绑定执行计划应对。
- DN 锁等待与数据活跃会造成部分业务响应慢,最终报错。可以依据报错信息识别、处理。
- 组件异常会导致业务报错或短暂的响应慢,数据库会依靠高可用机制在 1 分钟内自动修复。如果已经自愈,不用处理。如果没有自愈,参考 数据库节点宕机 处理。
- 数据库提供一键诊断工具,包含 CPU 资源、连接数、消息积压等维度的检查诊断,现场已部署,在诊断响应慢的问题时,可以先执行诊断,获取诊断信息,帮助定位问题原因。
5. 应急操作指导
TOP SQL 查询
对于
TOP SQL导致的异常,主要的解决手段之一是优化 SQL,优化后可能会影响部分业务。应急处理操作
定位 TOP SQL
a. 登录 Insight,打开 TOP SQL 页面,查询租户的 TOP SQL 。设置查询时间范围、选择 CN 节 点,进行查询。
b. 可以通过 列管理 展示 SQL 执行更多维度的信息。

分析执行计划:
EXPLAIN <SQL>;SHOW CREATE TABLE <table_name>;
如果没有合适的索引,需要通过新增索引解决。继续下一步处理。创建索引:
CREATE INDEX idx_xxx on TABLE(column);
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




