TiDB 重要监控指标详解
使用 TiDB Ansible 或 TiUP 部署 TiDB 集群时,一键部署监控系统 (Prometheus & Grafana),监控架构参见 TiDB 监控框架概述。
目前 Grafana Dashboard 整体分为 PD、TiDB、TiKV、Node_exporter、Overview 等。TiDB 分为 TiDB 和 TiDB Summary 面板,两个面板的区别如下:
- TiDB 面板:提供尽可能全面的信息,供排查集群异常。
- TiDB Summary 面板:将 TiDB 面板中用户最为关心的部分抽取出来,并做了些许修改。主要用于提供数据库日常运行中用户关心的数据,如 QPS、TPS、响应延迟等,以便作为外部展示、汇报用的监控信息。
以下为 TiDB Dashboard 部分监控说明:
使用 TiDB Ansible 或 TiUP 部署 TiDB 集群时,一键部署监控系统 (Prometheus & Grafana),监控架构参见 TiDB 监控框架概述。
目前 Grafana Dashboard 整体分为 PD、TiDB、TiKV、Node_exporter、Overview 等。TiDB 分为 TiDB 和 TiDB Summary 面板,两个面板的区别如下:
- TiDB 面板:提供尽可能全面的信息,供排查集群异常。
- TiDB Summary 面板:将 TiDB 面板中用户最为关心的部分抽取出来,并做了些许修改。主要用于提供数据库日常运行中用户关心的数据,如 QPS、TPS、响应延迟等,以便作为外部展示、汇报用的监控信息。
以下为 TiDB Dashboard 部分监控说明:
说明
Query Summary
- Duration:执行时间
- 客户端网络请求发送到 TiDB,到 TiDB 执行结束后返回给客户端的时间。一般情况下,客户端请求都是以 SQL 语句的形式发送,但也可以包含
COM_PING、COM_SLEEP、COM_STMT_FETCH、COM_SEND_LONG_DATA 之类的命令执行时间 - 由于 TiDB 支持 Multi-Query,因此,可以接受客户端一次性发送多条 SQL 语句,如
select 1; select 1; select 1;。此时,统计的执行时间是所有 SQL 语句执行完之后的总时间
- QPS:所有 TiDB 实例上的每秒执行的 SQL 语句数量。按照执行成功或失败(OK/Error)进行了区分
- Statement OPS:不同类型的 SQL 语句每秒执行的数量。按
SELECT、INSERT、UPDATE 等来统计 - QPS By Instance:每个 TiDB 实例上的 QPS。按照命令和执行结果成功或失败来统计
- Failed Query OPM:每个 TiDB 实例上,对每秒钟执行 SQL 语句发生的错误按照错误类型的统计(例如语法错误、主键冲突等)。包含了错误所属的模块和错误码
- Slow query:慢查询处理时间统计(整个慢查询耗时、Coprocessor 耗时、Coprocessor 调度等待时间)
- 999/99/95/80 Duration:不同类型的 SQL 语句执行耗时统计(不同百分位)
Query Detail
- Duration 80/95/99/999 By Instance:每个 TiDB 实例执行 SQL 语句的耗时统计(不同百分位)。
- Failed Query OPM Detail:每个 TiDB 实例执行 SQL 语句发生的错误按照错误类型统计(例如语法错误、主键冲突等)。
- Internal SQL OPS:整个 TiDB 集群内部 SQL 语句执行的 QPS。内部 SQL 语句是 TiDB 内部自动执行的 SQL 语句,一般由用户 SQL 语句来触发或者内部定时任务触发。
Server
- Uptime:每个 TiDB 实例的运行时间
- Memory Usage:每个 TiDB 实例的内存使用统计,分为进程占用内存和 Golang 在堆上申请的内存
- CPU Usage:每个 TiDB 实例的 CPU 使用统计
- Connection Count:每个 TiDB 的连接数
- Open FD Count:每个 TiDB 实例的打开的文件描述符统计
- Goroutine Count:每个 TiDB 实例的 Goroutine 数量
- Go GC Duration:每个 TiDB 实例的 Golang GC 耗时
- Go Threads:每个 TiDB 实例的线程数量
- Go GC Count:每个 TiDB 实例的 Golang GC 执行次数
- Go GC CPU Usage:每个 TiDB 实例的 Golang GC 使用的 CPU
- Events OPM:每个 TiDB 实例关键事件统计,例如 start,close,graceful-shutdown,kill,hang 等
- Keep Alive OPM:每个 TiDB 实例每分钟刷新监控的次数,通常不需要关注
- Prepare Statement Count:每个 TiDB 实例现存的
Prepare 语句数以及总数 - Time Jump Back OPS:每个 TiDB 实例上每秒操作系统时间回跳的次数
- Write Binlog Error:每个 TiDB 每秒写入 Binlog 失败的次数
- Get Token Duration:每个连接获取 Token 的耗时
- Handshake Error OPS:每个 TiDB 实例每秒握手错误的次数
Transaction
- Transaction OPS:每秒事务的执行数量
- Duration:事务执行的时间
- Transaction Statement Num:事务中的 SQL 语句数量
- Transaction Retry Num:事务重试次数
- Session Retry Error OPS:每秒事务重试时遇到的错误数量
- KV Transaction OPS:每个 TiDB 内部每秒执行的事务数量
- 一个用户的事务,在 TiDB 内部可能会触发多次事务执行,其中包含,内部元数据的读取,用户事务原子性地多次重试执行等
- TiDB 内部的定时任务也会通过事务来操作数据库,这部分也包含在这个面板里
- KV Transaction Duration:每个 TiDB 内部执行事务的耗时
- Commit Token Wait Duration:事务提交时的流控队列等待耗时。当出现较长等待时,代表提交事务过大,正在限流。如果系统还有资源可以使用,可以通过增大 TiDB 配置文件中
committer-concurrency 来加速提交 - Transaction Max Write KV Num:单个事务写入的最大键值对数量
- Transaction Max Write Size Bytes:单个事务写入的最大键值对大小
- Transaction Regions Num 90:单个事务写入的 Region 数量的 90% 分位
- Send HeartBeat Duration:事务发送心跳的时间间隔
- TTL Lifetime Reach Counter:事务的 TTL 达到了上限的数量。TTL 上限默认值 10 分钟,它的含义是从悲观事务第一次加锁,或者乐观事务的第一个 prewrite 开始,超过了 10 分钟。可以通过修改 TiDB 配置文件中
max-txn-ttl 来改变 TTL 寿命上限 - Statement Lock Keys:单个语句的加锁个数
- Acquire Pessimistic Locks Duration:加锁所消耗的时间
- Pessimistic Statement Retry OPS:悲观语句重试次数统计。当语句尝试加锁时,可能遇到写入冲突,此时,语句会重新获取新的 snapshot 并再次加锁
- Load Safepoint OPS:加载 Safepoint 的次数统计。Safepoint 作用是在事务读数据时,保证不读到 Safepoint 之前的数据,保证数据安全。因为,Safepoint 之前的数据有可能被 GC 清理掉
Executor
- Parse Duration:SQL 语句解析耗时统计
- Compile Duration:将解析后的 SQL AST 编译成执行计划耗时统计
- Execution Duration:执行 SQL 语句执行计划耗时统计
- Expensive Executor OPS:每秒消耗系统资源比较多的算子统计,包括 Merge Join,Hash Join,Index Look Up Join,Hash Agg,Stream Agg,Sort,TopN 等
- Queries Using Plan Cache OPS:每秒使用 Plan Cache 的查询数量统计
Distsql
- Distsql Duration:Distsql 处理的时长
- Distsql QPS:Distsql 的数量统计
- Distsql Partial QPS:每秒 Partial Results 的数量
- Scan Keys Num:每个 Query 扫描的 Key 的数量
- Scan Keys Partial Num:每一个 Partial Result 扫描的 Key 的数量
- Partial Num:每个 SQL 语句 Partial Results 的数量
KV Errors
- KV Backoff Duration:KV 每个请求重试的总时间。TiDB 向 TiKV 发送请求时可能遇到错误,TiDB 对每个向 TiKV 的请求都有重试机制,这里记录的是一个请求重试的总时间
- TiClient Region Error OPS:TiKV 返回 Region 相关错误信息的数量
- KV Backoff OPS:TiKV 返回错误信息的数量
- Lock Resolve OPS:TiDB 清理锁操作的数量。当 TiDB 的读写请求遇到锁时,会尝试进行锁清理
- Other Errors OPS:其他类型的错误数量,包括清锁和更新 SafePoint
KV Request
- KV Request OPS:KV Request 执行次数,根据 TiKV 显示
- KV Request Duration 99 by store:KV Request 执行时间,根据 TiKV 显示
- KV Request Duration 99 by type:KV Request 执行时间,根据类型显示
PD Client
- PD Client CMD OPS:PD Client 每秒执行命令数量统计
- PD Client CMD Duration:PD Client 执行命令耗时
- PD Client CMD Fail OPS:PD Client 每秒执行命令失败统计
- PD TSO OPS:TiDB 每秒从 PD 获取 TSO 的数量
- PD TSO Wait Duration:TiDB 等待从 PD 返回 TSO 的时间
- PD TSO RPC Duration:TiDB 从向 PD 发送获取 TSO 的请求到接收到 TSO 花费的时间
- Start TSO Wait Duration:TiDB 从向 PD 发送获取 start tso 请求开始到开始等待 tso 返回的时间
Schema Load
- Load Schema Duration:TiDB 从 TiKV 获取 Schema 的时间
- Load Schema OPS:TiDB 从 TiKV 每秒获取 Schema 的数量统计
- Schema Lease Error OPM:Schema Lease 出错,包括 change 和 outdate 两种,change 代表 schema 发生了变化,outdate 代表无法更新 schema,属于较严重错误,出现 outdate 错误时会报警
- Load Privilege OPS:TiDB 从 TiKV 每秒获取权限信息的数量统计
DDL
- DDL Duration 95:DDL 语句处理时间的 95% 分位
- Batch Add Index Duration 100:创建索引时每个 Batch 所花费的最大时间统计
- DDL Waiting Jobs Count:等待的 DDL 任务数量
- DDL META OPM:DDL 每分钟获取 META 的次数
- DDL Worker Duration 99:每个 DDL worker 执行时间 99% 分位
- Deploy Syncer Duration:Schema Version Syncer 初始化,重启,清空等操作耗时
- Owner Handle Syncer Duration:DDL Owner 在执行更新,获取以及检查 Schema Version 的耗时
- Update Self Version Duration:Schema Version Syncer 更新版本信息耗时
- DDL OPM:DDL 语句的每秒执行次数
- DDL add index progress in percentage:添加索引的进度展示
Statistics
- Auto Analyze Duration 95:自动 ANALYZE 耗时统计
- Auto Analyze QPS:自动 ANALYZE 数量统计
- Stats Inaccuracy Rate:统计信息不准确度统计
- Pseudo Estimation OPS:使用假的统计信息优化 SQL 的数量统计
- Dump Feedback OPS:存储统计信息 Feedback 的数量统计
- Store Query Feedback QPS:存储合并查询的 Feedback 信息的每秒操作数量,该操作在 TiDB 内存中进行
- Significant Feedback:重要的 Feedback 更新统计信息的数量统计
- Update Stats OPS:利用 Feedback 更新统计信息的数量统计
- Fast Analyze Status 100:快速收集统计信息的状态统计
Owner
- New ETCD Session Duration 95:创建一个新的 etcd 会话花费的时间。TiDB 通过 etcd client 连接 PD 中的 etcd 保存/读取部分元数据信息。这里记录了创建会话花费的时间
- Owner Watcher OPS:DDL owner watch PD 的 etcd 的元数据的 goroutine 的每秒操作次数
Meta
- AutoID QPS:AutoID 相关操作的数量统计,包括全局 ID 分配、单个 Table AutoID 分配、单个 Table AutoID Rebase 三种操作
- AutoID Duration:AutoID 相关操作的耗时
- Region Cache Error OPS:TiDB 缓存的 region 信息每秒遇到的错误次数
- Meta Operations Duration 99:元数据操作延迟
GC
- Worker Action OPM:GC 相关操作的数量,包括 run_job,resolve_lock,delete_range 等操作
- Duration 99:GC 相关操作的耗时统计
- Config:GC 的数据保存时长(life time)和 GC 运行间隔(run interval)配置
- GC Failure OPM:GC 相关操作失败数量统计
- Delete Range Failure OPM:Delete range 失败的次数
- Too Many Locks Error OPM:GC 清锁过多错误的数量
- Action Result OPM:GC 相关操作结果数量
- Delete Range Task Status:Delete range 的任务状态,包含完成和失败状态
- Push Task Duration 95:将 GC 子任务推送给 GC worker 的耗时
Batch Client
- Pending Request Count by TiKV:等待处理的 Batch 消息数量
- Wait Duration 95:等待处理的 Batch 消息延迟
- Batch Client Unavailable Duration 95:Batch 客户端不可用的时间
- No Available Connection Counter:Batch 客户端找不到可用链接的次数
- 以下为 TiKV-Details 默认的监控信息:
- Cluster
Query Summary
- Duration:执行时间
- 客户端网络请求发送到 TiDB,到 TiDB 执行结束后返回给客户端的时间。一般情况下,客户端请求都是以 SQL 语句的形式发送,但也可以包含
COM_PING、COM_SLEEP、COM_STMT_FETCH、COM_SEND_LONG_DATA之类的命令执行时间 - 由于 TiDB 支持 Multi-Query,因此,可以接受客户端一次性发送多条 SQL 语句,如
select 1; select 1; select 1;。此时,统计的执行时间是所有 SQL 语句执行完之后的总时间
- 客户端网络请求发送到 TiDB,到 TiDB 执行结束后返回给客户端的时间。一般情况下,客户端请求都是以 SQL 语句的形式发送,但也可以包含
- QPS:所有 TiDB 实例上的每秒执行的 SQL 语句数量。按照执行成功或失败(OK/Error)进行了区分
- Statement OPS:不同类型的 SQL 语句每秒执行的数量。按
SELECT、INSERT、UPDATE等来统计 - QPS By Instance:每个 TiDB 实例上的 QPS。按照命令和执行结果成功或失败来统计
- Failed Query OPM:每个 TiDB 实例上,对每秒钟执行 SQL 语句发生的错误按照错误类型的统计(例如语法错误、主键冲突等)。包含了错误所属的模块和错误码
- Slow query:慢查询处理时间统计(整个慢查询耗时、Coprocessor 耗时、Coprocessor 调度等待时间)
- 999/99/95/80 Duration:不同类型的 SQL 语句执行耗时统计(不同百分位)
- Duration:执行时间
Query Detail
- Duration 80/95/99/999 By Instance:每个 TiDB 实例执行 SQL 语句的耗时统计(不同百分位)。
- Failed Query OPM Detail:每个 TiDB 实例执行 SQL 语句发生的错误按照错误类型统计(例如语法错误、主键冲突等)。
- Internal SQL OPS:整个 TiDB 集群内部 SQL 语句执行的 QPS。内部 SQL 语句是 TiDB 内部自动执行的 SQL 语句,一般由用户 SQL 语句来触发或者内部定时任务触发。
Server
- Uptime:每个 TiDB 实例的运行时间
- Memory Usage:每个 TiDB 实例的内存使用统计,分为进程占用内存和 Golang 在堆上申请的内存
- CPU Usage:每个 TiDB 实例的 CPU 使用统计
- Connection Count:每个 TiDB 的连接数
- Open FD Count:每个 TiDB 实例的打开的文件描述符统计
- Goroutine Count:每个 TiDB 实例的 Goroutine 数量
- Go GC Duration:每个 TiDB 实例的 Golang GC 耗时
- Go Threads:每个 TiDB 实例的线程数量
- Go GC Count:每个 TiDB 实例的 Golang GC 执行次数
- Go GC CPU Usage:每个 TiDB 实例的 Golang GC 使用的 CPU
- Events OPM:每个 TiDB 实例关键事件统计,例如 start,close,graceful-shutdown,kill,hang 等
- Keep Alive OPM:每个 TiDB 实例每分钟刷新监控的次数,通常不需要关注
- Prepare Statement Count:每个 TiDB 实例现存的
Prepare语句数以及总数 - Time Jump Back OPS:每个 TiDB 实例上每秒操作系统时间回跳的次数
- Write Binlog Error:每个 TiDB 每秒写入 Binlog 失败的次数
- Get Token Duration:每个连接获取 Token 的耗时
- Handshake Error OPS:每个 TiDB 实例每秒握手错误的次数
Transaction
- Transaction OPS:每秒事务的执行数量
- Duration:事务执行的时间
- Transaction Statement Num:事务中的 SQL 语句数量
- Transaction Retry Num:事务重试次数
- Session Retry Error OPS:每秒事务重试时遇到的错误数量
- KV Transaction OPS:每个 TiDB 内部每秒执行的事务数量
- 一个用户的事务,在 TiDB 内部可能会触发多次事务执行,其中包含,内部元数据的读取,用户事务原子性地多次重试执行等
- TiDB 内部的定时任务也会通过事务来操作数据库,这部分也包含在这个面板里
- KV Transaction Duration:每个 TiDB 内部执行事务的耗时
- Commit Token Wait Duration:事务提交时的流控队列等待耗时。当出现较长等待时,代表提交事务过大,正在限流。如果系统还有资源可以使用,可以通过增大 TiDB 配置文件中
committer-concurrency来加速提交 - Transaction Max Write KV Num:单个事务写入的最大键值对数量
- Transaction Max Write Size Bytes:单个事务写入的最大键值对大小
- Transaction Regions Num 90:单个事务写入的 Region 数量的 90% 分位
- Send HeartBeat Duration:事务发送心跳的时间间隔
- TTL Lifetime Reach Counter:事务的 TTL 达到了上限的数量。TTL 上限默认值 10 分钟,它的含义是从悲观事务第一次加锁,或者乐观事务的第一个 prewrite 开始,超过了 10 分钟。可以通过修改 TiDB 配置文件中
max-txn-ttl来改变 TTL 寿命上限 - Statement Lock Keys:单个语句的加锁个数
- Acquire Pessimistic Locks Duration:加锁所消耗的时间
- Pessimistic Statement Retry OPS:悲观语句重试次数统计。当语句尝试加锁时,可能遇到写入冲突,此时,语句会重新获取新的 snapshot 并再次加锁
- Load Safepoint OPS:加载 Safepoint 的次数统计。Safepoint 作用是在事务读数据时,保证不读到 Safepoint 之前的数据,保证数据安全。因为,Safepoint 之前的数据有可能被 GC 清理掉
Executor
- Parse Duration:SQL 语句解析耗时统计
- Compile Duration:将解析后的 SQL AST 编译成执行计划耗时统计
- Execution Duration:执行 SQL 语句执行计划耗时统计
- Expensive Executor OPS:每秒消耗系统资源比较多的算子统计,包括 Merge Join,Hash Join,Index Look Up Join,Hash Agg,Stream Agg,Sort,TopN 等
- Queries Using Plan Cache OPS:每秒使用 Plan Cache 的查询数量统计
Distsql
- Distsql Duration:Distsql 处理的时长
- Distsql QPS:Distsql 的数量统计
- Distsql Partial QPS:每秒 Partial Results 的数量
- Scan Keys Num:每个 Query 扫描的 Key 的数量
- Scan Keys Partial Num:每一个 Partial Result 扫描的 Key 的数量
- Partial Num:每个 SQL 语句 Partial Results 的数量
KV Errors
- KV Backoff Duration:KV 每个请求重试的总时间。TiDB 向 TiKV 发送请求时可能遇到错误,TiDB 对每个向 TiKV 的请求都有重试机制,这里记录的是一个请求重试的总时间
- TiClient Region Error OPS:TiKV 返回 Region 相关错误信息的数量
- KV Backoff OPS:TiKV 返回错误信息的数量
- Lock Resolve OPS:TiDB 清理锁操作的数量。当 TiDB 的读写请求遇到锁时,会尝试进行锁清理
- Other Errors OPS:其他类型的错误数量,包括清锁和更新 SafePoint
KV Request
- KV Request OPS:KV Request 执行次数,根据 TiKV 显示
- KV Request Duration 99 by store:KV Request 执行时间,根据 TiKV 显示
- KV Request Duration 99 by type:KV Request 执行时间,根据类型显示
PD Client
- PD Client CMD OPS:PD Client 每秒执行命令数量统计
- PD Client CMD Duration:PD Client 执行命令耗时
- PD Client CMD Fail OPS:PD Client 每秒执行命令失败统计
- PD TSO OPS:TiDB 每秒从 PD 获取 TSO 的数量
- PD TSO Wait Duration:TiDB 等待从 PD 返回 TSO 的时间
- PD TSO RPC Duration:TiDB 从向 PD 发送获取 TSO 的请求到接收到 TSO 花费的时间
- Start TSO Wait Duration:TiDB 从向 PD 发送获取 start tso 请求开始到开始等待 tso 返回的时间
Schema Load
- Load Schema Duration:TiDB 从 TiKV 获取 Schema 的时间
- Load Schema OPS:TiDB 从 TiKV 每秒获取 Schema 的数量统计
- Schema Lease Error OPM:Schema Lease 出错,包括 change 和 outdate 两种,change 代表 schema 发生了变化,outdate 代表无法更新 schema,属于较严重错误,出现 outdate 错误时会报警
- Load Privilege OPS:TiDB 从 TiKV 每秒获取权限信息的数量统计
DDL
- DDL Duration 95:DDL 语句处理时间的 95% 分位
- Batch Add Index Duration 100:创建索引时每个 Batch 所花费的最大时间统计
- DDL Waiting Jobs Count:等待的 DDL 任务数量
- DDL META OPM:DDL 每分钟获取 META 的次数
- DDL Worker Duration 99:每个 DDL worker 执行时间 99% 分位
- Deploy Syncer Duration:Schema Version Syncer 初始化,重启,清空等操作耗时
- Owner Handle Syncer Duration:DDL Owner 在执行更新,获取以及检查 Schema Version 的耗时
- Update Self Version Duration:Schema Version Syncer 更新版本信息耗时
- DDL OPM:DDL 语句的每秒执行次数
- DDL add index progress in percentage:添加索引的进度展示
Statistics
- Auto Analyze Duration 95:自动 ANALYZE 耗时统计
- Auto Analyze QPS:自动 ANALYZE 数量统计
- Stats Inaccuracy Rate:统计信息不准确度统计
- Pseudo Estimation OPS:使用假的统计信息优化 SQL 的数量统计
- Dump Feedback OPS:存储统计信息 Feedback 的数量统计
- Store Query Feedback QPS:存储合并查询的 Feedback 信息的每秒操作数量,该操作在 TiDB 内存中进行
- Significant Feedback:重要的 Feedback 更新统计信息的数量统计
- Update Stats OPS:利用 Feedback 更新统计信息的数量统计
- Fast Analyze Status 100:快速收集统计信息的状态统计
Owner
- New ETCD Session Duration 95:创建一个新的 etcd 会话花费的时间。TiDB 通过 etcd client 连接 PD 中的 etcd 保存/读取部分元数据信息。这里记录了创建会话花费的时间
- Owner Watcher OPS:DDL owner watch PD 的 etcd 的元数据的 goroutine 的每秒操作次数
Meta
- AutoID QPS:AutoID 相关操作的数量统计,包括全局 ID 分配、单个 Table AutoID 分配、单个 Table AutoID Rebase 三种操作
- AutoID Duration:AutoID 相关操作的耗时
- Region Cache Error OPS:TiDB 缓存的 region 信息每秒遇到的错误次数
- Meta Operations Duration 99:元数据操作延迟
GC
- Worker Action OPM:GC 相关操作的数量,包括 run_job,resolve_lock,delete_range 等操作
- Duration 99:GC 相关操作的耗时统计
- Config:GC 的数据保存时长(life time)和 GC 运行间隔(run interval)配置
- GC Failure OPM:GC 相关操作失败数量统计
- Delete Range Failure OPM:Delete range 失败的次数
- Too Many Locks Error OPM:GC 清锁过多错误的数量
- Action Result OPM:GC 相关操作结果数量
- Delete Range Task Status:Delete range 的任务状态,包含完成和失败状态
- Push Task Duration 95:将 GC 子任务推送给 GC worker 的耗时
Batch Client
- Pending Request Count by TiKV:等待处理的 Batch 消息数量
- Wait Duration 95:等待处理的 Batch 消息延迟
- Batch Client Unavailable Duration 95:Batch 客户端不可用的时间
- No Available Connection Counter:Batch 客户端找不到可用链接的次数
- 以下为 TiKV-Details 默认的监控信息:
- Store size:每个 TiKV 实例的使用的存储空间的大小
- Available size:每个 TiKV 实例的可用的存储空间的大小
- Capacity size:每个 TiKV 实例的存储容量的大小
- CPU:每个 TiKV 实例 CPU 的使用率
- Memory:每个 TiKV 实例内存的使用情况
- IO utilization:每个 TiKV 实例 IO 的使用率
- MBps:每个 TiKV 实例写入和读取的数据量大小
- QPS:每个 TiKV 实例上各种命令的 QPS
- Errps:每个 TiKV 实例上 gRPC 消息失败的速率
- leader:每个 TiKV 实例 leader 的个数
- Region:每个 TiKV 实例 Region 的个数
- Uptime:自上次重启以来 TiKV 正常运行的时间
- Errors
- Critical error:严重错误的数量
- Server is busy:各种会导致 TiKV 实例暂时不可用的事件个数,如 write stall,channel full 等,正常情况下应当为 0
- Server report failures:server 报错的消息个数,正常情况下应当为 0
- Raftstore error:每个 TiKV 实例上 raftstore 发生错误的个数
- Scheduler error:每个 TiKV 实例上 scheduler 发生错误的个数
- Coprocessor error:每个 TiKV 实例上 coprocessor 发生错误的个数
- gRPC message error:每个 TiKV 实例上 gRPC 消息发生错误的个数
- Leader drop:每个 TiKV 实例上 drop leader 的个数
- Leader missing:每个 TiKV 实例上 missing leader 的个数
- Server
- CF size:每个列族的大小
- Store size:每个 TiKV 实例的使用的存储空间的大小
- Channel full:每个 TiKV 实例上 channel full 错误的数量,正常情况下应当为 0
- Active written leaders:各个 TiKV 实例中正在被写入的 Leader 的数量
- Approximate Region size:每个 Region 近似的大小
- Approximate Region size Histogram:每个 Region 近似大小的直方图
- Region average written keys:每个 TiKV 实例上所有 Region 的平均 key 写入个数
- Region average written bytes:每个 TiKV 实例上所有 Region 的平均写入大小
- gRPC
- gRPC message count:每种 gRPC 请求的速度
- gRPC message failed:失败的 gRPC 请求的速度
- 99% gRPC message duration:99% gRPC 请求的执行时间小于该值
- Average gRPC message duration:gRPC 请求平均的执行时间
- gRPC batch size:TiDB 与 TiKV 之间 grpc 请求的 batch 大小
- raft message batch size:TiKV 与 TiKV 之间 raft 消息的 batch 大小
- Thread CPU
- Raft store CPU:raftstore 线程的 CPU 使用率,通常应低于 80% *
raftstore.store-pool-size - Async apply CPU:async apply 线程的 CPU 使用率,通常应低于 90% *
raftstore.apply-pool-size - Scheduler worker CPU:scheduler worker 线程的 CPU 使用率,通常应低于 90% *
storage.scheduler-worker-pool-size - gRPC poll CPU:gRPC 线程的 CPU 使用率,通常应低于 80% *
server.grpc-concurrency - Unified read pool CPU:unified read pool 线程的 CPU 使用率
- Storage ReadPool CPU:storage read pool 线程的 CPU 使用率点查
- Coprocessor CPU:coprocessor 线程的 CPU 使用率复杂查询
- RocksDB CPU:RocksDB 线程的 CPU 使用率
- Split check CPU:split check 线程的 CPU 使用率
- GC worker CPU:GC worker 线程的 CPU 使用率
- Snapshot worker CPU:snapshot worker 线程的 CPU 使用率
- PD
- PD requests:TiKV 发送给 PD 的请求速度
- PD request duration (average):TiKV 发送给 PD 的请求处理的平均时间
- PD heartbeats:发送给 PD 的心跳的速度
- PD validate peers:TiKV 发送给 PD 用于验证 TiKV 的 peer 有效的消息的速度
- Raft IO
- Apply log duration:Raft apply 日志所花费的时间
- Apply log duration per server:每个 TiKV 实例上 Raft apply 日志所花费的时间
- Append log duration:Raft append 日志所花费的时间
- Append log duration per server:每个 TiKV 实例上 Raft append 日志所花费的时间
- Commit log duration:Raft commit 日志所花费的时间
- Commit log duration per server:每个 TiKV 实例上 Raft commit 日志所花费的时间
- Raft process
- Ready handled:Raft 中不同 ready 类型的 ops
- 0.99 Duration of Raft store events:99% 的 raftstore 事件所花费的时间
- Process ready duration:处理 ready 所花费的时间
- Process ready duration per server:每个 TiKV 实例处理 ready 所花费的时间,99.99% 的情况下,应该小于 2s
- Raft message
- Sent messages per server:每个 TiKV 实例发送 Raft 消息的 ops
- Flush messages per server:每个 TiKV 实例中 raft client 往外 flush Raft 消息的 ops
- Receive messages per server:每个 TiKV 实例接受 Raft 消息的 ops
- Messages:发送不同类型的 Raft 消息的 ops
- Vote:Raft 投票消息发送的 ops
- Raft dropped messages:每秒钟丢弃不同类型的 Raft 消息的个数
- Raft propose
- Raft apply proposals per ready:在一个 batch 内,apply proposal 时每个 ready 中包含 proposal 的个数的直方图
- Raft read/write proposals:不同类型的 proposal 的 ops
- Raft read proposals per server:每个 TiKV 实例发起读 proposal 的 ops
- Raft write proposals per server:每个 TiKV 实例发起写 proposal 的 ops
- Propose wait duration:proposal 的等待时间的直方图
- Propose wait duration per server:每个 TiKV 实例上每个 proposal 的等待时间的直方图
- Apply wait duration:apply 的等待时间的直方图
- Apply wait duration per server:每个 TiKV 实例上每个 apply 的等待时间的直方图
- Raft log speed:peer propose 日志的平均速度
- Raft admin
- Admin proposals:admin proposal 的 ops
- Admin apply:apply 命令的 ops
- Check split:split check 命令的 ops
- 99.99% Check split duration:99.99% 的情况下,split check 所需花费的时间
- Local reader
- Local reader requests:所有请求的总数以及 local read 线程拒绝的请求数量
- Unified Read Pool
- Time used by level:在 unified read pool 中每个级别使用的时间,级别 0 指小查询
- Level 0 chance:在 unified read pool 中调度的 level 0 任务的比例
- Running tasks:在 unified read pool 中并发运行的任务数量
- Storage
- Storage command total:收到不同命令的 ops
- Storage async request error:异步请求出错的 ops
- Storage async snapshot duration:异步处理 snapshot 所花费的时间,99% 的情况下,应该小于 1s
- Storage async write duration:异步写所花费的时间,99% 的情况下,应该小于 1s
- Scheduler
- Scheduler stage total:每种命令不同阶段的 ops,正常情况下,不会在短时间内出现大量的错误
- Scheduler writing bytes:每个 TiKV 实例正在处理的命令的写入字节数量
- Scheduler priority commands:不同优先级命令的 ops
- Scheduler pending commands:每个 TiKV 实例上 pending 命令的 ops
- Scheduler - commit
- Scheduler stage total:commit 中每个命令所处不同阶段的 ops,正常情况下,不会在短时间内出现大量的错误
- Scheduler command duration:执行 commit 命令所需花费的时间,正常情况下,应该小于 1s
- Scheduler latch wait duration:由于 latch wait 造成的时间开销,正常情况下,应该小于 1s
- Scheduler keys read:commit 命令读取 key 的个数
- Scheduler keys written:commit 命令写入 key 的个数
- Scheduler scan details:执行 commit 命令时,扫描每个 CF 中 key 的详细情况
- Scheduler scan details [lock]:执行 commit 命令时,扫描每个 lock CF 中 key 的详细情况
- Scheduler scan details [write]:执行 commit 命令时,扫描每个 write CF 中 key 的详细情况
- Scheduler scan details [default]:执行 commit 命令时,扫描每个 default CF 中 key 的详细情况
- Scheduler - pessimistic_rollback
- Scheduler stage total:pessimistic_rollback 中每个命令所处不同阶段的 ops,正常情况下,不会在短时间内出现大量的错误
- Scheduler command duration:执行 pessimistic_rollback 命令所需花费的时间,正常情况下,应该小于 1s
- Scheduler latch wait duration:由于 latch wait 造成的时间开销,正常情况下,应该小于 1s
- Scheduler keys read:pessimistic_rollback 命令读取 key 的个数
- Scheduler keys written:pessimistic_rollback 命令写入 key 的个数
- Scheduler scan details:执行 pessimistic_rollback 命令时,扫描每个 CF 中 key 的详细情况
- Scheduler scan details [lock]:执行 pessimistic_rollback 命令时,扫描每个 lock CF 中 key 的详细情况
- Scheduler scan details [write]:执行 pessimistic_rollback 命令时,扫描每个 write CF 中 key 的详细情况
- Scheduler scan details [default]:执行 pessimistic_rollback 命令时,扫描每个 default CF 中 key 的详细情况
- Scheduler - prewrite
- Scheduler stage total:prewrite 中每个命令所处不同阶段的 ops,正常情况下,不会在短时间内出现大量的错误
- Scheduler command duration:执行 prewrite 命令所需花费的时间,正常情况下,应该小于 1s
- Scheduler latch wait duration:由于 latch wait 造成的时间开销,正常情况下,应该小于 1s
- Scheduler keys read:prewrite 命令读取 key 的个数
- Scheduler keys written:prewrite 命令写入 key 的个数
- Scheduler scan details:执行 prewrite 命令时,扫描每个 CF 中 key 的详细情况
- Scheduler scan details [lock]:执行 prewrite 命令时,扫描每个 lock CF 中 key 的详细情况
- Scheduler scan details [write]:执行 prewrite 命令时,扫描每个 write CF 中 key 的详细情况
- Scheduler scan details [default]:执行 prewrite 命令时,扫描每个 default CF 中 key 的详细情况
- Scheduler - rollback
- Scheduler stage total:rollback 中每个命令所处不同阶段的 ops,正常情况下,不会在短时间内出现大量的错误
- Scheduler command duration:执行 rollback 命令所需花费的时间,正常情况下,应该小于 1s
- Scheduler latch wait duration:由于 latch wait 造成的时间开销,正常情况下,应该小于 1s
- Scheduler keys read:rollback 命令读取 key 的个数
- Scheduler keys written:rollback 命令写入 key 的个数
- Scheduler scan details:执行 rollback 命令时,扫描每个 CF 中 key 的详细情况
- Scheduler scan details [lock]:执行 rollback 命令时,扫描每个 lock CF 中 key 的详细情况
- Scheduler scan details [write]:执行 rollback 命令时,扫描每个 write CF 中 key 的详细情况
- Scheduler scan details [default]:执行 rollback 命令时,扫描每个 default CF 中 key 的详细情况
- GC
- MVCC versions:每个 key 的版本个数
- MVCC delete versions:GC 删除掉的每个 key 的版本个数
- GC tasks:由 gc_worker 处理的 GC 任务的个数
- GC tasks Duration:执行 GC 任务时所花费的时间
- GC keys (write CF):在 GC 过程中,write CF 中 受影响的 key 的个数
- TiDB GC worker actions:TiDB GC worker 的不同 action 的个数
- TiDB GC seconds:TiDB 执行 GC 花费的时间
- GC speed:GC 每秒删除的 key 的数量
- TiKV AutoGC Working:Auto GC 管理器的工作状态
- ResolveLocks Progress:GC 第一阶段(ResolveLocks)的进度
- TiKV Auto GC Progress:GC 第二阶段的进度
- TiKV Auto GC SafePoint:TiKV GC 的 safe point 的数值,safe point 为当前 GC 的时间戳
- GC lifetime:TiDB 设置的 GC lifetime
- GC interval:TiDB 设置的 GC 间隔
- Snapshot
- Rate snapshot message:发送 Raft snapshot 消息的速率
- 99% Handle snapshot duration:99% 的情况下,处理 snapshot 所需花费的时间
- Snapshot state count:不同状态的 snapshot 的个数
- 99.99% Snapshot size:99.99% 的 snapshot 的大小
- 99.99% Snapshot KV count:99.99% 的 snapshot 包含的 key 的个数
- Task
- Worker handled tasks:worker 每秒钟处理的任务的数量
- Worker pending tasks:当前 worker 中,每秒钟 pending 和 running 的任务的数量,正常情况下,应该小于 1000
- FuturePool handled tasks:future pool 每秒钟处理的任务的数量
- FuturePool pending tasks:当前 future pool 中,每秒钟 pending 和 running 的任务的数量
- Coprocessor Overview
- Request duration:从收到 coprocessor 请求到处理结束所消耗的总时间
- Total Requests:每种类型的总请求的 ops
- Handle duration:每分钟实际处理 coprocessor 请求所消耗的时间的直方图
- Total Request Errors:Coprocessor 每秒请求错误的数量,正常情况下,短时间内不应该有大量的错误
- Total KV Cursor Operations:各种类型的 KV cursor 操作的总数量的 ops,例如 select、index、analyze_table、analyze_index、checksum_table、checksum_index 等
- KV Cursor Operations:每秒各种类型的 KV cursor 操作的数量,以直方图形式显示
- Total RocksDB Perf Statistics:RocksDB 性能统计数据
- Total Response Size:coprocessor 回应的数据大小
- Coprocessor Detail
- Handle duration:每秒钟实际处理 coprocessor 请求所消耗的时间的直方图
- 95% Handle duration by store:每秒钟中 95% 的情况下,每个 TiKV 实例处理 coprocessor 请求所花费的时间
- Wait duration:coprocessor 每秒钟内请求的等待时间,99.99% 的情况下,应该小于 10s
- 95% Wait duration by store:每秒钟 95% 的情况下,每个 TiKV 实例上 coprocessor 请求的等待时间
- Total DAG Requests:DAG 请求的总数量的 ops
- Total DAG Executors:DAG executor 的总数量的 ops
- Total Ops Details (Table Scan):coprocessor 中请求为 select 的 scan 过程中每秒钟各种事件发生的次数
- Total Ops Details (Index Scan):coprocessor 中请求为 index 的 scan 过程中每秒钟各种事件发生的次数
- Total Ops Details by CF (Table Scan):coprocessor 中对于每个 CF 请求为 select 的 scan 过程中每秒钟各种事件发生的次数
- Total Ops Details by CF (Index Scan):coprocessor 中对于每个 CF 请求为 index 的 scan 过程中每秒钟各种事件发生的次数
- Threads
- Threads state:TiKV 线程的状态
- Threads IO:TiKV 各个线程的 I/O 流量
- Thread Voluntary Context Switches:TiKV 线程自主切换的次数
- Thread Nonvoluntary Context Switches:TiKV 线程被动切换的次数
- RocksDB - kv/raft
- Get operations:get 操作的 ops
- Get duration:get 操作的耗时
- Seek operations:seek 操作的 ops
- Seek duration:seek 操作的耗时
- Write operations:write 操作的 ops
- Write duration:write 操作的耗时
- WAL sync operations:sync WAL 操作的 ops
- Write WAL duration:write 操作中写 WAL 的耗时
- WAL sync duration:sync WAL 操作的耗时
- Compaction operations:compaction 和 flush 操作的 ops
- Compaction duration:compaction 和 flush 操作的耗时
- SST read duration:读取 SST 所需的时间
- Write stall duration:由于 write stall 造成的时间开销,正常情况下应为 0
- Memtable size:每个 CF 的 memtable 的大小
- Memtable hit:memtable 的命中率
- Block cache size:block cache 的大小。如果将
shared block cache禁用,即为每个 CF 的 block cache 的大小 - Block cache hit:block cache 的命中率
- Block cache flow:不同 block cache 操作的流量
- Block cache operations 不同 block cache 操作的个数
- Keys flow:不同操作造成的 key 的流量
- Total keys:每个 CF 中 key 的个数
- Read flow:不同读操作的流量
- Bytes / Read:每次读的大小
- Write flow:不同写操作的流量
- Bytes / Write:每次写的大小
- Compaction flow:compaction 相关的流量
- Compaction pending bytes:等待 compaction 的大小
- Read amplification:每个 TiKV 实例的读放大
- Compression ratio:每一层的压缩比
- Number of snapshots:每个 TiKV 的 snapshot 的数量
- Oldest snapshots duration:最旧的 snapshot 保留的时间
- Number files at each level:每一层的文件个数
- Ingest SST duration seconds:ingest SST 所花费的时间
- Stall conditions changed of each CF:每个 CF stall 的原因
- Titan - All
- Blob file count:Titan blob 文件的数量
- Blob file size:Titan blob 文件总大小
- Live blob size:有效 blob record 的总大小
- Blob cache hit:Titan 的 blob cache 命中率
- Iter touched blob file count:单个 Iterator 所涉及到 blob 文件的数量
- Blob file discardable ratio distribution:blob 文件的失效 blob record 比例的分布情况
- Blob key size:Titan 中 blob key 的大小
- Blob value size:Titan 中 blob value 的大小
- Blob get operations:blob 的 get 操作的数量
- Blob get duration:blob 的 get 操作的耗时
- Blob iter operations:blob 的 iter 操作的耗时
- Blob seek duration:blob 的 seek 操作的耗时
- Blob next duration:blob 的 next 操作的耗时
- Blob prev duration:blob 的 prev 操作的耗时
- Blob keys flow:Titan blob 读写的 key 数量
- Blob bytes flow:Titan blob 读写的 bytes 数量
- Blob file read duration:blob 文件的读取耗时
- Blob file write duration:blob 文件的写入耗时
- Blob file sync operations:blob 文件 sync 次数
- Blob file sync duration:blob 文件 sync 耗时
- Blob GC action:Titan GC 细分动作的次数
- Blob GC duration:Titan GC 的耗时
- Blob GC keys flow:Titan GC 读写的 key 数量
- Blob GC bytes flow:Titan GC 读写的 bytes 数量
- Blob GC input file size:Titan GC 输入文件的大小
- Blob GC output file size:Titan GC 输出文件的大小
- Blob GC file count:Titan GC 涉及的 blob 文件数量
- Lock manager
- Thread CPU:lock manager 的线程 CPU 使用率
- Handled tasks:lock manager 处理的任务数量
- Waiter lifetime duration:事务等待锁释放的时间
- Wait table:wait table 的状态信息,包括锁的数量和等锁事务的数量
- Deadlock detect duration:处理死锁检测请求的耗时
- Detect error:死锁检测遇到的错误数量,包含死锁的数量
- Deadlock detector leader:死锁检测器 leader 所在节点的信息
- Memory
- Allocator Stats:内存分配器的统计信息
- Backup
- Backup CPU:backup 的线程 CPU 使用率
- Range Size:backup range 的大小直方图
- Backup Duration:backup 的耗时
- Backup Flow:backup 总的字节大小
- Disk Throughput:实例磁盘的吞吐量
- Backup Range Duration:backup range 的耗时
- Backup Errors:backup 中发生的错误数量
- Encryption
- Encryption data keys:正在使用的加密 data key 的总数量
- Encrypted files:被加密的文件数量
- Encryption initialized:显示加密是否被启用,
1代表已经启用 - Encryption meta files size:加密相关的元数据文件的大小
- Encrypt/decrypt data nanos:每次加密/解密数据的耗时的直方图
- Read/write encryption meta duration:每秒钟读写加密文件所耗费的时间
- 面板常见参数的解释
- gRPC 消息类型
使用事务型接口的命令:
- kv_get:事务型的 get 命令,获取指定 ts 能读到的最新版本数据
- kv_scan:扫描连续的一段数据
- kv_prewrite:2PC 的第一阶段,预写入事务要提交的数据
- kv_pessimistic_lock:对 key 加悲观锁,防止其他事务修改
- kv_pessimistic_rollback:删除 key 上的悲观锁
- kv_txn_heart_beat:更新悲观事务或大事务的
lock_ttl以防止其被回滚 - kv_check_txn_status:检查事务的状态
- kv_commit:2PC 的第二阶段,提交 prewrite 阶段写入的数据
- kv_cleanup:回滚一个事务(此命令将会在 4.0 中废除)
- kv_batch_get:与
kv_get类似,一次性获取批量 key 的 value - kv_batch_rollback:批量回滚多个预写的事务
- kv_scan_lock:扫描所有版本号在
max_version之前的锁,用于清理过期的事务 - kv_resolve_lock:根据事务状态,提交或回滚事务的锁
- kv_gc:触发垃圾回收
- kv_delete_range:从 TiKV 中删除连续的一段数据
非事务型的裸命令:
- raw_get:获取 key 所对应的 value
- raw_batch_get:获取一批 key 所对应的 value
- raw_scan:扫描一段连续的数据
- raw_batch_scan:扫描多段连续的数据
- raw_put:写入一个 key/value 对
- raw_batch_put:直接写入一批 key/value 对
- raw_delete:删除一个 key/value 对
- raw_batch_delete:删除一批 key/value 对
- raw_delete_range:删除连续的一段区间
最后修改时间:2024-12-05 18:32:06
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




