TiDB 重要监控指标详解

大圣11 2024-12-05

500

TiDB 重要监控指标详解

使用 TiDB Ansible 或 TiUP 部署 TiDB 集群时，一键部署监控系统 (Prometheus & Grafana)，监控架构参见 TiDB 监控框架概述。
目前 Grafana Dashboard 整体分为 PD、TiDB、TiKV、Node_exporter、Overview 等。TiDB 分为 TiDB 和 TiDB Summary 面板，两个面板的区别如下：
TiDB 面板：提供尽可能全面的信息，供排查集群异常。
TiDB Summary 面板：将 TiDB 面板中用户最为关心的部分抽取出来，并做了些许修改。主要用于提供数据库日常运行中用户关心的数据，如 QPS、TPS、响应延迟等，以便作为外部展示、汇报用的监控信息。
以下为 TiDB Dashboard 部分监控说明：

说明

Query Summary
Duration：执行时间
客户端网络请求发送到 TiDB，到 TiDB 执行结束后返回给客户端的时间。一般情况下，客户端请求都是以 SQL 语句的形式发送，但也可以包含 `COM_PING`、`COM_SLEEP`、`COM_STMT_FETCH`、`COM_SEND_LONG_DATA` 之类的命令执行时间
由于 TiDB 支持 Multi-Query，因此，可以接受客户端一次性发送多条 SQL 语句，如 `select 1; select 1; select 1;`。此时，统计的执行时间是所有 SQL 语句执行完之后的总时间
QPS：所有 TiDB 实例上的每秒执行的 SQL 语句数量。按照执行成功或失败（OK/Error）进行了区分
Statement OPS：不同类型的 SQL 语句每秒执行的数量。按 `SELECT`、`INSERT`、`UPDATE` 等来统计
QPS By Instance：每个 TiDB 实例上的 QPS。按照命令和执行结果成功或失败来统计
Failed Query OPM：每个 TiDB 实例上，对每秒钟执行 SQL 语句发生的错误按照错误类型的统计（例如语法错误、主键冲突等）。包含了错误所属的模块和错误码
Slow query：慢查询处理时间统计（整个慢查询耗时、Coprocessor 耗时、Coprocessor 调度等待时间）
999/99/95/80 Duration：不同类型的 SQL 语句执行耗时统计（不同百分位）
Query Detail
Duration 80/95/99/999 By Instance：每个 TiDB 实例执行 SQL 语句的耗时统计（不同百分位）。
Failed Query OPM Detail：每个 TiDB 实例执行 SQL 语句发生的错误按照错误类型统计（例如语法错误、主键冲突等）。
Internal SQL OPS：整个 TiDB 集群内部 SQL 语句执行的 QPS。内部 SQL 语句是 TiDB 内部自动执行的 SQL 语句，一般由用户 SQL 语句来触发或者内部定时任务触发。
Server
Uptime：每个 TiDB 实例的运行时间
Memory Usage：每个 TiDB 实例的内存使用统计，分为进程占用内存和 Golang 在堆上申请的内存
CPU Usage：每个 TiDB 实例的 CPU 使用统计
Connection Count：每个 TiDB 的连接数
Open FD Count：每个 TiDB 实例的打开的文件描述符统计
Goroutine Count：每个 TiDB 实例的 Goroutine 数量
Go GC Duration：每个 TiDB 实例的 Golang GC 耗时
Go Threads：每个 TiDB 实例的线程数量
Go GC Count：每个 TiDB 实例的 Golang GC 执行次数
Go GC CPU Usage：每个 TiDB 实例的 Golang GC 使用的 CPU
Events OPM：每个 TiDB 实例关键事件统计，例如 start，close，graceful-shutdown，kill，hang 等
Keep Alive OPM：每个 TiDB 实例每分钟刷新监控的次数，通常不需要关注
Prepare Statement Count：每个 TiDB 实例现存的 `Prepare` 语句数以及总数
Time Jump Back OPS：每个 TiDB 实例上每秒操作系统时间回跳的次数
Write Binlog Error：每个 TiDB 每秒写入 Binlog 失败的次数
Get Token Duration：每个连接获取 Token 的耗时
Handshake Error OPS：每个 TiDB 实例每秒握手错误的次数
Transaction
Transaction OPS：每秒事务的执行数量
Duration：事务执行的时间
Transaction Statement Num：事务中的 SQL 语句数量
Transaction Retry Num：事务重试次数
Session Retry Error OPS：每秒事务重试时遇到的错误数量
KV Transaction OPS：每个 TiDB 内部每秒执行的事务数量
一个用户的事务，在 TiDB 内部可能会触发多次事务执行，其中包含，内部元数据的读取，用户事务原子性地多次重试执行等
TiDB 内部的定时任务也会通过事务来操作数据库，这部分也包含在这个面板里
KV Transaction Duration：每个 TiDB 内部执行事务的耗时
Commit Token Wait Duration：事务提交时的流控队列等待耗时。当出现较长等待时，代表提交事务过大，正在限流。如果系统还有资源可以使用，可以通过增大 TiDB 配置文件中 `committer-concurrency` 来加速提交
Transaction Max Write KV Num：单个事务写入的最大键值对数量
Transaction Max Write Size Bytes：单个事务写入的最大键值对大小
Transaction Regions Num 90：单个事务写入的 Region 数量的 90% 分位
Send HeartBeat Duration：事务发送心跳的时间间隔
TTL Lifetime Reach Counter：事务的 TTL 达到了上限的数量。TTL 上限默认值 10 分钟，它的含义是从悲观事务第一次加锁，或者乐观事务的第一个 prewrite 开始，超过了 10 分钟。可以通过修改 TiDB 配置文件中 `max-txn-ttl` 来改变 TTL 寿命上限
Statement Lock Keys：单个语句的加锁个数
Acquire Pessimistic Locks Duration：加锁所消耗的时间
Pessimistic Statement Retry OPS：悲观语句重试次数统计。当语句尝试加锁时，可能遇到写入冲突，此时，语句会重新获取新的 snapshot 并再次加锁
Load Safepoint OPS：加载 Safepoint 的次数统计。Safepoint 作用是在事务读数据时，保证不读到 Safepoint 之前的数据，保证数据安全。因为，Safepoint 之前的数据有可能被 GC 清理掉
Executor
Parse Duration：SQL 语句解析耗时统计
Compile Duration：将解析后的 SQL AST 编译成执行计划耗时统计
Execution Duration：执行 SQL 语句执行计划耗时统计
Expensive Executor OPS：每秒消耗系统资源比较多的算子统计，包括 Merge Join，Hash Join，Index Look Up Join，Hash Agg，Stream Agg，Sort，TopN 等
Queries Using Plan Cache OPS：每秒使用 Plan Cache 的查询数量统计
Distsql
Distsql Duration：Distsql 处理的时长
Distsql QPS：Distsql 的数量统计
Distsql Partial QPS：每秒 Partial Results 的数量
Scan Keys Num：每个 Query 扫描的 Key 的数量
Scan Keys Partial Num：每一个 Partial Result 扫描的 Key 的数量
Partial Num：每个 SQL 语句 Partial Results 的数量
KV Errors
KV Backoff Duration：KV 每个请求重试的总时间。TiDB 向 TiKV 发送请求时可能遇到错误，TiDB 对每个向 TiKV 的请求都有重试机制，这里记录的是一个请求重试的总时间
TiClient Region Error OPS：TiKV 返回 Region 相关错误信息的数量
KV Backoff OPS：TiKV 返回错误信息的数量
Lock Resolve OPS：TiDB 清理锁操作的数量。当 TiDB 的读写请求遇到锁时，会尝试进行锁清理
Other Errors OPS：其他类型的错误数量，包括清锁和更新 SafePoint
KV Request
KV Request OPS：KV Request 执行次数，根据 TiKV 显示
KV Request Duration 99 by store：KV Request 执行时间，根据 TiKV 显示
KV Request Duration 99 by type：KV Request 执行时间，根据类型显示
PD Client
PD Client CMD OPS：PD Client 每秒执行命令数量统计
PD Client CMD Duration：PD Client 执行命令耗时
PD Client CMD Fail OPS：PD Client 每秒执行命令失败统计
PD TSO OPS：TiDB 每秒从 PD 获取 TSO 的数量
PD TSO Wait Duration：TiDB 等待从 PD 返回 TSO 的时间
PD TSO RPC Duration：TiDB 从向 PD 发送获取 TSO 的请求到接收到 TSO 花费的时间
Start TSO Wait Duration：TiDB 从向 PD 发送获取 start tso 请求开始到开始等待 tso 返回的时间
Schema Load
Load Schema Duration：TiDB 从 TiKV 获取 Schema 的时间
Load Schema OPS：TiDB 从 TiKV 每秒获取 Schema 的数量统计
Schema Lease Error OPM：Schema Lease 出错，包括 change 和 outdate 两种，change 代表 schema 发生了变化，outdate 代表无法更新 schema，属于较严重错误，出现 outdate 错误时会报警
Load Privilege OPS：TiDB 从 TiKV 每秒获取权限信息的数量统计
DDL
DDL Duration 95：DDL 语句处理时间的 95% 分位
Batch Add Index Duration 100：创建索引时每个 Batch 所花费的最大时间统计
DDL Waiting Jobs Count：等待的 DDL 任务数量
DDL META OPM：DDL 每分钟获取 META 的次数
DDL Worker Duration 99：每个 DDL worker 执行时间 99% 分位
Deploy Syncer Duration：Schema Version Syncer 初始化，重启，清空等操作耗时
Owner Handle Syncer Duration：DDL Owner 在执行更新，获取以及检查 Schema Version 的耗时
Update Self Version Duration：Schema Version Syncer 更新版本信息耗时
DDL OPM：DDL 语句的每秒执行次数
DDL add index progress in percentage：添加索引的进度展示
Statistics
Auto Analyze Duration 95：自动 ANALYZE 耗时统计
Auto Analyze QPS：自动 ANALYZE 数量统计
Stats Inaccuracy Rate：统计信息不准确度统计
Pseudo Estimation OPS：使用假的统计信息优化 SQL 的数量统计
Dump Feedback OPS：存储统计信息 Feedback 的数量统计
Store Query Feedback QPS：存储合并查询的 Feedback 信息的每秒操作数量，该操作在 TiDB 内存中进行
Significant Feedback：重要的 Feedback 更新统计信息的数量统计
Update Stats OPS：利用 Feedback 更新统计信息的数量统计
Fast Analyze Status 100：快速收集统计信息的状态统计
Owner
New ETCD Session Duration 95：创建一个新的 etcd 会话花费的时间。TiDB 通过 etcd client 连接 PD 中的 etcd 保存/读取部分元数据信息。这里记录了创建会话花费的时间
Owner Watcher OPS：DDL owner watch PD 的 etcd 的元数据的 goroutine 的每秒操作次数
Meta
AutoID QPS：AutoID 相关操作的数量统计，包括全局 ID 分配、单个 Table AutoID 分配、单个 Table AutoID Rebase 三种操作
AutoID Duration：AutoID 相关操作的耗时
Region Cache Error OPS：TiDB 缓存的 region 信息每秒遇到的错误次数
Meta Operations Duration 99：元数据操作延迟
GC
Worker Action OPM：GC 相关操作的数量，包括 run_job，resolve_lock，delete_range 等操作
Duration 99：GC 相关操作的耗时统计
Config：GC 的数据保存时长（life time）和 GC 运行间隔（run interval）配置
GC Failure OPM：GC 相关操作失败数量统计
Delete Range Failure OPM：Delete range 失败的次数
Too Many Locks Error OPM：GC 清锁过多错误的数量
Action Result OPM：GC 相关操作结果数量
Delete Range Task Status：Delete range 的任务状态，包含完成和失败状态
Push Task Duration 95：将 GC 子任务推送给 GC worker 的耗时
Batch Client
Pending Request Count by TiKV：等待处理的 Batch 消息数量
Wait Duration 95：等待处理的 Batch 消息延迟
Batch Client Unavailable Duration 95：Batch 客户端不可用的时间
No Available Connection Counter：Batch 客户端找不到可用链接的次数

以下为 TiKV-Details 默认的监控信息：

Cluster

Store size：每个 TiKV 实例的使用的存储空间的大小
Available size：每个 TiKV 实例的可用的存储空间的大小
Capacity size：每个 TiKV 实例的存储容量的大小
CPU：每个 TiKV 实例 CPU 的使用率
Memory：每个 TiKV 实例内存的使用情况
IO utilization：每个 TiKV 实例 IO 的使用率
MBps：每个 TiKV 实例写入和读取的数据量大小
QPS：每个 TiKV 实例上各种命令的 QPS
Errps：每个 TiKV 实例上 gRPC 消息失败的速率
leader：每个 TiKV 实例 leader 的个数
Region：每个 TiKV 实例 Region 的个数
Uptime：自上次重启以来 TiKV 正常运行的时间
Errors
Critical error：严重错误的数量
Server is busy：各种会导致 TiKV 实例暂时不可用的事件个数，如 write stall，channel full 等，正常情况下应当为 0
Server report failures：server 报错的消息个数，正常情况下应当为 0
Raftstore error：每个 TiKV 实例上 raftstore 发生错误的个数
Scheduler error：每个 TiKV 实例上 scheduler 发生错误的个数
Coprocessor error：每个 TiKV 实例上 coprocessor 发生错误的个数
gRPC message error：每个 TiKV 实例上 gRPC 消息发生错误的个数
Leader drop：每个 TiKV 实例上 drop leader 的个数
Leader missing：每个 TiKV 实例上 missing leader 的个数
Server
CF size：每个列族的大小
Store size：每个 TiKV 实例的使用的存储空间的大小
Channel full：每个 TiKV 实例上 channel full 错误的数量，正常情况下应当为 0
Active written leaders：各个 TiKV 实例中正在被写入的 Leader 的数量
Approximate Region size：每个 Region 近似的大小
Approximate Region size Histogram：每个 Region 近似大小的直方图
Region average written keys：每个 TiKV 实例上所有 Region 的平均 key 写入个数
Region average written bytes：每个 TiKV 实例上所有 Region 的平均写入大小
gRPC
gRPC message count：每种 gRPC 请求的速度
gRPC message failed：失败的 gRPC 请求的速度
99% gRPC message duration：99% gRPC 请求的执行时间小于该值
Average gRPC message duration：gRPC 请求平均的执行时间
gRPC batch size：TiDB 与 TiKV 之间 grpc 请求的 batch 大小
raft message batch size：TiKV 与 TiKV 之间 raft 消息的 batch 大小
Thread CPU
Raft store CPU：raftstore 线程的 CPU 使用率，通常应低于 80% * raftstore.store-pool-size
Async apply CPU：async apply 线程的 CPU 使用率，通常应低于 90% * raftstore.apply-pool-size
Scheduler worker CPU：scheduler worker 线程的 CPU 使用率，通常应低于 90% * storage.scheduler-worker-pool-size
gRPC poll CPU：gRPC 线程的 CPU 使用率，通常应低于 80% * server.grpc-concurrency
Unified read pool CPU：unified read pool 线程的 CPU 使用率
Storage ReadPool CPU：storage read pool 线程的 CPU 使用率点查
Coprocessor CPU：coprocessor 线程的 CPU 使用率复杂查询
RocksDB CPU：RocksDB 线程的 CPU 使用率
Split check CPU：split check 线程的 CPU 使用率
GC worker CPU：GC worker 线程的 CPU 使用率
Snapshot worker CPU：snapshot worker 线程的 CPU 使用率
PD
PD requests：TiKV 发送给 PD 的请求速度
PD request duration (average)：TiKV 发送给 PD 的请求处理的平均时间
PD heartbeats：发送给 PD 的心跳的速度
PD validate peers：TiKV 发送给 PD 用于验证 TiKV 的 peer 有效的消息的速度
Raft IO
Apply log duration：Raft apply 日志所花费的时间
Apply log duration per server：每个 TiKV 实例上 Raft apply 日志所花费的时间
Append log duration：Raft append 日志所花费的时间
Append log duration per server：每个 TiKV 实例上 Raft append 日志所花费的时间
Commit log duration：Raft commit 日志所花费的时间
Commit log duration per server：每个 TiKV 实例上 Raft commit 日志所花费的时间
Raft process
Ready handled：Raft 中不同 ready 类型的 ops
0.99 Duration of Raft store events：99% 的 raftstore 事件所花费的时间
Process ready duration：处理 ready 所花费的时间
Process ready duration per server：每个 TiKV 实例处理 ready 所花费的时间，99.99% 的情况下，应该小于 2s
Raft message
Sent messages per server：每个 TiKV 实例发送 Raft 消息的 ops
Flush messages per server：每个 TiKV 实例中 raft client 往外 flush Raft 消息的 ops
Receive messages per server：每个 TiKV 实例接受 Raft 消息的 ops
Messages：发送不同类型的 Raft 消息的 ops
Vote：Raft 投票消息发送的 ops
Raft dropped messages：每秒钟丢弃不同类型的 Raft 消息的个数
Raft propose
Raft apply proposals per ready：在一个 batch 内，apply proposal 时每个 ready 中包含 proposal 的个数的直方图
Raft read/write proposals：不同类型的 proposal 的 ops
Raft read proposals per server：每个 TiKV 实例发起读 proposal 的 ops
Raft write proposals per server：每个 TiKV 实例发起写 proposal 的 ops
Propose wait duration：proposal 的等待时间的直方图
Propose wait duration per server：每个 TiKV 实例上每个 proposal 的等待时间的直方图
Apply wait duration：apply 的等待时间的直方图
Apply wait duration per server：每个 TiKV 实例上每个 apply 的等待时间的直方图
Raft log speed：peer propose 日志的平均速度
Raft admin
Admin proposals：admin proposal 的 ops
Admin apply：apply 命令的 ops
Check split：split check 命令的 ops
99.99% Check split duration：99.99% 的情况下，split check 所需花费的时间
Local reader
Local reader requests：所有请求的总数以及 local read 线程拒绝的请求数量
Unified Read Pool
Time used by level：在 unified read pool 中每个级别使用的时间，级别 0 指小查询
Level 0 chance：在 unified read pool 中调度的 level 0 任务的比例
Running tasks：在 unified read pool 中并发运行的任务数量
Storage
Storage command total：收到不同命令的 ops
Storage async request error：异步请求出错的 ops
Storage async snapshot duration：异步处理 snapshot 所花费的时间，99% 的情况下，应该小于 1s
Storage async write duration：异步写所花费的时间，99% 的情况下，应该小于 1s
Scheduler
Scheduler stage total：每种命令不同阶段的 ops，正常情况下，不会在短时间内出现大量的错误
Scheduler writing bytes：每个 TiKV 实例正在处理的命令的写入字节数量
Scheduler priority commands：不同优先级命令的 ops
Scheduler pending commands：每个 TiKV 实例上 pending 命令的 ops
Scheduler - commit
Scheduler stage total：commit 中每个命令所处不同阶段的 ops，正常情况下，不会在短时间内出现大量的错误
Scheduler command duration：执行 commit 命令所需花费的时间，正常情况下，应该小于 1s
Scheduler latch wait duration：由于 latch wait 造成的时间开销，正常情况下，应该小于 1s
Scheduler keys read：commit 命令读取 key 的个数
Scheduler keys written：commit 命令写入 key 的个数
Scheduler scan details：执行 commit 命令时，扫描每个 CF 中 key 的详细情况
Scheduler scan details [lock]：执行 commit 命令时，扫描每个 lock CF 中 key 的详细情况
Scheduler scan details [write]：执行 commit 命令时，扫描每个 write CF 中 key 的详细情况
Scheduler scan details [default]：执行 commit 命令时，扫描每个 default CF 中 key 的详细情况
Scheduler - pessimistic_rollback
Scheduler stage total：pessimistic_rollback 中每个命令所处不同阶段的 ops，正常情况下，不会在短时间内出现大量的错误
Scheduler command duration：执行 pessimistic_rollback 命令所需花费的时间，正常情况下，应该小于 1s
Scheduler latch wait duration：由于 latch wait 造成的时间开销，正常情况下，应该小于 1s
Scheduler keys read：pessimistic_rollback 命令读取 key 的个数
Scheduler keys written：pessimistic_rollback 命令写入 key 的个数
Scheduler scan details：执行 pessimistic_rollback 命令时，扫描每个 CF 中 key 的详细情况
Scheduler scan details [lock]：执行 pessimistic_rollback 命令时，扫描每个 lock CF 中 key 的详细情况
Scheduler scan details [write]：执行 pessimistic_rollback 命令时，扫描每个 write CF 中 key 的详细情况
Scheduler scan details [default]：执行 pessimistic_rollback 命令时，扫描每个 default CF 中 key 的详细情况
Scheduler - prewrite
Scheduler stage total：prewrite 中每个命令所处不同阶段的 ops，正常情况下，不会在短时间内出现大量的错误
Scheduler command duration：执行 prewrite 命令所需花费的时间，正常情况下，应该小于 1s
Scheduler latch wait duration：由于 latch wait 造成的时间开销，正常情况下，应该小于 1s
Scheduler keys read：prewrite 命令读取 key 的个数
Scheduler keys written：prewrite 命令写入 key 的个数
Scheduler scan details：执行 prewrite 命令时，扫描每个 CF 中 key 的详细情况
Scheduler scan details [lock]：执行 prewrite 命令时，扫描每个 lock CF 中 key 的详细情况
Scheduler scan details [write]：执行 prewrite 命令时，扫描每个 write CF 中 key 的详细情况
Scheduler scan details [default]：执行 prewrite 命令时，扫描每个 default CF 中 key 的详细情况
Scheduler - rollback
Scheduler stage total：rollback 中每个命令所处不同阶段的 ops，正常情况下，不会在短时间内出现大量的错误
Scheduler command duration：执行 rollback 命令所需花费的时间，正常情况下，应该小于 1s
Scheduler latch wait duration：由于 latch wait 造成的时间开销，正常情况下，应该小于 1s
Scheduler keys read：rollback 命令读取 key 的个数
Scheduler keys written：rollback 命令写入 key 的个数
Scheduler scan details：执行 rollback 命令时，扫描每个 CF 中 key 的详细情况
Scheduler scan details [lock]：执行 rollback 命令时，扫描每个 lock CF 中 key 的详细情况
Scheduler scan details [write]：执行 rollback 命令时，扫描每个 write CF 中 key 的详细情况
Scheduler scan details [default]：执行 rollback 命令时，扫描每个 default CF 中 key 的详细情况
GC
MVCC versions：每个 key 的版本个数
MVCC delete versions：GC 删除掉的每个 key 的版本个数
GC tasks：由 gc_worker 处理的 GC 任务的个数
GC tasks Duration：执行 GC 任务时所花费的时间
GC keys (write CF)：在 GC 过程中，write CF 中受影响的 key 的个数
TiDB GC worker actions：TiDB GC worker 的不同 action 的个数
TiDB GC seconds：TiDB 执行 GC 花费的时间
GC speed：GC 每秒删除的 key 的数量
TiKV AutoGC Working：Auto GC 管理器的工作状态
ResolveLocks Progress：GC 第一阶段（ResolveLocks）的进度
TiKV Auto GC Progress：GC 第二阶段的进度
TiKV Auto GC SafePoint：TiKV GC 的 safe point 的数值，safe point 为当前 GC 的时间戳
GC lifetime：TiDB 设置的 GC lifetime
GC interval：TiDB 设置的 GC 间隔
Snapshot
Rate snapshot message：发送 Raft snapshot 消息的速率
99% Handle snapshot duration：99% 的情况下，处理 snapshot 所需花费的时间
Snapshot state count：不同状态的 snapshot 的个数
99.99% Snapshot size：99.99% 的 snapshot 的大小
99.99% Snapshot KV count：99.99% 的 snapshot 包含的 key 的个数
Task
Worker handled tasks：worker 每秒钟处理的任务的数量
Worker pending tasks：当前 worker 中，每秒钟 pending 和 running 的任务的数量，正常情况下，应该小于 1000
FuturePool handled tasks：future pool 每秒钟处理的任务的数量
FuturePool pending tasks：当前 future pool 中，每秒钟 pending 和 running 的任务的数量
Coprocessor Overview
Request duration：从收到 coprocessor 请求到处理结束所消耗的总时间
Total Requests：每种类型的总请求的 ops
Handle duration：每分钟实际处理 coprocessor 请求所消耗的时间的直方图
Total Request Errors：Coprocessor 每秒请求错误的数量，正常情况下，短时间内不应该有大量的错误
Total KV Cursor Operations：各种类型的 KV cursor 操作的总数量的 ops，例如 select、index、analyze_table、analyze_index、checksum_table、checksum_index 等
KV Cursor Operations：每秒各种类型的 KV cursor 操作的数量，以直方图形式显示
Total RocksDB Perf Statistics：RocksDB 性能统计数据
Total Response Size：coprocessor 回应的数据大小
Coprocessor Detail
Handle duration：每秒钟实际处理 coprocessor 请求所消耗的时间的直方图
95% Handle duration by store：每秒钟中 95% 的情况下，每个 TiKV 实例处理 coprocessor 请求所花费的时间
Wait duration：coprocessor 每秒钟内请求的等待时间，99.99% 的情况下，应该小于 10s
95% Wait duration by store：每秒钟 95% 的情况下，每个 TiKV 实例上 coprocessor 请求的等待时间
Total DAG Requests：DAG 请求的总数量的 ops
Total DAG Executors：DAG executor 的总数量的 ops
Total Ops Details (Table Scan)：coprocessor 中请求为 select 的 scan 过程中每秒钟各种事件发生的次数
Total Ops Details (Index Scan)：coprocessor 中请求为 index 的 scan 过程中每秒钟各种事件发生的次数
Total Ops Details by CF (Table Scan)：coprocessor 中对于每个 CF 请求为 select 的 scan 过程中每秒钟各种事件发生的次数
Total Ops Details by CF (Index Scan)：coprocessor 中对于每个 CF 请求为 index 的 scan 过程中每秒钟各种事件发生的次数
Threads
Threads state：TiKV 线程的状态
Threads IO：TiKV 各个线程的 I/O 流量
Thread Voluntary Context Switches：TiKV 线程自主切换的次数
Thread Nonvoluntary Context Switches：TiKV 线程被动切换的次数
RocksDB - kv/raft
Get operations：get 操作的 ops
Get duration：get 操作的耗时
Seek operations：seek 操作的 ops
Seek duration：seek 操作的耗时
Write operations：write 操作的 ops
Write duration：write 操作的耗时
WAL sync operations：sync WAL 操作的 ops
Write WAL duration：write 操作中写 WAL 的耗时
WAL sync duration：sync WAL 操作的耗时
Compaction operations：compaction 和 flush 操作的 ops
Compaction duration：compaction 和 flush 操作的耗时
SST read duration：读取 SST 所需的时间
Write stall duration：由于 write stall 造成的时间开销，正常情况下应为 0
Memtable size：每个 CF 的 memtable 的大小
Memtable hit：memtable 的命中率
Block cache size：block cache 的大小。如果将 shared block cache 禁用，即为每个 CF 的 block cache 的大小
Block cache hit：block cache 的命中率
Block cache flow：不同 block cache 操作的流量
Block cache operations 不同 block cache 操作的个数
Keys flow：不同操作造成的 key 的流量
Total keys：每个 CF 中 key 的个数
Read flow：不同读操作的流量
Bytes / Read：每次读的大小
Write flow：不同写操作的流量
Bytes / Write：每次写的大小
Compaction flow：compaction 相关的流量
Compaction pending bytes：等待 compaction 的大小
Read amplification：每个 TiKV 实例的读放大
Compression ratio：每一层的压缩比
Number of snapshots：每个 TiKV 的 snapshot 的数量
Oldest snapshots duration：最旧的 snapshot 保留的时间
Number files at each level：每一层的文件个数
Ingest SST duration seconds：ingest SST 所花费的时间
Stall conditions changed of each CF：每个 CF stall 的原因
Titan - All
Blob file count：Titan blob 文件的数量
Blob file size：Titan blob 文件总大小
Live blob size：有效 blob record 的总大小
Blob cache hit：Titan 的 blob cache 命中率
Iter touched blob file count：单个 Iterator 所涉及到 blob 文件的数量
Blob file discardable ratio distribution：blob 文件的失效 blob record 比例的分布情况
Blob key size：Titan 中 blob key 的大小
Blob value size：Titan 中 blob value 的大小
Blob get operations：blob 的 get 操作的数量
Blob get duration：blob 的 get 操作的耗时
Blob iter operations：blob 的 iter 操作的耗时
Blob seek duration：blob 的 seek 操作的耗时
Blob next duration：blob 的 next 操作的耗时
Blob prev duration：blob 的 prev 操作的耗时
Blob keys flow：Titan blob 读写的 key 数量
Blob bytes flow：Titan blob 读写的 bytes 数量
Blob file read duration：blob 文件的读取耗时
Blob file write duration：blob 文件的写入耗时
Blob file sync operations：blob 文件 sync 次数
Blob file sync duration：blob 文件 sync 耗时
Blob GC action：Titan GC 细分动作的次数
Blob GC duration：Titan GC 的耗时
Blob GC keys flow：Titan GC 读写的 key 数量
Blob GC bytes flow：Titan GC 读写的 bytes 数量
Blob GC input file size：Titan GC 输入文件的大小
Blob GC output file size：Titan GC 输出文件的大小
Blob GC file count：Titan GC 涉及的 blob 文件数量
Lock manager
Thread CPU：lock manager 的线程 CPU 使用率
Handled tasks：lock manager 处理的任务数量
Waiter lifetime duration：事务等待锁释放的时间
Wait table：wait table 的状态信息，包括锁的数量和等锁事务的数量
Deadlock detect duration：处理死锁检测请求的耗时
Detect error：死锁检测遇到的错误数量，包含死锁的数量
Deadlock detector leader：死锁检测器 leader 所在节点的信息
Memory
Allocator Stats：内存分配器的统计信息
Backup
Backup CPU：backup 的线程 CPU 使用率
Range Size：backup range 的大小直方图
Backup Duration：backup 的耗时
Backup Flow：backup 总的字节大小
Disk Throughput：实例磁盘的吞吐量
Backup Range Duration：backup range 的耗时
Backup Errors：backup 中发生的错误数量
Encryption
Encryption data keys：正在使用的加密 data key 的总数量
Encrypted files：被加密的文件数量
Encryption initialized：显示加密是否被启用，1 代表已经启用
Encryption meta files size：加密相关的元数据文件的大小
Encrypt/decrypt data nanos：每次加密/解密数据的耗时的直方图
Read/write encryption meta duration：每秒钟读写加密文件所耗费的时间
面板常见参数的解释
gRPC 消息类型

使用事务型接口的命令：
- kv_get：事务型的 get 命令，获取指定 ts 能读到的最新版本数据
- kv_scan：扫描连续的一段数据
- kv_prewrite：2PC 的第一阶段，预写入事务要提交的数据
- kv_pessimistic_lock：对 key 加悲观锁，防止其他事务修改
- kv_pessimistic_rollback：删除 key 上的悲观锁
- kv_txn_heart_beat：更新悲观事务或大事务的 lock_ttl 以防止其被回滚
- kv_check_txn_status：检查事务的状态
- kv_commit：2PC 的第二阶段，提交 prewrite 阶段写入的数据
- kv_cleanup：回滚一个事务（此命令将会在 4.0 中废除）
- kv_batch_get：与 kv_get 类似，一次性获取批量 key 的 value
- kv_batch_rollback：批量回滚多个预写的事务
- kv_scan_lock：扫描所有版本号在 max_version 之前的锁，用于清理过期的事务
- kv_resolve_lock：根据事务状态，提交或回滚事务的锁
- kv_gc：触发垃圾回收
- kv_delete_range：从 TiKV 中删除连续的一段数据
非事务型的裸命令：

raw_get：获取 key 所对应的 value
raw_batch_get：获取一批 key 所对应的 value
raw_scan：扫描一段连续的数据
raw_batch_scan：扫描多段连续的数据
raw_put：写入一个 key/value 对
raw_batch_put：直接写入一批 key/value 对
raw_delete：删除一个 key/value 对
raw_batch_delete：删除一批 key/value 对
raw_delete_range：删除连续的一段区间

墨力计划

最后修改时间：2024-12-05 18:32:06

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者

TiDB 重要监控指标详解

TiDB 重要监控指标详解

说明

以下为 TiKV-Details 默认的监控信息：

评论