GaussDB常见故障界定与处理—GaussDB火焰图分析

CY 学数据库 2023-05-30

471

本篇让我们一起了解性能类问题中的 GaussDB火焰图分析。

问题描述：CPU利用率是衡量系统负载和健康度的重要指标之一，系统在运行过程中时常发生CPU利用率高的情况。在分析性能问题时，可通过火焰图查看CPU耗时，了解瓶颈在哪里。

问题现象：部分sql执行速度不符合预期。

告警

业务影响

业务性能差。

原因分析

函数存在性能问题。

处理方法

所需工具：stackcollapse-perf.pl、flamegraph.pl。注意权限修改。

步骤 1登录主DN节点，查看耗CPU高的进程，查看进程号。

top

表1-1参数说明

指标	含义
%us (usr/user)	用户空间占用CPU的百分比。
%sy (system)	内核空间占用CPU的百分比。
%ni (nice)	改变过优先级的进程占用CPU的百分比。
%id (idle)	空闲CPU百分比。
%wa (iowait)	IO等待占用CPU的百分比（实际CPU并未工作）。
%hi (hardware interrupts)	硬中断（Hardware IRQ）占用CPU的百分比。
%si (software interrupts)	软中断（Software Interrupts）占用CPU的百分比。
%st (steal)	Hypervisor偷取的CPU的百分比。

步骤 2执行perf 命令（performance 的缩写），它是 Linux 系统原生提供的性能分析工具，会返回 CPU 正在执行的函数名以及调用栈（stack）。

通常，它的执行频率是 99Hz（每秒99次），如果99次都返回同一个函数名，那就说明 CPU 这一秒钟都在执行同一个函数，可能存在性能问题。

perf record -e cpu-clock -g -p 28591 <主DN进程号> -- sleep 60<持续60s>

Ctrl+c结束执行后，在当前目录下会生成采样数据perf.data（执行时长1分钟即可）。

步骤 3用perf script工具对perf.data进行解析：

perf script -i perf.data &> perf.unfold

步骤 4将perf.unfold中的符号进行折叠：

./stackcollapse-perf.pl perf.unfold &> perf.folded

步骤 5最后生成svg图：

./flamegraph.pl perf.folded > cn.svg

y 轴表示调用栈，每一层都是一个函数。调用栈越深，火焰就越高，顶部就是正在执行的函数，下方都是它的父函数。

x 轴表示抽样数，如果一个函数在 x 轴占据的宽度越宽，就表示它被抽到的次数多，即执行的时间长。注意，x 轴不代表时间，而是所有的调用栈合并后，按字母顺序排列的。

火焰图就是看顶层的哪个函数占据的宽度最大。只要有"平顶"（plateaus），就表示该函数可能存在性能问题。

颜色没有特殊含义，因为火焰图表示的是 CPU 的繁忙程度，所以一般选择暖色调。

----结束

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者