DBdoctor 是一款数据库内核级性能诊断工具,利用eBPF技术深入数据库内核,致力于解决数据库的一切性能问题。

被称之为“革命性”内核技术的eBPF一直以来都备受关注,而DBdoctor作为一款数据库性能诊断工具,首次将eBPF技术深入应用在了数据库领域,目前已涵盖SQL性能审核、问题SQL一分钟定位、锁分析、审计日志、根因诊断、索引推荐、智能巡检等诸多功能。很多小伙伴对如何利用eBPF技术观测数据库内核有浓厚兴趣,因此我们在【DBdoctor】公众号开设了eBPF技术专栏,将定期与您分享eBPF相关的技术文章,手把手教您使用eBPF探测数据库,欢迎关注我们!
本文是eBPF专题的首篇,将用一个具体的例子介绍如何采用eBPF在MySQL连接校验处加探针,并打出hello world,快来一起体验eBPF的强大吧!


工作原理

uprobe是一种用户探针,uprobe探针允许在用户程序中动态插桩,插桩位置包括:函数入口、特定偏移处,以及函数返回处。当我们定义uprobe时,内核会在附加的指令上创建快速断点指令,当程序执行到该指令时,内核将触发事件,程序陷入到内核态,并以回调函数的方式调用探针函数,执行完探针函数再返回到用户态继续执行后序的指令。
uprobe基于文件,当一个二进制文件中的一个函数被跟踪时,所有使用到这个文件的进程都会被插桩,这样就可以在全系统范围内跟踪系统调用。uprobe适用于在用户态去解析一些内核态探针无法解析的流量,例如http2流量(报文header被编码,内核无法解码)、https流量(加密流量,内核无法解密)等。

准备一台 Linux 机器,安装好 Python 和内核开发包。(注:内核开发包版本必须和内核版本一致)安装带有符号表的MySQL

BCC程序使用 Python 编写,它会嵌入一段 c 代码,执行时将 c 代码编译成BPF字节码加载到内核运行。而 Python 代码可以通过 perf event 从内核将数据拷贝到用户空间读取到数据然后展示出来。
接下来我们将基于BCC的uprobe,写一个eBPF程序,观测MySQL上是否存在大量短连接。
a)分析MySQL源码相关连接处理的函数
//从MySQL源码中分析函数选用了mysql-server层的连接校验处理函数check_connectionstatic int check_connection(THD *thd){...}
b)导入BCC的BPF对象
#!/usr/bin/python//这个对象可以将我们的观测代码嵌入到观测点中执行from bcc import BPF
bpf_text="""#include <uapi/linux/ptrace.h>#include <linux/sched.h>//定义结构体 data_t 保存我们每次观测到的结果struct data_t {u32 pid;u32 tgid;u64 ts;char info[40];};//PF_PERF_OUTPUT 定义了一个叫 events 的表,观测代码可以将观测数据写入到 events 表中BPF_PERF_OUTPUT(events);//该自定义函数用来和MySQL观察的内核函数进行绑定关联int do_check_connection(struct pt_regs *ctx) {获取了 MySQL 进程对应的结构体 task_struct,然后从获取了其中的 线程pid 和 用户空间进程tgidstruct task_struct *t = (struct task_struct *)bpf_get_current_task();//初始化data用来保存观测结果struct data_t data = {};// create a new connectionchar a[] = "hello world,create a new connection";bpf_probe_read_kernel_str(&data.info,sizeof(data.info),a);// process idbpf_probe_read(&data.pid,sizeof(data.pid),&t->pid);thread idbpf_probe_read(&data.tgid,sizeof(data.pid),&t->tgid);bpf_ktime_get_ns returns u64 number of nanoseconds. Starts at system boot time but stops during suspend.data.ts = bpf_ktime_get_ns();将观测的数据提交到表中events.perf_submit(ctx, &data, sizeof(data));return 0;}"""
# initialize BPF//自定义的ebpf程序b = BPF(text=bpf_text)//将ebpf观察代码中的自定义函数和MySQL的内核函数进行绑定(name为mysqld进程路径,sym为编译后的探测函数名,fn_name为绑定的ebpf自定义函数)b.attach_uprobe(name="/home/mysqld", sym="_ZL16check_connectionP3THD",fn_name='do_check_connection')
# output trace result.print("Starting to Trace MySQL server do_check_connection function")print("------------------------------------------------------------")//定义打印的回调函数def print_event(cpu, data, size):event = b["events"].event(data)decoded_string = event.info.decode('utf-8')print("%-35s, process id %-6s, thread id %-6s, sytem uptime(s) %-14s" % (decoded_string,event.tgid, event.pid,event.ts/1000000000))//open_perf_buffer 将打印的回调函数注册到 events 表中b["events"].open_perf_buffer(print_event)while 1:try:b.perf_buffer_poll()except KeyboardInterrupt:exit()
执行该eBPF程序

分别开两个窗口执行连接MySQL的命令



eBPF在程序开发过程中有哪些限制?
eBPF在应用和开发过程中会出现多种问题,下面就跟大家分享一下eBPF在程序开发过程中可能会遇到的限制:
1)栈大小512字节
eBPF单个探测函数对栈大小限制为512字节,使用BPF_PERF_OUTPUT将数据从内核态输出到用户态时,会直接限制单个数据结构的大小定义不能超过512字节。
2)多参数获取
BCC中的宏定义从PT_REGS_PARM1(x)~PT_REGS_PARM5(x),栈传递的参数,是从右边向左压栈,想要获取探测函数的入参可以通过PT_REGS_PARM来获取,但X86寄存器的个数是有限的,BCC的定义是能取到5个参数,对于超过6个参数的不能直接获取。
3)循环遍历
Kernel 内核版本低于4.15,不支持任何循环。
4)复杂数据结构的解析
对于参数中复杂数据结构进行解析,由于eBPF程序无法直接引用用户态的头文件,且无法直接在eBPF代码中定义C++的类,对于复杂的数据结构获取其成员变量不能直接获取。
例:
class THD: public MDL_context_owner,public Query_area,public Open_tables_state{public:MDL_context mdl_context;enum enum_mark_columns mark_used_columns;unlong wat_privilege;LEX *lex;bool gtid_executed_warning_issued;...private:...LEX_CSTRING m_catalog;}
该数据结构较为复杂,在使用eBPF获取该数据结构的m_catalog时,显然是不能在内核中定义相同的数据结构来进行转换。
5)uretprobe获取入参值
在uretprobe触发时,寄存器中只能确保rax有效保留返回值,无法直接获取函数入参的值。


在PC端打开体验更佳哦~(关注公众号,点击菜单栏【试用下载-在线试用】获取试用环境专属账号密码)
4️⃣ 产品介绍:DBdoctor,致力于解决数据库的一切性能问题




