GPDB HashAgg算法 | 第3期 | 版本6的spill溢出磁盘解秘

yanzongshuaiDBA 2024-09-09

148

上期我们介绍了版本12的spill场景下hashagg如何进行操作，本期接着介绍下GPDB版本6是怎么操作的，它是否和版本12的原理一样？当然不一样，和版本12将不在当前hash表分组的元组溢出到磁盘不同，它是将当前hash表溢出到磁盘，然后再将元组插入到腾出空间的hash表中。

1、hash表的管理

Hash表的结构为HashAggTable，由聚合算子执行状态结构AggState管理。和PgSQL12版本不同的是，他只有一个hash表。SpillSet用来管理溢出文件，HashAggTableSizes有hash表一些信息：nbatches为临时文件个数，由配置项gp_hashagg_default_nbatches控制，默认32；nentries为hash表容纳的组数，即hash表大小；nbuckets为hash表的桶数，nentries/gp_hashagg_groups_per_bucket。HashAggBucket用来管理Hash桶，每个成员为HashAggEntry，存有分组值和分组聚合值、hash值；若发生hash冲突，则通过链表的形式串在一起。

2、hash表spill机制

2.1 spill写

1）首先通过agg_hash_initial_pass构建hash表，会将所有值都处理一遍，若内存中放不下，则将hash表溢出写磁盘腾出空间后，继续构建hash表。处理完成后（溢出磁盘场景），所有值都在磁盘临时文件中进行了分组。实际上，每个hash桶映射到一个文件中，若hash桶数大于临时文件个数，则多个hash桶会映射到一个文件中。如此，最后相当于将元组进行了一次粗略分组，写到各个临时文件中

2）agg_hash_initial_pass的spill_hash_table函数就是将hash表溢出到磁盘，然后通过lookup_agg_hash_entry继续插入hash表

3）最后一批hash表内存中的数据(hashtable->is_spilling)也需要溢出磁盘，不过此时会调用suspendSpillFiles->BufFileSuspend函数将每个临时文件通过BufFileEndCompression释放压缩内存

4）spill_hash_table函数首先通过obtain_spill_set创建32个spillfile，然后通过如下方式写磁盘：从最后一个spill文件号开始依次向前遍历，比如先将31号桶写到spill_files[31]中，然后再将31+32=63号桶也写到31号，向后按照31的步长写桶；写完后再向前遍历，即处理30号桶，再按照上面方式写磁盘。写一个临时文件时，若开启压缩的话，会调用BufFilePledgeSequential->BuffileStartCompression开启压缩

需要注意的是：使用的是zstd压缩算法，虽然性能不错，但是比较耗内存，不论向该文件写多少内容，大概一个文件都需要1.3MB，当临时文件特别多的时候，内存耗费就相当大了；而且这个内存还是zstd内部的，不受GPDB的内存管理，会造成操作系统的OOM

2.2 spill读

通过agg_hash_next_pass->agg_hash_reload依次加载所有临时文件，重新构建hash表，将分组值进一步进行精确划分。当然，若是当前文件加载的时候，又发生溢出磁盘，则需要再次将其hash表写磁盘，当然这时候的写磁盘需要将上次中的一个spill_files的东西进一步划分后，再将hash表写磁盘。

读之前，需要reset_agg_hash_table通过该文件的记录数重新规划hash表大小，这样的话，上一次的hash表同一个文件的内容再次hash后会根据新hash表大小将不同分组进一步分散到不同hash桶，而不是仍旧在同一个hash桶。

GPDB6的加载是遍历spillfiles数组来将各个文件依次加载并进一步hash。

和PgSQL12方式最大区别：PgSQL12是总是保持内存hash表的一批分组值，内存不够时，将元组值按照hash值溢出到临时文件，处理一圈元组后，就可以将当前内存中的hash表分组输出；而GPDB6则需要将所有值全部溢出磁盘，最终形成一个临时文件，将其加载内存构建好hash表，并且没有再次溢出磁盘时才会输出分组值。总体来说，GPDB6的输出时机比较靠后，而PgSQL12的输出间隔相对较小。也就是PgSQL12的算法还是比较具有优势的。

文章转载自yanzongshuaiDBA，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

GPDB HashAgg算法 | 第3期 | 版本6的spill溢出磁盘解秘

1、hash表的管理

2、hash表spill机制

2.1 spill写

2.2 spill读

评论