延迟物化和计算下推

芬芳 2023-10-17

710

延迟物化

延迟物化是一个工程实现方面的优化，指的是在生成sorted run时仅物化RowID和ORDER BY相关的表达式（列），在计算出TopK的结果集后，再根据结果集中的RowID从存储上获取查询需要输出的列。延迟物化相比于在生成sorted run时就物化查询需要输出的所有列有两个优势：

物化RowID的空间占用更小，在可用执行内存一定的情况下，可以使用内存算法处理更大的数据量。
计算TopK的过程需要调整数据顺序，涉及对数据的Copy/Swap。如果在生成sorted run时就物化查询需要输出的所有列，则计算过程中对一条记录的Copy/Swap需要对每一列都进行相应操作，带来很大的overhead。而如果仅物化RowID，则可以降低Copy/Swap的代价。

延迟物化的不足之处在于根据结果集中的RowID从存储上获取查询需要输出的列时，可能会产生一些随机IO。分析后发现深翻页场景虽然K特别大，但实际结果集很小，因此使用延迟物化时随机IO产生的overhead较小。

计算下推

应用Self-sharpening Input Filter时，会将不断更新的cutoff value下推至table scan算子，作为SQL中一个新的predicate，在table scan算子获取数据时根据这个新的predicate，复用pruner对pack（或称为row group）进行过滤。

计算下推可以从两个方面提升TopK查询的性能：

减少IO：table scan时避免读取仅包含非结果集数据的pack/row group。
减少计算：被过滤的pack/row group中的数据将不再参与table scan上层算子的后续计算。

polardb

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者

延迟物化和计算下推

延迟物化

计算下推

评论