暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Gbase8a MPP Hash分布列的选择原则

无涯有涯 2022-09-05
1293

根据数据特点为大表关联和等值查询条件的应考虑建 hash 分布表,选择分布键时要结合数据特征,选择的原则如下:

数据均匀分布:尽量选择 count(distinct)值大的列做 Hash 分布列,尽量使数据均匀分布;

分布式多节点操作:优先考虑大表间的 JOIN,尽量让大表 JOIN 条件的列为Hash 分布列(相关子查询的相关 JOIN 也可以参考此原则),以使得大表间的 JOIN 可以直接分布式发布到每个节点执行;

尽量选择使用频率高的 grour by 列:尽量让 GROUP BY 带有 Hash 分布列,让分组聚合一步完成;

多节点运行:选择某数据列随机性很大的字段,避免部分节点的热查询,导致执行性能不均衡;

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论