暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

GBase 8a Mpp Cluster集群产品性能优化篇之数据模型优化

原创 Bright 2022-04-12
301

•Hash列的选择

•根据数据特点,场景多为大表关联和等值查询条件的应考虑建hash分布表,选择分布键时要多了解数据,选择原则:

a)尽量选择count(distinct)值大的列做Hash分布列—数据均匀分布。

b)优先考虑大表间的JOIN,尽量让大表JOIN条件的列为Hash分布列(相关子查询的相关JOIN也可以参考此原则),以使得大表间的JOIN可以直接分布式执行—本地操作与分布式操作

c)其次考虑GROUP BY,尽量让GROUP BY带有Hash分布列,让分组聚合一步完成,使用频率很高的group by中的列。

d)选择某数据列随机性很大的字段,避免部分节点的热查询—平坦的查询处理

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论