如何选用HASH 分布策略,保证数据分布均匀是获取高性能的关键所在。
选择的依据遵从四大原则:
1、 就是首先保证所有节点数据存放是均匀的,避免出现节点出现数据分布过多或过少情况;
2、 如果经常进行大表连接,尽量把连接字段定义成hash 分布字段,这样尽量减少无效的节点间拉表操作;
3、尽量保证where 条件产生的结果集的存储也尽量是均匀的,避免在做查询的时候,出现某些节点过于繁忙或清闲的情况;
4、选择使用频率高的group by 字段作为hash 字段。
被选为distributed by列字段限制说明:
distributed by当前只支持varchar、int两种数据类型。
distributed by列的值,不允许进行更新操作(update)。
distributed by列不允许设置 default 值。
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




