分布表
• 分布表可以使数据按指定的策略分布存储在不同的主机上,从而实现分布式数据存储和分 布式计算,解决大数据存储容量扩展和计算性能扩展的问题。
• 分布策略:采用hash分布、random分布策略存储数据
• 默认创建的表是随机分布表,每个节点上只保留部分表数据。 举例—随机分布表: CREATE TABLE t1(a int , b varchar(10), KEY a_key (a) USING HASH GLOBAL); 举例—hash分布表: CREATE TABLE student (stu_no varchar(10), stu_name varchar(200),stu_sex int)
DISTRIBUTED BY('stu_no')
选取distributed by列字段的原则:
• 在多表JOIN查询时,表中某列经常用于JOIN等值关联;
• 表中该列通常是等值查询的列,并且使用的频率很高;
• 做group by操作时,分组字段;
• 表中重复值较少的列,尽量让数据均匀分布。
被选为distributed by列字段,有如下限制说明:
• distributed by当前只支持varchar、int两种数据类型。
• distributed by列的值,不允许进行更新操作(update)。
• distributed by列不允许设置 default 值
复制表
复制表将会存在于各个节点上,即表的名字和数据完全一致。 需要使用REPLICATED关键字来创建复制表。 一般来说,小表(维度表)可以被创建成复制表。 一些表频繁参与JOIN查询表也可以被创建成复制表
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




