GBase 8a 数据库 表分为3中表,分别是:哈希分布表、随机分布表、复制表。
GBase 8a MPP Cluster 可处理 PB 级别以上的结构化数据,对于大表数据可以采用
分布存储模式,分布策略有随机分布或哈希分布两种方式进行数据分布式存储。用
户可以按照业务场景的需求,选择合适的分布策略,从而在性能、可靠性和灵活性
间获得最佳匹配。
随机分布模式
随机分布模式是指数据库创建随机分布的分布表,在对其进行加载时数据随机均等
的分布到数据集群的各个节点上。
哈希分布模式
哈希模式是指在加载时对原始数据中的每条数据中指定的哈希列进行处理,处理后
的数据按照哈希值装入特定的哈希桶中,每个哈希桶对应一个集群数据节点。这样
每个节点所得到的数据就都具有了某种共同特征(指定列都具有相同的哈希值),
在查询时优化引擎可以根据这些共同特征对查询计划进行优化,以达到缩短查询时
间的目的。
复制表
在集群中复制表所在的Distribution中的每个节点都保存一份全量数据,再与其它表进行关联查询时可以直接在本节点上完成,无需与其它节点进行交互,因此性能最优。但由于各个节点上数据完全相同,导致存储空间增加,因此通常用于小表、维度表或经常需要JOIN关联的数据表。
以下为几种关联执行计划的分类说明
(1)hash分布表关联hash分布表且hash列相同:
集群层下发sql到各节点层,执行结果汇总回发起节点;
(2)hash分布表关联hash分布表且hash列不相同/随机分布表关联随机分布表:
以关联的字段作为临时表的hash列进行重分布拉表,然后执行结果返回发起节点;
(3)hash分布表/随机分布表 关联复制表:
各节点执行结果返回发起节点;
(4)hash分布表关联随机分布表:
以hash表的hash列作为关联字段时,拉随机分布表并计算。




