GBase 8a MPP Cluster集群实施规划内容
数据模型规划
数据分布规划
空间规划
高可用规划
HASH分布的规划原则:
选取合适的distributed by列字段作为分布列:
• 在多表JOIN查询时,表中某列经常用于JOIN等值关联;
• 表中该列通常是等值查询的列,并且使用的频率很高;
• 表中重复值较少的列,尽量让数据均匀分布。
• 选择count(distinct)值大的列做Hash分布列。
举例:
Create table user_info ( stat_date date , user_id varchar(20)) distributed by (‘user_id’);
数据情况:表中数据 100万条,日期stat_date全是20131231,user_id 完全无重复。
• 选择user_id作为分布列,则每个节点上分布的数据基本相同。

• 选择stat_date 作为分布列,因为全是20131231,则所有数据都会落到一个 节点上,造成性能瓶颈,没达到均匀分布、分散计算的目的。

在联邦架构的数据库管理系统中,硬件配置重点要考虑数据 吞吐量及其效率,其硬件配置主要考虑:
› 单一节点配置:
• 磁盘性能配置考量
• CPU和内存配置考量
› 节点数量(取决于单一节点配置和总数据量规划)
› 节点间网络连接配置:
• 建议网络带宽为万兆网络10Gbps
• 多交换机间连接和级联方式
CPU配置建议:集群节点服务器CPU物理核数大于等于16
内存配置建议:集群节点物理内存与物理CPU核数比为4:1~8:1
硬盘配置建议:
• 选用高转速硬盘 rpm >= 10k
• 使用节点服务器的本地盘,避免使用共享存储
• 操作系统和数据存储分别做独立RAID,操作系统采用RAID1,数据存储采用 RAID5或RAID50(建议不多于8块盘做一个RAID,磁盘数量多时采用RAID50 方案)
网卡及网络集成方案配置建议:
• 配置2块万兆网卡,并进行主备单活模式绑定
• 配置2台万兆交换机组成高可用方案,主备交换机间采用绑定2端口以上进行级联
• 集群节点、加载机置于同一个单独VLAN下,并采用万兆网络互连
• 配置千兆网卡用于集群管理和外部系统连接
集群节点硬件建议




