暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

GBase 8a MPP Cluster集群实施空间规划建议

郑小雯 2023-10-16
110

GBase 8a MPP Cluster集群实施规划内容

数据模型规划 

数据分布规划

 空间规划

 高可用规划


HASH分布的规划原则:

选取合适的distributed by列字段作为分布列:

• 在多表JOIN查询时,表中某列经常用于JOIN等值关联;

• 表中该列通常是等值查询的列,并且使用的频率很高;

• 表中重复值较少的列,尽量让数据均匀分布。

• 选择count(distinct)值大的列做Hash分布列。

举例:

Create table user_info ( stat_date date , user_id varchar(20)) distributed by (‘user_id’);

数据情况:表中数据 100万条,日期stat_date全是20131231,user_id 完全无重复。


• 选择user_id作为分布列,则每个节点上分布的数据基本相同。


• 选择stat_date 作为分布列,因为全是20131231,则所有数据都会落到一个 节点上,造成性能瓶颈,没达到均匀分布、分散计算的目的。


在联邦架构的数据库管理系统中,硬件配置重点要考虑数据 吞吐量及其效率,其硬件配置主要考虑:

› 单一节点配置:

• 磁盘性能配置考量

• CPU和内存配置考量

› 节点数量(取决于单一节点配置和总数据量规划)

› 节点间网络连接配置:

• 建议网络带宽为万兆网络10Gbps

• 多交换机间连接和级联方式

CPU配置建议:集群节点服务器CPU物理核数大于等于16

内存配置建议:集群节点物理内存与物理CPU核数比为4:1~8:1

硬盘配置建议:

• 选用高转速硬盘 rpm >= 10k

• 使用节点服务器的本地盘,避免使用共享存储

• 操作系统和数据存储分别做独立RAID,操作系统采用RAID1,数据存储采用 RAID5或RAID50(建议不多于8块盘做一个RAID,磁盘数量多时采用RAID50 方案)

网卡及网络集成方案配置建议:

• 配置2块万兆网卡,并进行主备单活模式绑定

• 配置2台万兆交换机组成高可用方案,主备交换机间采用绑定2端口以上进行级联

• 集群节点、加载机置于同一个单独VLAN下,并采用万兆网络互连

• 配置千兆网卡用于集群管理和外部系统连接

集群节点硬件建议

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论