数仓集市场景
数仓集市,是指用分布式数据仓库和数据集市,完成数据的预处理、离线分析、主题查询等全流程的数据分析业务。数据仓库和数据集市通常以SQL语言为基本数据操作手段,同时支持用户自定义的数据处理函数,既能支持海量数据离线处理,又能支持在线交互查询。数仓集市是一种跟Hadoop完全独立的数据分析工具,可以承担的业务也有很多重叠。相比Hadoop,数仓集市在成本、数据规模上限、复杂数据挖掘、实时流处理方面有劣势,在SQL支持度、数据库兼容性、性能方面有优势。
数仓集市场景,需要部署GaussDB 200作为分布式MPP架构数据仓库,如图1所示:

数仓集市场景需要的配置如下:
节点类型 |
服务器配置 |
节点数量 |
说明 |
---|---|---|---|
管理+控制节点 |
|
2 |
单节点6块盘组成3组Raid1,作用如下(共2节点,每个节点分区一致),分区详细介绍请参考准备操作系统。
|
数据节点 |
|
根据数据量计算 |
数据节点用于存储数据、提供计算资源。 节点数 = 规划数据量(单位TB) *1.2(数据膨胀率)* 2(副本数)/ 0.8(磁盘利用率) / 0.9 (磁盘格式化损失率)/ (5/6)(Raid5因子) /1.2(单磁盘容量) / 24(单节点磁盘数) 说明:
数据可以根据实际情况压缩,压缩率跟数据内容和格式密切相关,最少配置3台。 如果客户很难估计计算资源,计算出的集群配置能力不足时,通过扩容满足。 |
名称 |
用途 |
数量 |
建议交换机配置 |
计算过程 |
---|---|---|---|---|
千兆交换机 |
管理平面的接入交换机 |
节点数量 * 3/ (接入交换机GE口数量-2) |
三层千兆以太网交换机,48个10/100/1000Base-T,4个万兆SFP+,交换容量680 Gbps/6.8 Tbps以上,包转发率420 Mpps以上,一个可扩展4*40 GE QSFP+接口板的扩展插槽。 |
管理平面接入交换机数量 = 节点数量 * 3(每节点2个管理平面GE接口 + 1个BMC口) / 46(接入交换机GE口数量48-堆叠端口数量2) 加粗部分表示对前面数字的说明,以上结果向上取整,若小于2时为避免单点故障取值2。 用于接入管理平面、业务平面的交换机的个数需要是偶数个,否则会有一个交换机没办法堆叠出现单点。 |
万兆交换机 |
管理平面的汇聚交换机 |
管理平面接入交换机数量 * 2 / (汇聚交换机10GE口数量-2) |
万兆交换机,48×10GE SFP+端口,2×40GE QSFP+端口,1个扩展插槽,支持4×40GE QSFP+插卡,包转发率:1080 Mpps,交换容量:2.56Tbps/23.04Tbps |
管理平面汇聚交换机数量 = 管理平面接入交换机数量 * 2 / 46(汇聚交换机10GE口数量48-堆叠端口数量2) 加粗部分表示对前面数字的说明,以上结果向上取整,若小于2时为避免单点故障取值2。 用于接入管理平面、业务平面的交换机的个数需要是偶数个,否则会有一个交换机没办法堆叠出现单点。 |
万兆交换机 |
业务平面的接入交换机 |
节点数量 * 2 / {(接入交换机10GE口数量 - 堆叠端口数量) * [接入汇聚收敛比/(1+接入汇聚收敛比)]} 说明:
其中除数“{(接入交换机10GE口数量 - 堆叠端口数量) * [接入汇聚收敛比/(1+接入汇聚收敛比)]}”需要先向下取整。 |
万兆交换机,48×10GE SFP+端口,2×40GE QSFP+端口,1个扩展插槽,支持4×40GE QSFP+插卡,包转发率:1080 Mpps,交换容量:2.56Tbps/23.04Tbps |
按照接入汇聚收敛比为3(3:1),业务平面接入交换机数量 = 节点数量 * 2 / (46(接入交换机10GE口数量48-堆叠端口数量2)* 0.75) 加粗部分表示对前面数字的说明,以上结果向上取整,若小于2时为避免单点故障取值2。 用于接入管理平面、业务平面的交换机的个数需要是偶数个,否则会有一个交换机没办法堆叠出现单点。 |
万兆交换机 |
业务平面的汇聚交换机 |
业务平面接入交换机数量 * {(接入交换机10GE口数量48-堆叠端口数量2) * [1/(1+接入汇聚收敛比)] } / 汇聚交换机10GE口数量 说明:
其中除数“汇聚交换机10GE口数量”需要先向下取整。 |
万兆交换机,48×10GE SFP+端口,2×40GE QSFP+端口,1个扩展插槽,支持4×40GE QSFP+插卡,包转发率:1080 Mpps,交换容量:2.56Tbps/23.04Tbps |
按照接入汇聚收敛比为3(3:1),业务平面汇聚交换机数量 = 业务平面接入交换机数量 * [46(接入交换机10GE口数量48-堆叠端口数量2) * 0.25 ] / 48(汇聚交换机10GE口数量) 加粗部分表示对前面数字的说明,以上结果向上取整,若小于2时为避免单点故障取值2。 用于接入管理平面、业务平面的交换机的个数需要是偶数个,否则会有一个交换机没办法堆叠出现单点。 |
- 单台物理服务器的DN数量建议值4,最大值8。
通常单台物理服务器内的DN数量 = 该节点逻辑磁盘数,因此通常数据节点磁盘需要做若干组Raid。
建议每台服务器配置24块数据盘,其中每6块盘做一组Raid5,共4组,设置4个DN。
- 为保证数据均衡和可靠,集群需要划分成多个安全环。
每个安全环内节点数=单物理服务器上的DN数+1,最小为3。安全环的设置由配置规划工具自动完成。
集群按照安全环节点数量的倍数进行扩容,如果无法满足,最小的扩容节点数是3。
查看更多:华为GaussDB 200 安装前准备硬件