暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

华为GaussDB A 数仓集市场景

墨天轮 2019-10-12
1251

数仓集市场景

数仓集市,是指用分布式数据仓库和数据集市,完成数据的预处理、离线分析、主题查询等全流程的数据分析业务。数据仓库和数据集市通常以SQL语言为基本数据操作手段,同时支持用户自定义的数据处理函数,既能支持海量数据离线处理,又能支持在线交互查询。数仓集市是一种跟Hadoop完全独立的数据分析工具,可以承担的业务也有很多重叠。相比Hadoop,数仓集市在成本、数据规模上限、复杂数据挖掘、实时流处理方面有劣势,在SQL支持度、数据库兼容性、性能方面有优势。

数仓集市场景,需要部署GaussDB 200作为分布式MPP架构数据仓库,如图1所示:

图1 数仓集市场景

数仓集市场景需要的配置如下:

表1 数仓集市场景所需配置

节点类型

服务器配置

节点数量

说明

管理+控制节点

  • CPU:
    • x86服务器:双路12核Intel处理器(超线程48核)及其以上
    • 鲲鹏服务器:双路32核鲲鹏916处理器及以上
  • 内存:256GB及以上
  • 磁盘:6块600GB SAS 2.5寸硬盘
  • Raid卡:1GB LSI Raid0/1卡(支持3组以上Raid1)
  • 网卡:两个万兆网口 ,两个千兆网口。两个网口配置bond后分别接入两个接入交换机
    • 管理平面:2个GE口配置bond
    • 业务平面:2个10GE口配置bond

    交换机详细配置参见表2。

2

单节点6块盘组成3组Raid1,作用如下(共2节点,每个节点分区一致),分区详细介绍请参考准备操作系统。

  • OS盘
  • “/srv/BigData/dbdata_om”分区
  • “/srv/BigData/LocalBackup”分区

数据节点

  • CPU:
    • x86服务器:双路12核Intel处理器(超线程48核)及其以上
    • 鲲鹏服务器:双路32核鲲鹏916处理器及以上
  • 内存:512GB及以上
  • 磁盘:
    • 2块600GB SAS 2.5寸硬盘
    • 24块1.2T SAS 2.5寸硬盘
  • Raid卡:1GB LSI Raid0/1卡
    • 支持1组以上Raid1
    • 支持4组以上Raid5
  • 网卡:两个万兆网口,两个千兆网口。两个网口配置bond后分别接入两个接入交换机
    • 管理平面:2个GE口配置bond
    • 业务平面:2个10GE口配置bond

    交换机详细配置参见表2。

根据数据量计算

数据节点用于存储数据、提供计算资源。

节点数 = 规划数据量(单位TB) *1.2(数据膨胀率)* 2(副本数)/ 0.8(磁盘利用率) / 0.9 (磁盘格式化损失率)/ (5/6)(Raid5因子) /1.2(单磁盘容量) / 24(单节点磁盘数)

说明:

数据可以根据实际情况压缩,压缩率跟数据内容和格式密切相关,最少配置3台。

如果客户很难估计计算资源,计算出的集群配置能力不足时,通过扩容满足。

表2 交换机建议配置方案

名称

用途

数量

建议交换机配置

计算过程

千兆交换机

管理平面的接入交换机

节点数量 * 3/ (接入交换机GE口数量-2)

三层千兆以太网交换机,48个10/100/1000Base-T,4个万兆SFP+,交换容量680 Gbps/6.8 Tbps以上,包转发率420 Mpps以上,一个可扩展4*40 GE QSFP+接口板的扩展插槽。

管理平面接入交换机数量 = 节点数量 * 3(每节点2个管理平面GE接口 + 1个BMC口) / 46(接入交换机GE口数量48-堆叠端口数量2

加粗部分表示对前面数字的说明,以上结果向上取整,若小于2时为避免单点故障取值2。

用于接入管理平面、业务平面的交换机的个数需要是偶数个,否则会有一个交换机没办法堆叠出现单点。

万兆交换机

管理平面的汇聚交换机

管理平面接入交换机数量 * 2 / (汇聚交换机10GE口数量-2)

万兆交换机,48×10GE SFP+端口,2×40GE QSFP+端口,1个扩展插槽,支持4×40GE QSFP+插卡,包转发率:1080 Mpps,交换容量:2.56Tbps/23.04Tbps

管理平面汇聚交换机数量 = 管理平面接入交换机数量 * 2 / 46(汇聚交换机10GE口数量48-堆叠端口数量2

加粗部分表示对前面数字的说明,以上结果向上取整,若小于2时为避免单点故障取值2。

用于接入管理平面、业务平面的交换机的个数需要是偶数个,否则会有一个交换机没办法堆叠出现单点。

万兆交换机

业务平面的接入交换机

节点数量 * 2 / {(接入交换机10GE口数量 - 堆叠端口数量) * [接入汇聚收敛比/(1+接入汇聚收敛比)]}

说明:

其中除数“{(接入交换机10GE口数量 - 堆叠端口数量) * [接入汇聚收敛比/(1+接入汇聚收敛比)]}”需要先向下取整。

万兆交换机,48×10GE SFP+端口,2×40GE QSFP+端口,1个扩展插槽,支持4×40GE QSFP+插卡,包转发率:1080 Mpps,交换容量:2.56Tbps/23.04Tbps

按照接入汇聚收敛比为3(3:1),业务平面接入交换机数量 = 节点数量 * 2 / (46(接入交换机10GE口数量48-堆叠端口数量2)* 0.75)

加粗部分表示对前面数字的说明,以上结果向上取整,若小于2时为避免单点故障取值2。

用于接入管理平面、业务平面的交换机的个数需要是偶数个,否则会有一个交换机没办法堆叠出现单点。

万兆交换机

业务平面的汇聚交换机

业务平面接入交换机数量 * {(接入交换机10GE口数量48-堆叠端口数量2) * [1/(1+接入汇聚收敛比)] } / 汇聚交换机10GE口数量

说明:

其中除数“汇聚交换机10GE口数量”需要先向下取整。

万兆交换机,48×10GE SFP+端口,2×40GE QSFP+端口,1个扩展插槽,支持4×40GE QSFP+插卡,包转发率:1080 Mpps,交换容量:2.56Tbps/23.04Tbps

按照接入汇聚收敛比为3(3:1),业务平面汇聚交换机数量 = 业务平面接入交换机数量 * [46(接入交换机10GE口数量48-堆叠端口数量2) * 0.25 ] / 48(汇聚交换机10GE口数量

加粗部分表示对前面数字的说明,以上结果向上取整,若小于2时为避免单点故障取值2。

用于接入管理平面、业务平面的交换机的个数需要是偶数个,否则会有一个交换机没办法堆叠出现单点。

说明:
  • 单台物理服务器的DN数量建议值4,最大值8。

    通常单台物理服务器内的DN数量 = 该节点逻辑磁盘数,因此通常数据节点磁盘需要做若干组Raid。

    建议每台服务器配置24块数据盘,其中每6块盘做一组Raid5,共4组,设置4个DN。

  • 为保证数据均衡和可靠,集群需要划分成多个安全环。

    每个安全环内节点数=单物理服务器上的DN数+1,最小为3。安全环的设置由配置规划工具自动完成。

    集群按照安全环节点数量的倍数进行扩容,如果无法满足,最小的扩容节点数是3。


查看更多:华为GaussDB 200 安装前准备硬件
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论