暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

【全网独家】大数据集群节点与硬件规划

大数据研习社 2022-03-28
1016

长按二维码关注

大数据领域必关注的公众号


01        
大数据集群节点规划


1.1 数据存储总量预估

比如业务系统数据量每天增量 50T,保留周期为 30 天,那么 HDFS 存储 容量为 50T * 30 天 * 3 副本 * 2 倍(数据源+清晰加工) = 9000T = 8.79P 


1.2 DataNode节点规模预估

每个机器的磁盘是 4T * 10 = 40T, 每台机器的可用存储容量为 40T * 0.75 = 30T, 节点预估数量= 9000T 30 = 300 节点,所以 datanode 的节 点最小数量为 300 个,也是 YARN 的nodemanager 的节点数 


1.3 NodeManager节点规模预估

根据任务量和性能评估 YARN 的节点数是很难的,难以评估,所以 NodeManager节点数可以和datanode节点数保持一致,如果算力负载过高, 根据实际情况再扩容即可。


1.4 HBase节点规模预估

HBase 节点规划:一般开始搭建是根据 HDFS 存储公式计算即可,增加并 发的考虑,一般一个 RegionSever 并发为 5000 ~2 万(优化后并发更高), 可以根据业务实际并发估计节点数量 


1.5 Kafka节点规模预估

Kafka 节点规划:一般开始搭建是根据类似 HDFS 存储公式计算,一般一 个 broker 并发为 5 万(优化后并发更高),可以根据业务实际并发估计节点 数量


1.6 Zookeeper节点规模预估

Zookeeper 节点规划:集群开始搭建时 3 节点就够用了,如果发现 zookeeper 负载过高或有超时现象时可以考虑扩展到 5 节点 集群中的每个组件要做高可用,一般国企会用 CDH,互联网公司会用开源 社区版演化自己平台 


1.7 NameNode内存规划

NameNode 内存一般 100 万个 block 对应 1G 的堆内存,比如我们最大 的一个集群的 block 达到了 9000 万,会占内容 90G,NameNode 的内存不 只存放 block,我们产线环境配置的是200G+


02        
集群硬件规划

2.1 HDFS 节点配置 

主节点 NameNode 主要 CPU/内存配置高些,系统盘做 RAID1,hdfs 要 安装在系统盘上,如果有其他的数据盘,可以做 RAID5,容量所需不大,500G~ 1T 即可 



从节点 datanode 内存/CPU/磁盘都有要求,我们产线存储每服务器 4T*10=40T 台



2.2 YARN 节点配置 

主节点 ResourceManager 主要 CPU/内存配置高些,系统盘做 RAID1,hdfs 要安装在系统盘上,如果有其他的数据盘,可以做 RAID5,容量所需不大, 500G~1T 即可 



从节点 NodeManager 对 CPU 和内存都有要求



2.3 HBase 节点配置 

主节点 Master CPU 内存中配就行



从节点 RegionServer 内存可以大些



2.4 Kafka 产线配置



03        
大数据运维真经


3.1 标准生产集群建设



3.2 标准生产集群调优



3.3 生产集群问题



3.4 集群监控部署



欢迎点赞 + 收藏 + 在看  素质三连 


往期精彩回顾
程序员,如何避免内卷
Apache 架构师总结的 30 条架构原则
【全网首发】Hadoop 3.0分布式集群安装
大数据运维工程师经典面试题汇总(附带答案)
大数据面试130题
某集团大数据平台整体架构及实施方案完整目录
大数据凉凉了?Apache将一众大数据开源项目束之高阁!
实战企业数据湖,抢先数仓新玩法
Superset制作智慧数据大屏,看它就够了
Apache Flink 在快手的过去、现在和未来
华为云-基于Ambari构建大数据平台(上)
华为云-基于Ambari构建大数据平台(下)
【HBase调优】Hbase万亿级存储性能优化总结
【Python精华】100个Python练手小程序
【HBase企业应用开发】工作中自己总结的Hbase笔记,非常全面!
【剑指Offer】近50个常见算法面试题的Java实现代码

长按识别左侧二维码

     关注领福利    

  领10本经典大数据书

文章转载自大数据研习社,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论