暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
资料-CentOS7搭建Hadoop-2.7.7集群.pdf
185
19页
1次
2022-10-20
50墨值下载
1. 技术选型
现阶段,搭建 Hadoop 集群主要有两种方式:
1、使用官网下载的安装包,或者官网的 Hadoop 源码包自行编译安装,或者使用安装包自行安装。这
种开源的方式最大的好处就是开源不收费,灵活可控。
2、使用 Hadoop 的发行厂商的套件进行安装,比如 Cloudera 企业的 CDHHortonWorks HDP
当然现在他们合并了,而且也是部分功能收费的。使用这些收费厂商的发行版本最大的好处,就是相对
来说,修复bug的速度会快于开源社区。
现阶段,比较典型的,就是少部分企业,选择 CDH,特别是个别有钱的中小企业。能用钱快速解决的
事情,绝对不麻烦程序员小哥哥自己开发。另外,中大型公司的主流选择,都是使用开源的源码自行编
译安装,然后开发对应的管理平台。好处就是可控。反正大厂中,没有程序小哥哥解决不了的bug。实
在不行,还有社区和开原组织。
所以该怎么选,还是根据企业的实际情况来选择。
在此,我们选择开源的 Hadoop。感谢 Apache 和广大开源社区。
2. Hadoop介绍
Hadoop2.x开始,就开始分化了。逐渐演变成:HDFSYARNMapReduce三大应用模块,这三个
应用模块分别的能力和作用是:
其中需要注意的是:这三者之间的关系。彼此独立,又相互依赖。使用 MapReduce 的分布式编程API
编写分布式计算应用程序,读取存储在 HDFS 上的海量大文件进行计算,由YARN提供计算资源。HDFS
YARN 可以独立运行。主要表现在:
所以称 Hadoop 是一个分布式的成熟解决方案。
所以其实安装 Hadoop,其实就是安装 HDFS YARN 两个集群。HDFS YARN 都是一个一主多从的
集群。
HDFS 集群:
YARN集群:
1HDFS分布式文件系统,用来解决海量大文件的存储问题
2MapReduce一套通用的用来解决海量大文件计算的编程模API
3YARN资源调度/管理系统
1、使MapReduce写的应有程序也可以运行在其他资源调度系统之上
2、使用其他编程模型编写的应用程序,比StormSparkFlink也可运行YARN群上
一个NameNode主节/理节
多个DataNode从节/作节
节点名称 HDFS YARN
bigdata02
NameNode + DataNode +
SecondaryNamenode
ResouceManager +
NodeManager
节点名称 HDFS YARN
bigdata02 NameNode + DataNode 主节点 NodeManager
bigdata03
DataNode +
SecondaryNamenode
NodeManager
bigdata04 DataNode
NodeManager + ResourceManager主节
3. 版本选择
现在 Hadoop 经历四个大版本:
根据以上的说明和比较,根据我的了解,我们选择使用 Hadoop-2.7.7
4. 集群规划
说到集群规划,那么我们需要了解一下关于 Hadoop 集群的几种模式。
主要有这么四种。当然企业中搭建的 Hadoop 集群都是高可用的分布式集群!所以这里讲的 Hadoop
集群的规划主要针对 Hadoop 分布式集群来进行说明。高可用的集群搭建的规划,我们后续说明。
如果准备一台服务器的话:那么肯定是搭建伪分布式了。
如果准备三台服务器的话:
如果准备四台服务器的话:
一个ResourceManager主节/理节
多个NodeManager从节/作节
hadoop-0.x # 古老HadoopYARN没有,现在应该没有任何企业还在使用这么古老的Hadoop
hadoop-1.x # 基本淘汰Hadoop本。不用考虑
hadoop-2.x # 现阶段主流的使用版本。比Hadoop-2.6.5 hadoop-2.7.7 hadoop-2.8.5
hadoop-3.x # 目前较新Hadoop本,提供了很多新特性,但是升级的企业还是比较少。
伪分布式
分布
高可
联邦集群
of 19
50墨值下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜