1. 技术选型
现阶段,搭建 Hadoop 集群主要有两种方式:
1、使用官网下载的安装包,或者官网的 Hadoop 源码包自行编译安装,或者使用安装包自行安装。这
种开源的方式最大的好处就是开源不收费,灵活可控。
2、使用 Hadoop 的发行厂商的套件进行安装,比如 Cloudera 企业的 CDH,HortonWorks 的 HDP,
当然现在他们合并了,而且也是部分功能收费的。使用这些收费厂商的发行版本最大的好处,就是相对
来说,修复bug的速度会快于开源社区。
现阶段,比较典型的,就是少部分企业,选择 CDH,特别是个别有钱的中小企业。能用钱快速解决的
事情,绝对不麻烦程序员小哥哥自己开发。另外,中大型公司的主流选择,都是使用开源的源码自行编
译安装,然后开发对应的管理平台。好处就是可控。反正大厂中,没有程序小哥哥解决不了的bug。实
在不行,还有社区和开原组织。
所以该怎么选,还是根据企业的实际情况来选择。
在此,我们选择开源的 Hadoop。感谢 Apache 和广大开源社区。
2. Hadoop介绍
Hadoop从2.x开始,就开始分化了。逐渐演变成:HDFS,YARN,MapReduce三大应用模块,这三个
应用模块分别的能力和作用是:
其中需要注意的是:这三者之间的关系。彼此独立,又相互依赖。使用 MapReduce 的分布式编程API
编写分布式计算应用程序,读取存储在 HDFS 上的海量大文件进行计算,由YARN提供计算资源。HDFS
和 YARN 可以独立运行。主要表现在:
所以称 Hadoop 是一个分布式的成熟解决方案。
所以其实安装 Hadoop,其实就是安装 HDFS 和 YARN 两个集群。HDFS 和 YARN 都是一个一主多从的
集群。
HDFS 集群:
YARN集群:
评论