前言:本文记录hadoop伪分布环境搭建过程,作为学习笔记。hadoop部署模式包括本地模式、伪分布模式、完全分布模式、HA(高可用)完全分布式。

一、准备工作:
1.1、一台虚拟机
1.2、虚拟机安装Linux系统(本例使用CentOS7)
1.3、下载JDK和hadoop安装包
二、安装JDK
2.1、将JDK安装包jdk-7u80-linux-x64.tar.gz解压到/opt目录下
tar -xzvf software/jdk-7u80-linux-x64.tar.gz -C opt
2.2、添加环境变量
# vi etc/profile在文件结尾添加:
export JAVA_HOME=/opt/jdk1.7.0_80
export PATH=$PATH:$JAVA_HOME/bin
保存退出,使用 source etc/profile命令使文件生效
使用java -version查看java版本号检验环境变量是否生效。
三、安装hadoop
3.1、将hadoop安装包hadoop-2.7.3.tar.gz解压到/opt目录下
tar -xzvf /software/hadoop-2.7.3.tar.gz -C /opt
3.2、提前创建必要的文件夹、配置环境变量及免密登入
mkdir -p data/hadoop/hdfs/namemkdir -p data/hadoop/hdfs/datamkdir -p data/hadoop/tmp
添加环境变量
# vi etc/profile在文件结尾添加:
export HADOOP_HOME=/opt/hadoop-2.7.3export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
保存退出,使用 source /etc/profile命令使文件生效
配置免密登入
第一步:生成秘钥文件
ssh-keygen -t dsa -f ~/.ssh/id_dsa
第二步:将公钥存储
cat ~/.ssh/id_dsa_pub >> ~/.ssh/authorized_keys
验证:ssh localhost 不需要密码
3.3、修改配置文件,hadoop伪分布模式需要修改5个配置文件,配置文件目录为/opt/hadoop-2.7.3/etc/hadoop
修改hadoop-env.sh
如图所示添加export JAVA_HOME=/opt/jdk1.7.0_80

修改core-site.xml
添加如下信息:第一个属性是配置文件系统路径即NameNode的地址,Master为主机名或本机ip地址,第二个属性是配置临时文件路径,即开始创建的文件夹

修改hdfs-site.xml
添加以下信息:第一个属性是namenode存储路径,第二个属性是datanode存储路径,路径都是开始创建的文件夹;第三属性是指定文件副本数,由于只有一台机器设置副本数为1

修改mapred-site.xml,首先去掉.template后缀,指令:mv mapred-site.xml.template mapred-site.xml
添加以下信息:指定mapreduce运行在yarn上

修改yarn-site.xml
添加以下信息:指定reducer获取数据的方式;

3.4、格式化HDFS文件系统
hdfs namenode -format
四、启动并验证hadoop
4.1、启动hadoop
cd /opt/hadoop-2.7.3/sbin./start-all.sh
4.2、验证hadoop,输入jps可以看到如下进程

关闭防火墙systemctl disable firewalld.service(永久关闭),浏览器输入http://Master:8088可以看到如下页面,其中Master是主机名,可以用IP地址。

至此hadoop伪分布模式环境搭建完成。
五、小结
hadoop本地模式只需配置修改hadoop-evn.sh一个文件,本地模式不具有HDFS,只能测试MapReduce程序。伪分布式模式搭建需要修改5个配置文件,伪分布模式具有hadoop所有功能,在单机上模拟一个分布式环境。




