搭建前的准备

科技Dou知道 2021-01-14

274

近年来关于大数据的话题越来越火热，那么什么是大数据？

大数据（Big Data），就是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

在大数据技术中大数据平台的搭建是必不可少的，从今天开始小编就手把手带大家搭建大数据平台。但在搭建平台之前首先要准备主机（简单说就是电脑），在实际的生产环境中不可能是一台主机的，但是考虑是学习的情况下我们需要准备一台配置为8代CPU、8GB内存、256GB硬盘或更高配置的电脑来搭建一个伪分布式大数据平台。

本文中所用到的软件及系统版本如下：

VMware Workstation Pro 15

Ubuntu 18.04.5

Xshell 6

Xftp 6

一、VMware Workstation 介绍

VMware Workstation（中文名“威睿工作站”）是一款功能强大的桌面虚拟计算机软件，提供用户可在单一的桌面上同时运行不同的操作系统，和进行开发、测试、部署新的应用程序的最佳解决方案。VMware Workstation可在一部实体机器上模拟完整的网络环境，以及可便于携带的虚拟机器，其更好的灵活性与先进的技术胜过了市面上其他的虚拟计算机软件。对于企业的 IT开发人员和系统管理员而言， VMware在虚拟网路，实时快照，拖曳共享文件夹，支持 PXE 等方面的特点使它成为必不可少的工具。[1]

二、虚拟网卡配置及系统安装

首先要安装好虚拟机软件VMware Workstation Pro 15，具体安装过程这里就不详细说明，安装完成后打开VMware Workstation Pro，依次点击菜单栏中编辑-虚拟网络编辑器配置虚拟机网卡，具体步骤如下

点击图片上方网卡名称中的VMnet8并配置下方的子网IP和子网掩码，子网IP更改为192.168.100.0 ，子网掩码更改为255.255.255.0

点击上一个图片中部的NAT设置，并配置网关为192.168.100.1，之后点击确定

接着点击第一张图片下方的DHCP设置，并配置起始IP地址和结束IP地址，分别为192.168.100.50和192.168.100.254，然后点击确定

最后点击确定，这样虚拟机网卡就配置好了，接下来安装系统，依次点击菜单栏中文件-新建虚拟机

点击下一步

选择稍后安装操作系统，然后点击下一步

依次选择Linux和Ubuntu 64 位

修改虚拟机名称为master并指定一个位置（默认位置就可以），然后点击下一步

配置处理器为1个1核，然后点击下一步

配置内存为2G，然后点击下一步

配置网络连接为NAT，然后点击下一步

配置I/O控制器类型，这个默认就可以，然后点击下一步

配置虚拟磁盘类型，这个选择默认配置，然后点击下一步

选择磁盘，选择第一个创建新虚拟磁盘，然后点击下一步

配置磁盘容量为50GB并将虚拟磁盘拆分为多个文件，然后点击下一步

指定磁盘文件，这个默认就可以，然后点击下一步

点击完成

接下来点击左侧的设备中的CD/DVD设置

选择Ubuntu系统ISO镜像，然后点击确定

点击左侧开启此虚拟机进入系统安装界面，选择English

都选择English(US)，然后点击Done

网卡配置，这里直接点击Done，在系统安装好后我们再进行配置

这里直接点击Done

这里设置镜像源，采用阿里云提供的镜像源 http://mirrors.aliyun.com/ubuntu ，然后点击Done

接下来是选择硬盘，一路点击Done并Continue

设置用户名、主机名及用户密码，下面图片中从上往下依次填写 hadoop ；master ；hadoop ；123456 ；123456 ，然后点击Done

选中 Install OpenSSH server 并点击Done

这里不需要安装其它服务，直接点击Done

等待系统安装结束

当下方出现 Cancel update and reboot 时立即点击它，取消系统更新并重新启动

这时系统已经安装完毕了，之后会提示你推出安装盘并点击ENTER，这时直接点击ENTER即可，系统就会自动重启，等待进入系统后输入用户名hadoop和密码123456，并请执行 $ sudo poweroff 命令来关机，这时会让你输入用户密码123456，输入后即可关闭。

我们知道部署大数据平台不只是一台主机，然而现在我们只安装好了一台，接下来就要重复我们刚才的操作，再次安装2台主机，毫无疑问这是很繁琐的，因此我们使用虚拟机中特有的功能-克隆虚拟机，根据master主机直接克隆出2台就好了，详细操作步骤如下。

依次点击菜单栏中虚拟机-管理-克隆，出现克隆向导后点击下一步

选择虚拟机中的当前状态，然后点击下一步

选择创建完整克隆，然后点击下一步

更改虚拟机名称为slave1并设置位置（默认就可以），然后点击完成

等待克隆结束点击关闭

这样我们就根据master主机克隆出了一台名称为slave1的主机，同样地，我们使用相同的操作再次克隆出一个名称为slave2的主机，这里重复的操作就不再展示。

到这里，3台主机就已经准备好了。

三、设置系统相关配置

1. 网卡设置

启动3台主机并使用hadoop用户名登录，首先配置master主机，执行

$ sudo vim etc/netplan/00-installer-config.yaml

修改为以下配置

# This is the network config written by 'subiquity'
network:
  ethernets:
    ens33:
      dhcp4: false
      addresses: [192.168.100.101/24]
      gateway4: 192.168.100.1
      nameservers:
              addresses: [114.114.114.114]
  version: 2

接下来使网卡配置生效

$ sudo netplan apply

同样地，配置slave1主机和slave2主机，唯一不同的是配置文件中addresses参数分别为[192.168.100.102/24]和[192.168.100.103/24]。

2. 关闭防火墙

在所有主机上执行

$ sudo ufw disable

3. 设置主机名

为什么要设置主机名呢？这是因为在根据master主机克隆的同时把主机名也克隆了，这就导致slave1主机和slave2主机的主机名也为master，因此要进行配置，在slave1上执行以下命令并修改master为slave1

$ sudo vim etc/hostname

同样地，在slave2主机上要修改为slave2，为了生效配置我们要执行 sudo reboot 命令重启slave1主机和slave2主机。

4. 配置主机名映射

分别在3台主机上执行以下命令

$ sudo vim etc/hosts

修改文件为

127.0.0.1 localhost
192.168.100.101 master
192.168.100.102 slave1
192.168.100.103 slave2


# The following lines are desirable for IPv6 capable hosts
::1     ip6-localhost ip6-loopback
fe00::0 ip6-localnet
ff00::0 ip6-mcastprefix
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters

5. SSH免密功能配置

分别在3台主机上执行以下命令

$ ssh-keygen
$ ssh-copy-id master

其中执行 $ ssh-keygen 命令后一路按ENTER即可，执行$ ssh-copy-id master 命令时要输入master主机hadoop用户的密码。

接下来在master主机上分发公钥文件

$ scp ~/.ssh/authorized_keys slave1:~/.ssh/
$ scp ~/.ssh/authorized_keys slave2:~/.ssh/

与此同时系统会让输入slave1主机和slave2主机hadoop用户的密码，这样ssh免密功能就配置好啦，可以在master上尝试 $ ssh slave1 命令和 $ ssh slave2 命令进行验证是否为免密登录。

做完以上操作后系统的准备工作就做好了，但实际在操作主机时是不会真的在主机上操作，而通常是通过一个远程连接软件来操作主机的，那么我们就来使用XShell软件实现远程登录。

为了以后操作方便，我们首先为宿主系统配置主机名映射，使用文本编辑器打开 C:\Windows\System32\drivers\etc\host 文件并在文件末尾添加以下配置并保存退出

192.168.100.101 master
192.168.100.102 slave1
192.168.100.103 slave2

接下来打开XShell软件，依次点击菜单栏文件-新建，弹出一个对话框后设置名称和主机都为master，然后直接点击连接，最后输入用户名和密码即可成功连接

salve1主机和slave2主机同样进行连接，以后搭建集群直接开启虚拟机然后使用XShell远程连接操作即可。

为了使搭建逻辑更清晰我们分别在3台主机上的~目录（/home/hadoop目录）下建立 software 和 servers 两个文件夹，software目录用于存放软件包，servers目录用于存放服务安装位置。

到这里，部署集群前的准备就已经完成了，若想要获得本页中所用到的软件及系统请在公众号后台回复关键词准备

最后别忘了关注一下公众号哦

参考：

[1] https://baike.baidu.com/item/VMware%20Workstation

编辑：蔡猛

声明：

1.本公众号所转载文章均来自公开网络，仅供学习交流使用，不会用于任何商业用途。

2.如果出处标注有误或侵犯到原著作者权益，请联系 @caimeng99526 删除，谢谢。

3.转载本公众号中的文章请注明原文链接和作者，否则产生的任何版权纠纷均与本公众号无关。

数据库

文章转载自科技Dou知道，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

搭建前的准备

评论