前言:
spark的安装需要基于hadoop和hive的基础上操作。
安装准备
安装spark需要先搭建好hadoop的环境
hadoop安装实战笔记
如果需要用spark-sql开发,建议再装好hive的环境
cent0S7下的hive安装与配置实战笔记
开始安装
一、scala的安装
1、下载scala
wget https://downloads.lightbend.com/scala/2.11.7/scala-2.11.7.tgz
2、解压
tar -zxvf scala-2.11.7.tgz
3、移动到指定目录
我是将应用都放在了/usr/lcoal下面
cp scala-2.11.7 /usr/local/scala-2.11.7
4、配置环境变量
在/etc/profile中追加如下内容
# scala
export SCALA_HOME=/usr/local/scala-2.11.7
export PATH=$PATH:$SCALA_HOME/bin
完成配置修改后,使得profile重新生效
source /etc/profile
5、检验安装是否正常
scala -version
Scala code runner version 2.11.7 -- Copyright 2002-2013, LAMP/EPFL
二、安装spark
1、下载spark
wget https://d3kbcqa49mib13.cloudfront.net/spark-2.4.0-bin-hadoop2.7.tgz
2、解压
tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz
3、改名并移动到指定目录
我是将应用都放在了/usr/local下面
mv spark-2.4.0-bin-hadoop2.7.tgz /usr/local/spark-2.4.0
4、配置环境变量
在/etc/profile中追加
# spark
export SPARK_HOME=/usr/local/spark-2.4.0
export PATH=$PATH:$SPARK_HOME/bin
完成配置修改后,使得profile重新生效
source /etc/profile
三、配置SPARK环境
spark的环境只有两个文件需要调整:spark-env.sh和slaves
1、调整spark-env.sh
cd /usr/local/spark-2.4.0/conf
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
在最后增加如下内容:
# 环境变量
export JAVA_HOME=/usr/local/jdk1.8.0_191 # java的目录
export SCALA_HOME=/usr/local/scala-2.11.7 #scala的目录
export HADOOP_HOME=/usr/local/hadoop-2.8.4 #hadoop目录
export HADOOP_CONF_DIR=/usr/local/hadoop-2.8.4/etc/hadoop # hadoop配置文件目录
export SPARK_MASTER_IP=master # 主机ip或者域名
export SPARK_WORKER_MEMORY=1G # 给spark节点分配的内存,要加单位
export SPARK_WORKER_CORES=1 # 给spark节点分配的cpu核心
export SPARK_WORKER_INSTANCES=1 # 给spark节点分配的实例数
2、调整slaves
cp slaves.template slaves
在slaves中增加节点IP或者节点域名
// 我的节点配置
slave1
slave2
3、将spark目录复制到各个节点上
scp -r /usr/local/spark-2.4.0 root@slave1:/usr/local/
scp -r /usr/local/spark-2.4.0 root@slave2:/usr/local/
4、启动spark
/usr/lcoal/spark-2.4.0/sbin/start-all.sh
通过在节点上输入jps查看是否又work节点起来
jps
1664 NodeManager
2242 Jps
1555 DataNode
1977 Worker
5、验证
启动spark-sql
/usr/local/spark-2.4.0/bin/spark-sql
启动spark-shell
/usr/local/spark-2.4.0/bin/spark-shell
四、配置spark读取hive
1、在hive的配置文件hive-site.xml中增加属性
//远程模式(Remote): 远程安装mysql 替代derby存储元数据
<property>
<name>hive.metastore.uris</name>
<value>thrift://master:9083</value>
</property>
2、将hive的配置文件复制到spark配置文件中
cp /usr/local/hive-2.3.3/conf/hive-site.xml /usr/local/spark-2.4.0/conf/
scp -r /usr/local/hive-2.3.3/conf/hive-site.xml root@slave1:/usr/local/spark-2.4.0/conf/
scp -r /usr/local/hive-2.3.3/conf/hive-site.xml root@slave2:/usr/local/spark-2.4.0/conf/
3、将hive的连接mysql驱动复制到spark的jars文件中
cp /usr/local/hive-2.3.3/lib/mysql-connector-java-5.1.35.jar /usr/local/spark-2.2.0/jars
scp /usr/local/hive-2.3.3/lib/mysql-connector-java-5.1.35.jar root@slave1:/usr/local/spark-2.2.0/jars
scp /usr/local/hive-2.3.3/lib/mysql-connector-java-5.1.35.jar root@slave2:/usr/local/spark-2.2.0/jars
4、启动hive的metastore server
hive --service metastore &
5、启动spark
/usr/local/spark-2.2.0/sbin/start-all.sh
6、启动spark-sql
spark-sql
文章转载自大家都爱涨姿势,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




