spark安装和配置实战笔记

大家都爱涨姿势 2018-12-07

1041

前言：
spark的安装需要基于hadoop和hive的基础上操作。

安装准备

安装spark需要先搭建好hadoop的环境
hadoop安装实战笔记
如果需要用spark-sql开发，建议再装好hive的环境
cent0S7下的hive安装与配置实战笔记

开始安装

一、scala的安装

1、下载scala

wget https://downloads.lightbend.com/scala/2.11.7/scala-2.11.7.tgz

2、解压

tar -zxvf scala-2.11.7.tgz

3、移动到指定目录
我是将应用都放在了/usr/lcoal下面

cp scala-2.11.7 /usr/local/scala-2.11.7

4、配置环境变量
在/etc/profile中追加如下内容

# scala
export SCALA_HOME=/usr/local/scala-2.11.7
export PATH=$PATH:$SCALA_HOME/bin

完成配置修改后，使得profile重新生效

source /etc/profile

5、检验安装是否正常

scala -version
Scala code runner version 2.11.7 -- Copyright 2002-2013, LAMP/EPFL

二、安装spark

1、下载spark

wget https://d3kbcqa49mib13.cloudfront.net/spark-2.4.0-bin-hadoop2.7.tgz

2、解压

tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz

3、改名并移动到指定目录
我是将应用都放在了/usr/local下面

mv spark-2.4.0-bin-hadoop2.7.tgz /usr/local/spark-2.4.0

4、配置环境变量
在/etc/profile中追加

# spark
export SPARK_HOME=/usr/local/spark-2.4.0
export PATH=$PATH:$SPARK_HOME/bin

完成配置修改后，使得profile重新生效

source /etc/profile

三、配置SPARK环境

spark的环境只有两个文件需要调整:spark-env.sh和slaves
1、调整spark-env.sh

cd /usr/local/spark-2.4.0/conf
cp spark-env.sh.template spark-env.sh
vi spark-env.sh

在最后增加如下内容：

# 环境变量
export JAVA_HOME=/usr/local/jdk1.8.0_191   # java的目录
export SCALA_HOME=/usr/local/scala-2.11.7 #scala的目录
export HADOOP_HOME=/usr/local/hadoop-2.8.4  #hadoop目录
export HADOOP_CONF_DIR=/usr/local/hadoop-2.8.4/etc/hadoop  # hadoop配置文件目录
export SPARK_MASTER_IP=master  # 主机ip或者域名
export SPARK_WORKER_MEMORY=1G  # 给spark节点分配的内存，要加单位
export SPARK_WORKER_CORES=1    # 给spark节点分配的cpu核心
export SPARK_WORKER_INSTANCES=1 # 给spark节点分配的实例数

2、调整slaves

cp slaves.template slaves

在slaves中增加节点IP或者节点域名

// 我的节点配置
slave1
slave2

3、将spark目录复制到各个节点上

scp -r /usr/local/spark-2.4.0 root@slave1:/usr/local/
scp -r /usr/local/spark-2.4.0 root@slave2:/usr/local/

4、启动spark

/usr/lcoal/spark-2.4.0/sbin/start-all.sh

通过在节点上输入jps查看是否又work节点起来

jps
1664 NodeManager
2242 Jps
1555 DataNode
1977 Worker

5、验证
启动spark-sql

/usr/local/spark-2.4.0/bin/spark-sql

启动spark-shell

/usr/local/spark-2.4.0/bin/spark-shell

四、配置spark读取hive

1、在hive的配置文件hive-site.xml中增加属性

//远程模式（Remote）: 远程安装mysql 替代derby存储元数据
<property>
    <name>hive.metastore.uris</name>
    <value>thrift://master:9083</value>
</property>

2、将hive的配置文件复制到spark配置文件中

cp /usr/local/hive-2.3.3/conf/hive-site.xml  /usr/local/spark-2.4.0/conf/
scp -r /usr/local/hive-2.3.3/conf/hive-site.xml  root@slave1:/usr/local/spark-2.4.0/conf/
scp -r /usr/local/hive-2.3.3/conf/hive-site.xml  root@slave2:/usr/local/spark-2.4.0/conf/

3、将hive的连接mysql驱动复制到spark的jars文件中

cp /usr/local/hive-2.3.3/lib/mysql-connector-java-5.1.35.jar /usr/local/spark-2.2.0/jars
scp /usr/local/hive-2.3.3/lib/mysql-connector-java-5.1.35.jar root@slave1:/usr/local/spark-2.2.0/jars
scp /usr/local/hive-2.3.3/lib/mysql-connector-java-5.1.35.jar root@slave2:/usr/local/spark-2.2.0/jars

4、启动hive的metastore server

hive --service metastore &

5、启动spark

/usr/local/spark-2.2.0/sbin/start-all.sh

6、启动spark-sql

spark-sql

数据库

文章转载自大家都爱涨姿势，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。