spark环境的搭建

最可爱的小哥哥 2019-07-29

176

安装scala

网上百度一个,很简单,就不重复了注意版本的选择

安装java

可以参考我以前的一篇文章,或者百度注意需要1.8+

Hadoop 安装

如果需要源码编译spark,scala,java,Hadoop等版本的选择很重要,否则编译安装几天,你会发现各种报错,网上有人贡献了版本列表,可以考参考他们的,对于源码编译spark,Hadoop环境是必不可少的,可以参考我以前的文章

spark安装

下载地址 http://spark.apache.org/downloads.html

将文件上传到master机器上,然后解压 tar -xf spark-2.2.0-bin-hadoop2.7.tgz

配置slaves

cd spark-2.2.0-bin-hadoop2.7/conf
cp slaves.template slaves
vi slaves,写入如下内容
slave1
slave2

配置spark-env.sh

cp spark-env.sh.template spark-env.sh
vi spark-env.sh写入如下内容
export JAVA_HOME=你的java目录

将配置好的spark拷贝到slave1和slave2节点上

scp -r ~/bigdata/spark-2.2.0-bin-hadoop2.7 hadoop-jrq@slave1:~/bigdata
scp -r ~/bigdata/spark-2.2.0-bin-hadoop2.7 hadoop-jrq@slave2:~/bigdata

配置环境变量

因为Hadoop的环境下也有start-all.sh等和spark相同的命令名,因此我自己不配置环境变量,以免混淆,启动时使用全路径就行了,真要配置请百度

启动

sh ~/bigdata/spark-2.2.0-bin-hadoop2.7/sbin/start-all.sh
http://master:8080/ 查看是否成功
使用~/bigdata/spark-2.2.0-bin-hadoop2.7/bin/spark-shell --master spark://master:7077测试spark代码

集群spark-submit提交应用

将spark应用打成jar包，用filezilla工具将jar包上传至服务器
spark-submit  \
--class 需要执行的类\
--master spark://master:7077 \
--deploy-mode client \
--driver-memory 1g \  
--executor-memory 1g \
--num-executors 2 \
你的jar包名

数据库

文章转载自最可爱的小哥哥，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

spark环境的搭建

评论