暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

原生spark部署

闵栋 2023-02-25
413


是新朋友吗?记得点击下面名片,关注我哦



听段舒缓的音乐,咱们一起开启阅读之旅。



1、准备

1.1、下载并安装jdk


下载地址:

https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

下载匹配操作系统和架构的jdk,安装jdk ,网上教程很多,不再赘述。

本例下载版本是:jdk-8u333-linux-x64.tar.gz

JAVA_HOME=/opt/module/jdk1.8.0_333



1.2、下载并安装hadoop集群

下载地址:

https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/

本例下载版本是:hadoop-3.3.3.tar.gz

部署手册参考往期微信公众号,如下:

hadoop集群部署-1

hadoop集群部署-2

hadoop集群部署-3


hadoop集群部署-4



1.3、下载spark

下载地址:

https://spark.apache.org/downloads.html

选择对应的hadoop版本后,然后下载对应版本的spark

本例下载版本是:spark-3.3.2-bin-hadoop3.tgz




2、部署spark

2.0、前置工作检查


前置条件check:

        > jdk部署----done

        > 主机名配置----done

        > 免密码登陆配置----done

        > 防火墙关闭----done


2.1、解压缩spark安装包

备注:spark-3.3.2-bin-hadoop3.tgz 已上传到 opt/software/

目标安装路径为 opt/software/

    cd /opt/software/


    tar -zxvf spark-3.3.2-bin-hadoop3.tgz -C opt/module


    #扩展信息

      #spark 目录介绍  
      drwxr-xr-x 2 501 nps1900 4096 2月 11 01:40 bin--------spark操作命令
      drwxr-xr-x 2 501 nps1900 4096 2月 11 01:40 conf-------配置文件
      drwxr-xr-x 5 501 nps1900 4096 2月 11 01:40 data-------例子里面用的一些数据
      drwxr-xr-x 4 501 nps1900 4096 2月 11 01:40 examples---自带的例子-源码
      drwxr-xr-x 2 501 nps1900 20480 2月 11 01:40 jars-------jar
      drwxr-xr-x 4 501 nps1900 4096 2月 11 01:40 kubernetes
      -rw-r--r-- 1 501 nps1900 22940 2月 11 01:40 LICENSE
      drwxr-xr-x 2 501 nps1900 4096 2月 11 01:40 licenses
      -rw-r--r-- 1 501 nps1900 57842 2月 11 01:40 NOTICE
      drwxr-xr-x 9 501 nps1900 4096 2月 11 01:40 python
      drwxr-xr-x 3 501 nps1900 4096 2月 11 01:40 R
      -rw-r--r-- 1 501 nps1900 4461 2月 11 01:40 README.md----spark说明
      -rw-r--r-- 1 501 nps1900 165 2月 11 01:40 RELEASE
      drwxr-xr-x 2 501 nps1900 4096 2月 11 01:40 sbin--集群命令,有自带的集群环境
      drwxr-xr-x 2 501 nps1900  4096 2月  11 01:40 yarn--spark-yarn配置





      2.2、重命名Spark文件夹

      备注:为后续使用方便,重命名spark文件夹


        cd /opt/module/


        mv spark-3.3.2-bin-hadoop3/ spark-3.3.2


        备注: 若启动报权限问题,或文件找不到之类的 ,发现文件夹权限低于755,尝试执行下面命令 :

        chmod -R 755 opt/module/spark-3.3.2


        2.3、配置spark集群

        2.3.1、配置spark-env.sh


        进入spark-3.3.2/conf 文件夹,重命名配置文件


          cd opt/module/spark-3.3.2/conf


          mv spark-env.sh.template spark-env.sh


          修改配置文件 spark-env.sh ,如下:

            vi spark-env.sh


            export JAVA_HOME=/opt/module/jdk1.8.0_333
            export SPARK_MASTER_HOST=hadoop101
            export SPARK_MASTER_PORT=7077


            备注:以上信息按照实际情况配置。

            2.3.2、配置workers

            进入spark-3.3.2/conf 文件夹,重命名配置文件

              cd opt/module/spark-3.3.2/conf


              mv workers.template workers


                vi workers  




                # 添加上从服务器节点信息:
                hadoop102
                hadoop103


                #扩展信息


                #spark-3.3.2版本conf文件夹,有workers,没有slaves


                #低版本spark,例如2.4.0版本conf文件夹slaves,没有workers



                  在低版本spark部署需要配置slaves文件
                   ---conf文件夹下面没有workers.template
                  cd /opt/module/spark-3.3.2/conf


                  mv slaves.template slaves
                  vi slaves


                  添加上从服务器节点信息:
                  hadoop102
                  hadoop103


                  2.4 分发spark安装包

                  #在hadoop101节点执行


                    cd opt/module


                    scp -r spark-3.3.2/ hadoop102:/opt/module


                    scp -r spark-3.3.2/ hadoop103:/opt/module


                    2.5、配置环境变量

                    #修改配置文件

                      vi etc/profile


                      #根据实际情况添加spark相关配置信息

                        export SPARK_HOME=/opt/module/spark-3.3.2
                        export PATH=$PATH:$SPARK_HOME/bin
                        export PATH=$PATH:$SPARK_HOME/sbin


                        #声明环境变量

                          source etc/profile


                          2.6、启停spark

                          2.6.1、启动spark


                            #启动主节点
                            start-master.sh


                            #启动从节点
                            start-slaves.sh


                            #启动shell
                            spark-shell



                            #验证

                            通过web端查看

                            http://hadoop101:8080/

                            如下图:

                            2.6.2、关闭spark

                              #关闭主节点
                              stop-master.sh




                              #关闭从节点
                              top-slaves.sh




                              3、spark可用性验证

                              3.1、spark-shell

                                spark-shell
                                spark.sql("show databases").show()
                                退出:ctrl+c



                                3.2、spark-submit

                                  spark-submit







                                  兴趣是最好的老师,唯有热爱不可辜负!

                                  Have fun!




                                  少侠,请留步,欢迎点赞关注转发




                                  文章转载自闵栋,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

                                  评论