大规模数据处理引擎spark浅析(二)

BigData社区 2019-09-12

439

4. Spark优点

基于Hadoop的资源管理器YARN实际上是一个弹性计算平台，作为统一的计算资源管理框架，不仅仅服务于MapReduce计算框架，而且已经实现了多种计算框架进行统一管理。这种共享集群资源的模式带来了很多好处。

1. 快速

Spark有先进的DAG执行引擎，支持循环数据流和内存计算；Spark程序在内存中的运行速度是Hadoop MapReduce运行速度的100倍，在磁盘上的运行速度是Hadoop MapReduce运行速度的10倍。

2. 易用

Spark支持使用Java、Scala、Python语言快速编写应用，提供超过80个高级运算符，使得编写并行应用程序变得容易。

3. 通用

Spark可以与SQL、Streaming以及复杂的分析良好结合。基于Spark，有一系列高级工具，包括Spark SQL、MLlib（机器学习库）、GraphX和Spark Streaming，支持在一个应用中同时使用这些架构。

4. 有效集成Hadoop

Spark可以指定Hadoop，YARN的版本来编译出合适的发行版本，Spark也能够很容易地运行在EC2、Mesos上，或以Standalone模式运行，并从HDFS、HBase、Cassandra和其他Hadoop数据源读取数据。

5.资源利用率高

多种框架共享资源的模式有效解决了由于应用程序数量的不均衡性导致的高峰时段任务比较拥挤，空闲时段任务比较空闲的问题；同时均衡了内存和CPU等资源的利用。

6.实现了数据共享

随着数据量的增加，数据移动成本越来越高，网络带宽、磁盘空间、磁盘IO都会成为瓶颈，在分散数据的情况下，会造成任务执行的成本提高，获得结果的周期变长，而数据共享模式可以让多种框架共享数据和硬件资源，大幅度减少数据分散带来的成本。

7.有效降低运维和管理成本

相比较一种计算框架需要一批维护人员，而运维人员较多又会带来的管理成本的上升；共享模式只需要少数的运维人员和管理人员即可完成多个框架的统一运维管理，便于运维优化和运维管理策略统一执行。

总之，Spark凭借其良好的伸缩性、快速的在线处理速度、具有Hadoop基因等一系列优势，迅速成为大数据处理领域的佼佼者。

5. Spark能带来什么

Spark的一站式解决方案有很多的优势，具体如下。

1. 打造全栈多计算范式的高效数据流水线

Spark支持复杂查询。在简单的“map”及“reduce”操作之外，Spark还支持SQL查询、流式计算、机器学习和图算法。同时，用户可以在同一个工作流中无缝搭配这些计算范式。

2.轻量级快速处理

Spark 1.0核心代码只有4万行。这是由于Scala语言的简洁和丰富的表达力，以及Spark充分利用和集成Hadoop等其他第三方组件，同时着眼于大数据处理，数据处理速度是至关重要的，Spark通过将中间结果缓存在内存减少磁盘I/O来达到性能的提升。

3. 易于使用，Spark支持多语言

Spark支持通过Scala、Java及Python编写程序，这允许开发者在自己熟悉的语言环境下进行工作。它自带了80多个算子，同时允许在Shell中进行交互式计算。用户可以利用Spark像书写单机程序一样书写分布式程序，轻松利用Spark搭建大数据内存计算平台并充分利用内存计算，实现海量数据的实时处理。

4. 与HDFS等存储层兼容

Spark可以独立运行，除了可以运行在当下的YARN等集群管理系统之外，它还可以读取已有的任何Hadoop数据。这是个非常大的优势，它可以运行在任何Hadoop数据源上，如Hive、HBase

6. Spark计算框架

计算模型：

调度模块框图：

整体调度过程图：

7.spark的架构

Spark架构采用了分布式计算中的Master-Slave模型。Master是对应集群中的含有Master进程的节点，Slave是集群中含有Worker进程的节点。Master作为整个集群的控制器，负责整个集群的正常运行；Worker相当于是计算节点，接收主节点命令与进行状态汇报；Executor负责任务的执行；Client作为用户的客户端负责提交应用，Driver负责控制一个应用的执行，如图1-4所示：

Spark集群部署后，需要在主节点和从节点分别启动Master进程和Worker进程，对整个集群进行控制。在一个Spark应用的执行过程中，Driver和Worker是两个重要角色。Driver程序是应用逻辑执行的起点，负责作业的调度，即Task任务的分发，而多个Worker用来管理计算节点和创建Executor并行处理任务。在执行阶段，Driver会将Task和Task所依赖的file和jar序列化后传递给对应的Worker机器，同时Executor对相应数据分区的任务进行处理。

下面详细介绍Spark的架构中的基本组件。

·ClusterManager：在Standalone模式中即为Master（主节点），控制整个集群，监控Worker。在YARN模式中为资源管理器。

·Worker：从节点，负责控制计算节点，启动Executor或Driver。在YARN模式中为

NodeManager，负责计算节点的控制。

·Driver：运行Application的main（）函数并创建SparkContext。

·Executor：执行器，在worker node上执行任务的组件、用于启动线程池运行任务。每个Application拥有独立的一组Executors。

·SparkContext：整个应用的上下文，控制应用的生命周期。

·RDD：Spark的基本计算单元，一组RDD可形成执行的有向无环图RDD Graph。

·DAG Scheduler：根据作业（Job）构建基于Stage的DAG，并提交Stage给TaskScheduler。

·TaskScheduler：将任务（Task）分发给Executor执行。

·SparkEnv：线程级别的上下文，存储运行时的重要组件的引用。SparkEnv内创建并包含如下一些重要组件的引用。

·MapOutPutTracker：负责Shuffle元信息的存储。

·BroadcastManager：负责广播变量的控制与元信息的存储。

·BlockManager：负责存储管理、创建和查找块。

·MetricsSystem：监控运行时性能指标信息。

·SparkConf：负责存储配置信息。

Spark的整体流程为：Client提交应用，Master找到一个Worker启动Driver，Driver向Master或者资源管理器申请资源，之后将应用转化为RDD Graph，再由DAGScheduler将RDD Graph转化为Stage的有向无环图提交给TaskScheduler，由TaskScheduler提交任务给Executor执行。在任务执行的过程中，其他组件协同工作，确保整个应用顺利执行。

tui

推

jian

荐

hao

好

wen

文

1.大规模数据处理引擎spark浅析(一)

2.HBase性能优化

3 hbase之布隆过滤器(二)

4.hbase之布隆过滤器(一)

小编微信

如果喜欢小编可以点击关注“BigData社区”并加小编 微信：ljl876038581，回复“关键字”获取学习资料，还有更多学习资料分享~让我们一起学习it，走向巅峰！！知识只有共享才能传播，才能推崇出新的知识，才能学到更多，这里写的每一篇文字/博客，基本都是从网上查询了一下资料然后记录下来，也有些是原滋原味搬了过来，也有时加了一些自己的想法~~

点击阅读原文，交个朋友，一起进步吧！

不是大数据同行也没关系，帮忙转发给更多朋友！谢谢。

数据库

文章转载自BigData社区，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

大规模数据处理引擎spark浅析(二)

6. Spark计算框架

计算模型：

评论