
技术成就梦想
@ DataGuru 专业数据分析社区 网址:edu.dataguru.cn
Spark 大数据分析平台
2015 年, Spark 只用了一年多时间,已实现开源到火爆 ,亦逐渐显露出与通用大数据平台
Hadoop 的分庭抗争之势。在这个大背景下,在大数据领域时代,谁将是独领风骚?Spark
无疑是最大的竞争者,无论是 2015 Spark 技术峰会 ,还是国内的大数据大会,可以看到
中国力量正在崛起,Spark 最大的集群来自腾讯——8000 个节点,单个 Job 最大分别是阿里
巴巴和 Databricks——1PB,震撼人心!同时,截止 2015 年 6 月,Spark 的 Contributor
比 2014 年涨了 3 倍,达到 730 人;总代码行数也比 2014 年涨了 2 倍多,达到 40 万行,不
但大量的互联网企业已经在使用或者正准备使用 Spark,而且大量的电信、金融、证券和传
统企业已经开始引入了 Spark。
然而作为一个高速发展中的开源项目,其部署过程中存在的门槛和挑战亦不可谓不大,本课
程将主要介绍 Spark1.4.0,引领大家进入大数据 Spark 入门。
课程大纲:
第一课:Spark 生态和安装部署
Spark 概述
Spark 现状
安装部署
Spark 安装简介
Spark 的源码编译
Spark Standalone 安装
Spark Standalone HA 安装
Spark 工具
Spark 交互式工具 spark-shell
Spark 应用程序部署工具 spark-submit
第二课:Spark 编程模型和解析
Spark 的编程模型
RDD 的特点、操作、依赖关系
缓存策略
广播变量和累加器
评论