本节内容主要包括
RDD action操作:通过大量案例说明RDD中常用的action操作的使用,包括两部分:返回结果为Scala集合的action操作如first、count、collect、takeOrdered、aggregate、reduce、fold等;保存结果到外部存储的action操作如saveAsTextFile、saveAsHadoopFile、saveAsObjectFile等. 介绍action 操作是如何触发Spark作业
RDD缓存:通过一个求TopN的案例说明使用RDD缓存与不使用RDD缓存的区别,据此介绍RDD缓存的原理。
RDD的checkpoint机制:介绍RDD的checkpoint机制及它如何截断RDD的Lineage。
广播变量与累加器:通过案例分别介绍广播变量(Broadcast Variable)和累加器(Accumulator)的原理与使用方法。

































文章转载自Scala学习,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




