RDD持久化(缓存)

Spark RDD 是惰性求值的，而有时我们希望能多次使用同一个 RDD。如果简单地对 RDD 调用行动操作，Spark 每次都会重算 RDD 以及它的所有依赖。这在迭代算法中消耗格外大，因为迭代算法常常会多次使用同一组数据。

比如下面就是先对 RDD 作一次计数、再把该 RDD 输出的一个小例子。

val result = input.map(x => x*x)

println(result.count())

println(result.collect().mkString(","))

为了避免多次计算同一个 RDD，可以让 Spark 对数据进行持久化。当我们让 Spark 持久化存储一个 RDD 时，计算出 RDD 的节点会分别保存它们所求出的分区数据。如果一个有持久化数据的节点发生故障，Spark 会在需要用到缓存的数据时重算丢失的数据分区。如果希望节点故障的情况不会拖累我们的执行速度，也可以把数据备份到多个节点上。

出于不同的目的，我们可以为 RDD 选择不同的持久化级别（如下表）。在 Scala和 Java 中，默认情况下 persist() 会把数据以序列化的形式缓存在 JVM 的堆空间中。在 Python 中，我们会始终序列化要持久化存储的数据，所以持久化级别默认值就是以序列化后的对象存储在 JVM 堆空间中。当我们把数据写到磁盘或者堆外存储上时，也总是使用序列化后的数据。

持久化级别：

检查点checkpoint：

RDD能够在第一次计算完之后，将计算结果保存到内存、本地文件系统或者HDFS中。通过缓存，Spark避免了RDD上的重复计算，能够极大地提高计算速度。但是如果缓存丢失了，则需重新计算。如果计算特别复杂或者计算特别耗时，那么缓存丢失对于整个job的影响是不容忽视的。为了避免缓存丢失重新计算带来的开销，Spark有引入了检查点(checkpoint)机制。

checkpoint将RDD持久化到磁盘，还可以切断RDD之间的依赖关系（这里的意思是，后面的RDD找数据的时候，就可以直接从checkpoint持久化目录里找了）。

checkpoint 的执行原理：

（1）当RDD的job执行完毕后，会从finalRDD从后往前回溯。

（2）当回溯到某一个RDD调用了checkpoint方法，会对当前的RDD做一个标记。

（3）Spark框架会自动启动一个新的job，重新计算这个RDD的数据，将数据持久化到HDFS上。

优化：对RDD执行checkpoint之前，最好对这个RDD先执行cache，这样新启动的job只需要将内存中的数据拷贝到HDFS上就可以，省去了重新计算这一步。

使用：

public class Demo04CheckPoint {
public static void main(String[] args) {
SparkConf conf = new SparkConf().setMaster("local").setAppName("test");
JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD<String> lines = sc.textFile("./word");
sc.setCheckpointDir("./checkpoint");
lines = lines.cache();
lines.checkpoint();
lines.collect();
sc.stop();
sc.close();
}
}

当然此处只是为了测试，一般我们会把checkpoint持久化的数据存储在HDFS上面。

RDD持久化(缓存)相关推荐

Spark基础学习笔记20：RDD持久化、存储级别与缓存
文章目录零.本讲学习目标一.RDD持久化 (一)引入持久化的必要性 (二)案例演示持久化操作 1.RDD的依赖关系图 2.不采用持久化操作 3.采用持久化操作二.存储级别 (一)持久化方法的参数 ...
2021年大数据Spark（十七）：Spark Core的RDD持久化
目录 RDD 持久化引入 API 缓存/持久化函数缓存/持久化级别释放缓存/持久化代码演示总结:何时使用缓存/持久化 RDD 持久化引入在实际开发中某些RDD的计算或转换可能会比较耗费时 ...
Spark的RDD持久化
RDD持久化 1. RDD Cache 缓存说明 RDD 通过Cache 或者Persist 方法将前面的计算结果缓存,默认情况下会把数据以缓存在JVM 的堆内存中.但是并不是这两个方法被调用时立即 ...
Spark RDD概念学习系列之rdd持久化、广播、累加器（十八）
1.rdd持久化 2.广播 3.累加器 1.rdd持久化通过spark-shell,可以快速的验证我们的想法和操作! 启动hdfs集群 spark@SparkSingleNode:/usr/loca ...
Spark RDD的缓存
Spark速度非常快的原因之一,就是在不同操作中可以在内存中持久化或者缓存数据集.当持久化某个RDD后,每一个节点都将把计算分区结果保存在内存中,对此RDD或衍生出的RDD进行的其他动作中重用.这使得 ...
RDD持久化、广播、累加器
1.持久化 RDD的持久化包括两个方面:①操作RDD的时候怎么保存结果,这个部分属于action算子的部分②在实现算法的时候要进行cache.persist,还有checkpoint进行持久化. 1. ...
PySpark | RDD持久化 | 共享变量 | Spark内核调度
文章目录一.RDD持久化 1.RDD的数据是过程数据 2.RDD缓存 2.1 RDD缓存的特点 2.2 cache()与unpersist()实战 3.RDD CheckPoint 3.1 Chec ...
PySpark基础入门（3）：RDD持久化
RDD的持久化 RDD 的数据是过程数据,因此需要持久化存储: RDD之间进行相互迭代的计算,新的RDD的生成代表着旧的RDD的消失:这样的特性可以最大化地利用资源,老旧地RDD可以及时地从内存中清理 ...
Spark RDD 持久化
RDD Cache 缓存 RDD 通过 Cache 或者 Persist 方法将前面的计算结果缓存,默认情况下会把数据以缓存在 JVM 的堆内存中.但是并不是这两个方法被调用时立即缓存,而是触发后面的 ...

RDD持久化(缓存)

RDD持久化(缓存)相关推荐

最新文章

热门文章