转自:http://www.ithao123.cn/content-6053935.html

通过观察RDD.scala源代码即可知道cache和persist的区别:

def persist(newLevel: StorageLevel): this.type = {
  if (storageLevel != StorageLevel.NONE && newLevel != storageLevel) {
    throw new UnsupportedOperationException( "Cannot change storage level of an RDD after it was already assigned a level")
  }
  sc.persistRDD(this)

  sc.cleaner.foreach(_.registerRDDForCleanup(this))
  storageLevel = newLevel
  this
}

/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */
def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)

/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */
def cache(): this.type = persist()

可知:

1)RDD的cache()方法其实调用的就是persist方法,缓存策略均为MEMORY_ONLY;

2)可以通过persist方法手工设定StorageLevel来满足工程需要的存储级别;

3)cache或者persist并不是action;

附:cache和persist都可以用unpersist来取消

Spark RDD中cache和persist的区别相关推荐

  1. Spark 持久化(cache和persist的区别)

    前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家.点击跳转到网站:https://www.captainai.net/dongkelun 1.RDD 持久化 Spark ...

  2. Spark中cache、persist、checkpoint区别

    spark中的cache.persist.checkpoint都可以将RDD保存起来,进行持久化操作,供后面重用或者容错处理.但是三者有所不同. cache 将数据临时存储在内存中进行数据重用,不够安 ...

  3. Spark 调优 ——cache(persist)与 checkpoint

    cache 是对 persist 的进一步调用: 1. 为什么要 checkpoint 为了保证数据安全性,需要对运行出的中间结果进行 checkpoint 最好将结果 checkpoint 到 hd ...

  4. Linux中cache和buff的区别

    我们用free查询到当前内存的使用情况的命令时,总会有一个buff/cache让我们很困惑,接下来就详细讲讲Buff和Cache的区别. 一.buffer/cache两者区别 buffer指Linux ...

  5. spark中的cache()、persist()和checkpoint()的区别

    首先,这三者都是做RDD持久化的,cache()和persist()是将数据默认缓存在内存中,checkpoint()是将数据做物理存储的(本地磁盘或Hdfs上),当然rdd.persist(Stor ...

  6. Spark中CheckPoint、Cache、Persist的用法、区别

    Spark中CheckPoint.Cache.Persist 大家好,我是一拳就能打爆A柱的猛男 这几天看到一套视频<尚硅谷2021迎新版大数据Spark从入门到精通>,其中有关于检查点( ...

  7. Spark面试中的cache和persist

    一:相同 cache和persist都是同于讲一个RDD进行缓存,这样在之后的使用的时候,不用重头计算加载数据,可以大大节省程序运行时间, 二:区别 cache和persist的区别了:cache只有 ...

  8. Spark RDD概念学习系列之rdd持久化、广播、累加器(十八)

    1.rdd持久化 2.广播 3.累加器 1.rdd持久化 通过spark-shell,可以快速的验证我们的想法和操作! 启动hdfs集群 spark@SparkSingleNode:/usr/loca ...

  9. Spark RDD 持久化

    RDD Cache 缓存 RDD 通过 Cache 或者 Persist 方法将前面的计算结果缓存,默认情况下会把数据以缓存在 JVM 的堆内存中.但是并不是这两个方法被调用时立即缓存,而是触发后面的 ...

最新文章

  1. Linux下的I/O复用与epoll详解
  2. c语言实现辗除法,辗除法什么东西哦?
  3. storm UI解释
  4. ue4缓存位置怎么改_怎么从蓝图节点跳转到C++源码?
  5. [2020多校A层12.1]树(倍增/单调栈/dfs栈)
  6. python创建对象教程_python源码学习 之 对象创建和对象的行为
  7. IBM X3650优盘启动
  8. office2010安装提示需要MSXML版本6.10.1129.0
  9. java 背单词系统_5分钟用两个App打造你自己的背单词体系
  10. 论文查重不能超过多少?
  11. Svchost.exe病毒的简单处理
  12. 初识计算机程序ppt,初识计算机程序.ppt
  13. 第一篇 安卓系统的介绍及特点
  14. DOSBOX + MASM
  15. Python编程之四书五经
  16. 2022 世界人工智能大会 论坛预告 | 让知识构建未来—知识图谱技术与应用
  17. TCRT5000红外反射传感器(循迹模块)
  18. 生信常用分析图形绘制01 -- 各种类型的热图!你学会了吗?
  19. npm发版报错(404)
  20. Java实现多线程聊天室

热门文章

  1. 家用电脑配置_家用电脑无需太高配置,不要听电脑店瞎忽悠,2500元机子够用了!...
  2. Linux系统弱口令检测和网络端口扫描方法(JR、NMAP)
  3. 多维数组的索引与切片_Numpy库使用入门(二)数据的索引和切片
  4. led显示屏服务器怎么设置,led显示屏怎么改字幕 led显示屏改字幕方法
  5. 计算机联网实验步骤,计算机网络技术实验操作过程.doc
  6. 授予数据库账号dba权限_数据库用户和权限
  7. python的类程序的结构_Python程序员学习路径之数据结构篇
  8. 金山手机控usb调试模式开启工具_不看不知道手机有多卡!一款深挖手机的良心工具...
  9. 看图识物_看图识物:下面图里是什么植物呢?请朋友们评论区留言
  10. 12v小型电机型号大全_伊藤8KW静音柴油发电机YT8100T型号规格