• cache 是对 persist 的进一步调用;

1. 为什么要 checkpoint

  • 为了保证数据安全性,需要对运行出的中间结果进行 checkpoint

    • 最好将结果 checkpoint 到 hdfs,便于集群所有节点进行访问;
  • checkpoint 之前先进行 cache(persist),将数据放在缓存中
  • 什么时候 checkpoint:
    • 在发生 shuffle 之后做 checkpoint

2. checkpoint 的步骤

  • 建立 checkpoint 存储目录:

    • sc.setCheckpointDir(“hdfs://node01.9000/ck”)
  • rdd1.cache()
  • rdd1.checkpoint()

Spark 调优 ——cache(persist)与 checkpoint相关推荐

  1. rdd数据存内存 数据量_大数据开发-Spark调优常用手段

    Spark调优 spark调优常见手段,在生产中常常会遇到各种各样的问题,有事前原因,有事中原因,也有不规范原因,spark调优总结下来可以从下面几个点来调优. 1. 分配更多的资源 分配更多的资源: ...

  2. Spark学习之Spark调优与调试(7)

    Spark学习之Spark调优与调试(7) 1. 对Spark进行调优与调试通常需要修改Spark应用运行时配置的选项. 当创建一个SparkContext时就会创建一个SparkConf实例. 2. ...

  3. 跟我一起学【Spark】之——Spark调优与调试

    第8章 Spark调优与调试 1.总结Spark的配置机制 2.理解Spark应用性能表现的基础知识.设置相关配置项.编写高性能应用设计模式 3.探讨Spark的用户界面.执行的组成部分.日志机制 8 ...

  4. 【Spark调优】大表join大表,少数key导致数据倾斜解决方案

    [Spark调优]大表join大表,少数key导致数据倾斜解决方案 参考文章: (1)[Spark调优]大表join大表,少数key导致数据倾斜解决方案 (2)https://www.cnblogs. ...

  5. 【Spark调优】小表join大表数据倾斜解决方案

    [Spark调优]小表join大表数据倾斜解决方案 参考文章: (1)[Spark调优]小表join大表数据倾斜解决方案 (2)https://www.cnblogs.com/wwcom123/p/1 ...

  6. spark 写本地文件_(纯干货建议收藏)一次GC引发的Spark调优大全

    上一篇Tungsten On Spark-内存模型设计总结了Spark内存设计相关的知识点,本篇会快速为读者复习一下JVM相关的知识点,然后基于线上的GC调优对spark整体的调优做一个汇总,希望能让 ...

  7. 【Spark篇】---Spark调优之代码调优,数据本地化调优,内存调优,SparkShuffle调优,Executor的堆外内存调优...

    一.前述 Spark中调优大致分为以下几种 ,代码调优,数据本地化,内存调优,SparkShuffle调优,调节Executor的堆外内存. 二.具体    1.代码调优 1.避免创建重复的RDD,尽 ...

  8. spark调优面试专题

    1.1.介绍一下join操作优化经验? 需要尚硅谷 八斗学院 奈学教育完整大数据资料和多家机构面试题的加威: Y17744650906 资料来之不易,不能接受小额有偿的勿扰,谢谢 答:join其实常见 ...

  9. 【Spark】Spark调优 资源调优

    文章目录 1 Spark内存模型 2.执行流程 3.资源调优 1 Spark内存模型 Spark在一个Executor的内存分为三块, 1. 一块是execution内存 2. 一块是Storge 内 ...

最新文章

  1. AgilePoint BPMS 业务流程
  2. 苹果发布新手机,会有多少国人支持呢?
  3. Java面向对象(13)--==操作符与equals方法
  4. Mysql排序添加名词_记面试中问到的MySQL的SQL调优问题
  5. centos7 docker安装_教你如何在 CentOS 7 下 yum 方式安装 Docker 环境
  6. Linux下如何查找sqlnet.ora 和listener.ora 和tnsnames.ora 配置文件的目录
  7. CMM (集成软件管理(Integrated Software Management)
  8. Codeforces Round#767(Div.2) F1. Game on Sum (Easy Version)
  9. Revit模型如何在网页上显示
  10. java qq批量注册_JavaQQ 模仿QQ,实现简单的qq功能:注册、登陆、查找好友、聊天 。服务端还需 配置文件 ICQ-IM-Chat 272万源代码下载- www.pudn.com...
  11. OSChina 周日乱弹 —— 局长:怕你不爱我
  12. 2021 阿里巴巴和蚂蚁金服 Java实习生 面试经验贴(重要!!!)
  13. c语言gl函数,R语言:gl()函数
  14. Unity中利用材质自发光实现物体闪烁效果
  15. 浅谈PageRank
  16. (干货)一文了解导航电子地图领域有哪些前沿热点技术
  17. 300万+企业财税服务平台微企宝,将于8月8日全球首发QB生态通证
  18. 从创新取舍到赶工失衡,一个猎人的《怪物猎人:世界》碎碎念
  19. 菜鸟接触sora学编程点滴1
  20. 快速对接payjs的个人支付接口(收银台模式)

热门文章

  1. 基于MSBuild的xnb资源预生成机制
  2. php 判断赋值 简写,PHP IF 判断简写
  3. java protobuffer 网络_C#与Java通过protobuf进行网络通信过程中遇到的问题
  4. 华硕主板bios通电自启设置_求各种主板通电自动开启的设置?
  5. MySQL 之事务 及 其隔离级别
  6. 创建List的应用小结
  7. 神经网络 测试集loss不下降_代码实践 | 全连接神经网络回归---房价预测
  8. C/C++中break、return、continue和goto在循环语句中的使用
  9. 机器学习之非监督学习(六)——聚类(K-Means)
  10. 明天要去面试...........