Spark中对于数据的保存除了持久化操作之外,还提供了一种检查点的机制,检查点(本质是通过将RDD写入Disk做检查点)是为了通过lineage做容错的辅助,lineage过长会造成容错成本过高,这样就不如在中间阶段做检查点容错.

checkpoint举例

def main(args: Array[String]): Unit = {val conf = new SparkConf().setAppName("wordcount").setMaster("local")val sc = new SparkContext(conf)//设置检查点保存目录sc.setCheckpointDir("D://checkpoint")val value = sc.parallelize(Array(1, 2, 3, 4, 5, 23, 8))val value1 = value.sortBy(x => x, false)//设置检查点value1.checkpoint()//action才会触发checkpointvalue1.collect()}

cache与checkpoint的不同

  • cache 后不能丢弃lineage,checkpoint后可以
  • checkpoint需要手动指定存储位置,cache不需要

spark checkpoint相关推荐

  1. Spark Checkpoint读操作代码分析

    上次介绍了RDD的Checkpint写过程(<Spark Checkpoint写操作代码分析>),本文将介绍RDD如何读取已经Checkpoint的数据.在RDD Checkpoint完之 ...

  2. Spark Streaming metadata checkpoint

    Checkpointing 一个流应用程序必须全天候运行,所有必须能够解决应用程序逻辑无关的故障(如系统错误,JVM崩溃等).为了使这成为可能,Spark Streaming需要checkpoint足 ...

  3. 三万字,Spark学习笔记

    Spark 基础 Spark特性 Spark使用简练优雅的Scala语言编写,基于Scala提供了交互式编程体验,同时提供多种方便易用的API.Spark遵循"一个软件栈满足不同应用场景&q ...

  4. checkpoint是什么?

    checkpoint是什么? spark, flink, tensorflow都有对应的checkpoint机制 Jupyter Notebook也有自动的checkpoint机制 SQL Serve ...

  5. python使用spark_apache spark - 在python中导入pyspark

    apache spark - 在python中导入pyspark 这是另一个从未回答过的论坛上的别人问题的副本,所以我想我会在这里重新提问,因为我有同样的问题. (见[http://geekple.c ...

  6. spark 写本地文件_(纯干货建议收藏)一次GC引发的Spark调优大全

    上一篇Tungsten On Spark-内存模型设计总结了Spark内存设计相关的知识点,本篇会快速为读者复习一下JVM相关的知识点,然后基于线上的GC调优对spark整体的调优做一个汇总,希望能让 ...

  7. spark streaming checkpointing

    spark streaming的相关概念: spark的核心是创建一个RDD对象,然后对RDD对象进行计算操作等 streaming可以理解为是 一个连续不断的数据流 ,然后将每个固定时间段里的数据构 ...

  8. Spark性能调优系列:Spark参数配置大全(官网资料)

    Spark参数配置大全 Spark提供了三个位置来配置系统 Spark属性控制大多数应用程序参数,可以使用SparkConf对象或Java系统属性来设置. 通过conf/spark-env.sh每个节 ...

  9. Spark高频面试题

    Spark真实面试题总结 文章目录 1.Spark Streaming和Flink的区别? 2.Spark Streaming怎么里面实现精准一次消费 3.Spark任务执行流程 4.简述Spark的 ...

最新文章

  1. mysql删除表中数据报错:[Err] 1206 - The total number of locks exceeds the lock table size
  2. LAMP源代码编译整理
  3. httpd的三种模式比较
  4. 计算机快速切换任务,电脑多任务窗口切换:除了Alt+Tab,你还知道什么?
  5. ModuleNotFoundError: No module named xxx 解决办法
  6. linux开启多个matlab_Linux下启动Matlab
  7. 课后习题讲解(免费)高数下册
  8. ArcGIS符号库下载 | 制图规范、三调、1:1万地形图、土地利用总体规划图.....
  9. 正则表达式的语法及使用
  10. 层次时间序列预测指南
  11. k8s环境之cicd部署+远程触发
  12. 【号外】马云这次帮了大忙,银行卡再也不用怕被盗刷!
  13. 双方博弈复制动态方程(y-z,z=0.3,z=0.5,z=0.7)与matlab数值仿真——matlab2016a版本
  14. 计算机组成与嵌入式系统 百度云,计算机组成及嵌入式系统.pdf
  15. PC实现Win10/原生安卓双系统
  16. 纽约2050交通发展战略——高效移动性
  17. Leetcode sixth day
  18. springboot项目实现excel导出
  19. [2] Window PowerShell DSC 学习系列----DSC的资源(Resource)以及配置和格式(Configuration Sytax )
  20. 基于SSM框架的旅游门户网站

热门文章

  1. html变量改变结构,如何在html结构标签中使用js 变量 生成可变化的 title标题?
  2. Java 数组转字符串
  3. springboot13 页面国际化(i18n)
  4. openlayers 加载高德底图
  5. java项目介绍_3月Github最热门的10个Java开源项目
  6. linux下esc退不出vi
  7. 去掉谷歌浏览器中烦人的广告
  8. 美丽的窗花java分形_“高冷奇葩”原来冰窗花可以这么美
  9. parted如何将磁盘所有空间格式化_linux文件系统及磁盘格式化
  10. linux 清除mysql relay_MySQL 小版本升级