为了保证系统的高容错性,Spark Streaming期初考虑到如下情况:

1:利用spark本身的容错设计,存储级别(MEMORY_AND_DISK_2)和RDD抽象设计能够处理集群中任何Worker节点的故障;

2:由于spark运行多种运行模式,器Driver端可能运行在Master节点或者在集群中的任意节点上,这样让Driver端具备容错能力是一个很大的挑战,但是由于SparkStreaming接收的数据是按照批进行存储和处理,这些批次数据的元数据可以通过执行检查点的方式定期写入可靠的存储中,在Driver端重新启动中恢复这些状态;

spark丢失数据的情况:

1:Kafka或者flume等数据持续发数据,由于接收到的数据还只缓存在Executor的内存中,尚未及时被处理,当Executor出现异常是会丢失内存中的数据;

2:如果集群处于独立运行模式或YARN运行模式或者Mesos模式,当Driver端失败时该Driver端所管理的Executor及内存中数据将终止,即使Driver端重新启动这些缓存的数据也不能被恢复;

为了避免以上两种情况,从spark1.2版本起,已经预写日志功能;

Spark Streaming之容错性相关推荐

  1. Spark Streaming笔记整理(二):案例、SSC、数据源与自定义Receiver

    [TOC] 实时WordCount案例 主要是监听网络端口中的数据,并实时进行wc的计算. Java版 测试代码如下: package cn.xpleaf.bigdata.spark.java.str ...

  2. Spark Streaming实时计算框架介绍

    随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐.用户行为分析等. Spark Streaming是建立在 ...

  3. Spark Streaming学习笔记

    特点: Spark Streaming能够实现对实时数据流的流式处理,并具有很好的可扩展性.高吞吐量和容错性. Spark Streaming支持从多种数据源提取数据,如:Kafka.Flume.Tw ...

  4. Spark详解(十二):Spark Streaming原理和实现

    1 简介 SparkStreaming是Spark核心API的一个扩展,具有高吞吐量和容错能力的实时流数据处理系统,可以对多种数据源(如Kdfka.Flume.Twitter.Zero和TCP 套接字 ...

  5. 实时流处理框架Storm、Spark Streaming、Samza、Flink,孰优孰劣?!

    https://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247486490&idx=1&sn=e25a05be8cf98c ...

  6. Spark Streaming初步使用以及工作原理详解

    一.流式计算 1.什么是流? Streaming:是一种数据传送技术,它把客户机收到的数据变成一个稳定连续的  流,源源不断地送出,使用户听到的声音或看到的图象十分平稳,而且用户在  整个文件送完之前 ...

  7. Spark Streaming

    spark streaming介绍 Spark streaming是Spark核心API的一个扩展,它对实时流式数据的处理具有可扩展性.高吞吐量.可容错性等特点.我们可以从kafka.flume.wi ...

  8. Storm,Trident,Spark Streaming,Samza和Flink主流流处理框架比较

    文 | Petr Zapletal ,译者 | 侠天 分布式流处理是对无边界数据集进行连续不断的处理.聚合和分析.它跟MapReduce一样是一种通用计算,但我们期望延迟在毫秒或者秒级别.这类系统一般 ...

  9. Spark Streaming 实战案例(四) Spark Streaming 缓存、Checkpoint机制

    主要内容 Spark Stream 缓存 Checkpoint 案例 1. Spark Stream 缓存 通过前面一系列的课程介绍,我们知道DStream是由一系列的RDD构成的,它同一般的RDD一 ...

  10. Spark学习之Spark Streaming

    一.简介 许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用.训练机器学习模型的应用,还有自动检测异常的应用.Spark Streaming 是 Spark 为这些应用而设计的模型.它 ...

最新文章

  1. hibernate的HQL查询语言总结
  2. 优动漫PAINT核心功能介绍
  3. 猎豹浏览器小号窗口怎么打开 小号窗口打开方法简述
  4. 第二阶段个人博客总结7
  5. Hdoj 2563.统计问题 题解
  6. OpenCV-绘制多边形(fillConvexPoly和fillPoly的区别)
  7. 2019蓝桥杯C++B组 年号字串;完全二叉树的权值
  8. 柔性太阳能电池pdf_CIS太阳能电池.pdf
  9. 【历史】衣米魔兽怀旧服发展历史事件以及衣米魔兽重要玩家传记
  10. 剑指offer题目大全
  11. 计算机三级信息安全技术试题与答案,计算机三级《信息安全技术》练习题与答案...
  12. 全国计算机等级二级ACCESS数据库程序设计(更新完毕)
  13. 关于《训练指南》中的“翻棋子游戏”
  14. ubuntu 中的流程图绘制软件
  15. 杨辉三角计算机中的应用,杨辉三角
  16. 【Go语言】【17】GO语言杂谈
  17. java+selenium——Navigate命令
  18. 计算机文件云同步,电脑文件夹同步
  19. 如何在iPhone和iPad上使用Group FaceTime
  20. n+1天 吾日三省吾身

热门文章

  1. 远程连接mysql失败异常,未配置权限,skip-name-resolve以及防火墙
  2. 服务器安装微信支付密钥,如何开通微信支付、配置商户号及商户秘钥-操作教程...
  3. 如何下载哔哩哔哩视频
  4. 小米手机无限重启,两清与三清
  5. 第三方SSD问题引起电脑频繁重启问题IONVMeController.cpp:5499
  6. 嵌入式STM32入门之一个简单STM32汇编程序的编写
  7. 微信小程序获取access_token报错errcode: 40125,errmsg: invalid appsecret
  8. 一元非线性方程求根的算法——二分法/牛顿迭代法
  9. iphone拍照标注转发微博应用--Gurgle 发布
  10. 企业微信之网页授权登录