Receiver

这里的kafka获取数据其实是从HDFS中获取(WAL机制)(恢复时间较长)

task相当于一个线程
这里一个Executor中的多个task共同处理一个data中的数据,这里可以通过增加execut节点的方式增加task来提高消费能力

Direct


这里的Spark RDD的Partition 与 Kafka Partition 保持一致性。不能增加task数量,因为是一对一的关系
从kafka获取数据,比从hdfs获取数据,因为zero copy的方式,速度肯定更快。
1、receiver和direct如何选择?
根据业务现状:
–业务初期,消息量不是很大: 根据rdd partition,kafka partition一致性选择direct
–业务稳定期:提前考虑流量的高并发,(集群稳定性、代码的健壮性有保障),可以通过使用receiver方式提高消费能力,这里能通过启动execut来增加内存空间
业界常用: receiver方式

如何选择Spark Streaming 的Reveiver和Direct模式相关推荐

  1. Spark Streaming的Receiver和Direct容错方式

    Receiver容错: Reveiver两种出错方式 ①WAL预写出现问题,因为我们offset没有更新,所以可以从kafka中重新拉取数据 ②处理时出现问题,导致进程挂掉,通过ResourceMan ...

  2. 通过案例对 spark streaming 透彻理解三板斧之一: spark streaming 另类实验

    本期内容 : spark streaming另类在线实验 瞬间理解spark streaming本质 一.  我们最开始将从Spark Streaming入手 为何从Spark Streaming切入 ...

  3. grafana计算不同时间的差值_大数据时代!如何基于Spark Streaming构建实时计算平台...

    随着互联网技术的迅速发展,用户对于数据处理的时效性.准确性与稳定性要求越来越高,如何构建一个稳定易用并提供齐备的监控与预警功能的实时计算平台也成了很多公司一个很大的挑战. 自2015年携程实时计算平台 ...

  4. 什么是Spark、Spark特点、Spark Streaming和Storm的区别

    Spark是一个基于内存的开源计算框架 Spark主要应用于大数据的计算,而Hadoop将主要用于大数据的存储(HDFS.HIVE. Hbase等),Saprk+Hadoop组合,是未来大数据领域最热 ...

  5. Spark Streaming 编程指南[中英对照]

    2019独角兽企业重金招聘Python工程师标准>>> 基于Spark 2.0 Preview的材料翻译,原[英]文地址: http://spark.apache.org/docs/ ...

  6. Spark Streaming之Kafka的Receiver和Direct方式

    一 Receiver方式 Receiver是使用Kafka的high level的consumer API来实现的.Receiver从Kafka中获取数据都是存储在Spark Executor内存中的 ...

  7. Spark Streaming Direct Approach (No Receivers) 分析

    前言 这个算是Spark Streaming 接收数据相关的第三篇文章了. 前面两篇是: Spark Streaming 数据产生与导入相关的内存分析 Spark Streaming 数据接收优化 S ...

  8. Spark Streaming笔记整理(二):案例、SSC、数据源与自定义Receiver

    [TOC] 实时WordCount案例 主要是监听网络端口中的数据,并实时进行wc的计算. Java版 测试代码如下: package cn.xpleaf.bigdata.spark.java.str ...

  9. 用 Flink 取代 Spark Streaming,知乎实时数仓架构演进【推荐】

    "数据智能" (Data Intelligence) 有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务.从智能商业的角 ...

最新文章

  1. zabbix_agent自动部署安装
  2. windows mysql源码安装配置_windows下MySQL5.6版本安装及配置过程附有截图和具体介绍...
  3. mysql 创建查询 删除_MYSQL数据库查询删除创建企业基本知识
  4. 详解jenkins几个有用的插件如何使用(emma,findbugs)
  5. 49. PHP 页面静态化(2)
  6. Django之路——4 Django的视图层
  7. 正则表达式非捕获分组?:
  8. Testbench编写
  9. C4droid导出程序
  10. USGS官网批量下载卫星数据方法
  11. 软件工程之美学习笔记二十五 24 | 技术债务:是继续修修补补凑合着用,还是推翻重来?
  12. 什么叫智能服务器sn,一篇文章告诉你何为服务器端车牌智能识别
  13. 工作效率-十五分钟让你快速学习Markdown语法到精通排版实践备忘
  14. sem推广如何优化关键词排名?
  15. Android系统打不开,安卓手机打不开pdf文件怎么解决?
  16. 中国雅虎——长在阿里巴巴脸上的青春痘
  17. 算法与数据结构——美团、大众点评笔试题
  18. 房子并发什么意思_周公解梦:梦见建房子是什么意思
  19. Windows2003 sp2 R2 的序列号及15种版本
  20. 解决笔记本电脑win10系统指纹间歇性无法识别(失灵)的问题

热门文章

  1. mysql可重复读和间隙锁_解决MySQL可重复读——详解间隙锁
  2. python入门系列:迭代器和生成器
  3. *Algs4-2.4.23Multiway的堆(未解决)
  4. OLAP-Kylin-大数据Week13-DAY4-Kylin
  5. 1.redis单机部署
  6. h3c交换机怎么设置虚拟服务器,H3C交换机配置 | 如何实现两个网段主机与外部通信...
  7. 计算机论文与护理,快速护理论文范文
  8. java jdbc 占位符_java-jdbc
  9. 中文表示什么_中文分词是个伪问题
  10. JavaScript创建对象:深入理解编程原理