https://spark.apache.org/docs/2.2.0/streaming-programming-guide.html

其实spark doc写的挺好,我这就把他概括一下,写一些让我迷惑的问题点:

RDD:RDD就算是spark里最基本的处理单位,算是spark定义的一种数据结构(是分布式的)-------她是Immutable的,一旦生成了,就不能改

其实想想也能明白为啥RDD不能修改:处理器之间共享方便:也安全一些,不至于各个core的一个RDD不同步,等等等等

经典的图来了

input data 就是输入了, 不停的发啊发啊发啊,,,,,,

第一步: 切成batch

然后Streaming engine就会用一个batch来收集数据,凑够一个batch了就发走了(batch的大小是时间大小), 问题又来了

那batch里是啥?

block

batch里也不会直接是数据,batch会有block(熟悉把,就是那个64m的block),block内会接受数据流,当一个block存满了,就去存下一个block,直到batch时间到了。

block的大小(怕我忘了: conf:spark.streaming.blockInterval )

RDD

然后这个batch(里面有一些block)就会发送到Spark Engine 生成RDD, 而里面的block就变成的RDD的partition。

所以:

一个batch里只有一个RDD

Dstream就简单了,就把他 想象成一堆连续的RDD就行, 没啥特别的

RDD = ( 一堆partitions 组成)

Batch = (一堆block组成)

(一堆block) ------->经过spark engine------->(一堆partitions,生成RDD)

所以要是说Batch和RDD是一个东西好像也不太对,可能就是进化关系把。。。

所以Spark Streaming里最基本的划分是从batch来划分流生成RDD,所以如果你打算生成window, window必须要是batch interval的整数倍(数据是这么切的啊。。。)

Spark Streaming:RDD,Batch, Dstream, Partitiion到底是什么相关推荐

  1. Spark Streaming介绍,DStream,DStream相关操作(来自学习资料)

    一. Spark Streaming介绍 1. SparkStreaming概述 1.1. 什么是Spark Streaming Spark Streaming类似于Apache Storm,用于流式 ...

  2. 编程实现将rdd转换为dataframe:源文件内容如下(_第四篇|Spark Streaming编程指南(1)

    Spark Streaming是构建在Spark Core基础之上的流处理框架,是Spark非常重要的组成部分.Spark Streaming于2013年2月在Spark0.7.0版本中引入,发展至今 ...

  3. Spark Streaming笔记整理(二):案例、SSC、数据源与自定义Receiver

    [TOC] 实时WordCount案例 主要是监听网络端口中的数据,并实时进行wc的计算. Java版 测试代码如下: package cn.xpleaf.bigdata.spark.java.str ...

  4. Spark Streaming中的操作函数分析

    参考文章:http://blog.csdn.net/dabokele/article/details/52602412 根据Spark官方文档中的描述,在Spark Streaming应用中,一个DS ...

  5. 大数据学习系列----基于Spark Streaming流式计算

    2019独角兽企业重金招聘Python工程师标准>>> 个性化的需求 随着互联网知识信息指数级膨胀,个性化的需求对于用户来说越来越重要,通过推荐算法和用户点击行为的流式计算可以很简单 ...

  6. Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.Spark Streaming简介 1.1 概述 Spark Streaming 是Sp ...

  7. .Spark Streaming(上)--实时流计算Spark Streaming原理介

    Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍 http://www.cnblogs.com/shishanyuan/p/474 ...

  8. Spark Streaming简介 (三十四)

    Spark Streaming简介 Spark Streaming 是 Spark 提供的对实时数据进行流式计算的组件.它是 Spark 核心 API 的一个扩展,具有吞吐量高.容错能力强的实时流数据 ...

  9. sparksteaming---实时流计算Spark Streaming原理介绍

    来源:http://www.cnblogs.com/shishanyuan/p/4747735.html 1.Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...

  10. 实验十八 Spark实验:Spark Streaming

    实验指导: 18.1 实验目的 1. 了解Spark Streaming版本的WordCount和MapReduce版本的WordCount的区别: 2. 理解Spark Streaming的工作流程 ...

最新文章

  1. android java 圆角_java – Android:给一个webview圆角?
  2. Linux学习-15-学习LVM逻辑卷
  3. linux添加静态网关route文件,详解Linux系统中配置静态路由的方法
  4. 数据结构c语言版总结,数据结构:C语言常见算法总结
  5. Sharepoint 修改密码
  6. android+fastboot+命令,Android手机fastboot刷机命令
  7. linux java 文件夹创建失败_Linux文件夹文件创建、删除
  8. 【Flink】Flink 与数据库的集成最佳实践 【视频笔记】
  9. matlab fft 功率谱,matlab实现功率谱估计,关于FFT点数选取到底什么标准?
  10. java server 参数_java serversocket参数详解
  11. 一加会不会适配鸿蒙系统,或将适配高通平台 传闻一些手机厂商正接触华为鸿蒙OS计划适配...
  12. 2021电工杯B题股票预测思路分析程序示例及参考文献
  13. flash服务器停止响应,Adobe Flash Player已经在Windows 10上停止工作
  14. mw150um 驱动程序win10_水星MW150UM 1.0无线网卡驱动
  15. python 实现随机加减法
  16. Java-Controller引起的Ambiguous mapping问题解决
  17. micro hdmi引脚定义义_臻实力芯定义:京东AMD笔记本电脑双11开门红
  18. F5 GTM DNS 知识点和实验 4 -智能DNS基础
  19. 曾被尊称为“教父级”人物的郭盛华,现在到底怎么样了?
  20. widows计算器恢复

热门文章

  1. 最短路径算法之迪杰斯特拉算法(Dijkstra)和佛洛依德算法(Floyd)
  2. 房奴的悲哀啊!我的生活
  3. 假如地球毁灭了 人类文明数据如何存储?
  4. 对于double型保留有效数字
  5. SOLIDWORKS帮助企业开启MBE大门
  6. Lombok首字母小写,第二个字母大写的问题
  7. 忘记Jenkins登陆密码怎么办?学会这招就够了
  8. GIMPS梅森素数搜寻及相关算法综述
  9. SharePoint2010分享
  10. java实现集合运算_java实现集合的运算