Spark Streaming:RDD,Batch, Dstream, Partitiion到底是什么
https://spark.apache.org/docs/2.2.0/streaming-programming-guide.html
其实spark doc写的挺好,我这就把他概括一下,写一些让我迷惑的问题点:
RDD:RDD就算是spark里最基本的处理单位,算是spark定义的一种数据结构(是分布式的)-------她是Immutable的,一旦生成了,就不能改
其实想想也能明白为啥RDD不能修改:处理器之间共享方便:也安全一些,不至于各个core的一个RDD不同步,等等等等
经典的图来了
input data 就是输入了, 不停的发啊发啊发啊,,,,,,
第一步: 切成batch
然后Streaming engine就会用一个batch来收集数据,凑够一个batch了就发走了(batch的大小是时间大小), 问题又来了
那batch里是啥?
block
batch里也不会直接是数据,batch会有block(熟悉把,就是那个64m的block),block内会接受数据流,当一个block存满了,就去存下一个block,直到batch时间到了。
block的大小(怕我忘了: conf:spark.streaming.blockInterval )
RDD
然后这个batch(里面有一些block)就会发送到Spark Engine 生成RDD, 而里面的block就变成的RDD的partition。
所以:
一个batch里只有一个RDD
Dstream就简单了,就把他 想象成一堆连续的RDD就行, 没啥特别的
RDD = ( 一堆partitions 组成)
Batch = (一堆block组成)
(一堆block) ------->经过spark engine------->(一堆partitions,生成RDD)
所以要是说Batch和RDD是一个东西好像也不太对,可能就是进化关系把。。。
所以Spark Streaming里最基本的划分是从batch来划分流生成RDD,所以如果你打算生成window, window必须要是batch interval的整数倍(数据是这么切的啊。。。)
Spark Streaming:RDD,Batch, Dstream, Partitiion到底是什么相关推荐
- Spark Streaming介绍,DStream,DStream相关操作(来自学习资料)
一. Spark Streaming介绍 1. SparkStreaming概述 1.1. 什么是Spark Streaming Spark Streaming类似于Apache Storm,用于流式 ...
- 编程实现将rdd转换为dataframe:源文件内容如下(_第四篇|Spark Streaming编程指南(1)
Spark Streaming是构建在Spark Core基础之上的流处理框架,是Spark非常重要的组成部分.Spark Streaming于2013年2月在Spark0.7.0版本中引入,发展至今 ...
- Spark Streaming笔记整理(二):案例、SSC、数据源与自定义Receiver
[TOC] 实时WordCount案例 主要是监听网络端口中的数据,并实时进行wc的计算. Java版 测试代码如下: package cn.xpleaf.bigdata.spark.java.str ...
- Spark Streaming中的操作函数分析
参考文章:http://blog.csdn.net/dabokele/article/details/52602412 根据Spark官方文档中的描述,在Spark Streaming应用中,一个DS ...
- 大数据学习系列----基于Spark Streaming流式计算
2019独角兽企业重金招聘Python工程师标准>>> 个性化的需求 随着互联网知识信息指数级膨胀,个性化的需求对于用户来说越来越重要,通过推荐算法和用户点击行为的流式计算可以很简单 ...
- Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.Spark Streaming简介 1.1 概述 Spark Streaming 是Sp ...
- .Spark Streaming(上)--实时流计算Spark Streaming原理介
Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍 http://www.cnblogs.com/shishanyuan/p/474 ...
- Spark Streaming简介 (三十四)
Spark Streaming简介 Spark Streaming 是 Spark 提供的对实时数据进行流式计算的组件.它是 Spark 核心 API 的一个扩展,具有吞吐量高.容错能力强的实时流数据 ...
- sparksteaming---实时流计算Spark Streaming原理介绍
来源:http://www.cnblogs.com/shishanyuan/p/4747735.html 1.Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...
- 实验十八 Spark实验:Spark Streaming
实验指导: 18.1 实验目的 1. 了解Spark Streaming版本的WordCount和MapReduce版本的WordCount的区别: 2. 理解Spark Streaming的工作流程 ...
最新文章
- android java 圆角_java – Android:给一个webview圆角?
- Linux学习-15-学习LVM逻辑卷
- linux添加静态网关route文件,详解Linux系统中配置静态路由的方法
- 数据结构c语言版总结,数据结构:C语言常见算法总结
- Sharepoint 修改密码
- android+fastboot+命令,Android手机fastboot刷机命令
- linux java 文件夹创建失败_Linux文件夹文件创建、删除
- 【Flink】Flink 与数据库的集成最佳实践 【视频笔记】
- matlab fft 功率谱,matlab实现功率谱估计,关于FFT点数选取到底什么标准?
- java server 参数_java serversocket参数详解
- 一加会不会适配鸿蒙系统,或将适配高通平台 传闻一些手机厂商正接触华为鸿蒙OS计划适配...
- 2021电工杯B题股票预测思路分析程序示例及参考文献
- flash服务器停止响应,Adobe Flash Player已经在Windows 10上停止工作
- mw150um 驱动程序win10_水星MW150UM 1.0无线网卡驱动
- python 实现随机加减法
- Java-Controller引起的Ambiguous mapping问题解决
- micro hdmi引脚定义义_臻实力芯定义:京东AMD笔记本电脑双11开门红
- F5 GTM DNS 知识点和实验 4 -智能DNS基础
- 曾被尊称为“教父级”人物的郭盛华,现在到底怎么样了?
- widows计算器恢复