一、流计算概述

静态数据、流数据

特点
实时处理、主动推送
大量、快速、时变、持续到达
低延迟、可扩展、高可靠

二、Spark Streaming

模仿流计算
Spark是以线程级别并行，实时响应级别高
可以实现秒级响应，变相实现高效的流计算

Spark Streaming是一个基于Spark Core之上的实时计算框架，可以从很多数据源消费数据并对数据进行处理。

三、DStream

在Spark Streaing中有一个最基本的抽象叫DStream（代理），本质上就是一系列连续的RDD，DStream其实就是对RDD的封装。

DStream可以任务是一个RDD的工厂，该DStream里面生产都是相同业务逻辑的RDD，只不过是RDD里面要读取数据的不相同

深入理解DStream：他是sparkStreaming中的一个最基本的抽象，代表了一下列连续的数据流，本质上是一系列连续的RDD，你对DStream进行操作，就是对RDD进行操作

DStream每隔一段时间生成一个RDD，你对DStream进行操作，本质上是对里面的对应时间的RDD进行操作

DSteam和DStream之间存在依赖关系，在一个固定的时间点，对个存在依赖关系的DSrteam对应的RDD也存在依赖关系，
每个一个固定的时间，其实生产了一个小的DAG，周期性的将生成的小DAG提交到集群中运行。

四、文件流操作

wordcount实例

object FileWordCount {def main(args: Array[String]): Unit = {// 创建Spark配置对象val conf = new SparkConf().setMaster("local[2]").setAppName("FileWordCount")// 按照时间间隔为3秒钟切分数据流val ssc = new StreamingContext(conf, Seconds(3))// 创建行分段流，接收文件流val lines = ssc.textFileStream("file:///user/local/logfile")// 生成单词分段流val words = lines.flatMap(_.split(" "))// 计算每一批次中的每个单词数量，并进行词频统计val wc = words.map(x=>(x,1)).reduceByKey(_+_)// 输出分段流中每个RDD的词频统计结果wc.print()// 开始计算ssc.start()// 等待计算结束ssc.awaitTermination()}
}

创建StreamingContext对象

五、套接字流

参考

https://blog.csdn.net/howard2005/article/details/124835239

Spark6：Spark Steaming相关推荐

spark steaming的性能问题
1.Steaming 的数据处理大致流程 Receiving(数据的接收器) -> Transforming(你写的数据处理代码) --> Outputing(把处理的数据保存起来) 那么 ...
第一个 Spark Steaming 程序
我的第三个发明专利也通过了内部专家的审核,我真是个创新满满的小天才亚,虽然说自己也赚到了一点小钱钱,但是和伟大的创作事业相比,那都是不值一提的小插曲.今天再次起航Spark Steaming的学习~ ...
Spark Steaming快速入门
Spark Steaming Spark Streaming 简介什么是Spark Streaming Spark Streaming使用Spark Core的快速调度功能来执行流分析.它以小批量方 ...
Spark Steaming流式日志过滤与分析
Spark Steaming流式日志过滤与分析这篇大概讲的是 spark steaming 监听 hdfs 的某个目录,当你在终端A使用 spark-submit 运行 Log2DB.py 文件后, ...
sparkcore分区_Spark学习：Spark源码和调优简介 Spark Core (二）
本文基于 Spark 2.4.4 版本的源码,试图分析其 Core 模块的部分实现原理,其中如有错误,请指正.为了简化论述,将部分细节放到了源码中作为注释,因此正文中是主要内容. 第一部分内容见: S ...
基于大数据的Uber数据实时监控（Part 1：Spark机器学习）
导言据Gartner称:到2020年,25亿辆联网汽车将成为物联网的主要对象.联网车辆预计每小时可以生成25GB的数据,对这些数据进行分析实现实时监控.大数据目前是10个主要领域之一,利用它可以使城 ...
Spark详解（四）：Spark组件以及消息通信原理
1. Spark核心基本概念 Application(应用程序):指用户编写的Spark应用程序,包含驱动程序(Driver)和分布在集群中多个节点之上的Executor代码,在执行过程中由一个或多个 ...
Spark详解（三）：Spark编程模型（RDD概述）
1. RDD概述 RDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现.RDD是Spark最核心的东西,它表示已被分区,不可变的并能够被并行 ...
Spark详解（一）：Spark及其生态圈概述
1. Spark简介 Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架. Spark 运行速度快易用性好 ...

Spark6：Spark Steaming

Spark Steaming