Spark Steaming

  • 一、流计算概述
  • 二、Spark Streaming
  • 三、DStream
  • 四、文件流操作
  • 五、套接字流
  • 参考

一、流计算概述

静态数据、流数据

特点
实时处理、主动推送
大量、快速、时变、持续到达
低延迟、可扩展、高可靠

二、Spark Streaming

模仿流计算
Spark是以线程级别并行,实时响应级别高
可以实现秒级响应,变相实现高效的流计算

Spark Streaming是一个基于Spark Core之上的实时计算框架,可以从很多数据源消费数据并对数据进行处理。






三、DStream

在Spark Streaing中有一个最基本的抽象叫DStream(代理),本质上就是一系列连续的RDD,DStream其实就是对RDD的封装。

DStream可以任务是一个RDD的工厂,该DStream里面生产都是相同业务逻辑的RDD,只不过是RDD里面要读取数据的不相同

深入理解DStream:他是sparkStreaming中的一个最基本的抽象,代表了一下列连续的数据流,本质上是一系列连续的RDD,你对DStream进行操作,就是对RDD进行操作

DStream每隔一段时间生成一个RDD,你对DStream进行操作,本质上是对里面的对应时间的RDD进行操作

DSteam和DStream之间存在依赖关系,在一个固定的时间点,对个存在依赖关系的DSrteam对应的RDD也存在依赖关系,
每个一个固定的时间,其实生产了一个小的DAG,周期性的将生成的小DAG提交到集群中运行。

四、文件流操作

wordcount实例

object FileWordCount {def main(args: Array[String]): Unit = {// 创建Spark配置对象val conf = new SparkConf().setMaster("local[2]").setAppName("FileWordCount")// 按照时间间隔为3秒钟切分数据流val ssc = new StreamingContext(conf, Seconds(3))// 创建行分段流,接收文件流val lines = ssc.textFileStream("file:///user/local/logfile")// 生成单词分段流val words = lines.flatMap(_.split(" "))// 计算每一批次中的每个单词数量,并进行词频统计val wc = words.map(x=>(x,1)).reduceByKey(_+_)// 输出分段流中每个RDD的词频统计结果wc.print()// 开始计算ssc.start()// 等待计算结束ssc.awaitTermination()}
}

创建StreamingContext对象



五、套接字流

参考

https://blog.csdn.net/howard2005/article/details/124835239

Spark6:Spark Steaming相关推荐

  1. spark steaming的性能问题

    1.Steaming 的数据处理大致流程 Receiving(数据的接收器) -> Transforming(你写的数据处理代码) --> Outputing(把处理的数据保存起来) 那么 ...

  2. 第一个 Spark Steaming 程序

    我的第三个发明专利也通过了内部专家的审核,我真是个创新满满的小天才亚,虽然说自己也赚到了一点小钱钱,但是和伟大的创作事业相比,那都是不值一提的小插曲.今天再次起航Spark Steaming的学习~ ...

  3. Spark Steaming快速入门

    Spark Steaming Spark Streaming 简介 什么是Spark Streaming Spark Streaming使用Spark Core的快速调度功能来执行流分析.它以小批量方 ...

  4. Spark Steaming流式日志过滤与分析

    Spark Steaming流式日志过滤与分析 这篇大概讲的是 spark steaming 监听 hdfs 的某个目录,当你在终端A使用 spark-submit 运行 Log2DB.py 文件后, ...

  5. sparkcore分区_Spark学习:Spark源码和调优简介 Spark Core (二)

    本文基于 Spark 2.4.4 版本的源码,试图分析其 Core 模块的部分实现原理,其中如有错误,请指正.为了简化论述,将部分细节放到了源码中作为注释,因此正文中是主要内容. 第一部分内容见: S ...

  6. 基于大数据的Uber数据实时监控(Part 1:Spark机器学习)

    导言 据Gartner称:到2020年,25亿辆联网汽车将成为物联网的主要对象.联网车辆预计每小时可以生成25GB的数据,对这些数据进行分析实现实时监控.大数据目前是10个主要领域之一,利用它可以使城 ...

  7. Spark详解(四):Spark组件以及消息通信原理

    1. Spark核心基本概念 Application(应用程序):指用户编写的Spark应用程序,包含驱动程序(Driver)和分布在集群中多个节点之上的Executor代码,在执行过程中由一个或多个 ...

  8. Spark详解(三):Spark编程模型(RDD概述)

    1. RDD概述 RDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现.RDD是Spark最核心的东西,它表示已被分区,不可变的并能够被并行 ...

  9. Spark详解(一):Spark及其生态圈概述

    1. Spark简介 Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架. Spark 运行速度快 易用性好 ...

最新文章

  1. 鸿蒙0s是什么意思,华为官宣,鸿蒙0S正式来临?
  2. DNS智能解析的另类使用 让搜索引擎更快更好的收录您的网站
  3. java svnkit_java svnkit实现svn提交,更新等操作
  4. android 动画总结笔记 一
  5. 遍历strs数组,并判断数组中每一个元素的长度, * 将长度为偶数的元素和长度为奇数的元素分别存放在两个集合中,
  6. 磁盘Raid方案简单对比
  7. python代码中使用pip安装文件
  8. Shiro学习总结(2)——Apache Shiro快速入门教程
  9. 粒子滤波简介(转载)
  10. 批处理为win7桌面添加计算机图标,WIN7桌面显示IE图标bat
  11. 【已解决】如何设置、更换LaTeX Beamer的字体?以及调整正文所使用的字体(如从Times New Roman改变为Arial)、定义字体大小等操作
  12. zookeeper报错 JAVA_HOME is not set
  13. 119全国消防日,我们要注意用火安全
  14. python图片文本识别的简单实现
  15. 全国计算机自考应用题,近几年度自考管理系统中计算机硬应用题汇总.doc
  16. 房屋租赁合同中押金的法律性质分析
  17. 超级详细的 shell编程知识讲解 —— 第二部分(全文3万多字,看完之后不想成为高手也难!)
  18. Linux中vsftpd配置文件vsftpd.conf详解
  19. CentOS安装虚拟主机管理系统Virtualmin
  20. ActiveX界面套包Xtreme Suite Pro案例:助力企业 Office风格用户界面开发

热门文章

  1. Anton and Chess
  2. 教程篇(7.0) 04. FortiGate基础架构 二层交换 ❀ Fortinet 网络安全专家 NSE 4
  3. Kotlin入门与进阶:语法(二)类成员,运算符,语句,表达式
  4. EMC共模干扰处理,共模扼流圈的应用和选型。
  5. 计算机组成原理实验五:CPU组成与机器指令执行实验
  6. 首款国产太赫兹成像芯片发布
  7. Ansible主机清单inventory
  8. Harbor中镜像清理
  9. 一步步教你使用云端服务器yeelink远程监控
  10. soul被下架,社交圈的一股清流也变了味?