Spark Streaming 是core Spark的一个扩展,用来处理实时数据流,数据源可以来自Kafka, Flume, HDFS等,经过复杂的算法处理后,存入HDFS,数据库,或者实时的Dashboards.

从内部来看,Spark Streaming把进来的流式数据切成一小块一小块,然后再交给Spark Engine处理,最终把无间隔的流式数据处理为有微小间隔的批次数据。由此完成了对数据流的实时处理。

接下来,介绍几个重要的概念:

Discretized Stream(DStream):DStream是Spark Streaming的一个抽象概念,代表一段连续的数据流,它既可以是从输入端收到的数据流,也可以是经过转换处理后的数据流。从内部来看一个DStream是由一组RDD序列构成。

Resilient Distributed Dataset(RDD):  RDD是Spark的一个数据结构,它由一组只读的,可容错的,可分布式处理的记录所构成。RDD要么通过读取外部数据来创建,要么通过转换现有的RDD来创建。RDD的操作包含Transformation(从现有的RDD生成一个新的RDD)和Action(对RDD执行运算后向Driver程序返回结果)

Input DStreams: Input DStream代表了从数据源接收到的输入数据流,Spark Streaming提供了两类数据源,一类是基础源,比如文件系统,Socket连接。另一类是高级源,比如Kafka, Flume这些。

Transformations on DStreams: 与RDD类型,我们也可以对DStream进行某些转换(Transformation), 其中常用的一些转换请参见 这里

Output Operations on DStreams: DStream的输出操作允许将DStream的数据存到外部系统中,比如数据库或者文件系统。具体的输出操作请参见 这里

总的来说,Spark Streaming就是将实时数据流分成一个个的RDD,然后对RDD进行各种操作和转换,最终将处理结果输出到外部的数据库或文件系统中。

转载于:https://www.cnblogs.com/LeeZee/p/7659164.html

Spark Streaming简介相关推荐

  1. Spark Streaming简介 (三十四)

    Spark Streaming简介 Spark Streaming 是 Spark 提供的对实时数据进行流式计算的组件.它是 Spark 核心 API 的一个扩展,具有吞吐量高.容错能力强的实时流数据 ...

  2. sparkstreaming监听hdfs目录如何终止_四十六、Spark Streaming简介及入门

    1.什么是Spark Streaming Spark Streaming是基于Spark Core之间的实时计算框架,可以从很多数据源消费数据并对数据进行处理.它是Spark核心API的一个扩展与封装 ...

  3. Spark Streaming高级特性在NDCG计算实践

    从storm到spark streaming,再到flink,流式计算得到长足发展, 依托于spark平台的spark streaming走出了一条自己的路,其借鉴了spark批处理架构,通过批处理方 ...

  4. Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.Spark Streaming简介 1.1 概述 Spark Streaming 是Sp ...

  5. .Spark Streaming(上)--实时流计算Spark Streaming原理介

    Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍 http://www.cnblogs.com/shishanyuan/p/474 ...

  6. 图解大数据 | 流式数据处理-Spark Streaming

    作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/84 本文地址:http://www.showmeai.tech/article-det ...

  7. sparksteaming---实时流计算Spark Streaming原理介绍

    来源:http://www.cnblogs.com/shishanyuan/p/4747735.html 1.Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...

  8. Spark详解(十二):Spark Streaming原理和实现

    1 简介 SparkStreaming是Spark核心API的一个扩展,具有高吞吐量和容错能力的实时流数据处理系统,可以对多种数据源(如Kdfka.Flume.Twitter.Zero和TCP 套接字 ...

  9. 从 Spark Streaming 到 Apache Flink : 实时数据流在爱奇艺的演进

    作者:陈越晨 整理:刘河 本文将为大家介绍Apache Flink在爱奇艺的生产与实践过程.你可以借此了解到爱奇艺引入Apache Flink的背景与挑战,以及平台构建化流程.主要内容如下: 爱奇艺在 ...

最新文章

  1. [实变函数]4.4 依测度收敛
  2. Oracle数据库中的分页--rownum
  3. html跳转过度,jq实现锚点跳转过度
  4. 赠书:京东当当新书榜TOP1的“算法小抄”!
  5. arcgis怎么运行python_在arcgis上用python脚本(arcpy)做数据批处理
  6. android Glide简单使用
  7. 使用PCL::GPU::遇到问题
  8. where is language of sap.ui.getCore().getConfiguration set - locale
  9. 数据结构与算法--利用栈实现队列
  10. python中布尔类型是特殊的_Python中的特殊方法以及应用详解
  11. 今天tiktok小社群更新 第5个项目行业案例
  12. mysql从5.7平滑升级到8.0.27
  13. 将logstash与elasticsearch性能匹配的几点尝试
  14. 投票小程序制作开发有哪些步骤?投票小程序开发有哪些功能?
  15. 游戏鼠标的dpi测试软件,教你自己测试鼠标的DPI
  16. UVA1335-Beijin Guards(二分)
  17. 【数据增强】Cutout
  18. Spring Boot1.5 学习笔记
  19. 多模态学习 讲座记录
  20. Curl常见错误返回码

热门文章

  1. C#--封装、继承、多态
  2. nodejs express 路由与view创建多级目录
  3. 要不来重新认识Spring事务?三歪又学到了
  4. 病毒与故障:漫谈计算机软件的故障应对
  5. 开源的13个Spring Boot 优秀学习项目!超53K星,一网打尽!
  6. 震惊!原来这才是Kafka的“真面目”!
  7. Spring Boot 注册 Servlet 的3种方式
  8. 面试题:SSH 和 SSM 两个框架的浅显的区别?
  9. 原码、反码、补码的产生、应用以及优缺点有哪些?
  10. Makefile: -I(大写i)、-L、-l