Spark Streaming 模块是对于 Spark Core 的一个扩展,目的是为了以高吞吐量,并且容错的方式处理持续性的数据流。目前 Spark Streaming 支持的外部数据源有 Flume、 Kafka、Twitter、ZeroMQ、TCP Socket 等。

Discretized Stream 也叫 DStream) 是 Spark Streaming 对于持续数据流的一种基本抽象,在内部实现上,DStream 会被表示成一系列连续的 RDD(弹性分布式数据集),每一个 RDD 都代表一定时间间隔内到达的数据。所以在对 DStream 进行操作时,会被 Spark Stream 引擎转化成对底层 RDD 的操作。对 Dstream 的操作类型有:

Transformations: 类似于对 RDD 的操作,Spark Streaming 提供了一系列的转换操作去支持对 DStream 的修改。如 map,union,filter,transform 等
    Window Operations: 窗口操作支持通过设置窗口长度和滑动间隔的方式操作数据。常用的操作有 reduceByWindow,reduceByKeyAndWindow,window 等
    Output Operations: 输出操作允许将 DStream 数据推送到其他外部系统或存储平台, 如 HDFS, Database 等,类似于 RDD 的 Action 操作,Output 操作也会实际上触发对 DStream 的转换操作。常用的操作有 print,saveAsTextFiles,saveAsHadoopFiles, foreachRDD 等。

转载于:https://www.cnblogs.com/TendToBigData/p/10501355.html

Spark Steaming 点滴相关推荐

  1. Spark6:Spark Steaming

    Spark Steaming 一.流计算概述 二.Spark Streaming 三.DStream 四.文件流操作 五.套接字流 参考 一.流计算概述 静态数据.流数据 特点 实时处理.主动推送 大 ...

  2. 第一个 Spark Steaming 程序

    我的第三个发明专利也通过了内部专家的审核,我真是个创新满满的小天才亚,虽然说自己也赚到了一点小钱钱,但是和伟大的创作事业相比,那都是不值一提的小插曲.今天再次起航Spark Steaming的学习~ ...

  3. Spark Steaming快速入门

    Spark Steaming Spark Streaming 简介 什么是Spark Streaming Spark Streaming使用Spark Core的快速调度功能来执行流分析.它以小批量方 ...

  4. Spark Steaming流式日志过滤与分析

    Spark Steaming流式日志过滤与分析 这篇大概讲的是 spark steaming 监听 hdfs 的某个目录,当你在终端A使用 spark-submit 运行 Log2DB.py 文件后, ...

  5. spark steaming的性能问题

    1.Steaming 的数据处理大致流程 Receiving(数据的接收器) -> Transforming(你写的数据处理代码) --> Outputing(把处理的数据保存起来) 那么 ...

  6. spark Steaming 学习笔记

    官网文档:http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html 万物之源 word count ...

  7. Flume+kafka+Spark Steaming demo2

    一,flume配置 # Name the components on this agent a1.sources = tailsource-1 a1.sinks = remotesink a1.cha ...

  8. 关于Spark Steaming中的Processing Time/Total Delay/Processing Delay

    名词 解释 Processing Time 端到端计算所有作业的给定批次所需的时间. Scheduling Delay 从该批次被提交到流式调度程序的时间开始到处理该批次的第一个作业所花费的时间.. ...

  9. Flume+Kafka+Spark Steaming demo

    一.准备flume配置 a1.sources = r1 a1.sinks = k1 a1.channels = c1 a1.sources.r1.type = spooldir a1.sources. ...

最新文章

  1. 干货|4条实用小建议,送给初入NLP领域的你(附链接)
  2. 程序与进程的区别,并发与并行的区别,多进程的实现原理
  3. C/C++基础知识点(三)
  4. How do I sort groups of data items?(WPF)
  5. 【排序】算法(python实现)
  6. 使用LINQ计算基本统计
  7. 将COleDateTime类型数据转换成char *数据
  8. 《Swift 权威指南》——第6章,第6.1节函数的定义和调用
  9. 光栅图形学——直线段的扫描转换算法
  10. URI,URL的区别
  11. 从零开始发布web项目(七)
  12. 计算机语言栏无法设置,win10系统修改语言栏设置的解决方案
  13. 2010国家节假日安排
  14. 【机器学习|数学基础】Mathematics for Machine Learning系列之线性代数(5):克拉默法则
  15. 服务器装win10稳定吗,win10哪个版本最稳定好用 目前win10最稳定的版本推荐
  16. [ CTF ]天格战队WriteUp-首届数字空间安全攻防大赛(初赛)
  17. 了解传统教育培训机构的痛点
  18. 高通骁龙处理器最新的排名
  19. C语言函数指针使用的一个例子(Win10,VS2022)
  20. 请问汽车CD接线各个的字母代表什么,ACC,ILL,RR,FR,FL,RLANT,B/U,NC,CND,真诚的谢谢了

热门文章

  1. python向量计算库教程_NumPy库入门教程:基础知识总结
  2. android多媒体图文混排,干货!!!Android富文本实现图文混排
  3. yii2 模型中set_Day184:人脸识别中open-set与close-set
  4. 虚拟机桌面linux系统,KVM - Linux下三大免费桌面虚拟机评测_Linux教程_Linux公社-Linux系统门户网站...
  5. mysql数据库增删改实例_Mysql1:数据库表操作,增删改查举例
  6. windows优化大师8周年纪念版_《数码宝贝》20周年纪念:当年的八神太一与亚古兽你还记得吗?...
  7. python生成试卷制卷系统_Python 读写文件 小应用:生成随机的测验试卷文件
  8. android修改视频聊天帧率,Android基于腾讯云实时音视频仿微信视频通话最小化悬浮(4)...
  9. Springboot的部分依赖及作用
  10. python基础知识整理 第七节:单例设计模式、异常、模块、包、制作模块、文件