一、

Spark Streaming 构建在Spark core API之上,具备可伸缩,高吞吐,可容错的流处理模块。

1)支持多种数据源,如Kafka,Flume,Socket,文件等;

  • Basic sources: Sources directly available in the StreamingContext API. Examples: file systems, and socket connections.
  • Advanced sources: Sources like Kafka, Flume, Kinesis, etc. are available through extra utility classes. These require linking against extra dependencies.

2)处理完成数据可写入Kafka,Hdfs,本地文件等多种地方;

DStream:

Spark Streaming对持续流入的数据有个高层的抽像:

It represents a continuous stream of data

a DStream is represented by a continuous series of RDDs,Each RDD in a DStream contains data from a certain interval

Any operation applied on a DStream translates to operations on the underlying RDDs.

什么是RDD?

RDD是Resilient Distributed Dataset的缩写,中文译为弹性分布式数据集,是Spark中最重要的概念。

RDD是只读的、分区的,可容错的数据集合。

何为弹性?

RDD可在内存、磁盘之间任意切换

RDD可以转换成其它RDD,可由其它RDD生成

RDD可存储任意类型数据

二、基本概念

1)add dependency

<dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-streaming_2.11</artifactId>

<version>2.3.1</version>

</dependency>

其它想关依赖查询:

https://search.maven.org/search?q=g:org.apache.spark%20AND%20v:2.2.0

2)文件作为DStream源,是如何被监控的?

1)文件格式须一致

2)根据modify time开成流,而非create time

3)处理时,当前文件变更不会在此window处理,即不会reread

4)可以调用 FileSystem.setTimes()来修改文件时间,使其在下个window被处理,即使文件内容未被修改过

三、Transform operation

window operation

Spark Streaming also provides windowed computations, which allow you to apply transformations over a sliding window of data.

every time the window slides over a source DStream, the source RDDs that fall within the window are combined and operated upon to produce the RDDs of the windowed DStream.

在一个时间窗口内的RDD被合并为一个RDD来处理。

Any window operation needs to specify two parameters:

window length: The duration of the window

sliding interval: The interval at which the window operation if performed

四、Output operation

使用foreachRDD

dstream.foreachRDD is a powerful primitive that allows data to be sent out to external systems. However, it is important to understand how to use this primitive correctly and efficiently.

CheckPoint概念

Performance Tuning

Fault-tolerance Semantics

转载于:https://www.cnblogs.com/gm-201705/p/9533271.html

spark-streaming first insight相关推荐

  1. Apache 流框架 Flink,Spark Streaming,Storm对比分析(一)

    https://bigdata.163.com/product/article/5 Apache 流框架 Flink,Spark Streaming,Storm对比分析(一) 转载于:https:// ...

  2. Spark Streaming笔记整理(二):案例、SSC、数据源与自定义Receiver

    [TOC] 实时WordCount案例 主要是监听网络端口中的数据,并实时进行wc的计算. Java版 测试代码如下: package cn.xpleaf.bigdata.spark.java.str ...

  3. Spark Streaming实践和优化

    2019独角兽企业重金招聘Python工程师标准>>> Spark Streaming实践和优化 博客分类: spark 在流式计算领域,Spark Streaming和Storm时 ...

  4. 基于大数据的Uber数据实时监控(Part 4:Spark Streaming、DataFrames和HBase)

    导言 根据Gartner的数据,到2020年全球将有208亿个连接产品投入使用.Uber机器学习负责人Danny Lange的目标是将机器学习待到Uber业务的每个角落.连接事物的示例包括联网汽车和设 ...

  5. 基于大数据的Uber数据实时监控(Part 2:Kafka和Spark Streaming)

    导言 本文是系列文章的第二篇,我们将建立一个分析和监控Uber汽车GPS旅行数据的实时示例.在第一篇文章中讨论了使用Apache Spark的K-means算法创建机器学习模型,以根据位置聚类Uber ...

  6. Spark Streaming与Kafka Streaming对比

    ♚ 叙述 对流处理的需求每天都在增加.原因是,处理大量数据通常是不够的. 必须快速处理数据,以便公司能够对不断变化的业务条件作出实时反应. 流处理是对数据进行连续.并行的实时处理. 流式处理是处理数据 ...

  7. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(九)安装kafka_2.11-1.1.0

    如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...

  8. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二十一)NIFI1.7.1安装

    一.nifi基本配置 1. 修改各节点主机名,修改/etc/hosts文件内容. 192.168.0.120master192.168.0.121slave1192.168.0.122 slave2 ...

  9. Spark Streaming高级特性在NDCG计算实践

    从storm到spark streaming,再到flink,流式计算得到长足发展, 依托于spark平台的spark streaming走出了一条自己的路,其借鉴了spark批处理架构,通过批处理方 ...

  10. Spark Streaming揭秘 Day9 从Receiver的设计到Spark框架的扩展

    Spark Streaming揭秘 Day9 从Receiver的设计到Spark框架的扩展 Receiver是SparkStreaming的输入数据来源,从对Receiver整个生命周期的设计,我们 ...

最新文章

  1. android系统应用程序,Android系统应用程序基本概念解读
  2. 《Adobe InDesign CS6中文版经典教程》—第1课1.8节练习
  3. 【转】SAP Cloud Platform平台下,ABAP人员的出路在哪里
  4. Kettle使用_25 改变文件编码压缩与邮件
  5. 架构整洁之道, 看这一篇就够了!
  6. android动画送礼物,Android仿直播类app赠送礼物功能
  7. xcode 创建模拟器_Xcode编译WebKit
  8. ubuntu12的程序问题
  9. JDBC连接MySQL数据库:建立SSL连接出现警告信息
  10. 计算机机房维护保养计划表,机房日常维护保养计划
  11. 微信小程序分类小图标导航
  12. 惠普803墨盒清零步骤_打印机惠普7110墨盒清零的方法
  13. python 接口自动化测试王浩然 pdf_Python接口自动化测试
  14. 光电隔离RS485典型电路
  15. Excel中文转拼音【真正的完整版】 拼音 驼峰命名专用
  16. arcengine Icommond 自定义工具
  17. yii2自动更新时间
  18. vue集成Luckyexcel实现在线编辑Excel,可自行导入,也可从服务器端获取
  19. 小编为您介绍留声机的古与今
  20. 青龙-聚看点(稳定的毛)

热门文章

  1. python列表中数据类型可以不同吗_Python改变列表中数据类型的方法
  2. mysql中合并函数_MYSQL分组合并函数
  3. PAT_B_1090_C++(25分)
  4. bitwig编曲软件linux,Bitwig 中文视频教程——注册安装和基础功能入门
  5. linux搭建flask环境,Ubuntu 环境下搭建Flask框架
  6. Cache超清晰逻辑详解(cache的三种映射)
  7. pl/sql中文显示为乱码解决
  8. 【python 6】Numpy
  9. 创建 vxlan 并部署 instance - 每天5分钟玩转 OpenStack(147)
  10. User Mode Driver Management 介绍(二)