官网:https://spark.apache.org/docs/latest/streaming-programming-guide.html

一:介绍


Spark流是核心Spark API的扩展,它支持对实时数据流进行可伸缩、高吞吐量和容错的流处理。数据可以从Kafka、Flume、Kinesis或TCP套接字等多个源获取,也可以使用映射、reduce、join和window等高级函数表示的复杂算法进行处理。最后,可以将处理过的数据推送到文件系统、数据库和实时仪表板。事实上,您可以将Spark的机器学习和图形处理算法应用于数据流。

在内部,它的工作原理如下。Spark流接收实时输入数据流,并将数据划分为批,然后由Spark引擎处理这些数据,生成最终的批结果流。

IDEA中操作

添加pom文件

<dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_2.11</artifactId><version>${spark.version}</version></dependency>

代码:

package g5.learning.Stearing001import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession
import org.apache.spark.streaming.{Seconds, StreamingContext}object streamingWCApp {def main(args: Array[String]): Unit = {//准备工作val conf = new SparkConf().setMaster("local[2]").setAppName("streamingWCApp")val ssc = new StreamingContext(conf, Seconds(10))
//业务逻辑val lines = ssc.socketTextStream("hadoop001", 9999)val results = lines.flatMap(_.split(",")).map((_,1)).reduceByKey(_+_)results.print()//默认打十条结果//streaming 不需要关掉//streaming的启动ssc.start()             // Start the computationssc.awaitTermination()  // Wait for the computation to terminate}}

localhost:4040端口查询

[hadoop@hadoop001 conf]$  nc -lk 9999
a,a,a,a,a,a,a,a,a,a,d,d,

Spark Streaming的介绍和IDEA操作相关推荐

  1. Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.Spark Streaming简介 1.1 概述 Spark Streaming 是Sp ...

  2. sparksteaming---实时流计算Spark Streaming原理介绍

    来源:http://www.cnblogs.com/shishanyuan/p/4747735.html 1.Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...

  3. Spark Streaming架构介绍_大数据培训

    Spark Streaming架构 1 架构图 图1-1 SparkStreaming架构图 图1-2整体架构图 2 背压机制 Spark 1.5以前版本,用户如果要限制Receiver的数据接收速率 ...

  4. Spark Streaming实时计算框架介绍

    随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐.用户行为分析等. Spark Streaming是建立在 ...

  5. Spark Streaming初步使用以及工作原理详解

    一.流式计算 1.什么是流? Streaming:是一种数据传送技术,它把客户机收到的数据变成一个稳定连续的  流,源源不断地送出,使用户听到的声音或看到的图象十分平稳,而且用户在  整个文件送完之前 ...

  6. grafana计算不同时间的差值_大数据时代!如何基于Spark Streaming构建实时计算平台...

    随着互联网技术的迅速发展,用户对于数据处理的时效性.准确性与稳定性要求越来越高,如何构建一个稳定易用并提供齐备的监控与预警功能的实时计算平台也成了很多公司一个很大的挑战. 自2015年携程实时计算平台 ...

  7. .Spark Streaming(上)--实时流计算Spark Streaming原理介

    Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍 http://www.cnblogs.com/shishanyuan/p/474 ...

  8. Spark Streaming 新手指南(原始文章已经发布表在IBM Developworks)

    插个小广告:本人的<大话Java性能优化>一书已经在亚马逊.当当.京东.天猫出售,提前谢谢大家的支持. 亚马逊地址:https://www.amazon.cn/%E5%A4%A7%E8%A ...

  9. 大数据求索(8):Spark Streaming简易入门一

    大数据求索(8):Spark Streaming简易入门一 一.Spark Streaming简单介绍 Spark Streaming是基于Spark Core上的一个应用程序,可伸缩,高吞吐,容错( ...

最新文章

  1. WordPress qTranslate插件跨站请求伪造漏洞
  2. C语言如何实现随机打印24个母,菜鸟求助,写一个随机输出26个英文字母的程序...
  3. 删除桌面快捷方式小图标的bat命令
  4. 天气预报c是什么意思_大雪节气将至,为什么老话说:寒风迎大雪,三九天气暖?...
  5. Angular Light 指令用法
  6. 10个节约开发时间的CSS技巧
  7. qdir安装 多窗口资源管理软件
  8. 【Flutter】微信项目实战【06】 通讯录界面搭建(中)
  9. java俄罗斯方块算法_【俄罗斯方块java】分享一个Java写的俄罗斯方块源码 算法简单(300行) 注释详细!...
  10. 计算机第一级开机密码设置,电脑怎么设置开机密码各系统汇总
  11. CST2018/2020安装注意事项
  12. socks5 python_用Python写socks5服务器端
  13. LevOJ P1685飞跃悬崖(着色问题)
  14. matlab pca函数怎么用,matlab的pca函数说明
  15. 图片转换格式的具体操作步骤
  16. 《百度apollo》规划一
  17. ETC通行费9折活动
  18. 基于STC89C52RC的交通灯设计
  19. idea启动项目zookeeper报错
  20. 基于MATLAB的线激光三维彩色扫描仪

热门文章

  1. Python爬虫你需要积累这些基本知识_Python学习基础路线
  2. onCreate onStart onResume onStop onPause onDestroy onRestart onWindowFocusChanged
  3. Linux平台下裸设备的绑定:
  4. 【李宏毅2020 ML/DL】P66 Self-supervised Learning
  5. 【数据结构笔记12】平衡二叉树,AVL树,RR旋转/LL旋转/LR旋转/RL旋转,AVL树插入的代码实现
  6. 折纸机器人的步骤图解_折纸图解公牛
  7. php yii2 观察者模式,观察者模式(Observer)
  8. 快速搭建本地服务器 php,本地PHP服务器环境快速搭建
  9. myeclipse中的项目如何切换svn地址
  10. filter:alpha(opacity=100,style=1)