Structured Streaming 入门案例之WordCount

1、编写一个流式计算的应用, 不断的接收外部系统的消息
2、对消息中的单词进行词频统计
3、统计全局的结果

步骤

Socket Server 等待 Structured Streaming 程序连接
Structured Streaming 程序启动, 连接 Socket Server, 等待 Socket Server 发送数据
Socket Server 发送数据, Structured Streaming 程序接收数据
Structured Streaming 程序接收到数据后处理数据
数据处理后, 生成对应的结果集, 在控制台打印

代码

import org.apache.spark.sql.streaming.OutputMode
import org.apache.spark.sql.{Dataset, KeyValueGroupedDataset, SparkSession}object StructDemo extends App {private val spark: SparkSession = SparkSession.builder().master("local[2]").appName("test").getOrCreate()import spark.implicits._//receive nc data//Returns a DataStreamReader that can be used to read streaming data in as a DataFrame.private val ds: Dataset[String] = spark.readStream.format("socket").option("host", "mypc01").option("port", 10087).load().as[String]private val value: KeyValueGroupedDataset[String, (String, Int)] = ds.flatMap((_.split(" "))).map((_, 1)).groupByKey(_._1)private val value1: Dataset[(String, Long)] = value.count()value1.writeStream.outputMode(OutputMode.Complete()).format("console").start().awaitTermination()
}

换种写法 .sql风格

import org.apache.spark.sql.streaming.OutputMode
import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}object StructDemo2 extends App {private val spark: SparkSession = SparkSession.builder().master("local[2]").appName("test").getOrCreate()import spark.implicits._//receive nc data//Returns a DataStreamReader that can be used to read streaming data in as a DataFrame.private val ds: Dataset[String] = spark.readStream.format("socket").option("host", "mypc01").option("port", 10087).load().as[String]ds.flatMap((_.split(" "))).map((_, 1)).toDF("word", "num").createTempView("tmp")val sql="""|select word,count(1)|from tmp|group by word|""".stripMarginprivate val frame: DataFrame = spark.sql(sql)frame.writeStream.outputMode(OutputMode.Complete()).format("console").start().awaitTermination()
}

总结

1、Structured Streaming 中的编程步骤依然是先读, 后处理, 最后落地
2、Structured Streaming 中的编程模型依然是 DataFrame 和 Dataset
3、Structured Streaming 中依然是有外部数据源读写框架的, 叫做 readStream 和 writeStream
4、Structured Streaming 和 SparkSQL 几乎没有区别, 唯一的区别是, readStream 读出来的是流, writeStream 是将流输出, 而 SparkSQL 中的批处理使用 read 和 write

Structured Streaming 入门案例之WordCount相关推荐

【Spark分布式内存计算框架——Structured Streaming】3. Structured Streaming —— 入门案例：WordCount
1.3 入门案例:WordCount 入门案例与SparkStreaming的入门案例基本一致:实时从TCP Socket读取数据(采用nc)实时进行词频统计WordCount,并将结果输出到控制台C ...
flink入门案例之WordCount
flink入门案例之WordCount,以下测试代码都是在本地执行的添加依赖添加maven依赖 <dependencies><dependency><groupId& ...
09_Flink入门案例、word-count程序（java和scala版本）、添加依赖、Flink Streaming和Batch的区别、在集群上执行程序等
1.9.Flink入门案例-wordCount 1.9.1.开发工具 1.9.2.编写java版本word-count程序 1.9.2.1.添加Flink Maven依赖 1.9.2.2.编写word ...
SparkStreaming 入门案例之wordcount
案例概述以nc作为源发送数据案例演示创建nc源,用于发送数据. [root@mypc01 ~]# nc -lk mypc01 10086 创建maven工程,导入依赖 <dependenc ...
updateStateByKey算子入门案例之wordCount
概念有一个参数,是个函数,该函数有两个参数,第一个是序列类型,第二个是Option类型 def updateStateByKey[S : ClassTag](updateFunc: (Seq[V], ...
Structured Streaming基础入门
Structured Streaming 1. 回顾和展望 1.1. Spark 编程模型的进化过程 RDD rdd.flatMap(_.split(" ")).map((_, 1 ...
Structured Streaming 开发入门
Structured Streaming 作为 Spark 家族的新成员,通过 Spark SQL/DataFrame 来处理 Batch/Streaming 数据,基本的 SparkSQL API ...
Structured Streaming系列-1、Structured Streaming
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 传送门:大数据系列文章目录官方网址:http://spark.apache.org/. ht ...
大数据Spark Structured Streaming
目录 1 Spark Streaming 不足 2 Structured Streaming 概述 2.1 模块介绍 2.3 编程模型 3 入门案例:WordCount 3.1 功能演示 3.2 So ...

Structured Streaming 入门案例之WordCount

步骤

代码

总结

Structured Streaming 入门案例之WordCount相关推荐

最新文章

热门文章