一、 时间语义与 Wartermark

1、 Flink 中的时间语义

在 Flink 的流式处理中,会涉及到时间的不同概念,如下图所示:

Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的
日志数据中,每一条日志都会记录自己的生成时间,Flink 通过时间戳分配器访问事
件时间戳。 Ingestion Time:是数据进入 Flink 的时间。 Processing Time:是每一个执行基于时间操作的算子的本地系统时间,与机器
相关,默认的时间属性就是 Processing Time。

一个例子——电影《星球大战》:

例如,一条日志进入 Flink 的时间为 2017-11-12 10:00:00.123,到达 Window 的

系统时间为 2017-11-12 10:00:01.234,日志的内容如下:

2017

对于业务来说,要统计 1min 内的故障日志个数,哪个时间是最有意义的?——

eventTime,因为我们要根据日志的生成时间进行统计。

2、 EventTime 的引入

在 Flink 的流式处理中,绝大部分的业务都会使用 eventTime,一般只在
eventTime 无法使用时,才会被迫使用 ProcessingTime 或者 IngestionTime。

如果要使用 EventTime,那么需要引入 EventTime 的时间属性,引入方式如下所

示:

val 

3、Watermark

3.1、基本概念

我们知道,流处理从事件产生,到流经 source,再到 operator,中间是有一个过
程和时间的,虽然大部分情况下,流到 operator 的数据都是按照事件产生的时间顺
序来的,但是也不排除由于网络、分布式等原因,导致乱序的产生,所谓乱序,就
是指 Flink 接收到的事件的先后顺序不是严格按照事件的 Event Time 顺序排列的。

那么此时出现一个问题,一旦出现乱序,如果只根据 eventTime 决定 window 的
运行,我们不能明确数据是否全部到位,但又不能无限期的等下去,此时必须要有
个机制来保证一个特定的时间后,必须触发 window 去进行计算了,这个特别的机
制,就是 Watermark。

  • Watermark 是一种衡量 Event Time 进展的机制。
  • Watermark 是用于处理乱序事件的,而正确的处理乱序事件,通常用

Watermark 机制结合 window 来实现。

  • 数据流中的 Watermark 用于表示 timestamp 小于 Watermark 的数据,都已经

到达了,因此,window 的执行也是由 Watermark 触发的。

  • Watermark 可以理解成一个延迟触发机制,我们可以设置 Watermark 的延时

时长 t,每次系统会校验已经到达的数据中最大的 maxEventTime,然后认定 eventTime

小于 maxEventTime - t 的所有数据都已经到达,如果有窗口的停止时间等于

maxEventTime – t,那么这个窗口被触发执行。

有序流的 Watermarker 如下图所示:(Watermark 设置为 0)

乱序流的 Watermarker 如下图所示:(Watermark 设置为 2)

当 Flink 接收到数据时,会按照一定的规则去生成 Watermark,这条 Watermark
就等于当前所有到达数据中的 maxEventTime - 延迟时长,也就是说,Watermark 是
由数据携带的,一旦数据携带的 Watermark 比当前未触发的窗口的停止时间要晚,
那么就会触发相应窗口的执行。由于 Watermark 是由数据携带的,因此,如果运行
过程中无法获取新的数据,那么没有被触发的窗口将永远都不被触发。
上图中,我们设置的允许最大延迟到达时间为 2s,所以时间戳为 7s 的事件对应
的 Watermark 是 5s,时间戳为 12s 的事件的 Watermark 是 10s,如果我们的窗口 1
是 1s~5s,窗口 2 是 6s~10s,那么时间戳为 7s 的事件到达时的 Watermarker 恰好触
发窗口 1,时间戳为 12s 的事件到达时的 Watermark 恰好触发窗口 2。

Watermark 就是触发前一窗口的“关窗时间”,一旦触发关门那么以当前时刻

为准在窗口范围内的所有所有数据都会收入窗中。

只要没有达到水位那么不管现实中的时间推进了多久都不会触发关窗。

3.2、Watermark 的引入

watermark 的引入很简单,对于乱序数据,最常见的引用方式如下:

dataStream

Event Time 的使用一定要指定数据源中的时间戳。否则程序无法知道事件的事
件时间是什么(数据源里的数据没有时间戳的话,就只能使用 Processing Time 了)。
我们看到上面的例子中创建了一个看起来有点复杂的类,这个类实现的其实就
是分配时间戳的接口。Flink 暴露了 TimestampAssigner 接口供我们实现,使我们可
以自定义如何从事件数据中抽取时间戳。

val 

MyAssigner 有两种类型

  • AssignerWithPeriodicWatermarks
  • AssignerWithPunctuatedWatermarks

以上两个接口都继承自 TimestampAssigner。

Assigner with periodic watermarks

周期性的生成 watermark:系统会周期性的将 watermark 插入到流中(水位线也
是一种特殊的事件!)。默认周期是 200 毫秒。可以使用
ExecutionConfig.setAutoWatermarkInterval()方法进行设置。

val 

产生 watermark 的逻辑:每隔 5 秒钟,Flink 会调用

AssignerWithPeriodicWatermarks 的 getCurrentWatermark()方法。如果方法返回一个
时间戳大于之前水位的时间戳,新的 watermark 会被插入到流中。这个检查保证了
水位线是单调递增的。如果方法返回的时间戳小于等于之前水位的时间戳,则不会
产生新的 watermark。

例子,自定义一个周期性的时间戳抽取:

class 

一种简单的特殊情况是,如果我们事先得知数据流的时间戳是单调递增的,也

就是说没有乱序,那我们可以使用 assignAscendingTimestamps,这个方法会直接使

用数据的时间戳生成 watermark。

val 

而对于乱序数据流,如果我们能大致估算出数据流中的事件的最大延迟时间,

就可以使用如下代码:

val 

Assigner with punctuated watermarks

间断式地生成 watermark。和周期性生成的方式不同,这种方式不是固定时间的,

而是可以根据需要对每条数据进行筛选和处理。直接上代码来举个例子,我们只给

sensor_1 的传感器的数据流插入 watermark:

class 

4、 EvnetTime 在 window 中的使用

案例一:Flink窗口操作之简单测试

4.1、滚动窗口(TumblingEventTimeWindows)

代码具体实现:

package 

启动程序后,视频演示:表示10秒之内统计数据

Flink的滚动窗口实现方式https://www.zhihu.com/video/1241477585970135040

案例二:Flink窗口操作之事件时间测试

代码具体实现:

package 

启动程序后,视频演示:事件时间测试表示执行多少个才能把窗口关闭,由于这里简单测试没遇到窗口关闭

事件时间测试 https://www.zhihu.com/video/1241492597937111040

案例三:Flink窗口操作之Window起始点

视频演示:

Window起始点https://www.zhihu.com/video/1241685277611372544


二、ProcessFunction API(底层 API)

我们之前学习的转换算子是无法访问事件的时间戳信息和水位线信息的。而这
在一些应用场景下,极为重要。例如 MapFunction 这样的 map 转换算子就无法访问
时间戳或者当前事件的事件时间。
基于此,DataStream API 提供了一系列的 Low-Level 转换算子。可以访问时间 戳、watermark 以及注册定时事件。还可以输出特定的一些事件,例如超时事件等。
Process Function 用来构建事件驱动的应用以及实现自定义的业务逻辑(使用之前的
window 函数和转换算子无法实现)。例如,Flink SQL 就是使用 Process Function 实
现的。

Flink 提供了 8 个 Process Function:

  • ProcessFunction
  • KeyedProcessFunction
  • CoProcessFunction
  • ProcessJoinFunction
  • BroadcastProcessFunction
  • KeyedBroadcastProcessFunction
  • ProcessWindowFunction
  • ProcessAllWindowFunction

1、KeyedProcessFunction

这里我们重点介绍 KeyedProcessFunction。

KeyedProcessFunction 用来操作 KeyedStream。KeyedProcessFunction 会处理流
的每一个元素,输出为 0 个、1 个或者多个元素。所有的 Process Function 都继承自
RichFunction 接口,所以都有 open()、close()和 getRuntimeContext()等方法。

而 KeyedProcessFunction[KEY, IN, OUT]还额外提供了两个方法:

  • processElement(v: IN, ctx: Context, out: Collector[OUT]),

流中的每一个元素 都会调用这个方法,调用结果将会放在 Collector 数据类型中输出。Context 可以访问元素的时间戳,元素的 key,以及 TimerService 时间服务。Context
还可以将结果输出到别的流(side outputs)。

  • onTimer(timestamp: Long, ctx: OnTimerContext, out: Collector[OUT])

是一个回 调函数。当之前注册的定时器触发时调用。参数 timestamp 为定时器所设定
的触发的时间戳。Collector 为输出结果的集合。OnTimerContext 和
processElement 的 Context 参数一样,提供了上下文的一些信息,例如定时器
触发的时间信息(事件时间或者处理时间)。

2、TimerService 和 定时器(Timers)

Context 和 OnTimerContext 所持有的 TimerService 对象拥有以下方法:

  • currentProcessingTime(): Long 返回当前处理时间
  •  currentWatermark(): Long 返回当前 watermark 的时间戳
  •  registerProcessingTimeTimer(timestamp: Long): Unit 会注册当前 key 的

processing time 的定时器。当 processing time 到达定时时间时,触发 timer。

  • registerEventTimeTimer(timestamp: Long): Unit 会注册当前 key 的 event time

定时器。当水位线大于等于定时器注册的时间时,触发定时器执行回调函数。

  • deleteProcessingTimeTimer(timestamp: Long): Unit 删除之前注册处理时间定

时器。如果没有这个时间戳的定时器,则不执行。

  • deleteEventTimeTimer(timestamp: Long): Unit 删除之前注册的事件时间定时

器,如果没有此时间戳的定时器,则不执行。

当定时器 timer 触发时,会执行回调函数 onTimer()。注意定时器 timer 只能在

keyed streams 上面使用。

下面举个例子说明 KeyedProcessFunction 如何操作 KeyedStream。

需求:监控温度传感器的温度值,如果温度值在一秒钟之内(processing time)连

续上升,则报警。

val 

看一下 TempIncreaseAlertFunction 如何实现, 程序中使用了 ValueState 这样一个

状态变量。

具体代码实现:

package 

启动程序,控制台打印数据

3、侧输出流(SideOutput)

大部分的 DataStream API 的算子的输出是单一输出,也就是某种数据类型的流。
除了 split 算子,可以将一条流分成多条流,这些流的数据类型也都相同。process
function 的 side outputs 功能可以产生多条流,并且这些流的数据类型可以不一样。
一个 side output 可以定义为 OutputTag[X]对象,X 是输出流的数据类型。process
function 可以通过 Context 对象发射一个事件到一个或者多个 side outputs。

下面是一个示例程序:

val 

接下来我们实现 FreezingMonitor 函数,用来监控传感器温度值,将温度值低于
32F 的温度输出到 side output。

具体代码实现:

package 

启动程序,控制台打印数据

冰点低温输出流https://www.zhihu.com/video/1241752113551646720

4、CoProcessFunction

对于两条输入流,DataStream API 提供了 CoProcessFunction 这样的 low-level
操作。CoProcessFunction 提供了操作每一个输入流的方法: processElement1()和
processElement2()。
类似于 ProcessFunction,这两种方法都通过 Context 对象来调用。这个 Context
对象可以访问事件数据,定时器时间戳,TimerService,以及 side outputs。
CoProcessFunction 也提供了 onTimer()回调函数。

flink 自定义 窗口_Flink入门实战 (下)相关推荐

  1. flink 自定义 窗口_《从0到1学习Flink》—— Flink Data transformation(转换)

    前言 在第一篇介绍 Flink 的文章 <<从0到1学习Flink>-- Apache Flink 介绍> 中就说过 Flink 程序的结构 Flink 应用程序结构就是如上图 ...

  2. flink 自定义 窗口_【Flink 精选】阐述 Watermark 机制,剖析 Watermark 的产生和传递流程...

    本文阐述 Flink 的事件时间和 Watermark 机制,剖析 Watermark 产生和传递的流程. 1 Event time 和 Watermark 的关系 1.1 Event time 和 ...

  3. 中读取数据_Flink入门实战 (中)

    一.Flink 流处理 API 1.Environment getExecutionEnvironment 创建一个执行环境,表示当前执行程序的上下文. 如果程序是独立调用的,则 此方法返回本地执行环 ...

  4. 2021年最新最全Flink系列教程_Flink快速入门(概述,安装部署)(一)(JianYi收藏)

    文章目录 引言 相关教程直通车: day01_Flink概述.安装部署和入门案例 今日目标 Flink概述 什么是批处理和流处理 为什么需要流计算 Flink的发展史 Flink的官方介绍 Flink ...

  5. Spark入门实战系列--6.SparkSQL(下)--Spark实战应用

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.运行环境说明 1.1 硬软件环境 l  主机操作系统:Windows 64位,双核4线程 ...

  6. Spark入门实战系列--5.Hive(下)--Hive实战

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.Hive操作演示 1.1 内部表 1.1.1 创建表并加载数据 第一步   启动HDFS ...

  7. flink入门实战总结

    随着大数据技术在各行各业的广泛应用,要求能对海量数据进行实时处理的需求越来越多,同时数据处理的业务逻辑也越来越复杂,传统的批处理方式和早期的流式处理框架也越来越难以在延迟性.吞吐量.容错能力以及使用便 ...

  8. Spark入门实战系列--2.Spark编译与部署(下)--Spark编译安装

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.编译Spark Spark可以通过SBT和Maven两种方式进行编译,再通过make-d ...

  9. 【QT】QT从零入门教程(十一):QT自定义窗口

      首先是借鉴了网上的博客,实现无边框,自由拖动的自定义窗口效果. #ifndef CUSTOMWINDOW_H #define CUSTOMWINDOW_H #include <QtGui&g ...

最新文章

  1. 关于windows10用c++部署libtorch过程中遇到的一些问题
  2. 第三次个人赛题目2 【多项式输出格式】
  3. 吐嘈OpenCV的图像旋转功能 _7
  4. Tomcat和Weblogic的区别
  5. oracl的使用命令
  6. php 未定义偏移,错误php未定义的偏移:2-3-4等
  7. 【跃迁之路】【586天】程序员高效学习方法论探索系列(实验阶段343-2018.09.14)...
  8. MIMO 从入门到精通 -科普篇2 - MIMO and Beamforming
  9. java删除占用的文件_「强力删除」自己用命令强制删除占用的文件或文件夹 - seo实验室...
  10. 厉害了,Pandas表格还能五彩斑斓的展示数据,究竟是怎么做到的呢?
  11. ubuntu20.04 root用户 登录桌面 / kubuntu20.04 root用户 登录桌面
  12. 支付宝支付(沙箱环境)
  13. ARM-------->第六天,IRQ中断
  14. USB Type-C引脚解析 CC、DFP、UFP、DRP用途解析
  15. linux 进程流量统计,Linux进程网络流量统计方法及实现
  16. 解读:大硕德乡饮耆宾贠尚忠翁芳行碑
  17. LVS解决高并发,大数据量
  18. 强化学习:Introduction
  19. WebGIS开发杂谈(一)——基于ArcGIS构建WebGIS概述
  20. QQ微信刷屏助手 FlashScreenAssist 1.2发布

热门文章

  1. 梯度提升决策树(GBDT)与XGBoost、LightGBM
  2. NVIDIA A100 GPUs上硬件JPEG解码器和NVIDIA nvJPEG库
  3. 2021年大数据Spark(四十二):SparkStreaming的Kafka快速回顾与整合说明
  4. Manifest merger failed : uses-sdk:minSdkVersion 15 cannot be smaller than version 16 declared in lib
  5. CRM中Plugin开发如何将功能放入多个模块
  6. java学习--第50天讲到jquery
  7. php链表笔记:单链表反转
  8. 一个KVO 实现WKWebView加载进度条的例子 (注意最后移除观察者)
  9. ajax异步传输数据时return返回总是undefined(转载)
  10. mongodb之备份