flink EventTime与Window
EventTime的引入
在Flink
的流式处理中,绝大部分的业务都会使用eventTime
,一般只在eventTime
无法使用时,才会被迫使用ProcessingTime
或者IngestionTime
。
如果要使用EventTime
,那么需要引入EventTime
的时间属性,引入方式如下所示
// 创建流处理环境val env = StreamExecutionEnvironment.getExecutionEnvironment//设置从该环境创建的所有流的时间特征,例如处理时间,事件时间或摄取时间。//如果将特征设置为EventTime的IngestionTime,则将默认水印更新间隔设置为200 ms。 //如果这不适用于您的应用程序,则应使用#setAutoWatermarkInterval(long)对其进行更改env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
Watermark
基本概念
我们知道,流处理
从事件产生,到流经source
,再到operator
,中间是有一个过程和时间的,虽然大部分情况下,流到operator
的数据都是按照事件产生的时间顺序来的,但是也不排除由于网络、分布式等原因,导致乱序
的产生,所谓乱序
,就是指Flink
接收到的事件的先后顺序不是严格按照事件的Event Time
顺序排列的。
那么此时出现一个问题,一旦出现乱序,如果只根据eventTime
决定window
的运行,我们不能明确数据是否全部到位,但又不能无限期的等下去,此时必须要有个机制来保证一个特定的时间后,必须触发window
去进行计算了,这个特别的机制,就是Watermark
。
Watermark
是一种衡量Event Time
进展的机制,它是数据本身的一个隐藏属性,数据本身携带着对应的Watermark
。
Watermark
是用于处理乱序事件
的,而正确的处理乱序事件,通常用Watermark
机制结合window
来实现。
数据流中的Watermark
用于表示timestamp
小于Watermark
的数据,都已经到达了,因此,window
的执行也是由Watermark
触发的。
Watermark
可以理解成一个延迟触发机制,我们可以设置Watermark
的延时时长t,每次系统会校验已经到达的数据中最大的maxEventTime
,然后认定eventTime
小于maxEventTime - t
的所有数据都已经到达,如果有窗口的停止时间等于maxEventTime – t
,那么这个窗口被触发执行。
有序流的Watermarker
如下图所示:(Watermark设置为0)
乱序流的Watermarker
如下图所示:(Watermark设置为2)
当Flink
接收到每一条数据时,都会产生一条Watermark
,这条Watermark
就等于当前所有到达数据中的maxEventTime - 延迟时长
,也就是说,Watermark
是由数据携带的,一旦数据携带的Watermark
比当前未触发的窗口的停止时间要晚,那么就会触发相应窗口的执行。由于Watermark
是由数据携带的,因此,如果运行过程中无法获取新的数据,那么没有被触发的窗口将永远都不被触发。
上图中,我们设置的允许最大延迟到达时间为2s
,所以时间戳为7s
的事件对应的Watermark
是5s
,时间戳为12s
的事件的Watermark
是10s
,如果我们的窗口1是1s5s,窗口2是6s10s,那么时间戳为7s的事件到达时的Watermarker恰好触发窗口1,时间戳为12s的事件到达时的Watermark恰好触发窗口2。
Watermark
就是触发前一窗口的“关窗时间”
,一旦触发关门那么以当前时刻为准在窗口范围内的所有所有数据都会收入窗中。
只要没有达到水位那么不管现实中的时间推进了多久都不会触发关窗。
Watermark的引入
flink EventTime与Window相关推荐
- Flink EventTime和Watermarks原理结合代码分析(转载+解决+精简记录)
Apache Flink 框架保证Watermark单调递增,算子接收到一个Watermark时候,框架知道不会再有任何小于该Watermark的时间戳的数据元素到来了,所以Watermark可以看做 ...
- flink sql 知其所以然(八):flink sql tumble window 的奇妙解析之路
感谢您的小爱心(关注 + 点赞 + 再看),对博主的肯定,会督促博主持续的输出更多的优质实战内容!!! 1.序篇-本文结构 大数据羊说 用数据提升美好事物发生的概率~ 34篇原创内容 公众号 源码 ...
- 聊聊flink的Tumbling Window
为什么80%的码农都做不了架构师?>>> 序 本文主要研究一下flink的Tumbling Window WindowAssigner flink-streaming-java ...
- Flink中的window知识体系与scala完整案例
[1]中得到大类,插图来自[2] 窗口大类(官方) 子分类 数据是否在窗口之间重叠 Time Windows Tumbling Windows Sliding Windows Count Window ...
- 【基础】Flink -- Time and Window
Flink -- Time and Window Flink 时间语义 水位线 Watermark 水位线的概念 有序流中的水位线 乱序流中的水位线 水位线的特性 水位线的基本使用 水位线生成策略 内 ...
- flink event-time 和连续窗口的使用
文章目录 1. flink 三种time简介 1.1 Processing Time: 1.2 Event time: 1.3 Ingestion time: 2. flink中使用event-tim ...
- 彻底搞清 Flink 中的 Window 机制
[CSDN 编者按]Window是处理无限流的核心.Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层引擎是一个流式引擎,在上面实现了流处理和批处理.Flink提 ...
- 彻底搞清Flink中的Window(Flink版本1.8)
flink-window 窗口 在流处理应用中,数据是连续不断的,因此我们不可能等到所有数据都到了才开始处理.当然我们可以每来一个消息就处理一次,但是有时我们需要做一些聚合类的处理,例如:在过去的1分 ...
- Flink之窗口 (Window) 下篇
窗口函数(Window Functions) 定义了窗口分配器,我们只是知道了数据属于哪个窗口,可以将数据收集起来了:至于收集起来到底要做什么,其实还完全没有头绪.所以在窗口分配器之后,必须再接上一个 ...
最新文章
- [转]数据结构:图的存储结构之邻接矩阵
- LNMP - Warning: require(): open_basedir restriction in effect错误解决方法
- python基础作业第十四天
- linux otl oracle,linux otl 连接数据库
- mysql更改表 值_如何更改MySQL表中行实例的值?
- 将QVTKWidget嵌入到QT窗体,实现点云可视化的基本操作
- 又拍云 php,GitHub - NoDurex/php-sdk: 又拍云存储PHP SDK
- 使用Nginx架设高性能流媒体服务器
- 计算机怎么把日历和时间放到桌面上,怎么把日历放到电脑桌面
- MATLAB-alphaShape三维使用
- ROS——Gazebo仿真——全向轮小车——运动学模型分析
- 第5章 远程控制软件的编写
- 7-97 约会成功了吗
- 全球与中国切板刀市场深度研究分析报告
- mysql必会比知电子_mysql必知必会(三)
- vue读取文件夹下面的文件名称
- 爬山虎采集实战-站长之家网站排行榜
- js二维数组和多维数组 flatMap ( )
- NFS Mout错误对应:clnt_create: RPC: Program not registered
- 5.1. Table Basics
热门文章
- c#连接kafka_c#操作kafka(上)搭建kafka环境
- python中如何调用函数_如何调用python中的内置函数?(实例解析)
- java兵临城下_再谈java事件监听机制
- fianl属性 java_Java反射如何有效的修改final属性值详解
- 高通qusb bulk驱动_1999元!Redmi新机发布:首发高通全新SoC
- java语言编译_java在线编译-编译,java
- mysql 排序查询核心
- java 自定义注解 生成json_Java使用@JsonDeserialize注解实现自定义反序列化器
- 中的live_张杰两首歌曲连唱彰显LIVE实力 青春演说温暖人心
- pix4d怎么查看点云数据_PIX4D的两种像控点刺点方式探讨