流式计算中为什么需要时间戳和WaterMark
可能很多从机器学习/深度学习转向实时计算的人会有这样一种困惑?
我们为啥需要时间戳/WaterMark
首先,EventTime来自时间戳,以及最终构成了WaterMark,这个就不展开说了,属于基本概念。
我们回顾下:
我们对数据进行分布式集群分析的时候,很多时候,都是一股脑儿丢入训练框架,我们常常不care这个数据发生的时间点。
但是因为在集群的多个节点中,slave和master之间的延时我们是不可控制的,并且我们在数仓的终端有出报表的需要。
如果因为节点之间某些网络IO的物理延迟,导致先发生的数据,最后才到,显然对我们最终的报表是有影响的。
因为报表是很看重时间段的。
报表如果要求前面三分钟的数据做个aggregate,但是有条数据在集群节点传输时由于网路物理延迟,迟到了,还不带时间戳,那么显然这个时候报表内容就会由于这条迟到且因为不带时间戳导致无法检测的数据,报表的展示出现了错误。
所以水位线其实是为了实时性和准确性之间做一个折中,
如果没有水位线会咋样呢?
来晚的数据,如果为了准确性等明天再展示,就失去“实时”的意义了。
所以基于水印设置一个容忍值,迟到的数据去侧边流输出到log中,是比较好的一种折中方式。
流式计算中为什么需要时间戳和WaterMark相关推荐
- Flink 理解流式计算中的窗口概念
一.描述 Window 是处理无限流的核心.Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层的引擎是一个流式引擎,在上面实现了流处理和批处理. 而窗口(Wind ...
- Flink流式计算从入门到实战 三
文章目录 四.Flink DataStream API 1.Flink程序的基础运行模型 2.Environment 运行环境 3.Source 3.1 基于File的数据源 3.2 基于Socket ...
- 流式计算-low watermark机制
前言 最近在学习流式计算相关的知识,在阅读了MillWheel论文,在这里对low watermark机制做一个总结与介绍. Window 实时数据流是永不停歇的,我们无法获取所有的数据并产出一个最终 ...
- 大数据之Flink流式计算引擎
Flink DataFlow 数据的分类 有界数据 离线的计算 效率:硬件相同的情况下:时间 无界数据 实时的计算 效率:硬件环境相同的情况下,吞吐量:数据处理的数量.延迟:结果输出的时间-数据接收的 ...
- Flink流式计算从入门到实战 四
文章目录 六.Flink Table API 和Flink SQL 1.Table API和SQL是什么? 2.如何使用Table API 3.基础编程框架 3.1 创建TableEnvironmen ...
- Flink 流式计算在节省资源方面的简单分析
本文由小米的王加胜同学分享,文章介绍了 Apache Flink 在小米的发展,从 Spark Streaming 迁移到 Flink ,在调度计算与调度数据.Mini batch 与 streami ...
- 利用百度云流式计算进行大规模设备监控
该案例基于百度云和百度天工的物联网技术,介绍一个通过一个流式计算的任务,监控众多在线设备的方法,仅供参考. 百度云流式计算的介绍可以参考:https://cloud.baidu.com/forum/t ...
- java1.8 流式计算:利用接口的函数式编程 + 链式编程
java1.8 流式计算:利用接口的函数式编程 + 链式编程 文章目录 java1.8 流式计算:利用接口的函数式编程 + 链式编程 1.流式计算 1)ArrayList和Stream关联的底层解析( ...
- 【详谈 Delta Lake 】系列技术专题 之 Streaming(流式计算)
简介: 本文翻译自大数据技术公司 Databricks 针对数据湖 Delta Lake 的系列技术文章.众所周知,Databricks 主导着开源大数据社区 Apache Spark.Delta L ...
最新文章
- 2021年大数据Spark(三十三):SparkSQL分布式SQL引擎
- 挨踢项目求生法则-团队建设篇
- 电子工程师必须掌握的20个模拟电路
- IIS负载均衡-Application Request Route详解第一篇: ARR介绍
- 关于微机开操作票的研究22437
- 【Python】生成器有啥用?
- zynqNet整体思路框架
- 汉密尔顿回路 (25 分)【思路讲解】
- javascript全栈开发实践-web-7
- Unix系统编程()发送信号kill
- MYSQL部分面试题型
- python爬虫qq音乐歌词_10、 在QQ音乐中爬取某首歌曲的歌词
- 抓包常用工具使用简介
- 9 tlds tomcat_解决Tomcat 7日志At least one JAR was scanned for TLDs...问题
- Microsoft Edge 收藏夹如何显示在界面上方?
- 备份 二进制备份MySQLdump 增量备份 xtrabackupex
- 使用Python3采集小说网站
- CSS - 语法规则
- 存储卡 介质受写入保护 U盘无法删除文件 无法新建文件 存储卡无法删除文件 无法新建文件
- 隐藏服务器header与web软件版本信息