目录

流处理相关概念

数据的时效性

​​​​​​​流处理和批处理

​​​​​​​流批一体API

DataStream API 支持批执行模式

API

编程模型


​​​​​​​流处理相关概念

数据的时效性

日常工作中,我们一般会先把数据存储在表,然后对表的数据进行加工、分析。既然先存储在表中,那就会涉及到时效性概念。

如果我们处理以年,月为单位的级别的数据处理,进行统计分析,个性化推荐,那么数据的的最新日期离当前有几个甚至上月都没有问题。但是如果我们处理的是以天为级别,或者一小时甚至更小粒度的数据处理,那么就要求数据的时效性更高了。比如:对网站的实时监控、对异常日志的监控,这些场景需要工作人员立即响应,这样的场景下,传统的统一收集数据,再存到数据库中,再取出来进行分析就无法满足高时效性的需求了。

​​​​​​​流处理和批处理

https://ci.apache.org/projects/flink/flink-docs-release-1.12/learn-flink/

- Batch Analytics,右边是 Streaming Analytics。批量计算: 统一收集数据->存储到DB->对数据进行批量处理,就是传统意义上使用类似于 Map Reduce、Hive、Spark Batch 等,对作业进行分析、处理、生成离线报表

- Streaming Analytics 流式计算,顾名思义,就是对数据流进行处理,如使用流式分析引擎如 Storm,Flink 实时处理分析数据,应用较多的场景如实时大屏、实时报表。

​​​​​​​流批一体API

DataStream API 支持批执行模式

Flink 的核心 API 最初是针对特定的场景设计的,尽管 Table API / SQL 针对流处理和批处理已经实现了统一的 API,但当用户使用较底层的 API 时,仍然需要在批处理(DataSet API)和流处理(DataStream API)这两种不同的 API 之间进行选择。鉴于批处理是流处理的一种特例,将这两种 API 合并成统一的 API,有一些非常明显的好处,比如:

  • 可复用性:作业可以在流和批这两种执行模式之间自由地切换,而无需重写任何代码。因此,用户可以复用同一个作业,来处理实时数据和历史数据。
  • 维护简单:统一的 API 意味着流和批可以共用同一组 connector,维护同一套代码,并能够轻松地实现流批混合执行,例如 backfilling 之类的场景。

考虑到这些优点,社区已朝着流批统一的 DataStream API 迈出了第一步:支持高效的批处理(FLIP-134)。从长远来看,这意味着 DataSet API 将被弃用(FLIP-131),其功能将被包含在 DataStream API 和 Table API / SQL 中。

API

Flink提供了多个层次的API供开发者使用,越往上抽象程度越高,使用起来越方便;越往下越底层,使用起来难度越大

注意:在Flink1.12时支持流批一体,DataSetAPI已经不推荐使用了,所以课程中除了个别案例使用DataSet外,后续其他案例都会优先使用DataStream流式API,既支持无界数据处理/流处理,也支持有界数据处理/批处理!当然Table&SQL-API会单独学习

https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/batch/

https://developer.aliyun.com/article/780123?spm=a2c6h.12873581.0.0.1e3e46ccbYFFrC

https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/datastream_api.html

编程模型

Flink 应用程序结构主要包含三部分,Source/Transformation/Sink,如下图所示:

2021年大数据Flink(十):流处理相关概念相关推荐

  1. 2021年大数据发展十大趋势:抓准一个,就能掌握先机!

    导读:如何激活数据价值.真正从大数据中"淘金",成为2021年大数据的重中之重.大数据究竟如何持续不断地影响组织和机构,以及它给这个世界带来了何种影响,本文特别梳理出2021年大数 ...

  2. 2021年大数据Flink(四十八):扩展阅读  Streaming File Sink

    目录 扩展阅读  Streaming File Sink 介绍 场景描述 Bucket和SubTask.PartFile 案例演示 扩展阅读  配置详解 PartFile PartFile序列化编码 ...

  3. 2021年大数据Flink(二十二):Time与Watermaker

    目录 Flink-Time与Watermaker Time分类 EventTime的重要性 示例1 示例2 ​​​​​​​示例3 ​​​​​​​示例4 ​​​​​​​总结 Watermaker水印机制 ...

  4. 2021年大数据Flink(四十四):​​​​​​扩展阅读 End-to-End Exactly-Once

    目录 扩展阅读 End-to-End Exactly-Once 流处理的数据处理语义 At-most-once-最多一次 At-least-once-至少一次 Exactly-once-精确一次 En ...

  5. 2021年大数据Flink(四十):​​​​​​​Flink模拟双十一实时大屏统计

    目录 Flink模拟双十一实时大屏统计 需求 数据 编码步骤: 1.env 2.source 3.transformation 4.使用上面聚合的结果,实现业务需求: 5.execute 参考代码 实 ...

  6. 2021年大数据Flink(十一):流批一体API Source

    目录 Source 预定义Source 基于集合的Source 基于文件的Source ​​​​​​​基于Socket的Source 自定义Source 随机生成数据 ​​​​​​​MySQL Sou ...

  7. 2021年大数据Flink(一):乘风破浪的Flink-Flink概述

    目录 乘风破浪的Flink-Flink概述 实时即未来 一切从Apache开始 富二代Flink Flink官方介绍 官网地址: Flink组件栈 ​​​​​​​Flink基石 Checkpoint ...

  8. 2021年大数据Flink(十五):流批一体API Connectors ​​​​​​​Kafka

    目录 Kafka pom依赖 参数设置 参数说明 Kafka命令 代码实现-Kafka Consumer 代码实现-Kafka Producer 代码实现-实时ETL Kafka pom依赖 Flin ...

  9. 2021年大数据Flink(十二):流批一体API Transformation

    目录 Transformation 官网API列表 基本操作-略 map flatMap keyBy filter sum reduce 代码演示 合并-拆分 union和connect split. ...

最新文章

  1. 《C#与.NET 3.5高级程序设计(第4版)》有奖书评征集活动
  2. 公钥,私钥,SSL(讲的很生动)
  3. JSP FORM 提交
  4. 认识mongodb文档的动态模式
  5. 5s突然一直信号无服务器,手机突然没信号了怎么回事?
  6. AndroidStudio_在android中使用properties配置文件_进行配置_只能读取配置_不能写入配置_放在assets---Android原生开发工作笔记230
  7. Linux kernel进行编译时提示No rule to make target `menconfig'
  8. 如何使用Enigma Recovery检查设备未设置为加密备份
  9. 生产排程系统_MES环境下如何执行智能生产排程
  10. 集美大学计算机工程学院 曾勇进,电子政务评估方法AHP 的研究及实现.pdf
  11. 系统安装 使用VMware14安装XP系统
  12. win10u盘被写保护怎么解除_如何去掉写保护?tf磁盘被写保护?win10如何去掉写保护?【U盘写保护怎么去掉?】Microsoft Windows...
  13. android 安全知识总结
  14. SSL-ZYC NOIP
  15. rrpp协议如何修改_RRPP协议
  16. 网络运维工程师 ,需要掌握知识的总结。
  17. 树莓派 电脑 网线对联 桥接及ssh
  18. 【文献阅读】Multi-state MRAM cells for hardware neuromorphic computing
  19. vue中methods、mounted等使用方法整理
  20. 洛谷P1896 互不侵犯【状压DP】

热门文章

  1. Not injecting HSTS header since it did not match the requestMatcher HSTS设置问题解决
  2. 补充cpusim图片
  3. 2022-2028年中国二次供水设备行业研究及前瞻分析报告
  4. 2022-2028年中国中密度纤维板市场投资分析及前景预测报告
  5. 2022-2028年中国电动牙刷行业深度调研及投资前景预测报告(全卷)
  6. Python gRPC 安装
  7. linux各种模式切换
  8. Pytorch中多GPU训练指北
  9. 同步与异步,阻塞与非阻塞的区别
  10. 手机与Camera CCM技术发展趋势