Flink 被认为是第三代流处理器，这是因为 Flink 在设计时参考了前两代流处理器的经验教训并引入了一些新的技术和思想，从而使得 Flink 具有更高的性能和更广泛的应用场景。下面我带大家了解一下流处理器从第一代到第三代的发展历史。

对于有状态的流处理，当数据越来越多时，我们必须用分布式的集群架构来获取更大的吞
吐量。但是分布式架构会带来另一个问题：怎样保证数据处理的顺序是正确的呢？带着疑问往下看

文章目录

流处理器发展历史
Storm、Spark 和 Flink区别
Storm、Spark 和 Flink 各自的适用场景

流处理器发展历史

流处理器的发展历史可以大致分为三个阶段：第一代流处理器、第二代流处理器和第三代流处理器。

第一代流处理器

第一代流处理器出现在2010年左右，最早的代表是 Twitter 的实时数据处理框架 Storm。Storm 采用了分布式消息传递模型，并将数据流分为多个数据流进行处理。Storm 的设计初衷是为了处理实时数据流，具有高性能和可靠性，但它的扩展性和灵活性较差，容易出现数据丢失和重复处理的问题。以 Storm 为代表的第一代分布式开源流处理器，主要专注于具有毫秒延迟的事件处理，特点就是一个字“快”；而对于准确性和结果的一致性，是不提供内置支持的，因为结果有可能取决于到达事件的时间和顺序。另外，第一代流处理器通过检查点来保证容错性，但是故障恢复的时候，即使事件不会丢失，也有可能被重复处理——所以无法保证 exactly-once。

第二代流处理器

第二代流处理器出现在2013年左右，最早的代表是基于 Apache Spark 的 Spark Streaming。与 Storm 不同，Spark Streaming 采用了微批处理模型，即将数据流划分为微批次进行处理。Spark Streaming 的设计思想是利用 Spark 的批处理能力，将流数据转化为批数据，从而实现实时处理。这种处理方式具有更好的容错性和扩展性，但是会导致较高的延迟和内存占用。

第三代流处理器

第三代流处理器出现在2014年左右，最早的代表是 Apache Flink。与前两代不同，Flink 采用了基于事件的处理模型，即每个事件在到达时立即被处理。这种处理方式具有更低的延迟和更高的吞吐量，并且可以自动保存和恢复状态，保证数据不会丢失。此外，Flink 的扩展性也比较好，可以根据数据量的变化自动调整并行度，同时还支持多种数据源和数据格式的处理。

Storm、Spark 和 Flink区别

Storm、Spark 和 Flink 都是流处理框架，但它们有一些不同之处：

状态管理和容错机制

Storm 的状态管理和容错机制相对较为简单，不够灵活，容易导致数据丢失或重复处理。Spark Streaming 的状态管理和容错机制相对较好，但是需要将数据缓存到内存中，导致内存占用较高，不适合处理大规模数据。而 Flink 的状态管理和容错机制则更加灵活和可靠，能够自动保存和恢复状态，保证数据不会丢失。

扩展性和灵活性

Storm 的扩展性和灵活性相对较差，无法自动调整并行度以适应数据量变化。Spark Streaming 的扩展性和灵活性比Storm更好，但是微批处理方式会导致较高的延迟和内存占用。而 Flink 的扩展性和灵活性则更好，能够根据数据量的变化自动调整并行度，同时还支持多种数据源和数据格式的处理。

生态系统

Spark 和Flink都有丰富的生态系统，支持多种数据处理和机器学习任务。而 Storm 的生态系统相对较为单一，主要用于实时数据流处理。

综上所述，Storm、Spark 和 Flink 都有各自的优点和不足，选择合适的流处理框架需要根据具体的业务需求和数据规模来考虑。

Storm、Spark 和 Flink 各自的适用场景

Storm

Storm 是一个轻量级、高吞吐量的实时计算框架，适用于对实时性要求比较高、数据处理逻辑简单的场景，例如：

实时数据流监控和告警
实时数据流的聚合、过滤、转换等简单处理
数据流的实时计算、统计和分析等简单场景

Spark

Spark Streaming 是一个流处理框架，它通过微批处理的方式，将流数据转换为小批量的RDD，然后利用Spark的批处理引擎进行处理。因此，Spark适用于：

数据量较大、数据处理逻辑较复杂的场景
对延迟要求不是很高，但是对数据准确性和容错性有要求的场景
对流数据进行机器学习、图形处理等复杂计算的场景

Flink

Flink 是一个支持事件驱动处理的流处理框架，适用于：

需要低延迟的实时数据处理场景，特别是对延迟要求非常高的场景
数据处理逻辑较为复杂的场景，例如机器学习、模式识别、图形计算等
对数据准确性、容错性要求比较高的场景，例如金融行业、电信行业等。

为什么说新一代流处理器Flink是第三代流处理器(论点:发展历史、区别、适用场景)相关推荐

腾讯基于 Flink 的实时流计算平台演进之路
原文地址:https://www.infoq.cn/article/TjDeQDJQpKZ*NpG71pRW 大家好,我是来自腾讯大数据团队的杨华(vinoyang),很高兴能够参加这次北京的 QCo ...
为什么阿里会选择 Flink 作为新一代流式计算引擎？
本文由 [AI前线]原创,ID:ai-front,原文链接:t.cn/ROISIr3 [AI前线导读]2017 年 10 月 19日,阿里巴巴的高级技术专家王绍翾(花名"大沙")将 ...
flink大数据处理流式计算详解
flink大数据处理文章目录 flink大数据处理二.WebUI可视化界面(测试用) 三.Flink部署 3.1 JobManager 3.2 TaskManager 3.3 并行度的调整配置 3 ...
Apache 流框架 Flink，Spark Streaming，Storm对比分析（一）
https://bigdata.163.com/product/article/5 Apache 流框架 Flink,Spark Streaming,Storm对比分析(一) 转载于:https:// ...
hive增量表和全量表_基于 Flink + Hive 构建流批一体准实时数仓
基于 Hive 的离线数仓往往是企业大数据生产系统中不可缺少的一环.Hive 数仓有很高的成熟度和稳定性,但由于它是离线的,延时很大.在一些对延时要求比较高的场景,需要另外搭建基于 Flink 的实时 ...
Demo：基于 Flink SQL 构建流式应用
摘要:上周四在 Flink 中文社区钉钉群中直播分享了<Demo:基于 Flink SQL 构建流式应用>,直播内容偏向实战演示.这篇文章是对直播内容的一个总结,并且改善了部分内容,比如除 ...
使用 Flink Hudi 构建流式数据湖
简介: 本文介绍了 Flink Hudi 通过流计算对原有基于 mini-batch 的增量计算模型的不断优化演进. 本文介绍了 Flink Hudi 通过流计算对原有基于 mini-batch 的增 ...
Flink on Zeppelin 流计算处理最佳实践
简介: 欢迎钉钉扫描文章底部二维码进入 EMR Studio 用户交流群直接和讲师交流讨论~ 点击以下链接直接观看直播回放:https://developer.aliyun.com/live/247 ...
基于 Flink + Hive 构建流批一体准实时数仓
简介: 想要搭建流式链路就必须得抛弃现有的 Hive 数仓吗?并不是,借助 Flink 可以实现已有的 Hive 离线数仓准实时化.本文整理自 Apache Flink Committer.阿里巴巴技 ...

为什么说新一代流处理器Flink是第三代流处理器(论点:发展历史、区别、适用场景)

文章目录

流处理器发展历史

Storm、Spark 和 Flink区别

Storm、Spark 和 Flink 各自的适用场景

为什么说新一代流处理器Flink是第三代流处理器(论点:发展历史、区别、适用场景)相关推荐

最新文章

热门文章