原作者为 Ivan Kelly。经作者许可,我们对博客进行翻译并发布。

人们在探讨流处理引擎(stream processing engine, SPE)时,经常会提到 effectively-once(或 exactly-once)保证。一般情况下,较大的数据管道包含多个组件,而管道中的任何组件都有可能发生故障,SPE 通常只是其中一个小组件。如果用户希望数据管道提供 effectively-once 保证,则管道中的其他(非 SPE)组件需要提供相应的保证。

本文介绍 Apache Pulsar 可以实现的保证类型,以及实现保证的方式。

下图为字数统计应用程序示例:

如上图所示,首先来自数据源(如 Twitter Firehose)的数据被推送到消息系统,然后消息系统将这些数据传输到 SPE 并由 SPE 处理这些数据(即字数统计)。最后,将数据处理结果存储在字数统计数据库中,也可以进一步用作分析。

《Apache Pulsar 中的 effectively-once》一文讨论了 SPE(尤其是 Heron)如何实现 effectively-once 保证。但是,在上图所示的字数统计应用程序中,消息系统和数据源(将数据推送到消息系统时)都可能发生故障。

https://www.splunk.com/en_us/blog/it/effectively-once-semantics-in-apache-pulsar.html

要想确保数据管道内实现 effectively-once 保证,需要为消息系统和数据源提供 effectively-once 保证。字数统计数据库也可能会发生故障,从而使问题变得更加复杂。但是,该数据库只用于存储字数统计节点的数据副本。因此,即使数据库发生故障,用户也可以很容易地恢复数据库。关于这一点本文将不再赘述。

当消息系统或 SPE 中发生故障后,为了提供 effectively-once 保证,需要指定故障发生前的一个数据时间点,SPE 可以重新连接到这一时间点的消息系统读取数据。重新连接时,SPE 需要接收发生故障前收到的所有信息。不应该发生消息丢失或消息重复故障。对于绝大多数用户来说,消息顺序也应该相同。

尽管“顺序相同”这一要求本身并非正确性要求,但可以考虑一下消息顺序不同的情况。为了确保不重复消息,消息接收方(即 SPE)必须追踪所有已接收处理的消息。追踪时间越长,存储需求越大。因此 SPE 不适用于长时间运行的系统。所以,消息顺序相同虽然不是一项必须的要求,但的确可以为系统运行带来便利。

没有丢失或重复消息,并且消息顺序相同。这就实现了全序原子广播(TOAB),也就是分布式系统中常提到的共识。
https://en.wikipedia.org/wiki/Consensus_(computer_science)

消息系统想要实现 effectively-once 保证,就必须实现共识或者借助其他外在系统帮助其实现共识。

开源社区提供许多实现共识的常见系统(https://www.consul.io/)。但是,这些系统一般使用键值( K-V)类型的接口,并不适合存储消息流。而且,键值类型的接口会将数据存储在集群的单一日志副本上。也就是说,当为消息系统向外(横向)扩展多个流时,这些接口的运行就会出现很严重的问题。因此,对用户最友好的系统应该既能提供类似日志的接口,又能向外扩展多个流。

只有极少数系统可以同时提供上述两种功能,而 Apache BookKeeper 便是其中之一。BookKeeper 可以实现 ZooKeeper 要求的一致性,并对其进行水平扩展,因此可以存储日志副本。

关于 BookKeeper 如何保证全序原子广播的可扩展性,可以参考文章:
https://www.splunk.com/en_us/blog/it/scaling-out-total-order-atomic-broadcast-with-apache-bookkeeper.html

Apache Pulsar 使用 BookKeeper 存储与每个 topic 关联的消息流,因此可以实现 effectively-once 保证。BookKeeper 可以为 Pulsar 提供全序原子广播保证,因此客户端可以重连过去任一时间点。Pulsar 通过游标实现这一连接。

Pulsar 利用发布消息的应用程序将数据推送给消息系统,因此需要实现数据的 effiectively-once 保证。Pulsar 通过消息去重机制实现了消息 effiectively-once 保证。

更多详细信息,可以参考文章《Apache Pulsar 中的 effectively-once》。
https://www.splunk.com/en_us/blog/it/effectively-once-semantics-in-apache-pulsar.html

译文|Apache Pulsar 如何保证消息不丢不重?相关推荐

  1. Go语言如何操纵Kafka才能保证消息不丢?

    背景 目前一些互联网公司会使用消息队列来做核心业务,因为是核心业务,所以对数据的最后一致性比较敏感,如果中间出现数据丢失,就会引来用户的投诉,年底绩效就变成325了.之前和几个朋友聊天,他们的公司都在 ...

  2. pulsar 容量_[Apache Pulsar] 企业级分布式消息系统-Pulsar入门基础

    Apache Pulsar Pulsar是一个支持多租户的.高性能的服务与服务之间消息通讯的解决方案,最初由雅虎开发,现在由Apache软件基金会管理. Pulsar在Yahoo的生产环境运行了三年多 ...

  3. [Apache Pulsar] 企业级分布式消息系统-Pulsar入门基础

    Apache Pulsar Pulsar是一个支持多租户的.高性能的服务与服务之间消息通讯的解决方案,最初由雅虎开发,现在由Apache软件基金会管理. Pulsar在Yahoo的生产环境运行了三年多 ...

  4. 给你1分钟,回答下RabbitMQ如何保证消息不丢?

    一条消费成功被消费经历了生产者->MQ->消费者,因此在这三个步骤中都有可能造成消息丢失. 一 消息生产者没有把消息成功发送到MQ 1.1 事务机制 AMQP协议提供了事务机制,在投递消息 ...

  5. Apache Pulsar:实时数据处理中消息,计算和存储的统一

    本文转载自"AI前线",整理自翟佳在 QCon2018 北京站的演讲,在本次演讲中,翟佳介绍了 Apache Pulsar 的架构.特性和其生态系统的组成,并展示了 Apache ...

  6. 用户案例|告别传统金融消息架构:Apache Pulsar 在平安证券的实践

    本文首发自 InfoQ <告别传统金融消息架构:Apache Pulsar 在平安证券的实践>. 在金融场景中,伴随着业务的扩展,应用系统也相应地增加更多的场景,这些新场景对消息系统提出更 ...

  7. 再见传统金融消息架构!Apache Pulsar 在平安证券的应用

    作者|陈翔.王东松 在金融场景中,伴随着业务的扩展,应用系统也相应地增加更多的场景,这些新场景对消息系统提出更多样的需求,导致原有架构面临一系列挑战.在尝试使用 Apache Pulsar 后,平安证 ...

  8. 打造消息中台,华为终端云基于 Apache Pulsar 的演进实践

    ‍‍ 文章摘要 华为云终端将消息系统从 Kafka 迁移到 Pulsar,并基于 Pulsar 打造中台应对消息系统面临的挑战.本文整理自 ApacheCon Asia 2022 上,来自华为终端的林 ...

  9. QCon 北京|Apache Pulsar:云原生时代的消息服务

    关于 Apache Pulsar Apache Pulsar 是 Apache 软件基金会顶级项目,是下一代云原生分布式消息流平台,集消息.存储.轻量化函数式计算为一体,采用计算与存储分离架构设计,支 ...

  10. Apache Pulsar:分布式发布订阅消息系统

    Apache Pulsar是一个开源的分布式pub-sub消息传递系统,最初由Yahoo创建,并且是Apache Software Foundation的一部分 . Pulsar是用于服务器到服务器消 ...

最新文章

  1. 一文读懂傅立叶变换处理图像的原理
  2. 排序算法---计数排序(java版)
  3. 卷积转换为矩阵运算中填充数的计算-GEMM
  4. 为何人工智能(AI)首选Python?如何转行Python人工智能?
  5. MyCat基本概念、配置文件及日志配置
  6. 代码管理工具 Git
  7. php配置前缀为任一个 .htacess,httpd.ini和.htaccess的写法与配置规则
  8. 第八次作业——系统设计与团队分配(个人)
  9. 80040e14 mysql_【ASP】提示错误80040e14
  10. 可以在xml中靠增加属性来实现分组
  11. android 端口进程号,Android中如何根据端口号寻找对应的进程
  12. JAVA :RESTLET开发实例(一)基于JAX-RS的REST服务
  13. 用感知器对样本分类的matlab程序_新的基础算法:树突网络:一个用于分类、回归和系统识别的白箱模块...
  14. 【AI模型部署】maskrcnn在tfserver部署以及调用时遇到问题:Servable not found for request “xx”、‘incompatible_shape_error‘
  15. 电脑网络连接正常,但浏览器无法打开网页的原因和解决方法
  16. Android源码解析之Android系统启动整体流程分析
  17. 写给自己的话:是时候有个计划了,骚年
  18. iphone与android共享位置,苹果手机,相互始终共享位置了以后,查看不了对方的位置...
  19. 概述-元数据是什么?
  20. 成功就是一种自我满足

热门文章

  1. Vue3 script setup
  2. 笔记本电脑频繁自动重启_笔记本电脑经常自动重启怎么办
  3. 计算机蓝屏一直重启,笔记本电脑开机蓝屏不断重启问题的解决方法
  4. 9.屏幕宽高比判断(Screen.width,Screen.height)
  5. Oracle 日期相减获取年龄
  6. SCDM学习笔记(1)
  7. 楼梯计算机公式,楼梯的计算公式 楼梯的尺寸
  8. matlab 短时能量计算+源代码
  9. 实战函数式编程:使用Ramda.js
  10. 删除word文档中的空白页