关于 Apache Pulsar

Apache Pulsar 是 Apache 软件基金会顶级项目，是下一代云原生分布式消息流平台，集消息、存储、轻量化函数式计算为一体，采用计算与存储分离架构设计，支持多租户、持久化存储、多机房跨区域数据复制，具有强一致性、高吞吐、低延时及高可扩展性等流数据存储特性。
GitHub 地址：http://github.com/apache/pulsar/

本文作者：李鹏辉、郭斯杰，译者：滕达
如需转载，请后台留言沟通

为了更全面地了解 Pulsar 和 Kafka，我们“复现”了 Confluent 对 Pulsar 和 Kafka 基准测试。重复这一基准测试的原因有两个，一是 Confluent 的测试方法存在一些问题；二是 Confluent 的测试范围和测试场景不够全面。为了更准确地对比 Pulsar 和 Kafka，我们在测试中不仅修复了 Confluent 测试中的问题，还扩大了测试范围，纳入更多性能衡量标准，模拟更多实际场景。

和 Confluent 的测试相比，我们的测试主要有三项改进：

1.包含 Pulsar 和 Kafka 支持的所有持久性级别。在同等持久性级别下，对比二者的吞吐量和延迟。2.引入影响性能的其他因素和测试条件，如分区数量、订阅数量、客户端数量等。3.测试的混合负载同时包含写入、追赶读和追尾读，模拟实际使用场景。

本节将详述测试结果和结论。

最大吞吐量测试

测试目标：观测在处理发布和追尾读工作负载时 Pulsar 和 Kafka 可实现的最大吞吐量。

测试设置：通过调整分区数量，观测分区数量对吞吐量的影响。

测试策略：

•将所有消息都复制三次，确保容错；•改变 ack 数量，测试在不同持久性保证下，Pulsar 和 Kafka 的最大吞吐量；•启用 Pulsar 和 Kafka 的批处理，为不超过 10 ms 的响应延迟设置最大批处理为 1 MB 数据；•改变分区数量（1、100、2000 个分区），分别测试最大吞吐量；•当分区数量为 100 和 2000 时，使用 2 个 producer 和 2 个 consumer；•当分区数量为 1 时，改变 producer 和 consumer 的数量，观测吞吐量变化；•消息大小为 1 KB；•在所有测试场景中，改变持久性级别，观测最大吞吐量。

测试结果：

100 个分区，1 个订阅，2 个生产者/2 个消费者

分区数量为 100，改变持久性保证，分别观测 Pulsar 和 Kafka 的最大吞吐量。在 Pulsar 和 Kafka 中，都使用 1 个订阅、2 个生产者和 2 个消费者。测试结果如下。

•在 1 级持久性保证（同步复制持久性，异步本地持久性）下，Pulsar 的最大吞吐量约为 300 MB/s，达到日志磁盘带宽物理极限。Kafka 的最大吞吐量约为 420 MB/s。值得注意的是，在持久性为 1 级时，Pulsar 配置一个磁盘为日志磁盘进行写入，另一个磁盘为 ledger 磁盘进行读取；而 Kafka 同时使用两个磁盘进行写入和读取。尽管 Pulsar 的设置能够提供更好的 I/O 隔离，但单个磁盘最大带宽（〜300 MB/s）会限制吞吐量。•将持久性（同步复制持久性和异步本地持久性）配置为 2 级时，Pulsar 和 Kafka 的最大吞吐量均可达到约 600 MB/s 。两个系统都达到了磁盘带宽的物理极限。

图 1 为 100 个分区，同步本地持久性下，Pulsar 和 Kafka 的最大吞吐量。

图1· 有 100 个分区时，Pulsar 和 Kafka 的最大吞吐量(同步本地持久性)

图 2 为 100 个分区，异步本地持久性下，Pulsar 和 Kafka 的最大吞吐量。

图2· 100 个分区时，Pulsar 和 Kafka 的最大吞吐量（异步本地持久性）

2000 个分区，1 个订阅，2 个生产者/2 个消费者

分区数量从 100 增加到 2000，持久性保证不变（acks = 2），分别观测 Pulsar 和 Kafka 的最大吞吐量。在 Pulsar 和 Kafka 中，都使用 1 个订阅、两个生产者和两个消费者。测试结果如下。

•在 1 级持久性保证下，Pulsar 的最大吞吐量保持在约 300 MB/s，在 2 级持久性保证下则增加到约 600 MB/s；•单独为每条消息刷新数据时(kafka-ack-all-sync)，Kafka 的最大吞吐量从 600MB/s (100 个分区) 降到了 300MB/s 左右；•使用系统默认的持久性设置（kafka-ack-all-nosync）时，Kafka 的最大吞吐量从约500 MB/s（100 个分区）下降到约 300 MB/s。

为了了解 Kafka 吞吐量下降的原因，我们绘制了 Kafka 和 Pulsar 在每一持久性保证下的平均发布延迟图。图 3 表明，分区数量增加到 2000 时，Kafka 的平均发布延迟增加到 200 毫秒，P99 发布延迟增加到 1200 毫秒。

图3· 2000 个分区时，Pulsar 和 Kafka 的最大吞吐量

发布延迟通常会对吞吐量造成显著影响。但由于 Pulsar 客户端充分利用了 Netty 强大的异步网络框架，Pulsar 的吞吐量没有受到影响。而 Kafka 客户端使用同步实现，Kafka 的吞吐量的确受到影响。把 producer 数量增加一倍可以提高 Kafka 的吞吐量。如果生产者数量增加到 4 个，Kafka 的吞吐量能达到约 600 MB/s。

图 4：2000 个分区时，Pulsar 和 Kafka 的发布延迟

图4· 2000 个分区时，Pulsar 和 Kafka 的发布延迟

1 个分区，1 个订阅，2 个生产者/2 个消费者

增加更多 broker 和分区有助于提高 Pulsar 和 Kafka 的吞吐量。为了更深入地了解这两个系统的效率，我们把分区数量设为 1，观测 Pulsar 和 Kafka 的最大吞吐量。在 Pulsar 和 Kafka 中，都使用 1 个订阅、2 个生产者和 2 个消费者。

测试结果如下：

•在所有持久性级别，Pulsar 的最大吞吐量都达到了约 300 MB/s；•在异步复制持久性下，Kafka 的最大吞吐量达到了约 300 MB/s，但在同步复制持久性下只有约 160 MB/s。

图 5：在 1 个分区，同步本地持久性下，Pulsar 和 Kafka 的最大吞吐量

图5· 1 个分区时，Pulsar 和 Kafka 的最大吞吐量（同步本地持久性）

图 6：在 1 个分区，异步本地持久性下，Pulsar 和 Kafka 的最大吞吐量

图6· 1 个分区时，Pulsar 和 Kafka 的最大吞吐量（异步本地持久性）

1 个分区，1 个订阅，1 个生产者/1 个消费者

分区数量为 1，订阅数量为 1（与上个测试相同），分别观测 Pulsar 和 Kafka 的最大吞吐量。在 Pulsar 和 Kafka 中，只使用 1 个生产者和 1 个消费者。

测试结果如下：

•在所有持久性级别，Pulsar 的最大吞吐量都保持在约 300 MB/s；•在异步复制持久性下，Kafka 的最大吞吐量从约 300 MB/s（测试#3中）下降到约 230 MB/s；•在同步复制持久性下，Kafka 的吞吐量从约 160 MB/s（测试#3中）下降到约 100 MB/s。

图 7 为在同步本地持久性，一个分区、一个生产者和一个消费者的情况下，Pulsar 和 Kafka 的最大吞吐量

图7· 一个分区、一个生产者和一个消费者时，Pulsar 和 Kafka 的最大吞吐量(同步本地持久性)

为了了解 Kafka 吞吐量下降的原因，我们绘制了 Kafka 和 Pulsar 在不同持久性保证下的平均发布延迟图（图8）和端到端延迟图（图9）。从下图中可以看到，即使只有一个分区，Kafka 的发布延迟和端到端延迟也从几毫秒上升到了几百毫秒。减少生产者和消费者数量会对 Kafka 吞吐量造成显著影响。相比之下，Pulsar 的延迟始终保持在几毫秒。

图8· 一个分区、一个生产者和一个消费者时，Pulsar 和 Kafka 的发布延迟(同步持久性)

图9· 一个分区、一个生产者和一个消费者时，Pulsar 和 Kafka 的端到端延迟（同步持久性）

发布和端到端延迟测试

测试目标：观测在处理发布和追尾读工作负载时 Pulsar 和 Kafka 可实现的最低延迟。

测试设置：通过调整订阅数量和分区数量，观测订阅数量和分区数量对发布延迟和端到端延迟的影响。

测试策略：

•将所有消息都复制三次，确保容错；•改变 ack 数量，测试在不同持久性保证下，Pulsar 和 Kafka 吞吐量的差异；•改变订阅数量（从 1 到 10），分别测试延迟；•改变分区数量（从 100 到 10000），分别测试延迟；•消息大小为 1KB；•生产者以 200000/s（约 200MB/s）的固定速度发送消息，追尾读消费者在生产者持续发送消息时处理消息。

各项测试结果如下。

100 个分区, 1 个订阅

我们从 100 个分区、1 个订阅开始，在所有不同持久性保证下，对 Pulsar 和 Kafka 能实现的最低延迟进行了基准测试。

测试证明，在所有持久性级别上，Pulsar 的发布延迟和端到端延迟都比 Kafka 低，是 Kafka 的 1/5 到 1/2。

发布延迟 - 同步本地持久性

使用两种复制持久性设置（分别为 ack-1 和 ack-2）和同步本地持久性时，Pulsar 和 Kafka 发布延迟的差异如图 10。表 2 为每种情况下的精确延迟数值。在异步复制持久性（ack-1）下，Pulsar P99 延迟是 Kafka 的 1/3; 在同步复制持久性（ack-2）下是 Kafka 的 1/5。

图10· Pulsar 和 Kafka 的发布延迟(数据同步)

表2· Pulsar 和 Kafka 的实际发布延迟测试结果（数据同步）

为了更深入地了解延迟如何随时间变化，我们绘制了 Pulsar 和 Kafka 采取不同复制持久性设置时的 P99 延迟图。如图 11 所示，Pulsar 的延迟比较稳定（约 5 毫秒），但 Kafka 的延迟波动较大。对于关键任务服务（mission-critical services）来说，稳定、持续的低延迟至关重要。

图11· Pulsar 和 Kafka 的 P99 延迟

端到端延迟--同步本地持久性

使用两种复制持久性设置（分别为 ack-1和 ack-2）和同步本地持久性时，Pulsar 和 Kafka 端到端延迟的差异如图 12。表 3 为每种情况下的精确延迟数值。在异步复制持久性（ack-1）下，Pulsar P99 端到端延迟是 Kafka 的 1/3，在同步复制持久性（ack-2）下是 Kafka 的 1/5。

图12· 1 个订阅时，Pulsar 和 Kafka 的端到端延迟（数据同步）

表3· 1 个订阅时，Pulsar 和 Kafka 的实际端到端延迟测试结果(数据同步)

发布延迟 - 异步本地持久性

使用两种复制持久性设置（分别为 ack-1 和 ack-2）和异步本地持久性时，Pulsar 和 Kafka 发布延迟的差异如图 13。表 4 为每种情况下的精确延迟数值。在异步复制持久性（ack-1）下，Kafka 性能更优，但 Pulsar P99 发布延迟更稳定（低于 5 毫秒），增加复制持久性保证（从 ack-1 到 ack-2）并未影响延迟。在同步复制持久性（ack-2）下，Kafka P99 发布延迟是 Pulsar 的 2 倍。

图13· Pulsar 和 Kafka 的发布延迟(无数据同步)

表4· Pulsar 和 Kafka 的实际发布延迟测试结果（无数据同步）

为了更深入地了解发布延迟如何随时间变化，我们绘制了 Pulsar 和 Kafka 在不同复制持久性设置下的 P99 发布延迟图。如图 14 所示，Pulsar 的延迟始终保持在较低的水平（低于 5 毫秒），而 Kafka 的延迟始终是 Pulsar 的 2 倍。

图14· 不同复制持久性设置下，Pulsar 和 Kafka 的 P99 发布延迟

端到端延迟--异步本地持久性

使用两种复制持久性设置（分别为 ack-1 和 ack-2）和异步本地持久性时，Pulsar 和 Kafka 端到端延迟的差异如图 15。表 5 为每种情况下的精确延迟数值。在所有情况下，Pulsar 的性能都优于 Kafka。Pulsar P99 端到端延迟保持稳定（约 5 毫秒），改变复制持久性设置对其并无影响。对于 ack-1，Kafka 的 P99 端到端延迟比 Pulsar 高；对于 ack-2，Kafka 的 P99 端到端延迟是 Pulsar 的 2 倍。

图15· 1 个订阅时，Pulsar 和 Kafka 的端到端延迟（无数据同步）

表5· 1 个订阅时，Pulsar 和 Kafka 的实际端到端延迟测试结果（无数据同步）