????️ 阅读本文需要 5 分钟

10 月 11 日,在法国举行的 Hadoop User Group France 圆满结束,有 1500 多人出席参加了此次会议。Hadoop 技术交流社区每月会在法国(主要在巴黎)举办分享会。

此次法国交流之行,StreamNative 的 CEO 郭斯杰分享了 Apache Pulsar 的内容—— Building a unified data processing stack with Apache Pulsar and Apache Spark。

这次分享的内容主要有三部分:

1. 什么是 Apache Pulsar ?
2. 通过甜橙金融的用户案例来进一步了解 Apache Pulsar
3. Apache Pulsar 2.5.0 功能介绍

前两部分内容已经分开做了整理,大家可以直接点击查看详情。以下会详细介绍 Apache Pulsar 2.5.0 的功能。

>>> Pulsar 事务支持

Pulsar 2.5.0 提供事务支持。目前,Pulsar 通过 Idempotent Producer 支持在单个 partition 中的 exactly-once 语义。Idempotent Producer 保证 Producer 发送的消息在不丢失的情况下仅会被持久化一次。

但是,当 Producer 发送消息到多个 partition 时,不能保证消息发送的原子性。同样,Pulsar Functions 在处理多个事件或者输出一组结果到不同 topic partition 时,不能保证计算的原子性。PIP-31 通过增加对事务的支持来解决上述场景面临的问题。

>>> 命名空间变更流

Pulsar 2.5.0 支持用户在 topic 级别配置相关策略。Pulsar 是一个多租户事件流系统,管理员可以通过在不同级别设置策略来管理租户和命名空间,retention、存储配额等策略只能在命名空间级别设置。在许多用例中,用户希望能在 topic 级别配置相关策略。

>>> 可插拔协议处理机制

Apache Pulsar 提供了许多组件,例如:load manager、namespace bundle distribution、topic lookup 和 streaming storage abstraction。在支持像 Kafka、AMQP 和 MQTT 协议时,这些组件复用性很好。

PIP-41 支持可插拔的协议处理机制,Apache Pulsar 将通过动态加载的方式更好的支持其他的消息协议。

>>> Pulsar manager

Apache Pulsar Manager 是一个基于网页的 GUI 管理和监控工具,帮助 Pulsar 管理员和用户管理和监控 Tenant、Namespace、Topic、Subscription、Broker 和 Cluster 等,并支持动态配置多种环境。

想进一步了解 Pulsar Manager,可参考 Pulsar Manager 功能介绍 。

>>> 生产者使用不同的模式发送消息

目前,生产者发送的 Schema 只能在创建时被指定,如果启用 AUTO_PRODUCE_BYTES,生产者也可以通过查找已有的 Schema 最新版本去发送消息。

开始生产消息之后,更新 Schema 会导致消息的 payload 和 Schema 不兼容。PIP-43 支持用不同的 Schema 发送消息。

>>> 可插拔元数据接口

该方案提供一个统一的可插拔的接口,抽象出 Pulsar 的元数据实现。重构后,默认仍然基于 ZooKeeper 来存储元数据,并且元数据仍然以相同的格式保存在同样的位置。一旦定义了接口,就可以实现多个元数据的存储。

当然以上只是选取了部分新增功能进行详解,后续 Apache Pulsar 的2.5.0 版本还会开发出更多实用的功能。

目前,Apache Pulsar 与多种项目已尝试融合并进行项目实战(更多详情,可参考 ????https://github.com/streamnative/awesome-pulsar)。

  • Pulsar + Skywalking

  • Pulsar + Elastic Beats

  • Pulsar + Flink (1.9)

  • Pulsar + Flume

  • Pulsar + …

未来,我们期待更多的项目产品可以与 Apache Pulsar 一起为企业带来更高效率的产出。

  • Apache Pulsar 是云原生的流数据存储

  • 拥有两种读取 API 级别:发布/订阅+分段

  • 可通过 Pulsar Schema 进行结构化事件流

  • Pulsar 向外提供一个统一的数据视图

  • Pulsar + Spark 构建一个批流一体的数据处理栈


别忘了!

本月月中我们还有 Pulsar 的线下分享会

在上海,11月16日

扫描下方二维码就可以报名啦!

免费的哦!

点击「阅读原文」获取本次分享的PPT原件。

Recap|Hadoop User Group France相关推荐

  1. 理论与实践同行,宏观与细节比肩| The Open Group 2020年度大会进行时

    27日,The Open Group 2020年度线上大会迎来了第二场分享.六位专家,各具强辨识度行业背景,高区分度演讲风格,在大会组委会的融合编排之后,为我们呈现了一场可圈可点.教科书式的分享盛会. ...

  2. 猿创征文|Hadoop大数据技术

    Hadoop大数据技术 Hadoop背景 Hadoop生态圈 Hadoop模式 HDFS 概述 优点 缺点 基本组成 NameNode Secondary NameNode DataNode YARN ...

  3. 元数据与数据治理实战|Hadoop发展历程(1)

    开篇点题 作为学习大数据实战的第一讲,我们简单的了解下Hadoop的发展历程,此篇不一定全面,包括新版本的产生,难免介绍覆盖面不是很全面,但是作为一个了解性的文章,有个认识就可以了,下面我们来看下Ha ...

  4. 大数据|Hadoop系统

    目录

  5. 初学Hadoop之图解MapReduce与WordCount示例分析

    Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...

  6. Hadoop示例程序WordCount详解及实例

    部分参考:http://www.javaeye.com/topic/606962 1.图解MapReduce MapReduce整体流程图 并行读取文本中的内容,然后进行MapReduce操作 Map ...

  7. hadoop配置文件详解系列(二)-hdfs-site.xml篇

    上一篇介绍了core-site.xml的配置,本篇继续介绍hdfs-site.xml的配置. 属性名称 属性值 描述 hadoop.hdfs.configuration.version 1 配置文件的 ...

  8. Hadoop参数汇总

    Hadoop参数汇总 @(hadoop)[配置] linux参数 以下参数最好优化一下: 文件描述符ulimit -n 用户最大进程 nproc (hbase需要 hbse book) 关闭swap分 ...

  9. Hadoop集群搭建及MapReduce应用

    一.Hadoop集群的搭建与配置 1.节点准备 集群规划: 主机名 IP 安装的软件 运行的进程 weekend 01 192.168.1.60 jdk.hadoop NameNode.DFSZKFa ...

  10. hadoop三个配置文件的参数含义说明

    1       获取默认配置 配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知 ...

最新文章

  1. Python基础02-Python基础
  2. linux minicom usb串口
  3. 【算法与数据结构】堆排序是什么鬼?
  4. Android之的性能优化方法
  5. 详解道路标记数据集 CeyMo: See More on Roads -- A Novel Benchmark Dataset for Road Marking Detection
  6. Flutter下拉刷新,上拉加载更多数据
  7. 什么是PostgreSQL?跟MySQL、Oracle比强在哪?
  8. python实现使用最近最久未使用算法的请求分页存储管理_答疑(存储管理)之一...
  9. 开发运维日常坑 总结 51-100
  10. epoll编程实例客户端_深入底层探析网络编程之多路复用器(select,poll,epoll)
  11. 软件工程作业团队作业No.5
  12. Chrome浏览器修改繁体为中文简体
  13. 【时间管理】如何保持精力充沛
  14. 10 Habits of All Successful People 成功人士的10个习惯
  15. No silver bullet——没有银弹理论
  16. Bunny's plan
  17. 开发2d游戏要用什么引擎_下一个游戏要使用什么2D游戏引擎
  18. python分组统计数据_数据分组统计
  19. 土方回填施工方案范本_基础施工方案(土方开挖、回填、混凝土)
  20. java 开源网盘_现在的开源网盘还有哪些推荐?

热门文章

  1. 十年测试老司机带你应对68道面试题---文章转载自 TesterHome
  2. 企业打造营销型网站的7条黄金法则
  3. 蓝牙耳机买什么品牌好一些?2022蓝牙耳机品牌排行榜10强
  4. [译]-100行代码从零实现 Facebook 的 Recoil 库
  5. RxSwift学习(一) --- RxSwift介绍
  6. 如何生成java dump文件
  7. Vue2.0 —— 运用算法实现 AST 抽象语法树
  8. 华为21级程序员月薪27万,你怎么看?
  9. 界面设计中如何增强CTA按钮召唤力?
  10. 颠覆大数据分析之Storm的设计模式