Recap|Hadoop User Group France
????️ 阅读本文需要 5 分钟
10 月 11 日,在法国举行的 Hadoop User Group France 圆满结束,有 1500 多人出席参加了此次会议。Hadoop 技术交流社区每月会在法国(主要在巴黎)举办分享会。
此次法国交流之行,StreamNative 的 CEO 郭斯杰分享了 Apache Pulsar 的内容—— Building a unified data processing stack with Apache Pulsar and Apache Spark。
这次分享的内容主要有三部分:
1. 什么是 Apache Pulsar ?
2. 通过甜橙金融的用户案例来进一步了解 Apache Pulsar
3. Apache Pulsar 2.5.0 功能介绍
前两部分内容已经分开做了整理,大家可以直接点击查看详情。以下会详细介绍 Apache Pulsar 2.5.0 的功能。
>>> Pulsar 事务支持
Pulsar 2.5.0 提供事务支持。目前,Pulsar 通过 Idempotent Producer 支持在单个 partition 中的 exactly-once 语义。Idempotent Producer 保证 Producer 发送的消息在不丢失的情况下仅会被持久化一次。
但是,当 Producer 发送消息到多个 partition 时,不能保证消息发送的原子性。同样,Pulsar Functions 在处理多个事件或者输出一组结果到不同 topic partition 时,不能保证计算的原子性。PIP-31 通过增加对事务的支持来解决上述场景面临的问题。
>>> 命名空间变更流
Pulsar 2.5.0 支持用户在 topic 级别配置相关策略。Pulsar 是一个多租户事件流系统,管理员可以通过在不同级别设置策略来管理租户和命名空间,retention、存储配额等策略只能在命名空间级别设置。在许多用例中,用户希望能在 topic 级别配置相关策略。
>>> 可插拔协议处理机制
Apache Pulsar 提供了许多组件,例如:load manager、namespace bundle distribution、topic lookup 和 streaming storage abstraction。在支持像 Kafka、AMQP 和 MQTT 协议时,这些组件复用性很好。
PIP-41 支持可插拔的协议处理机制,Apache Pulsar 将通过动态加载的方式更好的支持其他的消息协议。
>>> Pulsar manager
Apache Pulsar Manager 是一个基于网页的 GUI 管理和监控工具,帮助 Pulsar 管理员和用户管理和监控 Tenant、Namespace、Topic、Subscription、Broker 和 Cluster 等,并支持动态配置多种环境。
想进一步了解 Pulsar Manager,可参考 Pulsar Manager 功能介绍 。
>>> 生产者使用不同的模式发送消息
目前,生产者发送的 Schema 只能在创建时被指定,如果启用 AUTO_PRODUCE_BYTES,生产者也可以通过查找已有的 Schema 最新版本去发送消息。
开始生产消息之后,更新 Schema 会导致消息的 payload 和 Schema 不兼容。PIP-43 支持用不同的 Schema 发送消息。
>>> 可插拔元数据接口
该方案提供一个统一的可插拔的接口,抽象出 Pulsar 的元数据实现。重构后,默认仍然基于 ZooKeeper 来存储元数据,并且元数据仍然以相同的格式保存在同样的位置。一旦定义了接口,就可以实现多个元数据的存储。
当然以上只是选取了部分新增功能进行详解,后续 Apache Pulsar 的2.5.0 版本还会开发出更多实用的功能。
目前,Apache Pulsar 与多种项目已尝试融合并进行项目实战(更多详情,可参考 ????https://github.com/streamnative/awesome-pulsar)。
Pulsar + Skywalking
Pulsar + Elastic Beats
Pulsar + Flink (1.9)
Pulsar + Flume
Pulsar + …
未来,我们期待更多的项目产品可以与 Apache Pulsar 一起为企业带来更高效率的产出。
Apache Pulsar 是云原生的流数据存储
拥有两种读取 API 级别:发布/订阅+分段
可通过 Pulsar Schema 进行结构化事件流
Pulsar 向外提供一个统一的数据视图
Pulsar + Spark 构建一个批流一体的数据处理栈
别忘了!
本月月中我们还有 Pulsar 的线下分享会
在上海,11月16日
扫描下方二维码就可以报名啦!
免费的哦!
点击「阅读原文」获取本次分享的PPT原件。
Recap|Hadoop User Group France相关推荐
- 理论与实践同行,宏观与细节比肩| The Open Group 2020年度大会进行时
27日,The Open Group 2020年度线上大会迎来了第二场分享.六位专家,各具强辨识度行业背景,高区分度演讲风格,在大会组委会的融合编排之后,为我们呈现了一场可圈可点.教科书式的分享盛会. ...
- 猿创征文|Hadoop大数据技术
Hadoop大数据技术 Hadoop背景 Hadoop生态圈 Hadoop模式 HDFS 概述 优点 缺点 基本组成 NameNode Secondary NameNode DataNode YARN ...
- 元数据与数据治理实战|Hadoop发展历程(1)
开篇点题 作为学习大数据实战的第一讲,我们简单的了解下Hadoop的发展历程,此篇不一定全面,包括新版本的产生,难免介绍覆盖面不是很全面,但是作为一个了解性的文章,有个认识就可以了,下面我们来看下Ha ...
- 大数据|Hadoop系统
目录
- 初学Hadoop之图解MapReduce与WordCount示例分析
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...
- Hadoop示例程序WordCount详解及实例
部分参考:http://www.javaeye.com/topic/606962 1.图解MapReduce MapReduce整体流程图 并行读取文本中的内容,然后进行MapReduce操作 Map ...
- hadoop配置文件详解系列(二)-hdfs-site.xml篇
上一篇介绍了core-site.xml的配置,本篇继续介绍hdfs-site.xml的配置. 属性名称 属性值 描述 hadoop.hdfs.configuration.version 1 配置文件的 ...
- Hadoop参数汇总
Hadoop参数汇总 @(hadoop)[配置] linux参数 以下参数最好优化一下: 文件描述符ulimit -n 用户最大进程 nproc (hbase需要 hbse book) 关闭swap分 ...
- Hadoop集群搭建及MapReduce应用
一.Hadoop集群的搭建与配置 1.节点准备 集群规划: 主机名 IP 安装的软件 运行的进程 weekend 01 192.168.1.60 jdk.hadoop NameNode.DFSZKFa ...
- hadoop三个配置文件的参数含义说明
1 获取默认配置 配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知 ...
最新文章
- Python基础02-Python基础
- linux minicom usb串口
- 【算法与数据结构】堆排序是什么鬼?
- Android之的性能优化方法
- 详解道路标记数据集 CeyMo: See More on Roads -- A Novel Benchmark Dataset for Road Marking Detection
- Flutter下拉刷新,上拉加载更多数据
- 什么是PostgreSQL?跟MySQL、Oracle比强在哪?
- python实现使用最近最久未使用算法的请求分页存储管理_答疑(存储管理)之一...
- 开发运维日常坑 总结 51-100
- epoll编程实例客户端_深入底层探析网络编程之多路复用器(select,poll,epoll)
- 软件工程作业团队作业No.5
- Chrome浏览器修改繁体为中文简体
- 【时间管理】如何保持精力充沛
- 10 Habits of All Successful People 成功人士的10个习惯
- No silver bullet——没有银弹理论
- Bunny's plan
- 开发2d游戏要用什么引擎_下一个游戏要使用什么2D游戏引擎
- python分组统计数据_数据分组统计
- 土方回填施工方案范本_基础施工方案(土方开挖、回填、混凝土)
- java 开源网盘_现在的开源网盘还有哪些推荐?