1. 概述

在本教程中,我们将介绍 Apache Beam 并探讨其基本概念。我们将首先演示使用 Apache Beam 的用例和好处,然后介绍基本概念和术语。之后,我们将通过一个简单的例子来说明 Apache Beam 的所有重要方面。

2. Apache Beam是个啥?

Apache Beam(Batch+strEAM)是一个用于批处理和流式数据处理作业的统一编程模型。它提供了一个软件开发工具包,用于定义和构建数据处理管道以及执行这些管道的运行程序。

Apache Beam旨在提供一个可移植的编程层。事实上,Beam管道运行程序将数据处理管道转换为与用户选择的后端兼容的API。目前,支持这些分布式处理后端有:

  • Apache Apex

  • Apache Flink

  • Apache Gearpump (incubating)

  • Apache Samza

  • Apache Spark

  • Google Cloud Dataflow

  • Hazelcast Jet

3. 为啥选择 Apache Beam

Apache Beam 将批处理和流式数据处理融合在一起,而其他组件通常通过单独的 API 来实现这一点 。因此,很容易将流式处理更改为批处理,反之亦然,例如,随着需求的变化。

Apache Beam 提高了可移植性和灵活性。我们关注的是逻辑,而不是底层的细节。此外,我们可以随时更改数据处理后端。

Apache Beam 可以使用 Java、Python、Go和 Scala等SDK。事实上,团队中的每个人都可以使用他们选择的语言。

4. 基本概念

使用 Apache Beam,我们可以构建工作流图(管道)并执行它们。编程模型中的关键概念是:

  • PCollection–表示可以是固定批处理或数据流的数据集

  • PTransform–一种数据处理操作,它接受一个或多个 PCollections 并输出零个或多个 PCollections。

  • Pipeline–表示 PCollection 和 PTransform 的有向无环图,因此封装了整个数据处理作业。

  • PipelineRunner–在指定的分布式处理后端上执行管道。

简单地说,PipelineRunner 执行一个管道,管道由 PCollection 和 PTransform 组成。

5. 字数统计示例

现在我们已经学习了 Apache Beam 的基本概念,让我们设计并测试一个单词计数任务。

5.1 建造梁式管道

设计工作流图是每个 Apache Beam 作业的第一步,单词计数任务的步骤定义如下:

  • 1.从原文中读课文。

  • 2.把课文分成单词表。

  • 3.所有单词都小写。

  • 4.删去标点符号。

  • 5.过滤停止语。

  • 6.统计唯一单词数量。

为了实现这一点,我们需要使用 PCollection 和 PTransform 抽象将上述步骤转换为 管道 。

5.2. 依赖

在实现工作流图之前,先添加 Apache Beam的依赖项 到我们的项目:

<dependency><groupId>org.apache.beam</groupId><artifactId>beam-sdks-java-core</artifactId><version>${beam.version}</version>
</dependency>

Beam管道运行程序依赖于分布式处理后端来执行任务。我们添加 DirectRunner 作为运行时依赖项:

<dependency><groupId>org.apache.beam</groupId><artifactId>beam-runners-direct-java</artifactId><version>${beam.version}</version><scope>runtime</scope>
</dependency>

与其他管道运行程序不同,DirectRunner 不需要任何额外的设置,这对初学者来说是个不错的选择。

5.3. 实现

Apache Beam 使用 Map-Reduce 编程范式 ( 类似 Java Stream)。讲下面内容之前,最好 对 reduce()filter()count()map(), 和 flatMap() 有个基础概念和认识。

首先要做的事情就是 创建管道

PipelineOptions options = PipelineOptionsFactory.create();
Pipeline p = Pipeline.create(options);

六步单词计数任务:

PCollection<KV<String, Long>> wordCount = p.apply("(1) Read all lines", TextIO.read().from(inputFilePath)).apply("(2) Flatmap to a list of words", FlatMapElements.into(TypeDescriptors.strings()).via(line -> Arrays.asList(line.split("\\s")))).apply("(3) Lowercase all", MapElements.into(TypeDescriptors.strings()).via(word -> word.toLowerCase())).apply("(4) Trim punctuations", MapElements.into(TypeDescriptors.strings()).via(word -> trim(word))).apply("(5) Filter stopwords", Filter.by(word -> !isStopWord(word))).apply("(6) Count words", Count.perElement());

apply() 的第一个(可选)参数是一个String,它只是为了提高代码的可读性。下面是上述代码中每个 apply() 的作用:

  1. 首先,我们使用 TextIO 逐行读取输入文本文件。

  2. 将每一行按空格分开,把它映射到一个单词表上。

  3. 单词计数不区分大小写,所以我们将所有单词都小写。

  4. 之前,我们用空格分隔行,但是像“word!“和”word?"这样的,就需要删除标点符号。

  5. 像“is”和“by”这样的停止词在几乎每一篇英语文章中都很常见,所以我们将它们删除。

  6. 最后,我们使用内置函数 Count.perElement() 计算唯一单词数量。

如前所述,管道是在分布式后端处理的。不可能在内存中的PCollection上迭代,因为它分布在多个后端。相反,我们将结果写入外部数据库或文件。

首先,我们将PCollection转换为String。然后,使用TextIO编写输出:

wordCount.apply(MapElements.into(TypeDescriptors.strings()).via(count -> count.getKey() + " --> " + count.getValue())).apply(TextIO.write().to(outputFilePath));

现在管道 已经定义好了,接下来做个简单的测试。

5.4. 运行测试

到目前为止,我们已为单词计数任务定义了管道,现在运行管道

p.run().waitUntilFinish();

在这行代码中,Apache Beam 将把我们的任务发送到多个 DirectRunner 实例。因此,最后将生成几个输出文件。它们将包含以下内容:

...
apache --> 3
beam --> 5
rocks --> 2
...

在 Apache Beam 中定义和运行分布式作业是如此地简单。为了进行比较,单词计数实现在 Apache Spark, Apache Flink 和 Hazelcast-Jet 上也有

6. 结语

在本教程中,我们了解了 Apache Beam 是什么,以及它为什么比其他选择更受欢迎。我们还通过一个单词计数示例演示了 Apache Beam 的基本概念。

推荐关注本文作者

DD自研的沪牌代拍业务,点击直达

【往期推荐】

Spring MVC 过时了吗?

2020-12-08

因贡献Linux社区被Linus关注,受公司10万期权奖励!酷派重回大众视野...

2020-12-08

用了这么多年 curl,竟然不知道还有这种用法?!

2020-12-07

一招教你使用微信隐藏表情!

2020-12-07

将 Docker 踢出群聊后,Kubernetes 还能否欢快地蹦跶吗?

2020-12-06

Redis面试突击专用

2020-12-06

深度内容

推荐加入

欢迎加入知识星球,一起探讨技术架构,交流技术人生。

加入方式,长按下方二维码:

已在知识星球更新如下:

素质二连,走一个

Apache Beam 是什么,它为什么比其他选择更受欢迎?相关推荐

  1. Apache Beam的架构概览

    不多说,直接上干货! Apache Beam是一个开源的数据处理编程库,由Google贡献给Apache的项目,前不久刚刚成为Apache TLP项目.它提供了一个高级的.统一的编程模型,允许我们通过 ...

  2. Apache Beam欲通过uber api获取大数据

    现在,有用的Apache大数据项目似乎每日更新.相比于每次都重新学习的方式,如果可以通过一个统一的API如何呢? 长期开玩笑说Hadoop生态系统是那种如果你不喜欢一个为特定系统的API,等待五分钟, ...

  3. Apache Beam发布第一个稳定版本

    Apache Beam在官方博客上正式发布了Beam 2.0.0.这是Beam有史以来的第一个稳定版本,根据Beam社区的声明,Beam意欲为未来版本发布保持API的稳定性,并让Beam适用于企业的部 ...

  4. Apache Beam是什么?

    Apache Beam 的前世今生 1月10日,Apache软件基金会宣布,Apache Beam成功孵化,成为该基金会的一个新的顶级项目,基于Apache V2许可证开源. 2003年,谷歌发布了著 ...

  5. Apache Beam的API设计

    Apache Beam的API设计 Apache Beam还在开发之中,后续对应的API设计可能会有所变化,不过从当前版本来看,基于对数据处理领域对象的抽象,API的设计风格大量使用泛型来定义,具有很 ...

  6. Apache Beam 剖析

    1.概述 在大数据的浪潮之下,技术的更新迭代十分频繁.受技术开源的影响,大数据开发者提供了十分丰富的工具.但也因为如此,增加了开发者选择合适工具的难度.在大数据处理一些问题的时候,往往使用的技术是多样 ...

  7. apache beam java api_Apache Beam的基本概念

    不多说,直接上干货! Apache Beam的基本概念 在使用Apache Beam构建数据处理程序,首先需要使用Beam SDK中的类创建一个Driver程序,在Driver程序中创建一个满足我们数 ...

  8. Apache Beam构建流处理任务

    最近做的一个项目需要用到Google云平台的Dataflow来进行数据处理,因此研究了一下相关的文档,了解到Dataflow是基于Apache beam来进行流程的编排.Beam支持多种不同的Runn ...

  9. Apache Beam简介及相关概念

    文章目录 一.简介 二.基本概念 1.Pipelines 2.PCollection 3.Transforms 4.ParDo 5.Pipeline I/O 6.Aggregation 7.User- ...

最新文章

  1. [Effective JavaScript 笔记]第6章:库和API设计--个人总结
  2. 南京信息工程大学滨江学院计算机科学与技术专业,南京信息工程大学滨江学院有哪些专业及什么专业好...
  3. mysql delete返回值_Mybatis执行sql(insert、update、delete)返回值问题
  4. 数据库元数据数据字典查询_9_列出给定表的所有约束
  5. 秒杀多线程第八篇 经典线程同步 信号量Semaphore
  6. 一个古怪的VISTA网络问题解决的坎坷经历
  7. .NET Core前后端分离快速开发框架(Core.3.0+AntdVue)
  8. Python | 展示一个break语句示例
  9. 数据增量更新定义_TiDB 在 OPPO 准实时数据仓库中的实践
  10. 语法分析程序的设计与实现_编译工程7:语法分析(5)
  11. 小程序登录本地服务器,微信小程序实现用户登录模块服务器搭建
  12. 小财靠勤,中财靠德,大财靠命,现在多少钱才是小财?
  13. python遥感影像分类代码_Python 实现遥感影像波段组合的示例代码
  14. iPhone 6/6 Plus 出现后,如何改进工作流以实现一份设计稿支持多个尺寸?
  15. React - 修改children(下)
  16. chrome插件-Web开发者助手 FeHelper
  17. mac下载、破解、安装webstorm编辑器
  18. 经济学里的那些字母都代表的意思
  19. OpenDNS(转)
  20. smba 的配置告别网上瞎找

热门文章

  1. 缓存淘汰算法之LRU
  2. Javascript中的陷阱大集合【译】
  3. java Proxy.newProxyInstance 动态代理 简介
  4. linux 报错 kernel: nf_conntrack: falling back to vmalloc 解决方法
  5. linux centos 挂载ntfs文件系统
  6. shell脚本 转 二进制执行文件
  7. Dependency Walker PE模块依赖性分析工具
  8. SDK使用xp风格控件
  9. Android点击Button实现功能的几种方法
  10. Linux下ipconfig分析及C语言实现