文档编写目的

Cloudera Data Flow(CDF) 作为 Cloudera 一个独立的产品单元,围绕着实时数据采集,实时数据处理和实时数据分析有多个不同的功能模块,如下图所示:

图中 4 个功能模块从左到右分别解释如下:

  1. Cloudera Edge Management(CEM),主要是指在边缘设备如传感器上部署 MiNiFi 的 agent 后用于采集数据。

  2. Cloudera Flow Management(CFM),主要是使用 Apache NiFi 通过界面化拖拽的方式实现数据采集,处理和转换。

  3. Cloudera Streaming Processing(CSP),主要包括 Apache Kafka,Kafka Streams,Kafka 的监控 Streams Messaging Manager(SMM),以及跨集群 Kafka topic 的数据复制 Streams Replication Manager(SRM)。

  4. Cloudera Streaming Analytics(CSA),以前这块是使用 Storm 来作为 Native Streaming 来补充 Spark Streaming 的 Micro-batch 的时延问题,目前这块改为 Flink 来实现,未来的 CDF 中将不再包含 Storm。

本文 Fayson 主要是介绍如何在 CDH6.3 中安装 Flink 1.9 以及运行你的第一个 Flink 例子,以下是测试环境信息:

  1. CM 和 CDH 版本为 6.3

  2. Redhat 7.4

  3. JDK 1.8.0_181

  4. 集群未启用 Kerberos

  5. Root 用户安装

安装 Flink 1.9

1.准备 Flink 1.9 的 csd 文件,并放置到 Cloudera Manager Server 的 /opt/cloudera/csd 目录。然后重启 Cloudera Manager Server 服务。

[root@ip-172-31-13-38 ~]# cd /opt/cloudera/csd
[root@ip-172-31-13-38 csd]# ll
total 44
-rw-r--r-- 1 root root 12407 Nov  8 01:26 FLINK-1.9.0-csa1.0.0.0-cdh6.3.0.jar
-rw-r--r-- 1 root root 24630 Sep  4 20:02 STREAMS_MESSAGING_MANAGER-2.1.0.jar
[root@ip-172-31-13-38 csd]# systemctl restart cloudera-scm-server

2.CM 重启完成以后,添加服务页面可以看到有 Flink 服务。

3.下载 Flink 1.9 的 Parcel,并放置 /var/www/html 目录。

[root@ip-172-31-13-38 ~]# cd /var/www/html/flink1.9/
[root@ip-172-31-13-38 flink1.9]# ll
total 127908
-rw-r--r-- 1 root root 130962403 Nov  8 01:36 FLINK-1.9.0-csa1.0.0.0-cdh6.3.0-el7.parcel
-rw-r--r-- 1 root root        41 Nov  8 01:28 FLINK-1.9.0-csa1.0.0.0-cdh6.3.0-el7.parcel.sha1
-rw-r--r-- 1 root root      4421 Nov  8 01:28 manifest.json
[root@ip-172-31-13-38 flink1.9]#

4.通过 Hosts > Parcels 进入 Cloudera Manager 的 Parcel 页面,输入 SMM Parcel 的 http 地址,下载->分配->激活。

5.进入 CM 主页点击“添加服务”。

6.选择添加 Flink 服务,点击继续。

7.选择 Flink History Server 以及 Gateway 节点,点击继续。

8.点击继续。

9.等待 Flink History Server 启动成功,完成后点击继续。

10.安装完成,点击完成回到 CM 主页。

发现 Flink 的状态为灰色,CMS 有重启提示,按照提示重启 CMS 服务,重启过程略。重启完成后显示 Flink 服务正常。

第一个 Flink 例子

1.执行 Flink 自带的 example 的 wordcount 例子。

[root@ip-172-31-13-38 ~]# flink run -m yarn-cluster -yn 4 -yjm 1024 -ytm 1024 /opt/cloudera/parcels/FLINK/lib/flink/examples/streaming/WordCount.jar --input hdfs://ip-172-31-13-38.ap-southeast-1.compute.internal:8020/fayson/ods_user_600.txt --output hdfs://ip-172-31-13-38.ap-southeast-1.compute.internal:8020/fayson/wordcount_output

2.查看输出结果。

3.在 YARN 和 Flink 的界面上分别都能看到这个任务。

至此,Flink 1.9 安装到 CDH 6.3 以及第一个例子介绍完毕。

备注:这是 Cloudera Streaming Analytics 中所包含 Apache Flink 的抢先测试版。Cloudera 不提供对此版本的支持。该 Beta 版本的目的是让用户可以尽可能早的开始使用 Flink 进行应用程序的开发。

更多技术文章可了解以下 Apache Flink 系列入门教程

Apache Flink 系列入门教程

▼ 进阶篇

1.Runtime 核心机制剖析

2.时间属性深度解析

3.Checkpoint 原理剖析与应用实践

4.Flink on Yarn / K8s 原理剖析及实践

5.数据类型和序列化

6.Flink 作业执行深度解析

7.网络流控和反压剖析

8.详解 Metrics 原理与实战

▼ 基础篇

1.Flink 基础概念解析

2.Flink 开发环境搭建和应用的配置、部署及运行

3.Flink Datastream API 编程

4.Flink 客户端操作

5.Flink  Time & Window

6.Flink 状态管理及容错机制

7.Flink Table API 编程
8.Flink SQL 编程实践

9.5分钟从零构建第一个 Flink 应用

10.零基础实战教程:如何计算实时热门商品


关注 Ververica,获取更多 Flink 技术干货

你也「在看」吗?

在 Cloudera Data Flow 上运行你的第一个 Flink 例子相关推荐

  1. 在IntelliJ IDEA上运行你的第一个java程序就是这么简单! 新建java项目并且输出Hello World 超级详细!

  2. [当人工智能遇上安全] 2.清华张超老师 - GreyOne: Discover Vulnerabilities with Data Flow Sensitive Fuzzing

    您或许知道,作者后续分享网络安全的文章会越来越少.但如果您想学习人工智能和安全结合的应用,您就有福利了,作者将重新打造一个<当人工智能遇上安全>系列博客,详细介绍人工智能与安全相关的论文. ...

  3. spring cloud data flow 调研

    # Spring Cloud 相关库设计了Spring Initializr的特别版本 https://start-scs.cfapps.io/ Demo https://www.baeldung.c ...

  4. [论文阅读] (03) 清华张超老师 - GreyOne: Discover Vulnerabilities with Data Flow Sensitive Fuzzing

    数据流敏感的漏洞挖掘方法 Discover Vulnerabilities with Flow Sensitive Fuzzing Chao Zhang 清华大学 2nd International ...

  5. iis ajax访问html,为什么Ajax脚本不在IIS 7.5 Win 2008 R2服务器上运行?

    为什么Ajax脚本不在IIS 7.5 Win 2008 R2服务器上运行? 我有一个Web应用程序在我的开发服务器上的VS 2013上运行良好,但是一旦我在IIS 7.5 2008 R2服务器上发布了 ...

  6. Spring Cloud Data Flow初体验,以Local模式运行

    1 前言 欢迎访问南瓜慢说 www.pkslow.com获取更多精彩文章! Spring Cloud Data Flow是什么,虽然已经出现一段时间了,但想必很多人不知道,因为在项目中很少有人用.不仅 ...

  7. hortonworks_具有在IBM POWER8上运行的Hortonworks Data Platform(HDP)的SAS软件

    Hadoop的SAS / ACCESS接口 Hadoop的SAS / ACCESS接口提供了访问SAS本机中Hadoop中存储的数据集的功能. 通过SAS / ACCESS到Hadoop: LIBNA ...

  8. 深度学习编译器Data Flow和Control Flow

    深度学习编译器Data Flow和Control Flow 本文介绍了一下深度学习框架的Data Flow和Control Flow,基于TensorFlow解释了TensorFlow是如何在静态图中 ...

  9. 从Qcheck 1.3 不能在不同操作系统上运行问题(chro124、chro342)说开来------

    [本文重在技巧学习,授人以鱼,不如授人以渔!!!] 因为公司项目需要对带宽占用进行测试, 最近看电子工业出版社<网络管理工具使用详解>就qcheck  1.3 不能在不同的操作系统之间运行 ...

  10. Spring Cloud Data Flow 中的 ETL

    来源:SpringForAll社区 1 概述 Spring Cloud Data Flow是一个用于构建实时数据管道和批处理过程的云原生工具包. Spring Cloud Data Flow已准备好用 ...

最新文章

  1. Go基础知识学习(6) 接口
  2. ICML2020 | G2Gs:不依赖模板的的逆合成预测新框架
  3. Science:领导决策的计算和神经生物学基础
  4. lifekeeper for linxu安装步骤
  5. Centos 6.0/ Nginx 安装与配置
  6. 【Groovy】MOP 元对象协议与元编程 ( 方法注入 | 同时注入普通方法、静态方法、构造方法 )
  7. 回溯算法团灭子集、排列、组合问题
  8. pycaffe简明文档
  9. Spring Cloud Config Server
  10. python怎么导出程序_[272]如何把Python脚本导出为exe程序
  11. linux系统编译qt代码需要编译qt,linux下如何静态编译QT库,以及如何静态编译自己的程序...
  12. java was datasource_mybatis默认的数据源连接池(PooledDataSource和UnPooledDataSource)
  13. MySQL5.6基于GTID同步复制,与如何实现MySQL负载均衡、读写分离。
  14. postgresql 9.1 基于wal的 pitr 恢复
  15. 装备制造新亮点 机器人红利时代到来
  16. idea开发springboot的一些小干货
  17. UE 基础环境安装与Bridge插件配置
  18. 4011: [HNOI2015]落忆枫音
  19. Namecheap无法登录
  20. 【文本】HTML5 Canvas小项目:为坐标轴添加数字标签(带刻度线)

热门文章

  1. 实战:node-react项目部署到服务器
  2. SQL:postgresql增加自增字段
  3. Javascript特效:简易留言板
  4. function admincp.php,通读审计之AACMS
  5. java web 缓存省市县_实现 Java 本地缓存,该从这几点开始
  6. 简单比较init-method,afterPropertiesSet和BeanPostProcessor
  7. 单目相机与激光标定相关文章与代码(草稿)
  8. 域对抗网络Domain adversarial neural network及其应用相关论文
  9. 静默文件安装安装WebLogic
  10. Android PopupWindow Dialog 关于 is your activity running 崩溃详解