欢迎访问我的GitHub

这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos

本文是《Flink on Yarn三部曲》系列的终篇,先简单回顾前面的内容:

  1. 《Flink on Yarn三部曲之一:准备工作》:准备好机器、脚本、安装包;
  2. 《Flink on Yarn三部曲之二:部署和设置》:完成CDH和Flink部署,并在管理页面做好相关的设置;

现在Flink、Yarn、HDFS都就绪了,接下来实践提交Flink任务到Yarn执行;

两种Flink on YARN模式

实践之前,对Flink on YARN先简单了解一下,如下图所示,Flink on Yarn在使用的时候分为两种模式,Job Mode和Session Mode:

Session Mode:在YARN中提前初始化一个Flink集群,以后所有Flink任务都提交到这个集群,如下图:

Job Mode:每次提交Flink任务都会创建一个专用的Flink集群,任务完成后资源释放,如下图:接下来分别实战这两种模式;

准备实战用的数据(CDH服务器)

接下来提交的Flink任务是经典的WordCount,先在HDFS中准备一份文本文件,后面提交的Flink任务都会读取这个文件,统计里面每个单词的数字,准备文本的步骤如下:

  1. SSH登录CDH服务器;
  2. 切换到hdfs账号:su - hdfs
  3. 下载实战用的txt文件:
wget https://github.com/zq2599/blog_demos/blob/master/files/GoneWiththeWind.txt
  1. 创建hdfs文件夹:hdfs dfs -mkdir /input
  2. 将文本文件上传到/input目录:hdfs dfs -put ./GoneWiththeWind.txt /input

准备工作完成,可以提交任务试试了。

Session Mode实战

  1. SSH登录CDH服务器;
  2. 切换到hdfs账号:su - hdfs
  3. 进入目录:/opt/flink-1.7.2/
  4. 执行如下命令创建Flink集群,-n参数表示TaskManager的数量,-jm表示JobManager的内存大小,-tm表示每个TaskManager的内存大小:
./bin/yarn-session.sh -n 2 -jm 1024 -tm 1024
  1. 创建成功后,控制台输出如下图,注意红框中的提示,表明可以通过38301端口访问Flink:
  2. 浏览器访问CDH服务器的38301端口,可见Flink服务已经启动:
  3. 浏览器访问CDH服务器的8088端口,可见YARN的Application(即Flink集群)创建成功,如下图,红框中是任务ID,稍后结束Application的时候会用到此ID:
  4. 再开启一个终端,SSH登录CDH服务器,切换到hdfs账号,进入目录:/opt/flink-1.7.2
  5. 执行以下命令,就会提交一个Flink任务(安装包自带的WordCount例子),并指明将结果输出到HDFS的wordcount-result.txt文件中:
bin/flink run ./examples/batch/WordCount.jar \-input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \-output hdfs://192.168.50.134:8020/wordcount-result.txt
  1. 执行完毕后,控制台输出如下:
  2. flink的WordCount任务结果保存在hdfs,我们将结果取出来看看:hdfs dfs -get /wordcount-result.txt
  3. vi打开wordcount-result.txt文件,如下图,可见任务执行成功,指定文本中的每个单词数量都统计出来了:
  4. 浏览器访问Flink页面(CDH服务器的38301端口),也能看到任务的详细情况:
  5. 销毁这个Flink集群的方法是在控制台执行命令:yarn application -kill application_1580173588985_0002Session Mode的实战就完成了,接下来我们来尝试Job Mode;

Job Mode

  1. 执行以下命令,创建一个Flink集群,该集群只用于执行参数中指定的任务(wordCount.jar),结果输出到hdfs的wordcount-result-1.txt文件:
bin/flink run -m yarn-cluster \-yn 2 \-yjm 1024 \-ytm 1024 \./examples/batch/WordCount.jar \-input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \-output hdfs://192.168.50.134:8020/wordcount-result-1.txt
  1. 控制台输出如下,表明任务执行完成:
  2. 如果您的内存和CPU核数充裕,可以立即执行以下命令再创建一个Flink集群,该集群只用于执行参数中指定的任务(wordCount.jar),结果输出到hdfs的wordcount-result-2.txt文件:
bin/flink run -m yarn-cluster \-yn 2 \-yjm 1024 \-ytm 1024 \./examples/batch/WordCount.jar \-input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \-output hdfs://192.168.50.134:8020/wordcount-result-2.txt
  1. 在YARN管理页面可见任务已经结束:
  2. 执行命令hdfs dfs -ls /查看结果文件,已经成功生成:
  3. 执行命令hdfs dfs -get /wordcount-result-1.txt下载结果文件到本地,检查数据正常;
  4. 至此,Flink on Yarn的部署、设置、提交都实践完成,《Flink on Yarn三部曲》系列也结束了,如果您也在学习Flink,希望本文能够给您一些参考,也建议您根据自身情况和需求,修改ansible脚本,搭建更适合自己的环境;

本地提交到yarn_Flink on Yarn三部曲之三:提交Flink任务相关推荐

  1. glassfish启动后不能进入部署页面_Flink on Yarn三部曲之二:部署和设置

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  2. Flink on Yarn三部曲之一:准备工作

    关于Flink on Yarn三部曲 本文是<Flink on Yarn三部曲>的第一篇,整个系列由以下三篇组成: 准备工作:搭建Flink on Yarn环境前,将所有硬件.软件资源准备 ...

  3. 本地提交到yarn_Hadoop(四) Yarn

    Yran架构 Yarn架构图.png ResourceManager(rm):处理客户端请求,启动/监控ApplicationMaster,监控NodeManager.资源分配与调度. NodeMan ...

  4. spark提交到yarn_详细总结spark基于standalone、yarn集群提交作业流程

    最近总结了一些关于spark core的内容,今天先来和大家分享一下spark的运行模式. spark运行模式 (1)local:在本地eclipse.IDEA中写spark代码运行程序,一般用于测试 ...

  5. YARN的job提交过程

    YARN的job提交过程 job提交过程示意图 job提交过程详解 1.作业提交 2.作业初始化 3.任务分配 4.任务运行 5.进度和状态更新 6.作业完成 job提交过程示意图 job提交过程详解 ...

  6. k8s自定义controller三部曲之三:编写controller代码

    本文是<k8s自定义controller三部曲>的终篇,前面的章节中,我们创建了CRD,再通过自动生成代码的工具将controller所需的informer.client等依赖全部准备好, ...

  7. Docker下Prometheus和Grafana三部曲之三:自定义监控项开发和配置

    本文是<Docker下Prometheus和Grafana三部曲>的终篇,前面的文章中,我们体验了快速搭建监控环境,也揭示了如何编排Docker容器来简化环境搭建过程,在监控系统中有个业务 ...

  8. kubernetes下的Nginx加Tomcat三部曲之三:实战扩容和升级

    本章是<kubernetes下的Nginx加Tomcat三部曲系列>的终篇,今天咱们一起在kubernetes环境对下图中tomcat的数量进行调整,再修改tomcat中web工程的源码, ...

  9. elasticsearch实战三部曲之三:搜索操作

    elasticsearch实战三部曲之三:搜索操作 2019年01月13日 21:35:18 博陵精骑 阅读数:1367 标签: elasticsearch 更多 个人分类: elasticsearc ...

最新文章

  1. 【产品干货】APP留存率多少才合格——全面解析留存率
  2. mysql实现动态查询_mysql 实现动态查询
  3. 使用ReportNG更好看的TestNG HTML测试报告– Maven指南
  4. oracle窗帘位图索引,Greenplum数据库设计开发规范参考.docx
  5. 学python最重要的是_Python学习,要选哪个版本?
  6. 使用 typescript ,提升 vue 项目的开发体验(2)
  7. dsoframer java_(二)   内嵌WORD/OFFICE的WINFORM程序——DSOFRAMER使用小结
  8. 数学与逻辑思维(一)
  9. 一个基本开发框架的整合演化之路--9、整合文件服务器fastdfs
  10. 黑苹果双系统时间不一致_黑苹果系统与windows时间差问题的解决
  11. 个人永久性免费-Excel催化剂功能第69波-专业图表库新增图表-刘万祥老师中国地图...
  12. 网约车定价策略:手机越贵打车越贵?
  13. 数据可视化之美+点、线、面组合(以Python为工具)
  14. 关于部署OOS时出现的证书问题解决
  15. 时间序列分析实验报告总结_时间序列分析试验报告
  16. nike air max 1 leopard internationaal meest
  17. 有哪些令人拍案叫绝的算法?
  18. 计算器简单篇(项目篇)
  19. CreateProcess error=206, 文件名或扩展名太长。windows不支持长路径。
  20. 编玩边学——高新科技启蒙教育,让程序编写铸就高新科技能手

热门文章

  1. Hadoop基础知识
  2. ios 网络状态获取_Network Kit X——网络检测工具箱
  3. 物理实验模拟软件_网络系统实验平台:发展现状及展望
  4. OpenShift 4 Hands-on Lab (1) - 多种方法部署运行应用
  5. Blazor确认复选框组件
  6. .NET Standard中使用TCPListener和TCPClient的高性能TCP客户端服务器
  7. 使用CancellationToken——而不是Thread.Sleep
  8. 开源界也要注意,Apache 基金会与 GitHub 都受美国法律约束
  9. cuda pytorch 环境变量_PyTorch-GPU环境配置
  10. 从零开始用python处理excel视频_书榜 | 计算机书籍(6.29-7.5)销售排行榜