Oozie简介

  • Oozie是大数据四大协作框架之一——任务调度框架,另外三个分别为数据转换工具Sqoop,文件收集库框架Flume,大数据WEB工具Hue。
  • 它能够提供对Hadoop MapReduce和Pig Jobs的任务调度与协调。
  • Oozie需要部署到Java Servlet容器中运行。
  • 功能相似的任务调度框架还有Azkaban和Zeus。

Oozie三大功能模块

从图中不难看出,Oozie主要有三大功能模块构成:

  • workflow(工作流):定义job任务执行。
  • Coordinator:定时触发workflow,周期性执行workflow
  • Bundle Job:绑定多个coordinator,一起提交或触发所以coordinator

Oozie工作流

  • Oozie工作流定义,同JBoss jBPM提供的jPDL一样,也提供了类似的流程定义语言hPDL,通过XML文件格式来实现流程的定义。对于工作流系统,一般都会有很多不同功能的节点,比如分支、并发、汇合等等。
  • Oozie定义了控制流节点(Control Flow Nodes)和动作节点(Action Nodes),其中控制流节点定义了流程的开始和结束,以及控制流程的执行路径(Execution Path),如decision、fork、join等;而动作节点包括Hadoop map-reduce、Hadoop文件系统、Pig、SSH、HTTP、eMail和Oozie子流程。
  • oozie本质就是一个作业协调工具(底层原理是通过将xml语言转换成mapreduce程序来做,但只是在集中map端做处理,避免shuffle的过程。)

执行workflow之前首先要进行相关配置:

  • job.properties 定义job相关属性以及参数
  • workflow.xml 定义控制流和动作节点
  • lib 存放job任务运行的相关资料文件[jar]

特别注意:

Oozie的工作流必须是一个有向无环图,实际上Oozie就相当于Hadoop的一个客户端,当用户需要执行多个关联的MR任务时,只需要将MR执行顺序写入workflow.xml,然后使用Oozie提交本次任务,Oozie会托管此任务流。


Oozie Cli命令

注意:使用Oozie之前必须先启动hdfs,yarn和jobhistory,这里jobhistory一开始很容易忘~

l 启动任务

oozie job -oozie oozie_url -config job.properties_address -run

l 停止任务

oozie job -oozie oozie_url -kill jobId -oozie-oozi -W

l 提交任务

oozie job -oozie oozie_url -config job.properties_address -submit

l 开始任务

oozie job -oozie oozie_url -config job.properties_address -startJobId -oozie-oozi -W

l 查看任务执行情况

oozie job -oozie oozie_url -config job.properties_address -info jobId -oozie-oozi -W

说明: 所有的命令都是以oozie job -oozie oozie_url 开头的-config 制定job.properties文件夹的位置,-run 文件启动后会返回一个唯一的jobId,供之后使用。

什么是Oozie——大数据任务调度框架相关推荐

  1. 全面认识当前市面99%的大数据技术框架(附:各大厂大数据技术应用文章)

    目录 大数据领域分析 系统平台 集群管理与监控 文件系统 资源调度 协调框架 数据存储 数据处理 数据查询和分析 数据收集 消息系统 任务调度 数据治理 数据可视化 云平台 大数据必知点 大厂应用实践 ...

  2. 大数据开源框架技术汇总

    主要基于对现阶段一些常用的大数据开源框架技术的整理,只是一些简单的介绍,并不是详细技术梳理.可能会有疏漏,发现再整理.参考得太多,就不一一列出来了.这只是作为一个梳理,对以后选型或者扩展的做个参考. ...

  3. 大数据计算框架期末复习

    1.  下面哪个不是Linux发行版本  (D) A. Ubuntu B. Centos C. RedHat Enterprise Linux     D. Mac 6.web方式查看hdfs目录结构 ...

  4. 新代大数据计算框架Apache Flink

    大数据计算框架的发展 最近几年,出现了很多热门的开源社区,其中注明的Hadoop Storm,以及很热门的Spark, 它们有着各自专注的应用场景.Spar掀开了内存计算的先河,也以内为基础,赢得了内 ...

  5. 大数据必须框架-Azkaban

    大数据必须框架-Azkaban 一.Azkaban 概论 1.为什么需要工作流调度系统 1)一个完整的数据分析系统通常都是由大量任务单元组成: Shell 脚本程序,Java 程序,MapReduce ...

  6. 大数据计算框架与平台--深入浅出分析

    http://mp.weixin.qq.com/s/s2DnbgieeQockaLKdZDCzA?utm_source=tuicool&utm_medium=referral 1. 前言 计算 ...

  7. 大数据计算框架及引擎介绍

    一.大数据处理框架 主流的大数据处理框架包括以下三类五种: 1.仅批处理框架:Apache Hadoop 2.仅流处理框架:Apache Storm.Apache Samza 3.混合框架:Apach ...

  8. 大数据各框架的原理与知识点

    以下是根据自己的总结和梳理,建议入过门大数据的人看.写的很片面,没有图片,我仅仅想把握学的东西梳理下. Hadoop篇 数据仓库 数据仓库,简写DW,是为企业级所有级别的决策制定过程,提供所有类型数据 ...

  9. 大数据软件框架之Hadoop框架

    大数据软件框架之 Hadoop框架: Hadoop框架是由Java语言编写的,它的核心是HDFS(Hadoop分布式文件系统)和MapReduse,对于大数据而言,Hadoop就是用大量的廉价机器组成 ...

最新文章

  1. Visual Studio中的《C# 语言规范》
  2. 深入浅出Node.js游戏服务器开发--分布式聊天服务器搭建
  3. [转]如何解决:Android中 Error generating final archive: Debug Certificate expired on 10/09/18 16:30 的错误...
  4. Qt 遍历目录并删除目录下所有文件
  5. 【Android】ClassLoader Tree
  6. springMVC获取异步请求的参数,返回异步请求数据(json),跨域访问简单了解,文件上传,与Restful风格
  7. java更好的语言_五个使Java变得更好的功能
  8. java 类集合_java集合类详解
  9. iPhone黑屏幕转圈圈(解决办法)
  10. 切图html 在线,网页制作/前端开发/网页切图/网站切图/PSD转html
  11. A + B Problem Too
  12. java specification_java规范(Java specification).doc
  13. RK平台RAM和ROM容量计算
  14. 【蓝桥杯经典数学题】杨辉三角形
  15. html点击出现对勾,css伪类右下角点击出现对号角标表示选中的代码
  16. 重启路由器后xshell连接Linux主机出现connect failed问题
  17. RGB与YUV格式详解
  18. 从此以后提及你 无关风雨无关晴
  19. 拨开发展迷雾,将“智慧”嵌入全业务场景【2022戴尔科技峰会预告】
  20. 使用python来实现零售行业的数据分析 : EDA+TF-IDF+t-SNE+K-Means+LDA(干货)

热门文章

  1. 【记录】饥荒联机版+个人云服务器搭建(2020.6.19)
  2. ​AI赋能全渠道用户数据分析
  3. Android三级图片缓存框架思路【附练习Demo】
  4. 岁岁年年人不同——LVS2019多媒体会议见闻(一)
  5. 我们用程序整理出了一份Python英语高频词汇表,拿走不谢!
  6. 洛谷 1546 最短网络
  7. CORS(Cross-Origin Resource Sharing)跨域资源共享
  8. The Tomcat connector configured to listen on port 8090 failed to start.
  9. Excel函数公式大全—函数真经
  10. mybatis查询时间段sql语句和DATE_FORMAT