工作流

工作流(Workflow),指“业务过程的部分或整体在计算机应用环境下的自动化”。

是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。

工作流解决的主要问题是:为了实现某个业务目标,利用计算机软件在多个参与者之间按某种预定规则自动传递文档、信息或者任务。

一个完整的数据分析系统通常都是由多个前后依赖的模块组合构成的:数据采集、数据预处理、数据分析、数据展示等。

各个模块单元之间存在时间先后依赖关系,且存在着周期性重复。

为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行

工作流调度实现方式

简单的任务调度:直接使用linux的crontab来定义,但是缺点也是比较明显,无法设置依赖。

复杂的任务调度:自主开发调度平台,使用开源调度系统,比如azkaban、Apache Oozie、Cascading、Hamake等。

其中知名度比较高的是Apache Oozie,但是其配置工作流的过程是编写大量的XML配置,而且代码复杂度比较高,不易于二次开发。

工作流调度工具之间对比

下面的表格对四种hadoop工作流调度器的关键特性进行了比较,尽管这些工作流调度器能够解决的需求场景基本一致,但在设计理念,目标用户,应用场景等方面还是存在显著的区别,在做技术选型的时候,可以提供参考。

特性 Hamake Oozie Azkaban Cascading
工作流描述语言 XML XML (xPDL based) text file with key/value pairs Java API
依赖机制 data-driven explicit explicit explicit
是否要web容器 No Yes Yes No
进度跟踪 console/log messages web page web page Java API
Hadoop job调度支持 no yes yes yes
运行模式 command line utility daemon Daemon(守护进程) API
Pig支持 yes yes yes yes
事件通知 no no no yes
需要安装 no yes yes no
支持的hadoop版本 0.18+ 0.20+ currently unknown 0.18+
重试支持 no workflownode evel yes yes
运行任意命令 yes yes yes yes
Amazon EMR支持 yes no currently unknown yes

WorkFlow 工作流相关推荐

  1. Git workflow工作流及边角知识

    Git workflow工作流及边角知识 开篇 workflow工作流 rebase onto reset revert 开篇 Git是个老生长谈的问题了,如何在工作协作中使用Git,不同团队有不同的 ...

  2. Git三大特色之WorkFlow(工作流)

    开篇 Git 三大特色,分支,暂存区,工作流,今天终于要写到 WorkFlow 了,我彷佛已经看到胜利的曙光,走起. 何谓工作流 WorkFlow 的字面意思,工作流,即工作流程.在分支篇里,有说过这 ...

  3. 企业级开发:Gitflow Workflow工作流

    http://www.jianshu.com/p/104fa8b15d1e http://www.jianshu.com/p/104fa8b15d1e http://www.jianshu.com/p ...

  4. ABAP WORKFLOW工作流创建(一)

    SAP的工作流是个很老的内容了 做过几次工作流的项目,现在有时间稍微写几篇博客 一.TCODE:SWDD 创建一个新的workflow 工作流的流程无非就是两种,第一:同意.第二:拒绝(或者驳回) 1 ...

  5. 如何自动完成登录 SAP BTP workflow(工作流) 管理应用 Launchpad 所需的设置

    https://developers.sap.com/tutorials/cp-starter-ibpm-employeeonboarding-1-setup.html You will use th ...

  6. SharePoint 2013 Nintex Workflow 工作流帮助(六)

    博客地址 http://blog.csdn.net/foxdave 工作流动作 7. Call web service(Integration分组) 一个调用WebService的操作. 自然,配置项 ...

  7. workflow工作流类型及其区别

    在workflow中,工作流分为两种类型,顺序工作流(Sequential)和状态机工作流(State Machine). 顺序工作流将一系列要执行的步骤以一种预先设计好的流程顺序执行.在这种工作流里 ...

  8. 创建一个简单的workflow工作流(WF4)

    1.初始化数据库 在C:\Windows\Microsoft.NET\Framework\v4.0.30319\SQL\en目录下查找SqlWorkflowInstanceStoreSchema.sq ...

  9. WorkFlow工作流

    工作流 一.什么是工作流 历史发展: 工作流的理论起源于70年代中期办公的自动化领域.90年代.工作流技术的研究与开发进一步发展.1993年8月,成立第一个工作流技术标准话的工业组织WFMC(工作流管 ...

最新文章

  1. python给图片添加字符
  2. 某些列满足特定条件,然后改变另外的某些列的值(Python)
  3. JS过滤表单数据中的特殊字符
  4. linux安装mysql phpmyadmin_ubuntu mysql远程连接+phpmyadmin安装
  5. linux文件系统的管理方法,Linux学习笔记:2.文件系统的管理命令(2)
  6. php生成网页按钮,JavaScript实现自动生成网页元素功能(按钮、文本等)_javascript技巧...
  7. matlab矩阵的LU分解
  8. Indicate whether to send a cookie in a cross-site request by specifying its SameSite attribute
  9. 小白盒子无线打印服务器,玩转无线打印、共享打印机,蒲公英X1盒子和小白学习盒子谁更好...
  10. 计算机内存分为几代,电脑内存怎么看大小(内存条怎么看几代型号)
  11. Java实现 蓝桥杯VIP 算法提高 盾神与砝码称重
  12. html 渐变背景色,渐变文字颜色
  13. colorbox ajax,jquery弹出层插件推荐ColorBox有5种风格附中文文档
  14. nginx/tengine限制流量如何配置
  15. pytorch Load部分weights
  16. java发出声音_Java播放声音的几种方式
  17. order statistics(找最ith小数值)问题
  18. 学法减分拍照识题小程序开发
  19. 5-(4-氨基苯基)-10,15.20-三苯基卟啉(TPP-NH2)/多金属氧酸盐-四苯基卟啉化合物TPP-PW齐岳供应
  20. 轻易解决VMware 虚拟机中被提示“请不要在虚拟机中运行此程序“

热门文章

  1. django Using the URLconf defined in test02.urls, Django tried these URL patterns, in this order:
  2. 统计学基础(假设检验、两个总体均值之差检验,独立样本t检验,配对样本t检验)
  3. 计算机的音标英语怎么说,电脑的英文怎么读标准发音
  4. 调用http时因为js问题遇到的一个报错
  5. MacOS安装brew
  6. 【快应用】account.authorize授权码模式登录报错1102
  7. 当Proteus 8 Professional运行程序的时候出现有些器件不可用
  8. mysql时间戳是什么意思_mysql中TIMESTAMP时间戳详解
  9. 北宋三衙的地位、待遇及其政治作用
  10. mysql没有表空间,MySQL的表空间是什么