DolphinScheduler对比Airflow
DolphinScheduler | AirFlow | ||
---|---|---|---|
稳定性 | 单点故障 | 去中心化的多Master和多Worke | 是(单一调度程序) |
HA额外要求 | 不需要(本身就支持HA) | Celery / Dask / Mesos + Load Balancer + DB | |
过载处理 | 任务队列机制,单个机器上可调度的任务数量可以灵活配置,当任务过多时会缓存在任务队列中,不会造成机器卡死 | 任务太多时会卡死服务器 | |
易用性 | DAG监控界面 | 任务状态、任务类型、重试次数、任务运行机器、可视化变量等关键信息一目了然 | 不能直观区分任务类型 |
可视化流程定义 | 是(所有流程定义操作都是可视化的,通过拖拽任务来绘制DAG,配置数据源及资源。同时对于第三方系统,提供api方式的操作) | 否(通过python代码来绘制DAG,使用不便,特别是对不会写代码的业务人员基本无法使用) | |
快速部署 | 一键部署 | 集群化部署复杂 | |
功能 | 是否能暂停和恢复 | 支持暂停(非真暂停),恢复操作 | 否(只能先将工作流杀死再重新运行) |
是否支持多租户 | 支持(DolphinScheduler上的用户可以通过租户和hadoop用户实现多对一或一对一的映射关系,这对大数据作业的调度是非常重要的) | 否(只支持多用户) | |
任务类型 | 支持传统的shell任务,同时支持大数据平台任务调度: MR、Spark、SQL(mysql、postgresql、hive、sparksql)、Python、Procedure、Sub_Process | BashOperator、DummyOperator、MySqlOperator、HiveOperator、EmailOperator、HTTPOperator、SqlOperator | |
契合度 | 支持大数据作业spark,hive,mr的调度,同时由于支持多租户,与大数据业务更加契合 | 由于不支持多租户,在大数据平台业务使用不够灵活 | |
任务重跑 | 支持失败任务重跑,但是不能指定从任意一个任务开始重跑 | 可以指定从任意一个任务节点开始重跑 | |
跳过某些任务/运行节点 | 是 | 否 | |
跨项目依赖 | 否 | 否 | |
项目内依赖 | 是(在一个项目中前驱依赖可以指定不同工作流中任意一个任务,后继依赖可以指定一整个工作流,但是无法指定其他工作流中的任意一个任务) | 是(将DAG定义在一个脚本中) | |
扩展性 | 是否支持自定义任务类型 | 是 | 是 |
是否支持集群扩展 | 是(调度器使用分布式调度,整体的调度能力会随便集群的规模线性增长,Master和Worker支持动态上下线) | 是(但是Executor水平扩展复杂) | |
监控告警 | 服务状态监控 | 是 | 否 |
告警类型 | 自带邮件告警,支持分组监控告警 | 不自带告警 | |
系统版本 | 系统版本要求 | 均7.0以上 | 暂无 |
任务迁移 | 支持任务迁移/Copy | 是 | 否 |
支持组件命令 | 支持Python命令 | 是 | 是 |
支持Hive-SQL命令 | 是 | 是 | |
支持Shell命令 | 是 | 是 | |
支持Http命令 | 是 | 是 | |
支持Sqoop命令 | 是 | 否 | |
支持Spark命令 | 是 | 否 | |
支持Flink命令 | 是 | 否 | |
支持MR命令 | 是 | 否 | |
支持Datax命令 | 是 | 否 | |
支持Hadoop命令 | 否 | 否 |
DolphinScheduler对比Airflow相关推荐
- 大数据调度平台oozie、azkaban、dolphinscheduler、AirFlow对比
Apache Oozie# Linkedin Azkaban # Azkaban:最适合shell脚本,当job不多的时候,可以使用. Apache Airflow # Airflow 在使用时有一大 ...
- 联想基于Apache DolphinScheduler构建统一调度中心的应用实践
导读 随着业务不断增长以及定时任务类型的多样化,联想内部需要一个统一的调度中心对任务生命周期进行管理.Apache DolphinScheduler 是一个分布式.易扩展的可视化 DAG 工作流任务调 ...
- 2.东软跨境电商数仓项目技术选型
东软跨境电商数仓项目技术选型.框架版本选型.服务器选型.集群规划 文章目录 东软跨境电商数仓项目技术选型.框架版本选型.服务器选型.集群规划 1.数据采集传输技术选型 1.1 DataX和Sqoop比 ...
- 最新主流大数据技术分类大全(持续更新)
目前绝大多数企业正在使用的技术,大部分都是基于Apache协议开源框架,因为有些框架有多种分类方式,而且篇幅有限,暂不做详细介绍,仅供参考调研. 数据采集:Flume.Kafka.Sqoop .Log ...
- SRE(运维)建设方案
# 建设思路 1. 标准化 2. 自动化 3. 平台化 4. 服务化# 工具 存储工具:clickhouse 调度工具:DolphinScheduler.airflow 思路 CMDB 监控告警 自动 ...
- 如何基于 Apache Doris 与 Apache Flink 快速构建极速易用的实时数仓
随着大数据应用的不断深入,企业不再满足离线数据加工计算的时效,实时数据需求已成为数据应用新常态.伴随着实时分析需求的不断膨胀,传统的数据架构面临的成本高.实时性无法保证.组件繁冗.运维难度高等问题日益 ...
- Fuzer:华坤道威自研百万级任务调度系统
日前,华坤道威发布了自主研发的任务调度系统Fuzer.作为一个去中心化分布式易扩展的任务调度平台,Fuzer适用于常见任务调度场景,支持多种任务类型,丰富的任务操作等全任务特性调度平台,解决复杂了的大 ...
- 六、数据仓库详细介绍(ETL)方法篇
0x00 前言 上文我们把数据仓库类比我们人类自身,数据仓库"吃"进去的是原材料(原始数据),经过 ETL 集成进入数据仓库,然后从 ODS 开始逐层流转最终供给到数据应用,整个数 ...
- 主流大数据调度工具对比(DolphinScheduler特点)
大数据环境下,调度工具比不可少,离线批任务和准实时任务都需要调度去驱动.下文介绍主流大数据调度工具对比DolphinScheduler .Azkaban.Airflow.Oozie.Xxl-job A ...
最新文章
- c++ 弹出菜单在固定的位置_固定资产管理软件操作手册(资产维修)
- mysql 8.0找不到my.ini配置文件解决方案
- python字符串27种常见的方法
- 为安卓应用添加手势密码功能,遇到的一些问题以及解决方法
- c++11中智能指针的原理,使用,实现
- Java @override报错的解决方法 .
- 零美术基础逆袭成为动画师!你需要怎么做?
- 谈谈软件的开发及成长历程
- 解读InnoDB页面--索引结构
- 过滤器在图纸上的符号_看不懂电气图纸?资深级老师傅教你如何识图,学会后受用一生...
- 斗地主Java课程设计_Java课程设计---web版斗地主
- Google 的浏览器安全手册
- 电脑出现白屏怎么办(软件有的能打开,就是一开机就出现白屏)(亲测有效)
- 帝国CMS[!--onclick--]标签动态显示页面点击数,解决刷新页面浏览量无变化的问题
- 建设一个SaaS平台需要知道什么,做什么
- 全球与中国老年人代步车市场深度研究分析报告
- 童年中的电视剧你还记得几个?
- c++海盗战争1.0正式版【免费复制】
- Jmetal Problem和Problem Set的变量范围
- 【Hardware】【史密斯圆图】