2022年2月22日,在今天这个特殊的日子里,历经多年持续迭代和千万周期实例并发调度考验的Taier(太阿)终于开源了!

Github开源地址:

https://github.com/DTStack/Taier

官方文档地址:

https://dtstack.github.io/Taier/

这是袋鼠云开源项目的重要里程碑事件,代表着袋鼠云技术研发团队对开源的决心。我们希望通过技术分享,帮助更多人探索大数据平台的业务场景,同时也由衷欢迎更多开发者参与到社区中来,Committer虚位以待!

|缘起:太阿出鞘

Taier的命名,源自中国十大名剑太阿。

Taier Logo

太阿是春秋战国时期楚国的镇国至宝,由铸剑名师欧冶子和干将联手打造。相传楚国在生死存亡之际,靠太阿剑气击败晋国大军,被世人誉为诸侯威武之剑,象征了威武不屈、内心强大的实力,正如Taier强悍稳定的任务调度能力,每天可处理15w+超庞大任务体量,不但大大降低企业ETL的开发成本,还能有效保障大数据平台的平稳运行,功能强大,一如太阿剑威力无穷。

亮剑:Taier诞生

Taier的诞生,与时代的发展息息相关。

如今,数字化转型已成为全球浪潮,大数据平台建设成为新时代必不可少的基础设施。随着数字化转型的深入,很多企业在建设数据中台过程中,将涉及大量数据采集、处理、计算等方面的工作,需求的不断叠加,出现了单个系统难以满足复杂业务的情况,迫切需要一种兼容多个子系统互相协作的任务调度系统协调,正是基于这种背景,Taier分布式DAG任务调度系统应运而生。

Taier是一个开箱即用的分布式可视化的DAG任务调度系统,技术开发人员可以在Taier 直接进行业务逻辑的开发,而不用关心任务错综复杂的依赖关系与底层的大数据平台的架构实现,将工作的重心更多地聚焦在业务之中。

Taier(太阿)调度系统架构图

在Taier Logo的设计上,我们围绕系统本身开放包容、简单易用的特性,在设计中融入了积木、剑、蜂巢等元素。主体Logo由四块积木交叠而成,形若利剑,有组合,有分离,传达开源项⽬开放包容的理念,同时也表现Taier采⽤分布式模式——具有很强的解耦性、扩展性。

Taier Logo创意阐释

Logo底层采⽤六边形蜂巢结构,六边形蜂巢是大自然中最省劳动⼒、最省材料、最稳定的排列⽅式,其六条对称轴可以经过各种旋转⽽不改变形状,选用六边形作为Logo的边框,意在传达Taier降低开发成本、提⾼⼤数据平台稳定性的特点。

亮点:Taier功能优势

作为一个分布式可视化的DAG任务调度系统,太阿Taier脱胎于袋鼠云的一站式大数据开发平台——数栈DTinsight,技术实现来源于数栈分布式调度引擎DAGScheduleX,DAGScheduleX是数栈产品的重要基础设施之一,负责大数据平台所有任务实例的调度运行。太阿Taier是DAGScheduleX的重要枢纽,负责调度日常庞大的任务体量,多年的持续迭代与沉淀,造就了太阿Taier六大核心优势:

一、超高的稳定性

  • 单点故障:去中心化的分布式模式
  • 高可用方式:Zookeeper
  • 过载处理:分布式节点+ 两级存储策略 + 队列机制。每个节点都可以处理任务调度与提交;任务多时会优先缓存在内存队列,超出可配置的队列最大数量值后会全部落数据库;任务处理以队列方式消费,队列异步从数据库获取可执行实例
  • 实战检验:得到数百家企业客户生产环境实战检验

二、超强的易用性,一站式任务调度

  • 支持大数据作业Spark、Flink、Hive、MR的调度
  • 支持众多的任务类型,目前支持Spark SQL、Flinkx;后续开源支持:SparkMR、PySpark、FlinkMR、Python、Shell、Jupyter、Tersorflow、Pytorch、HadoopMR、Kylin、Odps、SQL类任务(MySQL、PostgreSQL、Hive、Impala、Oracle、SQLServer、TiDB、greenplum、inceptor、kingbase、presto)
  • 可视化工作流配置:支持封装工作流、支持单任务运行,不必封装工作流、支持拖拽模式绘制DAG
  • DAG监控界面:运维中心、支持集群资源查看,了解当前集群资源的剩余情况、支持对调度队列中的任务批量停止、任务状态、任务类型、重试次数、任务运行机器、可视化变量等关键信息一目了然
  • 调度时间配置:可视化配置
  • 多集群连接:支持一套调度系统连接多套Hadoop集群

三、超凡的兼容性,支持多版本引擎

  • 支持Spark 、Flink、Hive、MR等引擎的多个版本共存,例如可同时支持Flink1.10、Flink1.12(后续开源)

四、安全可靠,支持Kerberos

  • Spark、Flink、Hive

五、丰富的系统参数

  • 支持3种时间基准,且可以灵活设置输出格式

六、卓越的扩展性,支持多种方式扩容

  • 设计之处就考虑分布式模式,目前支持整体Taier水平扩容方式;后续开源支持:Scheduler/Worker分离部署模式。
  • 调度能力随集群线性增长

终端:Taier用户界面

|展望:未来迭代计划

Taier调度平台是数据平台框架中的一个组件,可以满足企业日常数据分析、处理、展示需要。未来随着业务的接入和数据规模的增大,Taier将持续提升用户体验,计划将优化:

  • 任务类型:支持SparkMR、PySpark、FlinkMR、Python、Shell、Jupyter、Tersorflow、Pytorch、HadoopMR、Kylin、Odps、SQL(MySQL、PostgreSQL、Hive、Impala、Oracle、SQLServer、TiDB、greenplum、inceptor、kingbase、presto
  • 调度方式:同时支持Yarn/K8s
  • 计算引擎:同时支持Spark-2.1.x/2.4.x、Flink-1.10/1.12(与Flink后续版本)
  • 部署方式:同时支持Scheduler/Worker整合与分离部署
  • 功能支持:支持交易日历、事件驱动
  • 外部系统对接:支持Taier系统对接外部调度系统(AZKBAN、Control-M、DS调度)

|结语:

Taier 使用了 Apache 的多个开源项目如Flink、Spark 作为计算组件实现数据同步和批处理计算,得益于开源社区才有如今的太阿 Taier。正因为Taier 取之于社区, 所以我们希望通过开源此项技术的方式,回馈社区,共同弘扬“Community Over Code“的Apache文化。未来,我们仍将秉承兼容并包与开放多样化的心态,将继续推出Taier 后续版本,欢迎更多的公司和个人参与到开发者队伍中来,让Taier社区更加健壮、健康的发展,让更多人享受开源带来的技术革命!

大巧不工,袋鼠云正式开源大数据任务调度平台——Taier(太阿)相关推荐

  1. 当我们在聊「开源大数据调度系统Taier」的数据开发功能时,到底在讨论什么?

    原文链接:当我们在聊「开源大数据调度系统Taier」的数据开发功能时,到底在讨论什么? 课件获取:关注公众号__ "数栈研习社",后台私信 "Taier"__ ...

  2. 从0到1介绍一下开源大数据服务平台dataService

    1.背景&现状 在大数据领域也已经工作了多年,无论所待过的大公司还是小公司,统计出来的数据经常需要查询展示,比如说:用做大屏或者报表或者给一些线上服务提供数据源,经常会要用代码写一套接口服务, ...

  3. 源码分享-基于Spring Boot为美柚大数据研发的大数据任务调度平台

    此项目为美柚大数据研发的大数据任务调度平台,提供Spark.Flink等离线任务的调度以及实时任务的监控,并具有批次积压报警.任务异常重启.重复应用监测.大内存应用监测等功能. Big Whale - ...

  4. 开源大数据开发平台DataSphereStudioLinkis踩坑记录

    Linkis:https://github.com/WeBankFinTech/Linkis DataSphereStudio:https://github.com/WeBankFinTech/Dat ...

  5. 浅谈大数据任务调度平台

    谈到大数据,避免不了hadoop, hive, spark 这些基础套件,但是在整个大数据开发的时候,我们面对的基本上都是数据开发平台和任务调度系统.数据开发平台一般直接面对业务同学,很大程度上影响业 ...

  6. 邀请函|欢迎参加2019云创大数据实验平台金融类/电子商务类/数学统计类院校各省总代理招募大会!...

    云创大数据将于2019年1月16日(周三)在南京举办"2019云创大数据实验平台金融类/电子商务类/数学统计类院校各省总代理招募大会",欢迎全国各省有意愿成为云创大数据实验平台各省 ...

  7. 全国高校人工智能与大数据创新联盟,首推云创高校大数据与人工智能实验室建设方案...

    近日,<协同育人 赋能实验室 2019全国高校人工智能大数据实验室建设优秀解决方案选型采购指南>(简称<选型采购指南>)汇编完成,该书由全国高校人工智能与大数据创新联盟组织,并 ...

  8. 云原生、大数据、AI领域的开源服务创新

    目录 前言 正文 一.大背景和开源新发展 二.开源经验与实践应用,驱动行业创新 三.技术讨论与展望 结尾 前言 本文来自一位粉丝投稿,我代为发表了,这里感谢 @flly.她是在观看完我做的一期线上圆桌 ...

  9. 云原生与大数据、AIoT、开源的碰撞之路——专访小米崔宝秋

    ​谈及当下技术领域的热词,必定有云原生.大数据.AIoT,不仅因为这些新兴技术拥有前所未有的创造力,更是因其中每一项技术都代表诸多未知的可能.而当这些技术相互碰撞时,将为软件发展.技术进步.城市升级带 ...

  10. 阿里云EMR 2.0:重新定义新一代开源大数据平台

    摘要:本文整理自阿里云高级产品专家何源(荆杭)在 阿里云EMR2.0线上发布会 的分享.本篇内容主要分为三个部分: 开源大数据的痛点及EMR产品历程 EMR2.0 新特征 总结 一.开源大数据的痛点及 ...

最新文章

  1. 摄像头自建html直播,html5调用摄像头实现拍照
  2. 学习和在生产环节使用d语言的三个条件
  3. 【Python】Effective Python 读书笔记
  4. python write和writelines的区别,简单了解Python write writelines区别
  5. webstorm 设置js或者html文件自动缩进为4个空格不生效
  6. vim 添加到右键 windows
  7. cf1102F. Elongated Matrix(状压dp)
  8. 归并排序及其优化(数组归并/链表归并,自顶向下/自底向上等)
  9. 云计算架构中的Iaas、Paas、SaaS详解
  10. MXNet 定义新激活函数(Custom new activation function)
  11. 行人重识别简介(Person ReID)
  12. 将毫秒转成时:分:秒
  13. Android 内置google dialer后发现拨号后,没有通话界面显示。
  14. Egret使用Box2D
  15. Gated Fully Fusion for Semantic Segmentation(GFF)
  16. 【微信小程序】注册小程序账号、做一个案例——你好我的小程序
  17. 弟中弟的Leetcode总结——数组类(九)
  18. Darknet53网络结构及代码实现
  19. “城市一卡通”开启“刷”手机时代
  20. 情书 沈从文 张兆和

热门文章

  1. var_threshold
  2. DRS是啥你都不知道?不是吧,不是吧
  3. 用编程知识提高工作效率
  4. Java 创建一个Customer类,类中的属性有姓名、年龄、性别,然后创建两个Customer对象,把这两个对象存储在ArrayList对象中,然后再从ArrayList对象中读取出来。
  5. qrcode.js的识别解析二维码图片和生成二维码图片
  6. 如何在oracle建立中间库,Oracle数据库如何创建DATABASE LINK?
  7. Returned object not currently part of this pool
  8. 锐道发布Dorado Dorado7标准件 -1.0.24 beta版
  9. LOJ-10102(求A到B之间的割点)
  10. cesium 实现雷达波