核心功能

数据集成

离线/实时数据同步

复杂网络环境下,对丰富异构类型数据源高效稳定的移动和同步能力

数据开发

对MaxCompute中的数据进行加工 (SQL,UTF,Graph,MR)、分析与发掘(数据分析、数据挖掘)等处理从而发现其价值

数据应用

对MaxCompute数据加工处理后,应用各种场景,如数据提取、数据交互、数据报表、数据分析

数据服务

提供为企业搭建统一的数据服务总线,帮助企业统一管理对内外的API服务。提供快速将数据库表生成API能力,同时支持快速注册现有API至数据服务平台,进行统一管理和发布。

数据治理

多种数据处理视角下的数据治理流程与工具引导,满足数据生产、数据使用、数据管理场景下的主要数据治理需求,如数据质量、数据地图、安全中心、数据保护伞。

任务运维

各种数据处理任务的发布、监控、运维

基本概念(术语)

计算引擎

DataWorks支持多种计算和存储引擎,包括:

1) 离线计算MaxCompute(最常见)、

2) 开源大数据引擎E-MapReduce、

3) 实时计算(基于Flink)、

4) 机器学习PAI、

5) 图计算服务Graph Compute、

6) Hologres交互式服务

7)ElastickSearch交互式分析&搜索引擎

8)AnalyticDB实时分析库

9)支持用户自定义计算和存储引擎

工作空间

1) 工作空间是DataWorks最大的组织对象,是进行多组织隔离和访问控制的主要边界;

2)也是用户管理表(Table)资源(Resource)、自定义函数(UDF)、节点(Node)、工作流(WorkFlow)、权限等基本单元。

3)在大数据开发平台中,一个DataWorks项目空间对应绑定一个或多个MaxCompute Project[d多个还是指标准模式下的2个?]。

4)管理任务、成员、角色和权限的基本单元,可以加入成员到工作空间中,分配各种角色,实现多角色协同工作。

5)一个工作空间支持绑定MaxCompute MapReduce等各种计算引擎实例,绑定引擎实例后就可以在这个空间开发和调度引擎任务了。

6)若工作空间设置为标准模式,则包含两个MaxCompute实例,一个用于开发,一个用于生产;若设置为普通模式则只有一个MaxCompute实例。

任务

1 任务是对数据执行的操作。

2 一个任务有0个或0个以上的数据表(数据集)作为输入,生成一个或多个数据表(数据集)作为输出。

3 任务主要分类

1)节点任务(Node Task)

2)工作流任务(Flow Task)

3)内部节点(inner Node),用来构建工作流任务的节点

工作流任务和内部节点是1.0版本的概念,2.0也仍然沿用

实例

1)实例是某个任务在某个时刻执行的一个快照。

2)调度系统中的任务经过调度系统手动触发执行后都会形成一个实例。

3)实例会有运行状态、运行时间、运行日志等信息

业务流程

1 第一种解释(没咋看懂)

1) 业务流程是抽象出来的一个概念,从业务视角组织代码开发,提供任务管理的效率。

2) 支持基于任务类型的代码组织方式,支持多级子目录。

3) 业务流程支持从业务视角查看整体业务流程,可以进行优化,从业务视角来组织。

4) 支持从业务流程来组织、发布和运维

5) Dataworks提供了业务流程看板,帮助高效开发。

2 第二种解释(也没咋看懂)

针对业务实体抽象出了业务流程概念,能够以业务视角组织代码开发,提升任务管理效率。一个业务流程可以被多个解决方案服用。支持多级子目录(4级)、可按业务流程组织、发布、提供基于任务类型的组织方式。

解决方案

解决方案是自定义组合一些业务流程。可以包含多个业务流程,解决方案之间可复用相同的业务流程。

组织完成的解决方案包含各类节点,这样的体验就变得友好了

组件

1)通用SQL逻辑抽象

2)是一种带有多个输入参数和输出参数的SQL代码过程模板,目的提高代码的复用性。

3)通常SQL代码的处理过程一般是引入一个或多个数据源,通过过滤、连接、聚合等操作加工出新的业务需要的目标表。将SQL中通用逻辑抽象成组件,提升代码复用性。

输出名称

每个任务(Task)输出点的名称,他是在单个租户(阿里云账号)内设置依赖关系时,用于连接上下游两个任务(Task)的虚拟实体。

当在设置某任务与其它任务形成上下游依赖关系时,必须根据输出名称(而不是根据节点名称或ID)来完成设置,设置完后该输出名称也同时作为下游任务的输入名称。

可以参考如下图示:

脚本开发

1)脚本开发是提供给数据分析使用的一个代码存储空间。

2)脚本开发的代码无法发布到调度系统,无法进行调度参数配置,仅可进行部分数据查询分析工作。

提交

1)是指开发的节点任务、业务流程从DataWorks开发环境发布至调度系统的过程。

2)提交完成后响应的代码、调度配置全部合并到调度系统中,调度系统根据相关配置进行调度操作

参考:阿里云大数据分析师ACP认证22--阿里云大数据平台Dat是aWorks简介

阿里云大数据分析师ACP认证22--阿里云大数t据平台DataWorks简介_哔哩哔哩_bilibili

阿里云大数据平台DataWorks(原DataX)相关推荐

  1. ACP入门篇-阿里云大数据平台经典架构

    经典架构图 阿里云大数据组件速览 阿里云大数据与Hadoop产品映射

  2. 阿里云大数据平台的实操:ODPS的SQL语句

    大数据计算服务(MaxCompute,原名ODPS)是一种快速.完全托管的TB/PB级数据仓库解决方案. 当今社会数据收集手段不断丰富,行业数据大量积累,数据规模已增长到了传统软件行业无法承载的海量数 ...

  3. 阿里云大数据型实例规格族d1配置性能详解

    阿里云大数据型实例规格族d1配置性能CPU.内存.适用场景.d1实例规格族,InstanceTypes分享大数据型实例规格族d1实例详解: 大数据型实例规格族d1配置特性 I/O优化实例 仅支持SSD ...

  4. 阿里云大数据组件的基本介绍

    阿里云大数据组件的基本介绍 注意:本文结合了本人对Hadoop生态和Spark的理解,阅读本文需要对传统的大数据组件有基本的认识和了解.本文不具备权威性,若要准确地了解阿里云大数据组件的特性请直接查看 ...

  5. 阿里云大数据ACA总结

    1. 概述 数加是指阿里云大数据平台,包含了一系列的大数据产品及服务. 计算引擎(三类):离线计算.流式计算.在线计算 2. MaxCompute 由阿里云自主研发,提供针对TB/PB级数据.实时性要 ...

  6. 阿里云大数据ACA考点总结

    根据考题自己整理的知识点 1. 概述 数加是指阿里云大数据平台,包含了一系列的大数据产品及服务. 计算引擎(三类):离线计算.流式计算.在线计算 2. MaxCompute 由阿里云自主研发,提供针对 ...

  7. 阿里云大数据助理工程师ACA认证最新笔记(2021)

    阿里云大数据助理工程师ACA认证最新笔记(2020) 首先谈论一下考试相关 本人与最近学习并通过了阿里云云计算助理工程师ACA认证,购买了认证包,有6个月的时间,无数次的观看视频,每个沙箱实验都有两次 ...

  8. 阿里云大数据ACP(一)大数据开发平台 DataWorks

    文章目录 一.DataWorks 简介 1.1 DataWorks 的功能概述 1.2 DataWorks 产品特点 1.3 DataWorks 产品优势 1.4 应用场景 (助力企业搭建大数据信息平 ...

  9. 阿里大数据分析与应用(part4)--一站式大数据平台DataWorks

    学习笔记,仅供参考,有错必纠 文章目录 一站式大数据平台DataWorks 大数据开发平台-DataWorks DataWorks 的主要功能及作用 DataWorks基本操作 数据平台开发流程 数据 ...

最新文章

  1. transmit failed error code:65
  2. 利用反射动态创建对象
  3. php静态函数作用,php – OOP中静态函数有什么用?
  4. c mysql web开发实例教程_java web 开发入门实例
  5. 将汇编语言翻译成C语言,如何把汇编语言转换成C语言
  6. Flutter SwitchListTile 开关组件使用详情
  7. 非常全面的讲解SpringCloud中Zuul网关原理及其配置,看它就够了!
  8. Linux运维问题解决(4)——linux LVM技术 逻辑卷增加 扩容 缩小 删除等操作
  9. 小米html查看器闪退,小米手机浏览器闪退解决办法
  10. 替代计算机内存条,电脑想加内存条,DDR3,DDR4傻傻分不清?
  11. 《Linux内核修炼之道》——第1章 初识Linux 1.1 Linux史记
  12. 【腾讯敏捷转型No.7】QQ邮箱如何通过敏捷成为行业第一
  13. 银河麒麟桌面V10微信不能登录
  14. 隧道安全管理八大系统
  15. 深度学习之图像分类(十六)-- EfficientNetV2 网络结构
  16. Quantopian自学笔记02
  17. 程序员一定要学好的几门技术
  18. 基于javaweb的医院挂号预约系统-计算机毕业设计
  19. 洛谷1309 瑞士轮
  20. 百大行业翘楚齐聚一堂,浪潮服务器惊艳MWC

热门文章

  1. vue2.0学习——使用webstorm创建一个vue项目
  2. 2019年上半年云桌面排名前五企业
  3. 智能时代的内容安全,易盾是如何落地的?
  4. Cobot与Jenkins集成
  5. 关于务实思维的务实思考
  6. ▽算符在球坐标系_球坐标系中的角动量算符
  7. 力扣、github网站登不上
  8. 玩转华为数据中心交换机系列 | 配置基于MAC地址划分VLAN示例
  9. cmos逻辑门传输延迟时间_如何判断输出的高低电平(三态门)?
  10. 怎么压缩gif图片大小?如何压缩gif又不影响画质