阿里云大数据平台DataWorks(原DataX)

核心功能

数据集成

离线/实时数据同步

复杂网络环境下，对丰富异构类型数据源高效稳定的移动和同步能力

数据开发

对MaxCompute中的数据进行加工 (SQL，UTF，Graph，MR)、分析与发掘（数据分析、数据挖掘）等处理从而发现其价值

数据应用

对MaxCompute数据加工处理后，应用各种场景，如数据提取、数据交互、数据报表、数据分析

数据服务

提供为企业搭建统一的数据服务总线，帮助企业统一管理对内外的API服务。提供快速将数据库表生成API能力，同时支持快速注册现有API至数据服务平台，进行统一管理和发布。

数据治理

多种数据处理视角下的数据治理流程与工具引导，满足数据生产、数据使用、数据管理场景下的主要数据治理需求，如数据质量、数据地图、安全中心、数据保护伞。

任务运维

各种数据处理任务的发布、监控、运维

基本概念（术语）

计算引擎

DataWorks支持多种计算和存储引擎，包括：

1) 离线计算MaxCompute（最常见）、

2) 开源大数据引擎E-MapReduce、

3) 实时计算（基于Flink）、

4) 机器学习PAI、

5) 图计算服务Graph Compute、

6) Hologres交互式服务

7）ElastickSearch交互式分析&搜索引擎

8）AnalyticDB实时分析库

9）支持用户自定义计算和存储引擎

工作空间

1) 工作空间是DataWorks最大的组织对象，是进行多组织隔离和访问控制的主要边界；

2）也是用户管理表（Table）资源（Resource）、自定义函数（UDF）、节点（Node）、工作流（WorkFlow）、权限等基本单元。

3）在大数据开发平台中，一个DataWorks项目空间对应绑定一个或多个MaxCompute Project[d多个还是指标准模式下的2个？]。

4）管理任务、成员、角色和权限的基本单元，可以加入成员到工作空间中，分配各种角色，实现多角色协同工作。

5）一个工作空间支持绑定MaxCompute MapReduce等各种计算引擎实例，绑定引擎实例后就可以在这个空间开发和调度引擎任务了。

6）若工作空间设置为标准模式，则包含两个MaxCompute实例，一个用于开发，一个用于生产；若设置为普通模式则只有一个MaxCompute实例。

任务

1 任务是对数据执行的操作。

2 一个任务有0个或0个以上的数据表（数据集）作为输入，生成一个或多个数据表（数据集）作为输出。

3 任务主要分类

1）节点任务（Node Task）

2）工作流任务（Flow Task）

3）内部节点（inner Node），用来构建工作流任务的节点

工作流任务和内部节点是1.0版本的概念，2.0也仍然沿用

实例

1）实例是某个任务在某个时刻执行的一个快照。

2）调度系统中的任务经过调度系统手动触发执行后都会形成一个实例。

3）实例会有运行状态、运行时间、运行日志等信息

业务流程

1 第一种解释（没咋看懂）

1) 业务流程是抽象出来的一个概念，从业务视角组织代码开发，提供任务管理的效率。

2) 支持基于任务类型的代码组织方式，支持多级子目录。

3) 业务流程支持从业务视角查看整体业务流程，可以进行优化，从业务视角来组织。

4) 支持从业务流程来组织、发布和运维

5) Dataworks提供了业务流程看板，帮助高效开发。

2 第二种解释（也没咋看懂）

针对业务实体抽象出了业务流程概念，能够以业务视角组织代码开发，提升任务管理效率。一个业务流程可以被多个解决方案服用。支持多级子目录（4级）、可按业务流程组织、发布、提供基于任务类型的组织方式。

解决方案

解决方案是自定义组合一些业务流程。可以包含多个业务流程，解决方案之间可复用相同的业务流程。

组织完成的解决方案包含各类节点，这样的体验就变得友好了

组件

1）通用SQL逻辑抽象

2）是一种带有多个输入参数和输出参数的SQL代码过程模板，目的提高代码的复用性。

3）通常SQL代码的处理过程一般是引入一个或多个数据源，通过过滤、连接、聚合等操作加工出新的业务需要的目标表。将SQL中通用逻辑抽象成组件，提升代码复用性。

输出名称

每个任务（Task）输出点的名称，他是在单个租户（阿里云账号）内设置依赖关系时，用于连接上下游两个任务（Task）的虚拟实体。

当在设置某任务与其它任务形成上下游依赖关系时，必须根据输出名称（而不是根据节点名称或ID）来完成设置，设置完后该输出名称也同时作为下游任务的输入名称。

可以参考如下图示：

脚本开发

1）脚本开发是提供给数据分析使用的一个代码存储空间。

2）脚本开发的代码无法发布到调度系统，无法进行调度参数配置，仅可进行部分数据查询分析工作。

提交

1）是指开发的节点任务、业务流程从DataWorks开发环境发布至调度系统的过程。

2）提交完成后响应的代码、调度配置全部合并到调度系统中，调度系统根据相关配置进行调度操作

参考：阿里云大数据分析师ACP认证22--阿里云大数据平台Dat是aWorks简介

阿里云大数据分析师ACP认证22--阿里云大数t据平台DataWorks简介_哔哩哔哩_bilibili