阿里云大数据平台DataWorks(原DataX)
核心功能
数据集成
离线/实时数据同步
复杂网络环境下,对丰富异构类型数据源高效稳定的移动和同步能力
数据开发
对MaxCompute中的数据进行加工 (SQL,UTF,Graph,MR)、分析与发掘(数据分析、数据挖掘)等处理从而发现其价值
数据应用
对MaxCompute数据加工处理后,应用各种场景,如数据提取、数据交互、数据报表、数据分析
数据服务
提供为企业搭建统一的数据服务总线,帮助企业统一管理对内外的API服务。提供快速将数据库表生成API能力,同时支持快速注册现有API至数据服务平台,进行统一管理和发布。
数据治理
多种数据处理视角下的数据治理流程与工具引导,满足数据生产、数据使用、数据管理场景下的主要数据治理需求,如数据质量、数据地图、安全中心、数据保护伞。
任务运维
各种数据处理任务的发布、监控、运维
基本概念(术语)
计算引擎
DataWorks支持多种计算和存储引擎,包括:
1) 离线计算MaxCompute(最常见)、
2) 开源大数据引擎E-MapReduce、
3) 实时计算(基于Flink)、
4) 机器学习PAI、
5) 图计算服务Graph Compute、
6) Hologres交互式服务
7)ElastickSearch交互式分析&搜索引擎
8)AnalyticDB实时分析库
9)支持用户自定义计算和存储引擎
工作空间
1) 工作空间是DataWorks最大的组织对象,是进行多组织隔离和访问控制的主要边界;
2)也是用户管理表(Table)资源(Resource)、自定义函数(UDF)、节点(Node)、工作流(WorkFlow)、权限等基本单元。
3)在大数据开发平台中,一个DataWorks项目空间对应绑定一个或多个MaxCompute Project[d多个还是指标准模式下的2个?]。
4)管理任务、成员、角色和权限的基本单元,可以加入成员到工作空间中,分配各种角色,实现多角色协同工作。
5)一个工作空间支持绑定MaxCompute MapReduce等各种计算引擎实例,绑定引擎实例后就可以在这个空间开发和调度引擎任务了。
6)若工作空间设置为标准模式,则包含两个MaxCompute实例,一个用于开发,一个用于生产;若设置为普通模式则只有一个MaxCompute实例。
任务
1 任务是对数据执行的操作。
2 一个任务有0个或0个以上的数据表(数据集)作为输入,生成一个或多个数据表(数据集)作为输出。
3 任务主要分类
1)节点任务(Node Task)
2)工作流任务(Flow Task)
3)内部节点(inner Node),用来构建工作流任务的节点
工作流任务和内部节点是1.0版本的概念,2.0也仍然沿用
实例
1)实例是某个任务在某个时刻执行的一个快照。
2)调度系统中的任务经过调度系统手动触发执行后都会形成一个实例。
3)实例会有运行状态、运行时间、运行日志等信息
业务流程
1 第一种解释(没咋看懂)
1) 业务流程是抽象出来的一个概念,从业务视角组织代码开发,提供任务管理的效率。
2) 支持基于任务类型的代码组织方式,支持多级子目录。
3) 业务流程支持从业务视角查看整体业务流程,可以进行优化,从业务视角来组织。
4) 支持从业务流程来组织、发布和运维
5) Dataworks提供了业务流程看板,帮助高效开发。
2 第二种解释(也没咋看懂)
针对业务实体抽象出了业务流程概念,能够以业务视角组织代码开发,提升任务管理效率。一个业务流程可以被多个解决方案服用。支持多级子目录(4级)、可按业务流程组织、发布、提供基于任务类型的组织方式。
解决方案
解决方案是自定义组合一些业务流程。可以包含多个业务流程,解决方案之间可复用相同的业务流程。
组织完成的解决方案包含各类节点,这样的体验就变得友好了
组件
1)通用SQL逻辑抽象
2)是一种带有多个输入参数和输出参数的SQL代码过程模板,目的提高代码的复用性。
3)通常SQL代码的处理过程一般是引入一个或多个数据源,通过过滤、连接、聚合等操作加工出新的业务需要的目标表。将SQL中通用逻辑抽象成组件,提升代码复用性。
输出名称
每个任务(Task)输出点的名称,他是在单个租户(阿里云账号)内设置依赖关系时,用于连接上下游两个任务(Task)的虚拟实体。
当在设置某任务与其它任务形成上下游依赖关系时,必须根据输出名称(而不是根据节点名称或ID)来完成设置,设置完后该输出名称也同时作为下游任务的输入名称。
可以参考如下图示:
脚本开发
1)脚本开发是提供给数据分析使用的一个代码存储空间。
2)脚本开发的代码无法发布到调度系统,无法进行调度参数配置,仅可进行部分数据查询分析工作。
提交
1)是指开发的节点任务、业务流程从DataWorks开发环境发布至调度系统的过程。
2)提交完成后响应的代码、调度配置全部合并到调度系统中,调度系统根据相关配置进行调度操作
参考:阿里云大数据分析师ACP认证22--阿里云大数据平台Dat是aWorks简介
阿里云大数据分析师ACP认证22--阿里云大数t据平台DataWorks简介_哔哩哔哩_bilibili
阿里云大数据平台DataWorks(原DataX)相关推荐
- ACP入门篇-阿里云大数据平台经典架构
经典架构图 阿里云大数据组件速览 阿里云大数据与Hadoop产品映射
- 阿里云大数据平台的实操:ODPS的SQL语句
大数据计算服务(MaxCompute,原名ODPS)是一种快速.完全托管的TB/PB级数据仓库解决方案. 当今社会数据收集手段不断丰富,行业数据大量积累,数据规模已增长到了传统软件行业无法承载的海量数 ...
- 阿里云大数据型实例规格族d1配置性能详解
阿里云大数据型实例规格族d1配置性能CPU.内存.适用场景.d1实例规格族,InstanceTypes分享大数据型实例规格族d1实例详解: 大数据型实例规格族d1配置特性 I/O优化实例 仅支持SSD ...
- 阿里云大数据组件的基本介绍
阿里云大数据组件的基本介绍 注意:本文结合了本人对Hadoop生态和Spark的理解,阅读本文需要对传统的大数据组件有基本的认识和了解.本文不具备权威性,若要准确地了解阿里云大数据组件的特性请直接查看 ...
- 阿里云大数据ACA总结
1. 概述 数加是指阿里云大数据平台,包含了一系列的大数据产品及服务. 计算引擎(三类):离线计算.流式计算.在线计算 2. MaxCompute 由阿里云自主研发,提供针对TB/PB级数据.实时性要 ...
- 阿里云大数据ACA考点总结
根据考题自己整理的知识点 1. 概述 数加是指阿里云大数据平台,包含了一系列的大数据产品及服务. 计算引擎(三类):离线计算.流式计算.在线计算 2. MaxCompute 由阿里云自主研发,提供针对 ...
- 阿里云大数据助理工程师ACA认证最新笔记(2021)
阿里云大数据助理工程师ACA认证最新笔记(2020) 首先谈论一下考试相关 本人与最近学习并通过了阿里云云计算助理工程师ACA认证,购买了认证包,有6个月的时间,无数次的观看视频,每个沙箱实验都有两次 ...
- 阿里云大数据ACP(一)大数据开发平台 DataWorks
文章目录 一.DataWorks 简介 1.1 DataWorks 的功能概述 1.2 DataWorks 产品特点 1.3 DataWorks 产品优势 1.4 应用场景 (助力企业搭建大数据信息平 ...
- 阿里大数据分析与应用(part4)--一站式大数据平台DataWorks
学习笔记,仅供参考,有错必纠 文章目录 一站式大数据平台DataWorks 大数据开发平台-DataWorks DataWorks 的主要功能及作用 DataWorks基本操作 数据平台开发流程 数据 ...
最新文章
- transmit failed error code:65
- 利用反射动态创建对象
- php静态函数作用,php – OOP中静态函数有什么用?
- c mysql web开发实例教程_java web 开发入门实例
- 将汇编语言翻译成C语言,如何把汇编语言转换成C语言
- Flutter SwitchListTile 开关组件使用详情
- 非常全面的讲解SpringCloud中Zuul网关原理及其配置,看它就够了!
- Linux运维问题解决(4)——linux LVM技术 逻辑卷增加 扩容 缩小 删除等操作
- 小米html查看器闪退,小米手机浏览器闪退解决办法
- 替代计算机内存条,电脑想加内存条,DDR3,DDR4傻傻分不清?
- 《Linux内核修炼之道》——第1章 初识Linux 1.1 Linux史记
- 【腾讯敏捷转型No.7】QQ邮箱如何通过敏捷成为行业第一
- 银河麒麟桌面V10微信不能登录
- 隧道安全管理八大系统
- 深度学习之图像分类(十六)-- EfficientNetV2 网络结构
- Quantopian自学笔记02
- 程序员一定要学好的几门技术
- 基于javaweb的医院挂号预约系统-计算机毕业设计
- 洛谷1309 瑞士轮
- 百大行业翘楚齐聚一堂,浪潮服务器惊艳MWC