总体应用流程

应用流程图:

角色

开发、部署/运维、运维三种角色

涉及模块

数据集成模块、数据开发模块、发布管理模块、运维中心模块

数据处理

包括:数据输入、数据开发、数据输出(数据集成+数据开发模块);代码发布(发布管理模块);生产调度、生产运维(运维中心模块)

数据输入

就是数据的收集和数据存储,是数据开发的基础,首先要将不同业务系统的数据,分析要用到的数据同步到MaxCompute平台上来,这样才能利用MaxCompute海里数据存储和处理能力对数据处理加工和分析。、

数据开发

指的是数据的相关处理、清洗、加工、数据分析、统计、数据发掘等等。

数据输出

就是数据应用。就是加工好的数据通过数据提取、数据展现、数据分享等多种形式发挥价值作用

代码发布

数据处理的程序代码、自定义函数、涉及的数据表、调度配置等需要从开发环境发布部署到线上环境

生产调度

数据分析过程通过调度系统、运维中心调度运行。

用阿里云数据平台Dataworks进行数据分析的几个必要步骤:服务开通、数据输入、数据开发、任务运维。

服务开通

服务开通的流程图:

服务开通是阿里云大数据应用的前提。也就是首先开通相关的服务产品。

已阿里云公有云为例:

服务产品购买

用阿里云账号登录阿里云平台、购买MaxCompute资源、创建工作空间、为了安全建议使用子账号来进行操作(因此需要创建子账号),为子账号添加权限,添加到项目中来。

通过MaxCompute控制台创建工作空间

点击创建项目,进入创建工作空间的操作界面

输入基本信息:工作空间名称、显示名称、选配模式。然后在点击创建项目,然后进入MaxCompute配置页面。

配置MaxCompute项目的配置信息,涉及到:名称、付费模式、MaxCompute的数据类型(当前包括1.0数据类型和2.0数据类型,和Hive兼容类型,根据自己的需要选配),然后单击确认创建即可完成MaxCompute的创建。

基于DataWorks控制台创建DataWorks工作空间

DataWorks的工作空间就是MaxCompute的项目的概念,工作空间是DataWorks管理工作任务、成员、分配角色和权限的基本单元。前提是开通阿里云账号,使用主账号登录DataWorks控制台,在概览页面的快速入口进入创建项目空间的操作界面。具体配置如图所示

选择计算引擎:新建项目一般选择MaxCompute,选择DataWorks的服务,如果数据集成的需求则需要开通数据集成来实现数据同步;数据开发、数据运维、数据管理的功能默认是开通的。

输入工作空间的名称,设置高级配置是否启用调度功能,是否能够下载select的结果,以及其它的相关配置信息,点击确认即可创建工作空间。

创建工作空间中模式选择:

简单模式:一个DataWorks空间对应一个MaxCompute项目,无法设置开发和生产环境,只能进行简单的开发,无法对数据开发的流程以及表的权限进行强控制,他的优势就是使用方便,提交代码后无需发布即可进入调度系统周期上执行产生结果,他的风险是开发角色不经过任何审批随时新增和修改代码并提交至调度系统,给生产环境带来了不稳定因素。同时当面对MaxCompute开发引擎开发者默认拥有当前MaxCompute项目所有表的读写权限,开发角色的用户可以随意对表进行增删改操作,存在着安全风险。

标准模式:一个DataWorks空间对应两个MaxCompute项目,可以设置开发和生产两种环境。提升了代码开发的规范,并能够对表的权限进行严格的控制,禁止随意操作生产环境的表,保证生产表的数据安全。所有代码仅支持在开发环境就行编辑,无法修改生产环境的代码。提交任务以后任务会进入开发环境调度系统,此时实际调度仅仅是测试使用,如果需要自动调度运行任务的首先要发布任务至生产环境,发布任务前需要项目管理人员或运维角色人员进行审批通过才能发布成功。开发的代码要到生产系统需要提交、发布、审批三个阶段。

添加项目成员

1)创建新用户

2)将用户添加到项目空间去,并选配对应的角色权限(项目管理员、开发、运维、部署、访客、安全管理员)

3)工作空间的创建者默认空间管理员,创建的RAM用户,赋完权限后就可以使用操作项目空间了

数据输入

数据输入是数据处理的第一步,简单讲就是数据同步:将分析所需要的数据导入大数据平台。隶属数据集成模块,可以根据不同情况采用不同方式将数据导入到MaxCompute平台。

数据集成

1)数据集成是稳定高效、弹性伸缩的数据同步平台。

2)致力于提供复制的网络环境下、丰富的异构数据源之间告诉稳定的数据移动及同步能力

数据集成的限制:

1)支持且仅支持构化、半结构化、无结构化数据同步,需要注意的是无结构化的数据如txt文件,要求同步前必须将数据抽象为结构化数据,也就是说数据集成只能传输抽象成逻辑二维表的数据同步,不支持同步完全非结构化的数据

4)支持单地域内及部分跨地域的相互同步、交换

5)完成数据同步(传输),本身不提供数据流的消费方式。

数据集成主要用于离线批量数据同步

数据集成数据传输通道(channel)通过定义数据来源和去向的数据源和数据集提供一套抽象化数据抽取插件Reader 、数据写入插件Writer,基于此框架设计一套简化版的中间数据传输格式。从而实现任何结构化数据源之间的数据传输。

目前数据集成也支持实时同步

在此暂不过多介绍,后续补充

数据集成的配置

数据集成配置支持向导模式和脚本模式支持数据的开发

暂时介绍向导模式,脚本模式后续考虑补充

通过配置数据的来源和去向可以完成外部数据同步都MaxCompute,或MaxCompute同步到外部数据、也可以外部数据之间的同步。

数据的同步任务属于某一个具体的业务流程,也就是数据集成是某个业务流程中的一个数据处理节点。

同步任务的简单步骤

分为四个步骤:配置数据源、创建同步任务、运行同步任务、查看结果

配置数据源(新增数据源)

注意:在开发过程中,需由项目管理员在【项目管理->数据源配置】来新增数据源供开发使用

创建同步任务

可以新建一个业务流程,也可以在已有的业务流程下的数据集成节点创建同步任务

字段映射:根据两个表的字段名称进行映射,或者根据两个表同行进行映射,注意数据类型的匹配,也可以手动编辑进行映射。

通道控制:

任务通道最大并发数:从源并行读取并行写入数据存储段的最大线程数。

同步速率:可以选择不限流,也可以设置同步速率,设置同步速率可以保护读取端数据库,避免抽取速度过大给源库造成太大压力。结合源库的配置合理配置同步速率。

运行同步任务

四种运行方式:直接运行、调度运行、补数运行和测试节点运行

查看同步任务结果

使用MaxCompute客户端方式同步数据

通过tunnel客户端的命令上传、下载数据

需要注意

1)支持文件或一级目录上传

2)每次上传只支持数据上传至一个表或表的分区

3)上传数据给有分区的表时候一定要指定分区,分级分区一定要指定末级分区

4)只支持单个文件的下载

5)下载对分区的之前规则和上传是一致的

DataWorks自身支持上传本地文本文件

DataWorks支持上传本地的文本文件至工作空间的表中,数据开发界面有上传按钮,支持.cvs .txt .log类型文件。

数据开发

数据开发就是数据同步到MaxCompute后,在DataWorks开发业务流程,实现数据加工处理逻辑。测试后,将开发的流程代码打包,教友部署/运维人员发布。

整个开发过程涉及到数据的开发、代码的发布。DataWorks的应用到数据开发模块和发布管理模块

数据总体的开发过程

数据开发模式采用三级结构:项目>解决方案>业务流程。按照业务类型将相关的不同节点任务组织在一起。

DataWorks的开发体系

项目:

解决方案:

业务流程

建表

数据开发流程

选择或新建业务流程

新建或选择已有的ODPS SQL节点

双击打开ODPS SQL节点,编写符合语法的SQL代码

在当前界面测试运行、检查语法、错误逻辑、输出结果

如果需要调度执行,还需要后面的步骤:

配置节点的调度信息、依赖关系

保存提交节点任务

发布到生产交由调度系统在生产环境执行SQL任务。

数据开发工具MaxCompute SQL

 MaxCompute SQL的数据类型

基础类型:

1.0版 (bigint、string、double、decimal、datetime、boolean)

2.0版 新增 (int、smllint、varchar、float等)

复杂数据类型:array、map、struct

可以使用Hive兼容的版本,设置 set odps.sql.hive.compatible=true

MaxCompute SQL 快速建表CTAS(create as)

MaxCompute SQL 分区操作 Partition

MaxCompute SQL表的声明周期

MaxCompute SQL的多路输出

就是将一张表中数据插入到多张表中

MaxCompute SQL的Map Join操作

数据开发工具-定义函数UDF

除了使用内置函数外,用户可以通过创建自定义函数来满足不同的计算需求。

 UDF的分类

1)UDF

2)UDTF

3)UDAF(聚合函数)

UDF的开发流程

数据开发工具MapReduce

数据开发工具Graph

MaxCompute Graph的介绍

Graph开发使用流程

数据开发工具选择原则

任务运维

流程所处位置

任务运维分两类:生产调度、生产运维

运维中心

运维中心包括:运维大屏、实时任务运维、周期任务运维、手动任务运维、智能监控和智能诊断

(周期、手动)运维可执行的操作

任务实例运维

智能监控

阿里云Dataworks平台应用相关推荐

  1. 深入解读:获Forrester大数据能力高评价的阿里云DataWorks思路与能力

    摘要: Forrester发布了Now Tech: Cloud Data Warehouse Q1 2018报告,报告对云化数据仓库(Cloud Data Warehouse, CDW)的主要功能.区 ...

  2. 阿里云DataWorks数据集成(DataX)架构实践分享

    阿里云DataWorks数据集成(DataX)架构&实践分享 分享嘉宾:罗海伟 阿里云 编辑整理:约理 中国科学院大学 目录 ▌为什么需要数据集成 数据集成的应用场景 数据集成的角色和地位 ▌ ...

  3. 远观近看阿里云ET平台 如何开启AI落地新风潮

    今年双十一阿里总销售额达到了破纪录的2135.5亿,但对阿里和整个行业来说,影响更为深远的是阿里集团层面的架构调整,在阿里巴巴集团首席执行官张勇(逍遥子)亲自签发的全员公开信中,着墨最多的两处,一为天 ...

  4. 阿里云物联网平台python开发手册_阿里云物联网平台体验(树莓派+Python篇)

    虽然对阿里云物联网平台比较熟悉了,从一开始就有幸参与了飞凤平台(Link Develop 一站式开发平台的前身)的一些偏硬件接入的工作.但是同时也见证了阿里云物联网团队从几十人到数百人的迅速扩张,其物 ...

  5. 输入参数的数目不足_机器学习算法—KMEANS算法原理及阿里云PAI平台算法模块参数说明...

    概述: KMEANS算法又被成为K均值算法,是一种常用的聚类算法,由于不需要根据给定的训练集训练模型因此是一种无监督学习算法.其本质是根据选定的参数K将数据分类成K类,在聚类过程中从单一样本开始通过不 ...

  6. http发送16进制报文_阿里云物联网平台使用心得(25)MQTT协议详解UNSUBSCRIBE报文...

    题目 大家好,超子又和大家见面了,超子我能力有限,水平不高,有什么错误的地方,欢迎板砖.超子今天给大家介绍一下UNSUBSCRIBE报文. UNSUBSCRIBE报文 从上图中可知,UNSUBSCRI ...

  7. 阿里云物联网平台专题讲座

    2019独角兽企业重金招聘Python工程师标准>>> 课程链接:阿里云物联网平台专题讲座 课程介绍 物联网平台是阿里云专门为物联网领域的开发人员推出的,其目的是帮助开发者搭建安全性 ...

  8. 使用Github Action发布函数到阿里云serverless平台

    简介: 本文简述了如何通过自定义Github Action自动化部署云函数到阿里云serverless平台中 阿里云提供了函数计算,即serverless支持.同时阿里云还提供了fun cli命令行工 ...

  9. 利用rfcomm实现树莓派与手机通信_工业物联网 | 怎么用NodeRed实现树莓派与阿里云物联网平台通信?虹科告诉你!...

    想获取更多IIOT干货 请点击蓝字,关注我们 虹科工业树莓派 高性能 多接口 宽温--适应恶劣环境 ★★★★★ Node-RED是构建物联网(IoT)应用程序的强大工具,它使用可视化的编程方法,允许开 ...

  10. mqtt协议详解_阿里云物联网平台使用心得(七)MQTT协议14个报文总览

    大家好,物联网爱好小组成员超子,又和大家见面了,超子我能力有限,水平不高,有什么错误的地方,欢迎板砖.超子将参考<MQTT-3.1.1标准协议中文版>PDF手册,详解每个报文的格式,以及如 ...

最新文章

  1. gdal 1.9+python 2.7开发环境配置
  2. 550 黑苹果_HFP虾青素原液 | 多年黑黄皮,熬夜肌都能轻松变白!
  3. for(;;)函数中判断条件执行顺序
  4. linux系统搭建ftp服务器--只给某个用户访问其默认目录下的文件
  5. 优地机器人厂家_2019中国人工智能机器人企业TOP30榜单发布 优地科技跻身前十...
  6. Maven学习总结(27)——Maven自定义打包插件maven-assembly-plugin详解
  7. android 拼接参数,Android 多参数多文件同时上传
  8. Multimodal —— 看图说话(Image Caption)任务的论文笔记(二)引入attention机制
  9. java 通过eclipse编辑器用mysql尝试 连接数据库
  10. Python+Appium+夜神模拟器安装与简单运行(1/2)
  11. FreeRTOS的HOOK,以及(23)FreeRTOS 空闲任务分析
  12. .NET开发人员应该下载的十个必备工具(1)
  13. three.js 文本_使用Three-bmfont-text在Three.js中创建文本
  14. wifi 小米pro 驱动 黑苹果_macOS安装教程兼小米Pro安装过程记录
  15. 计算机无法安装网卡驱动,实在无法安装电脑驱动的解决办法
  16. 三维扫描仪在工艺品摆件中的应用
  17. 中国IT公司百强排名
  18. system(“pause“);
  19. 【Java】Java爬取国家统计局五级行政区划编码(省、市(州)、县(区)、乡(镇)、村)
  20. 爬取腾讯新闻中省份疫情数据到Mysql数据库

热门文章

  1. 安卓 视频直播二:推流端代码
  2. html修改鼠标手势,css设置鼠标手势的方法
  3. 大米云主机部署redis服务
  4. 算法竞赛入门经典(第2版)-刘汝佳-第九章例题解题源码(C++语言)(部分)
  5. [NOIP2016 提高组] 玩具谜题
  6. 信锐(SUNDRAY)无线控制器wifi无线上网短信认证设置流程
  7. 友声条码秤对接软件_友声条码秤调试教程
  8. 2019python下半年考试报名时间_关于2019年下半年全国计算机等级考试报名的通知...
  9. jtopo连线绘制脉冲动画效果
  10. CMSIS 记录与下载