目录

0.说明(一定要看)

1.首日全量同步,之后每日增量(包括新增或者新增及变化)

1.先选择一次性增量(增量能筛选条件)

2.配置数据源

3.设置同步来源与规则

4.设置目标表

5.设置同步规则

6.运行资源设置

7.再配置每日的增量

8.运行任务

9.查询数据

2.每日全量(适合没有任何时间字段且数据量较小的表,但是可能会经常变化)

3.一次性全量(适合一些维度数据,或者基本不会变化的表)


这个星期一直在熟悉阿里云的dataworks,由于我们准备搭建数据仓库,因此要将存储在MySQL当中的业务数据导入至maxcompute中,自己摸索也是相当的困难,于是打算写一篇文章给大家一起分享我的经验。

进入dataworks首页,打开dataworks的数据集成页面

点击“同步解决方案”,再点击任务列表

点击右上角的新建任务,可以新增同步任务

数据来源选择MySQL,数据去向选择maxcompute。

0.说明(一定要看)

下面的同步策略是我自己摸索出来的,不一定正确。
Q:为什么首日导入全量数据要用“一次性增量同步”?
A:因为如果首日用一次性全量同步,会在任务调度时运行同步,如果该任务1点运行,则会将当日0点~1点的数据一并导入至maxcompute,第二日的增量导入同样也会将这笔数据导入至maxcompute,这会造成数据重复,因此要使用“一次性增量同步”

1.首日全量同步,之后每日增量(包括新增或者新增及变化)

1.先选择一次性增量(增量能筛选条件)

2.配置数据源

需要配置数据源,没有数据的新增一个数据源,参考官方文档配置,同时需要一个独享数据集成资源组(单独付费,不是很贵),配置完后测试连通性,进入下一步

3.设置同步来源与规则

填写你的方案名与描述,并勾选需要同步的表,放入右边

设置表名的转换规则,如所有表加“ods_”前缀:源:(.+)    加号前面有个点!       目标:ods_$1

且都为英文字符

4.设置目标表

点击刷新源表和maxcompute表映射,注意maxcompute中的表名已经改好,如果maxcompute中有该表,就用原表,没有该表就直接自动建表
这个同步主键并没有什么用,不用管它

5.设置同步规则

这是增量同步中最重要的环节,语法为MySQL语法,里面的参数参考官方文档,点击蓝色按钮
图中${bizdate}表示业务日期,就是当前日期的前一天

6.运行资源设置

该改名字的改名称,然后选择调度资源组,然后就完成了

选择下面的执行,先执行等它成功!

7.再配置每日的增量

记得改成使用已有表

同步调度规则这里注意一下,设置一下调度时间,有可能数据库更新不是很及时

其他操作不变

8.运行任务

点击箭头指向位置的执行(我已经执行过了),先点击一次性增量同步,确保该任务完成后,再点击周期性增量同步。

9.查询数据

查看里面的数据是否为非今天更改的数据,进入数据开发中写代码查询。

等待第二天0点导入增量数据即可。

10.将相同条件的表添加至该任务

点击“更多”->修改配置

将勾选的表添加到右侧

再次点击刷新

配置好了就可以运行。

该任务只会运行刚配置好的表,前面运行过的表不会再运行

2.每日全量(适合没有任何时间字段且数据量较小的表,但是可能会经常变化)

3.一次性全量(适合一些维度数据,或者基本不会变化的表)

阿里云dataworks将MySQL数据同步至maxcompute相关推荐

  1. odps传大文件到oss上_【大数据干货】数据进入阿里云数加-大数据计算服务MaxCompute(原ODPS)的N种方式...

    原文链接:http://click.aliyun.com/m/13946/ 想用阿里云大数据计算服务(MaxCompute),对于大多数人首先碰到的问题就是数据如何迁移到MaxCompute中.按照数 ...

  2. 治理企业“数据悬河”,阿里云DataWorks全链路数据治理新品发布

    10月19日,在2021年云栖大会上,阿里云重磅发布DataWorks全链路数据治理产品体系,基于数据仓库,数据湖.湖仓一体等多种大数据架构,DataWorks帮助企业治理内部不断上涨的"数 ...

  3. 【云原生】阿里云ACK部署MySQL 数据持久化存储

    思路图 一.概述 ACK介绍 阿里云容器服务Kubernetes版(Alibaba Cloud Container Service for Kubernetes,简称容器服务ACK)是全球首批通过Ku ...

  4. 揭秘阿里云EB级大数据计算引擎MaxCompute

    日前,全球权威咨询与服务机构Forrester发布了<The Forrester WaveTM: Cloud Data Warehouse, Q4 2018>报告.这是Forrester ...

  5. 一分钟了解阿里云产品:大数据计算服务MaxCompute概述

    阿里云发布了许多产品,今天让我们来了解下大数据计算服务MaxCompute这款产品吧. 什么是MaxCompute呢? MaxCompute是由阿里云自主研发,是阿里巴巴自主研发的海量数据处理平台.提 ...

  6. IDC:阿里云获2021中国数据治理平台市场份额第一

    近日,领先的IT市场研究和咨询公司IDC发布<中国数据治理市场份额,2021:广泛落地,持续增长>报告,报告统计显示2021 年中国数据治理平台市场规模达 23.9 亿元.阿里云以23.4 ...

  7. 阿里云DataWorks数据集成(DataX)架构实践分享

    阿里云DataWorks数据集成(DataX)架构&实践分享 分享嘉宾:罗海伟 阿里云 编辑整理:约理 中国科学院大学 目录 ▌为什么需要数据集成 数据集成的应用场景 数据集成的角色和地位 ▌ ...

  8. 深入解读:获Forrester大数据能力高评价的阿里云DataWorks思路与能力

    摘要: Forrester发布了Now Tech: Cloud Data Warehouse Q1 2018报告,报告对云化数据仓库(Cloud Data Warehouse, CDW)的主要功能.区 ...

  9. 阿里云怎样操作mysql数据库_阿里云主机如何操作mysql数据库

    阿里云主机如何操作mysql数据库,阿里云上传mysql数据库. 在阿里云ecs云服务器上部署数据库后,在平常的操作中可能会遇到些问题,可以先做个大致的了解: 如果您想看更多的在ecs上的数据库的相关 ...

最新文章

  1. python字符串find函数实现_python中实现查找字符串的find函数
  2. 常用AT指令集 (转)
  3. pip安装deb_技术|如何在 Ubuntu 上安装 pip
  4. Java Integer类numberOfLeadingZeros()方法的示例
  5. 跟我极速尝鲜 Spring Boot 2.3
  6. 解决人工智能PCA算法输出不稳定的方案
  7. MATLAB实现LDA(线性判别分析),以两个类别数目为例
  8. 物联网核心安全系列——物联网安全需求
  9. HTTP协议和HTTPS协议
  10. 常用tab选项卡代码
  11. Getway接口签名
  12. 使用OD修改程序窗口标题和提示信息
  13. java mina框架教程_java mina框架的使用和一些自己的理解
  14. Ubuntu中vim脚本保存失败,E45错误提示。
  15. Discuz安全之伪装后台,修改后台登陆页面信息
  16. Win10下Windows徽标键键盘快捷键大全
  17. 图库/相册/播放器看不到迅雷下载的视频的解决办法
  18. cad怎么将图层后置_CAD图层遮挡,如何将CAD图形进行前置或者后置?
  19. Web 智能代码编辑器 WeBuilder 2022
  20. VQA 2.0数据集的学习和使用过程

热门文章

  1. oracle查询闪回点,oracle 闪回查询
  2. cpu和处理器有什么区别
  3. java魅族面试题_魅族2016Java互联网方向其中一道笔试题--青蛙跳台阶问题
  4. 【uniapp,样式,登录】【微信小程序】获取用户昵称和头像 uni.getUserProfile 废弃 后 新规则 写法
  5. 苹果 App Store 开始支持隐藏上架应用:只能通过链接下载
  6. 基于matlab的循环卷积,利用MATLAB实现循环卷积
  7. 正则表达式 - 边界
  8. 三星s4开机显示无服务器,三星s4稳压电源充电,造成手机无法开机故障维修一例...
  9. linux通配符教程,linux通配符知识
  10. 微信PC端数据库文件解密