免费开通大数据服务:https://www.aliyun.com/product/odps

转载自云享团

因为近期遇到用户在做ETL操作导入数据到MaxCompute的时候,对如何设置数据同步策略有疑惑,所以今天第一波我们来聊一下数据的同步策略,根据数据的特性,看看哪些数据适合增量同步,哪些适合全量同步,又是如何实现的?请认真看完下面的介绍,这些问题都不是事儿。

我们把需要同步的数据,根据数据写入后是否会发生变化分为:会变化的数据(人员表比如说,人员的状态会发生变化)和不会发生变化的数据(一般是日志数据)。针对这两种场景,我们需要设计不同的同步策略。这里以把业务RDS数据库的数据同步到MaxCompute为例做一些说明,其他的数据源的道理是一样的。根据等幂性原则(也就是说一个任务,多次运行的结果是一样的,这样才能支持重跑调度。如果任务出现错误,也比较容易清理脏数据),我每次导入数据都是导入到一张单独的表/分区里,或者覆盖里面的历史记录。

备注说明:本文的测试时间是2016-11-14,全量同步是在14号做的,同步历史数据到ds=20161113这个分区里。至于本文涉及的增量同步的场景,配置了自动调度,把增量数据在15号凌晨同步到ds=20161114的分区里。数据里有一个时间字段optime,用来表示这条数据的修改时间,从而判断这条数据是否是增量数据。

不变的数据

对应这种场景,因为数据生成后就不会发生变化,我们可以很方便地根据数据的生成规律进行分区,比较常见的是根据日期进行分区,比如每天一个分区。以下是测试数据:

这里有2条数据,当成历史数据。我先做一次全量数据同步,到昨天的分区里。配置方法如下:
先在MaxCompute创建好表:

然后配置了历史数据数据同步:

因为只需要跑一次,做以下测试就可以了。测试后到数据开发里把任务的状态改成暂停(最右边的调度配置了)并重新发布,免得明天他继续跑了。之后到MaxCompute里看一下结果:

测试通过后。往Mysql里多写一些数据作为增量数据:

然后配置同步任务如下。需要特别注意的是数据过滤这的配置,通过这个配置,可以在15号的凌晨的同步的时候,把14号全天新增的数据查询出来,然后同步到增量分区里。

这个任务需要发布,设置调度周期为每天调度,第二天过来一看,MaxCompute里的数据变成了:

会变的数据

如人员表、订单表一类的会发生变化的数据,根据数据仓库的4个特点里的反映历史变化的这个特点的要求,我们建议每天对数据进行全量同步。也就是说每天保存的都是数据的全量数据,这样历史的数据和当前的数据都可以很方便地获得。不过如果真实的场景下因为某些特殊情况,需要每天也只做增量同步,因为MaxCompute不支持Update语句来修改数据,只能用别的一些方法来实现。两种同步策略的具体方法如下:

首先我们需要造一些数据:

  • 每天全量同步

每天全量同步同步比较简单:

然后配置同步为:

测试后结果为

因为每天都是全量同步,没有全量和增量的区别,所以第二天就能看到数据结果为

如果需要查询的话,就用where ds =‘20161114’来取全量数据即可了。

  • 每天增量同步

非常不推荐用这种方法,只有在极特殊的场景下才考虑。首先这种场景不支持delete语句,因为被删除的数据无法通过SQL语句的过滤条件查到。当然实际上公司里的代码很少直接有直接删除数据的,都是使用逻辑删除,那delete就转化成update来处理了。但是这里毕竟限制了一些特殊的业务场景不能做了,当出现特殊情况可能导致数据不一致。另外还有一个缺点就是同步后要对新增的数据和历史数据做合并。具体的做法如下:
首先需要创建2张表,一张写当前的最新数据,一张写增量数据:

然后全量数据可以直接写入结果表:

结果如下:

这个只要跑一次的,记得跑好后要暂停掉。
然后把增量数据写入到增量表里:

结果如下

然后做一次合并

最终结果是:

可以看到,delete的那条记录没有同步成功。

对比以上两种同步方式,可以很清楚看到两种同步方法的区别和优劣。第二种方法的优点是同步的增量数据量比较小,但是带来的缺点有可能有数据不一致的风险,而且还需要用额外的计算进行数据合并。如无必要,会变化的数据就使用方法一即可。如果对历史数据希望只保留一定的时间,超出时间的做自动删除,可以设置Lifecycle。


本文的作者技术专家“传学”,一直从事大数据技术支持工作,后续会持续带来大数据的干货分享,如果有什么疑问可以留言或者通过在线工单联系哦。(敏感业务信息不要公开评论哦)

原文链接:

http://click.aliyun.com/m/13930/

云享团——基于大数据开发套件的增量同步策略相关推荐

  1. 基于大数据开发套件定时调度带资源文件的MapReduce作业

    原文链接:http://click.aliyun.com/m/13937/ MaxCompute里的MR作业,很少是只要跑一次就好了的.如果需要周期性调度,目前MaxCompute(原名ODPS)只提 ...

  2. 大数据开发套件DataIDE使用教程

    课程介绍 大数据开发套件(Data IDE) 是阿里云数加重要的Paas平台产品,是"DataWorks"中最重要的核心组件.提供全面托管的工作流服务,一站式开发管理的界面,帮助企 ...

  3. 大数据开发套件—调度运维常见问题

    我们在进行大数据开发过程中,会遇到各种问题,本文将定期收集整理一些在使用阿里云数加 大数据开发套件 时遇到的常见问题,供大家参考~ Q. 如果之前提交的任务修改后再次提交,是否会影响当天的任务调度? ...

  4. 阿里云-数据仓库-全链路大数据开发治理平台-DataWorks的数字世界

    一.前言 上文我讲到 阿里云-数据仓库-数据分析开发神器-ODPS ,今天我带领大家一起走进神器的成长环境及它的数据世界. 二. DataWorks是什么 DataWorks基于MaxCompute. ...

  5. 基于大数据的移动应用开发前景有哪些

    最具用户友好性的技术创新中,大数据和云技术是最强大,最安全,可扩展且普遍可接受的技术,大数据可能是结构化,半结构化或非结构化的极其复杂和大量的数据,通过计算分析它可以从该数据中挖掘出有用的信息,以揭示 ...

  6. 基于大数据搭建社交好友推荐系统

    ● ● ● " 导读:本文来自资深架构师翟永东"基于 MaxCompute 搭建社交好友推荐系统"为主题的分享,主要对大数据在好友推荐系统中的应用.好友推荐系统的分析模型 ...

  7. 阿里云大数据ACP(一)大数据开发平台 DataWorks

    文章目录 一.DataWorks 简介 1.1 DataWorks 的功能概述 1.2 DataWorks 产品特点 1.3 DataWorks 产品优势 1.4 应用场景 (助力企业搭建大数据信息平 ...

  8. 集成开发环境-大数据开发平台的门户

    什么是集成开发环境 这一篇,来谈一下大数据开发平台的门面,集成开发环境.什么是集成开发环境?顾名思义,就是IDE,哪个码农不知道IDE的,有胆你站出来! 不过IDE这个词也太普通了,在那些大厂玩大数据 ...

  9. 基于阿里云官网文档-大数据开发治理平台 DataWorks研读+数据质量扩展+相应的大数据组件知识扩展

    网址:阿里DataWorkers网址:数据集成概述 - 大数据开发治理平台 DataWorks - 阿里云 目录 网址:阿里DataWorkers网址:数据集成概述 - 大数据开发治理平台 DataW ...

最新文章

  1. 为什么python会火?看到这个几个与众不同的地方你就懂了!
  2. 前端基础(一):js数据类型
  3. 关于过拟合、局部最小值、以及Poor Generalization的思考
  4. linux内核设计与实现 怎么读,《Linux内核设计与实现》读书笔记(一)
  5. 【转】ABP源码分析三十七:ABP.Web.Api Script Proxy API
  6. python画精美图案_Python语言的魅力------完美图案
  7. Linux移植随笔:又遇困难
  8. Spark standalone 模式下的集群部署
  9. rbf神经网络_黄小龙,陈阳舟:高阶非线性不确定多智能体系统自适应RBF神经网络协同控制...
  10. 数论基础 欧几里得
  11. 遗传算法原理和Python实现
  12. RTSP RTMP HLS HTTP全功能流媒体播放器SkeyeExPlayer开发计划
  13. 控制物体沿椭圆轨迹运动
  14. 弘辽科技:直通车引流逻辑。
  15. day 9.1 逻辑回归-二元回归与多元回归
  16. 荒野行动电脑版一直连接服务器,荒野行动PC版进不去怎么办 电脑版连接不上服务器的解决方法...
  17. 从山景城看,Android看起来像什么? 关于Google I / O的见解
  18. 关于MPEG-4 、mp4v 和 mp4a
  19. return function和return function()的区别
  20. Apache的虚拟主机配置和伪静态操作

热门文章

  1. 白帽子讲web安全读书笔记(Ⅰ)
  2. 线性代数(9): 空间与维度
  3. php 导出excel表格
  4. 乔列斯基分解法求线性方程组的MATLAB程序实现
  5. 用于C U I应用程序:/ S U B S Y S T E M : C O N D O L E,而用于G U I :S U B S Y S T E M : W
  6. 《Linux Shell脚本攻略》学习笔记-第一章
  7. [HGE]-源码分析-11 sound
  8. 招生1400名!这所985高校发布2023年博士研究生招生简章!
  9. PostGIS安装教程及遇到的问题总结
  10. spring cloud--微服务