4. 同步方式(增量和全量)

4.1 数据同步一般分为两种方式:全量和增量。

全量

全量,这个很好理解。就是每天定时(避开业务高峰期)或者周期性全量把数据从一个地方拷贝到另外一个地方;

全量的话,可以采用直接全部覆盖(使用“新”数据覆盖“旧”数据);或者走更新逻辑(覆盖前判断下,如果新旧不一致,就更新);

这里面有一个隐藏的问题:如果采用异步写,主数据物理删除了,怎么直接通过全量数据同步?这就需要借助一些中间操作日志文件,或者其他手段,把这些“看不到”的数据记录起来。

增量

增量的基础是全量,就是你要使用某种方式先把全量数据拷贝过来,然后再采用增量方式同步更新。

增量的话,就是指抓取某个时刻(更新时间)或者检查点(checkpoint)以后的数据来同步,不是无规律的全量同步。这里引入一个关键性的前提:副本一端要记录或者知道(通过查询更新日志或者订阅更新)哪些更新了。

增量的话需要确定更新点

采用更新时间戳、有的采用checkpoint等来标识和记录更新点。

4.2 在增量同步过程中需要注意的一点(重点)

# mysql 中表查询的上限大概在500万左右
# 增量表的后缀名为 delta 所以我们需要改变昨天的表名(全部)
# 我们在配置json脚本中需要加上判断条件,而且也不能写死应该搞一个变量(${ds})传进去
# 可能在mysql中的时间字段和在hdfs中的分区名字不一样,需要做处理,譬如在mysql中的时间为 2022-08-06,但是在hdfs中的却是20220806,这时我们需要做处理

4.3 增量和全量的优缺点

# 使用全量同步时我们可能需要删除历史的数据,以免造成资源浪费,但是这会产生一个问题,当某一天的数据发生错误时,我们不能回溯到那一天的数据(因为有可能被我们删除了)
# 使用增量表时,有可能不是增加而是修改,这样一个用户有可能会产生多条数据(解决办法):我们使用row_number按照id分组,然后按照时间排序,取出第一条数据就可以

在mysql中的数据如下:

在脚本文件中文件名字需要修改 增量表的后缀名需要加上 . delta

因为是增量,每天拉取新增的量,所以需要在脚本中设置一下 where条件

通过执行脚本文件,sh 脚本 20220806 得到结果

第一个分区:

第二个分区

4. 同步方式(增量和全量)相关推荐

  1. solr java 全量,Solr实时创建增量或全量索引

    1,为了支持增量建索引,我们需要把上述文中的mysql-data-config.xml内容改为 query="SELECT id, title, content FROM article&q ...

  2. kylin cube 增量和全量

    2019独角兽企业重金招聘Python工程师标准>>> 全量构建与增量构建 全量构建 对数据模型中没有指定分割时间列信息的Cube,Kylin会采用全量构建,即每次从Hive中读取全 ...

  3. Elasticsearch和MySQL数据同步(logstash-input-jdbc)全量增量方式同步近千万数据

    同步方案: 同步读写:最为简单的方式在将数据写到mysql时,同时将数据写到ES,实现数据的双写. 异步双写(MQ方式):MQ的性能基本比mysql高出一个数量级,所以性能可以得到显著的提高. 定时器 ...

  4. window操作系统下SVN通过sync命令增量同步备份,首次全量备份(单机备份双机备份均可)

    目录 一.准备环境 二.备份步骤 三.可能出现的问题 一.准备环境 1.两台机器操作系统为window系统,网络要能通信.均安装了VisualSVN-Server服务端:一台源库,一台目标备份库(我本 ...

  5. 判断数据是增量分区全量分区

    如何判断数据是增量分区,还是全量分区 (保存数据T-1的全量,通常保存进一个月的数据为T-1的全量) 增量形式:不包含历史所有的数据,只是当天的数据 where dt between 'T-7' an ...

  6. oracle增量和全量的区别,ORACLE全备份和0级增量备份的区别

    比较官方的说法 Full A backup of a datafile that includes every allocated block in the file being backed up. ...

  7. Elasticsearch 的全量同步和增量同步

    (1)全量同步 什么是全量同步:将一个mysql的整个表的所有数据都同步到es中 常用插件是logstash-input-jdbc,logstash通过sql语句分区间对数据进行查询,然后输出到es进 ...

  8. 数据同步之全量同步与增量同步

    一.什么是数据同步 业务数据是数据仓库的重要数据来源,我们需要每日定时从业务数据库中抽取数据,传输到数据仓库中,之后再对数据进行分析统计. 为保证统计结果的正确性,需要保证数据仓库中的数据与业务数据库 ...

  9. mongodb数据同步到elasticsearch的中间件,支持全量,增量,实时同步等多种同步情景。(syncs MongoDB to Elasticsearch in realtime) (Mong

    GitHub - levonmo/mongo-sync-elasticsearch: mongodb数据同步到elasticsearch的中间件,支持全量,增量(新增修改删除),实时同步等多种同步情景 ...

最新文章

  1. 大数据风控之贷前调查必知的十大客户信息
  2. PDU是如何帮助机房安然度夏?如何选择PDU电源配套机柜?
  3. 顽石系列:Java技术面试
  4. curl 的用法指南
  5. 集合差异比较算法及性能测试
  6. (转)Arcgis for JS实现台风运动路径与影像范围的显示
  7. 超强干货素材!制作平面设计专辑模板
  8. 【nosql】NoSql是什么?
  9. 【金融】【python】三因子(three factor)简单模型实证
  10. Android SurfaceView动画(一)
  11. React-Native 爬坑爬坑
  12. mysql两个下拉框_两个下拉框的纠葛
  13. java留言板_java实现简单留言板功能的代码实例
  14. 电话机器人源码智能电话机器人7项技术特点,教你选择合适的电话机器人!
  15. easydarwin 安装_EasyDarwin流媒体服务器
  16. ue4 4.27源码下载
  17. 【Qt学习笔记】包含头文件确报错 does not name a type
  18. 从正射到倾斜,Mavic 3E详细使用报告
  19. 劳务员培训建筑八大员培训劳务员对劳务分包企业管理的建议
  20. 十大智能家居系统解决方案

热门文章

  1. 上课第一天初感。。。
  2. 丢手帕问题 java_java基于双向环形链表解决丢手帕问题的方法示例
  3. (ICLR 2020)COMPOSING TASK-AGNOSTIC POLICIES WITH DEEP REINFORCEMENT LEARNING
  4. EmguCv几种图像打开方法和转换
  5. 专访海尔小帅影院创始人马文俊:硬件不是未来 需求才是未来
  6. 2D变形效果有几种?变形效果讲解
  7. webpack配置静态资源
  8. jQuery 操作属性
  9. 实现ALOHA协议仿真算法
  10. 根轨迹和系统参数的确定