数据抽取是什么

数据抽取是指从源数据源系统抽取目的数据源系统需要的数据。实际应用中,数据源较多采用的是关系数据库。

数据抽取的方式

一、全量抽取

增量抽取只抽取自上次抽取以来数据库中要抽取的表中新增或修改的数据。在ETL 使用过程中,增量抽取较全量抽取应用更广。如何捕获变化的数据是增量抽取的关键。对捕获方法一般有两点要求:准确性,能够将业务系统中的变化数据按一定的频率准确地捕获到;性能,不能对业务系统造成太大的压力,影响现有业务。目前增量数据抽取中常用的捕获变化数据的方法有:

(a) 触发器方式(又称快照式)

在要抽取的表上建立需要的触发器,一般要建立插入、修改、删除三个触发器,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入一个临时表,抽取线程从临时表中抽取数据,临时表中抽取过的数据被标记或删除。 优点:数据抽取的性能高,ETL 加载规则简单,速度快,不需要修改业务系统表结构,可以实现数据的递增加载。 缺点:要求业务表建立触发器,对业务系统有一定的影响,容易对源数据库构成威胁。

(b) 时间戳方式

它是一种基于快照比较的变化数据捕获方式,在源表上增加一个时间戳字段,系统中更新修改表数据的时候,同时修改时间戳字段的值。当进行数据抽取时,通过比较上次抽取时间与时间戳字段的值来决定抽取哪些数据。有的数据库的时间戳支持自动更新,即表的其它字段的数据发生改变时,自动更新时间戳字段的值。有的数据库不支持时间戳的自动更新,这就要求业务系统在更新业务数据时,手工更新时间戳字段。

优点:同触发器方式一样,时间戳方式的性能也比较好,ETL 系统设计清晰,源数据抽取相对清楚简单,可以实现数据的递增加载。

缺点:时间戳维护需要由业务系统完成,对业务系统也有很大的倾

入性(加入额外的时间戳字段),特别是对不支持时间戳的自动更新的数据库,还要求业务系统进行额外的更新时间戳操作;另外,无法捕获对时间戳以前数据的delete和update 操作,在数据准确性上受到了一定的限制。

(c )全表删除插入方式

每次ETL 操作均删除目标表数据,由ETL 全新加载数据。

优点:ETL 加载规则简单,速度快。

缺点:对于维表加外键不适应,当业务系统产生删除数据操作时,综合数据库将不会记录到所删除的历史数据,不可以实现数据的递增加载;同时对于目标表所建立的关联关系,需要重新进行创建。

(d) 全表比对方式

全表比对的方式是ETL 工具事先为要抽取的表建立一个结构类似的临时表,该临时表记录源表主键以及根据所有字段的数据计算出来,每次进行数据抽取时,对源表和临时表进行的比对,如有不同,进行Update 操作,如目标表没有存在该主键值,表示该记录还没有,即进行Insert 操作。

优点:对已有系统表结构不产生影响,不需要修改业务操作程序,所有抽取规则由ETL完成,管理维护统一,可以实现数据的递增加载,没有风险。

缺点:ETL 比对较复杂,设计较为复杂,速度较慢。与触发器和时间戳方式中的主动通知不同,全表比对方式是被动的进行全表数据的比对,性能较差。当表中没有主键或唯一列且含有重复记录时,全表比对方式的准确性较差。

(e)日志表方式

在业务系统中添加系统日志表,当业务数据发生变化时,更新维护日志表内容,当作ETL 加载时,通过读日志表数据决定加载那些数据及如何加载。 优点:不需要修改业务系统表结构,源数据抽取清楚,速度较快。可以实现数据的递增加载。 缺点:日志表维护需要由业务系统完成,需要对业务系统业务操作程序作修改,记录日志信息。日志表维护较为麻烦,对原有系统有较大影响。工作量较大,改动较大,有一定风险。

(f) Oracle 变化数据捕捉(CDC 方式)

通过分析数据库自身的日志来判断变化的数据。Oracle 的改变数据捕获(CDC,Changed Data Capture)技术是这方面的代表。CDC 特性是在Oracle9i 数据库中引入的。CDC 能够帮助你识别从上次抽取之后发生变化的数据。利用CDC,在对源表进行insert、update 或 delete 等操作的同时就可以提取数据,并且变化的数据被保存在数据库的变化表中。这样就可以捕获发生变化的数据,然后利用数据库视图以一种可控的方式提供给目标系统。CDC 体系结构基于发布/订阅模型。发布者捕捉变化数据并提供给订阅者。订阅者使用从发布者那里获得的变化数据。通常,CDC 系统拥有一个发布者和多个订阅者。发布者首先需要识别捕获变化数据所需的源表。然后,它捕捉变化的数据并将其保存在特别创建的变化表中。它还使订阅者能够控制对变化数据的访问。订阅者需要清楚自己感兴趣的是哪些变化数据。一个订阅者可能不会对发布者发布的所有数据都感兴趣。订阅者需要创建一个订阅者视图来访问经发布者授权可以访问的变化数据。CDC 分为同步模式和异步模式,同步模式实时的捕获变化数据并存储到变化表中,发布者与订阅都位于同一数据库中;异步模式则是基于Oracle 的流复制技术。

优点:提供了易于使用的API 来设置CDC 环境,缩短ETL 的时间。不需要修改业务系统表结构,可以实现数据的递增加载。

缺点:业务系统数据库版本与产品不统一,难以统一实现,实现过程相对复杂,并且需深入研究方能实现。或者通过第三方工具实现,价格昂贵。

全量、增量 数据抽取 同步相关推荐

  1. 331全量增量数据、同步ld

    -- 数据同步 1 全量数据同步 1.1 不带参数的实现方式 每次更新目标表的时候,先把目标表中的数据清空,然后用源表的数据插入目标表中 . 1.2 通过参数 ,会计期(一个会计期 = 1个月 ,格式 ...

  2. hbase集群 数据写入_Hbase实用技巧:全量+增量数据的迁移方法

    摘要:本文介绍了一种Hbase迁移的方法,可以在一些特定场景下运用. 背景 在Hbase使用过程中,使用的Hbase集群经常会因为某些原因需要数据迁移.大多数情况下,可以跟用户协商用离线的方式进行迁移 ...

  3. Hbase实用技巧:全量+增量数据的迁移方法

    摘要:本文介绍了一种Hbase迁移的方法,可以在一些特定场景下运用. 背景 在Hbase使用过程中,使用的Hbase集群经常会因为某些原因需要数据迁移.大多数情况下,可以跟用户协商用离线的方式进行迁移 ...

  4. 全量增量数据同步方法(Hive date_add date_sub)

    全量数据与增量数据同步 1.不关心主键: a.第一次直接全量同步: insert overwrite table target select * from source b.第二次以后采用增量同步:表 ...

  5. java从hbase增量导出到,Hbase实用技巧:全量+增量数据的迁移方法

    摘要:本文介绍了一种Hbase迁移的方法,可以在一些特定场景下运用. 背景 在Hbase使用过程中,使用的Hbase集群经常会因为某些原因需要数据迁移.大多数情况下,可以跟用户协商用离线的方式进行迁移 ...

  6. MySQL主从恢复(全量恢复数据)

    前言 当mysql主从(一主一从模式)数据不同步,常规方式解决不掉,故全量恢复数据并同步数据. 发现问题 首先可以由mstaer status观察到主从已经未同步,其次slave status看到sl ...

  7. “全量增量” 与 “增量同步” 一文了解清楚【建议收藏】

    大家在同步数据的时候都会接触到2个名词,"全量增量" 与 "增量同步" ,名字都长得差不多,但是意思和操作却不一样:比如部门领导给你方案,那我们要如何去选择其中 ...

  8. 转基于BCV 和LogMiner 实现增量数据抽取的应用

    计算 机 系 统 应 用 2010 年第 19 卷第 4 期 192 经验交流 Experiences Exchange 基于BCV 和LogMiner 实现增量数据抽取的应用① 杨从法 1 宋兴彬 ...

  9. mysqldump备份(全量+增量)

    在日常运维工作中,对mysql数据库的备份是万分重要的,以防在数据库表丢失或损坏情况出现,可以及时恢复数据. 线上数据库备份场景: 每周日执行一次全量备份,然后每天下午1点执行MySQLdump增量备 ...

  10. ogg oracle 测试kafka_利用ogg实现oracle到kafka的增量数据实时同步

    前言 ogg即Oracle GoldenGate是Oracle的同步工具,本文讲如何配置ogg以实现Oracle数据库增量数据实时同步到kafka中,其中同步消息格式为json. 下面是我的源端和目标 ...

最新文章

  1. c51矩形波输出汇编语言,51单片机汇编语言编程:用定时器控制输出矩形波
  2. 学习笔记------tag文件
  3. 1970.1.1这个特殊时间
  4. android webview定位权限,混合开发安Android webview使用内置浏览器定位的权限
  5. 王道考研 计算机网络16网络层功能 数据交换方式 电路交换 报文交换 分组交换 路由算法 OSPF RIP AS自治系统 IGP内部网关协议 EGP外部网关协议
  6. 前端笔记-vue cli中v-bind动态数据实时更新
  7. Linux入门学习(十一)
  8. 一次性存入多少钱就可以有资格跟银行商谈利息了?
  9. 你身边有创业失败导致负债累累的案例吗
  10. linux救援模式详解,Linux系统的救援模式应用详解
  11. 买房税费大攻略!哪些费用必须交?
  12. java摄氏度转华氏度 在控制台输入
  13. Chrome插件安装时出现的“程序包无效”问题
  14. 已解决 vmware 虚拟机安装后没有虚拟网卡问题
  15. LeetCode接雨水 动态规划
  16. 你知道我们常说的“向前兼容”和“向后兼容”都是什么意思吗?
  17. 内存容量大小单位转换
  18. 超强的QQ聊天理论(这算得上是QQ类的资源强贴了,收藏吧)
  19. Enigma虚拟文件打包使用说明
  20. 本地套接字(domain)通信

热门文章

  1. [论]【MGT】Meta Graph Transformer: A Novel Framework for Spatial–Temporal Traffic Prediction
  2. 下载最新版Termux
  3. 【Java代码笔记】
  4. TCA笔记4:TCA代码笔记
  5. 【代码笔记】Web-CSS-CSS盒子模型
  6. MySQL树结构查询所有叶子节点
  7. RTE 2020第二批嘉宾公布 教育+社交+IoT行业大咖参会
  8. Lua学习(一):luac、luajit编译与反编译
  9. 基于pytorch实现线性回归
  10. 笔记:复旦IC卡专用芯片型号 -用于替代进口同类产品 - 草稿