在根据用户需求选择需要抽取的字段之外,我们通常需要选择采用全量或者增量的方法进行数据抽取。全量抽取指的是从源系统中将表内数据不加行的筛选,全部抽取;增量抽取指的是只抽取前次抽取之后发生变化或者新增的数据(增量抽取的数据难度较大,要保证数据不能多抽取,漏抽取)。
  在源表数据量较大,大部分数据一经入库改动可能较小时一般采用增量抽取的方式;对于表数量较小或者维表这类情况会进行增量抽取。
  对表进行增量抽取时,需要较好的判别出新增或者发生变化的数据,在系统设计时,常见的有下面两种方法:
  1. 触发器方法: 当需要抽取的表中发生新增、修改、删除时,触发触发器,触发器将数据插入临时表,之后抽取只抽取临时表,抽取时对临时表数据打标记或者删除。
  2. 时间戳方法:
在源系统表中增加一个时间戳字段,在用户对这条记录进行增删改查时,更新时间戳,进行数据抽取时使用时间戳来判断这条记录是否要抽取。加时间戳优点为抽取相对简单,但是对源系统依赖较强。
  全量抽取出来的表对数据仓库进行更新时,可采用全表删除的方法,优点在于简单快捷,但是如果需要保留修改记录时,需要采用数据快照设计;增量抽取出来的表对数据库进行更新,可以使用merge的方式进行更新操作,这种方法逻辑较复杂,速度较慢,且要求源表主键能够匹配识别。

ETL数据抽取 全量 增量相关推荐

  1. solr mysql增量导入_10.Solr4.10.3数据导入(DIH全量增量同步Mysql数据)

    1.创建MySQL数据 create databasesolr;usesolr;DROP TABLE IF EXISTSstudent;CREATE TABLEstudent ( idchar(10) ...

  2. 数据库备份数据:全量备份、增量备份

    全量备份是指对某一时间点上的所有数据进行全量备份,包括系统和所有数据.这种备份方式每次都需要对系统和所有数据进行一次全量备份.如上,如果两次备份之间数据没有任何变化,那么两次备份的数据是一样的.也就是 ...

  3. 331全量增量数据、同步ld

    -- 数据同步 1 全量数据同步 1.1 不带参数的实现方式 每次更新目标表的时候,先把目标表中的数据清空,然后用源表的数据插入目标表中 . 1.2 通过参数 ,会计期(一个会计期 = 1个月 ,格式 ...

  4. mysqldump备份(全量+增量)

    在日常运维工作中,对mysql数据库的备份是万分重要的,以防在数据库表丢失或损坏情况出现,可以及时恢复数据. 线上数据库备份场景: 每周日执行一次全量备份,然后每天下午1点执行MySQLdump增量备 ...

  5. mysqldump全量恢复_【MySQL】全量+增量的备份/恢复

    生产环境中,有时需要做MySQL的备份和恢复工作.因MySQL是在运行过程中的,做全量备份需要时间,全量备份完成后又有数据变动,此时需要增量备份辅助.如果想恢复数据到一个空库(例如数据迁移或者上云等更 ...

  6. “全量增量” 与 “增量同步” 一文了解清楚【建议收藏】

    大家在同步数据的时候都会接触到2个名词,"全量增量" 与 "增量同步" ,名字都长得差不多,但是意思和操作却不一样:比如部门领导给你方案,那我们要如何去选择其中 ...

  7. mongodb监听oplog 全量+增量同步

    一.前言 前一个项目中,涉及到了一次数据迁移,这次迁移需要从mongodb迁移到另一个mongodb实例上,两个源的数据结构是不一样的.涉及到增量和全量数据迁移,整体迁移数据量在5亿左右.本篇即讲理论 ...

  8. MySQL数据库之全量+增量+二进制日志的备份与恢复

    一.简介数据的备份与恢复 1.为什么备份? 灾难恢复:人为错误.硬件故障(冗余).软件故障(bug).自然灾害.黑客攻击.误操作.-: 测试: 2.备份时应该注意些什么? 能容忍最多丢失多少数据: 恢 ...

  9. 大数据用户画像项目实战 ETL数据抽取

    一.课程介绍 一个基于规则的大数据用户画像项目为什么要选这样一个项目:1.典型的批量计算场景2.基于规则.涵盖大数据批量处理的各个典型场景3.可视化.所有控制流程全程可视化4.可扩展.通过集成更多的计 ...

  10. SSIS工具的ETL过程,全量ETL和增量ETL过程教程

    测试环境:SQL SERVER 2012 Microsoft Visual Studio 2012版本 本教程为记录本人的学习关键部分,故如果看不懂可以联系博主,只讲关键ETL操作部分 1.全量ETL ...

最新文章

  1. Waymo高管指责媒体夸大自动驾驶的商业化前景
  2. springmvc DispatchServlet初始化九大加载策略(一)
  3. 3.JAVA基础复习——JAVA中的类与对象
  4. ehcache 加载自定义配置文件ehcache.xml路径
  5. 数据寄存器多少位怎么算_二手车过户费多少钱?评估师教你怎么算
  6. Oracle 20c 新特性:持久化内存数据库 - Persistent Memory Database
  7. oracle能不能改外键属性,CSS_小议Oracle外键约束修改行为(五), Oracle的外键用来限制子表 - phpStudy...
  8. 转载--Ajax学习---DOM进行Web响应
  9. jQuery事件命名空间多事件绑定自定义事件js 命名空间 javascript命名空间
  10. 川大计算机复试公平吗,看清华、川大这波操作,你还会担心网络复试会不公平吗?...
  11. 光谱共焦传感器在PCB板子上的应用
  12. win环境下jdk7与jdk8共存问题
  13. 如何解救爆红的C盘?
  14. 大量大数据如何进行查询
  15. 河南省第二届“金盾信安杯”网络安全大赛 WriteUp Crypto+Misc
  16. 如何修改VsCode的背景图片
  17. 万字长文:全面解读新公链新生态
  18. zbb20180930 设计模式-单例模式
  19. 毕业一年的程序媛,现在都怎样了?
  20. Office_2019企业版安装教程

热门文章

  1. 重启共享文件服务器,windows server 2008 文件服务器不定期出现大量CLOSE_WAIT状态的连接,必须重启服务器,客户端才能访问共享。...
  2. 工业机器人自动化仿真竞赛 Agile Robotics for Industrial Automation Competition (ARIAC 2021)
  3. linux卸载intel驱动程序,Linux的英特尔图形驱动程序调试工具删除Android支持
  4. 电子测量-实战:电压放大器的设计与测试
  5. web前端开发实训报告,HTML表单标签
  6. 数据清洗(一)----- 清洗数据的目的及基本格式、类型与编码
  7. yml在线格式转换工具
  8. 常见中文字体-英文名
  9. 【CAD技巧】120个常见CAD问题解决办法
  10. 【电脑主板维修】主板故障检测要领