目录

一、什么是ETL?

二、ETL & ELT

三、常用的ETL工具

3.1 sqoop

3.2 DataX

3.3 Kettle

3.4 canal

3.5 StreamSets

四、ETL加载策略

4.1 增量

4.2 全量

4.3 流式

小编有话


一、什么是ETL?

ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,是数据仓库的生命线。

       抽取(Extract主要是针对各个业务系统及不同服务器的分散数据,充分理解数据定义后,规划需要的数据源及数据定义,制定可操作的数据源,制定增量抽取和缓慢渐变的规则。

转换(transform主要是针对数据仓库建立的模型,通过一系列的转换来实现将数据从业务模型到分析模型,通过ETL工具可视化拖拽操作可以直接使用标准的内置代码片段功能、自定义脚本、函数、存储过程以及其他的扩展方式,实现了各种复杂的转换,并且支持自动分析日志,清楚的监控数据转换的状态并优化分析模型。

装载(Load主要是将经过转换的数据装载到数据仓库里面,可以通过直连数据库的方式来进行数据装载,可以充分体现高效性。在应用的时候可以随时调整数据抽取工作的运行方式,可以灵活的集成到其他管理系统中。

二、ETL & ELT

伴随着数据仓库的发展(传送门:数据仓库的八个发展阶段),数据量从小到大,数据实时性从T+1到准实时、实时,ETL也在不断演进。

在传统数仓中,数据量小,计算逻辑相对简单,我们可以直接用ETL工具实现数据转换(T),转换之后再加载到目标库,即(Extract-Transform-Load)。但在大数据场景下,数据量越大越大,计算逻辑愈发复杂,数据清洗需放在运算能力更强的分布式计算引擎中完成,ETL也就变成了ELT(Extract-Load-Transform)。

即:Extract-Transform-Load  >>  Extract-Load-Transform

通常我们所说的ETL,已经泛指数据同步、数据清洗全过程,而不仅限于数据的抽取-转换-加载。

三、常用的ETL工具

下面小编将介绍几类ETL工具(sqoop,DataX,Kettle,canal,StreamSets)。

3.1 sqoop

  • 是Apache开源的一款在Hadoop和关系数据库服务器之间传输数据的工具。
  • 可以将一个关系型数据库(MySQL ,Oracle等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导出到关系型数据库中。
  • sqoop命令的本质是转化为MapReduce程序。
  • sqoop分为导入(import)和导出(export),
  • 策略分为table和query
  • 模式分为增量和全量。

3.2 DataX

  • DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台
  • 实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。

3.3 Kettle

  • 一款国外免费开源的、可视化的、功能强大的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。

3.4 canal

  • canal是阿里巴巴旗下的一款开源项目,纯Java开发。基于数据库增量日志解析,提供增量数据实时订阅和消费,目前主要支持了MySQL,也支持mariaDB。

3.5 StreamSets

  • 是大数据实时采集ETL工具,可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面,实现数据管道(Pipelines)的设计和定时任务调度。
  • 创建一个Pipelines管道需要配置数据源(Origins)、操作(Processors)、目的地(Destinations)三部分。

四、ETL加载策略

4.1 增量

  • 有些表巨大,我们需要选择增量策略,新增delta数据需要和存量数据merge合并。
  • 两种方法:
    • merge(一)

  • merge(二)

    • 只有新增(full join。能拿更新表就拿更新表)

  • 新增+删除

    • history-table Left join delet-table where delect-table.value is null == 表a
    • 表a full join update-table (能拿update就拿update)

4.2 全量

每天一个全量表,也可一个hive天分区一个全量。

4.3 流式

使用kafka,消费mysql binlog日志到目标库,源表和目标库是1:1的镜像。

小编有话

无论是全量还是增量的方式,都会浪费多余的存储或通过计算去重,得到最新的全量数据。为解决这一问题,墙裂建议kafka的数据同步方案,源表变化一条,目标表消费一条,目标表数据始终是一份最新全量数据,且为实时同步的。

ps.极端情况下可能会丢数,需要写几个监控监本(详见数据质量篇)和补数脚本即可~

数仓系列传送门:https://blog.csdn.net/weixin_39032019/category_8871528.html

一篇文章搞懂数据仓库:常用ETL工具、方法相关推荐

  1. 一篇文章搞懂数据仓库:三范式与反范式

    少年易老学难成,一寸光阴不可轻. 目录 一.第一范式 二.第二范式 三.第三范式 四.反范式化 五.范式化设计和反范式化设计的优缺点 5.1 范式化 (时间换空间) 5.2 反范式化(空间换时间) 六 ...

  2. 一篇文章搞懂数据仓库:数据仓库架构-Lambda和Kappa对比

    在介绍Lambda和Kappa架构之前,我们先回顾一下数据仓库的发展历程: 传送门-数据仓库发展历程 写在前面 咳,随着数据量的暴增和数据实时性要求越来越高,以及大数据技术的发展驱动企业不断升级迭代, ...

  3. 一篇文章搞懂数据仓库:数据仓库规范设计

    目录 一.为什么要进行规范设计? 二.设计规范 - 指标 三.命名规范 - 表命名 3.1 常规表 3.2 中间表 3.3 临时表 3.4 维度表 四.开发规范 五.流程规范 一.为什么要进行规范设计 ...

  4. 一篇文章搞懂数据仓库:维度表(设计原则、设计方法)

    目录 1.什么是维度表? 2.维度表设计原则 (1)维度属性尽量丰富,为数据使用打下基础 (2)给出详实的.富有意义的文字描述 (3)区分数值型属性和事实 (4)沉淀出通用的维度属性,为建立一致性维度 ...

  5. 一篇文章搞懂数据仓库:数据应用--OLAP

    目录 1.OLAP和OLTP的区别 2.OLAP分类 3.OLAP基本操作 4.OLAP选型 1.olap和oltp的区别 OLTP OLAP 对象 业务开发人员 分析决策人员 功能 日常事务处理 面 ...

  6. 一篇文章搞懂filebeat(ELK)

    一篇文章搞懂filebeat(ELK) https://www.cnblogs.com/zsql/p/13137833.html 目录 一.filebeat是什么 1.1.filebeat和beats ...

  7. c++ 计算正弦的近似值_一篇文章搞懂正弦保真性

    本文介绍数字信号处理中"正弦保真性"这一概念,想要更好地理解本文所述内容,建议读者先阅读<一篇文章搞懂卷积>. 正弦保真性定义 一个正弦信号作为线性时不变系统的输入时, ...

  8. 一篇文章搞懂架构师的核心技能

    " 这是架构师系列的第一篇:核心技能,希望这个系列能完全揭示架构师这个职位:我先从核心技能开始,后续还有架构师之路,架构实战等架构师系列文章. 本文作者 陈睿 优知学院创始人,前携程定制旅游 ...

  9. 一篇文章搞懂算法基础

    源码地址 https://github.com/javanan/DataStructure 目录 时间复杂度介绍 空间复杂度介绍 递归算法与非递归算法区别和转换 折半查找/二分查找算法 链表实现 反转 ...

最新文章

  1. 细说进程、应用程序域与上下文之间的关系(一)——进程的概念与作用
  2. 一站式学习Wireshark(一):Wireshark基本用法
  3. 前端框架Vue——vue-i18n ,vue项目中如何实现国际化,$t的用法
  4. 双向循环链表:字母表实现前后移动
  5. matlab向量相减代码,matlab转c++代码实现(主要包含C++ std::vector,std::pair学习,包含数组与常数相乘,数组相加减,将数组拉成一维向量等内容)...
  6. python实现高精度加法_蓝桥杯-Python-高精度加法
  7. 一款短小精悍的日志分析工具web_log_analyse
  8. [转]SQL SERVER数据库开发之触发器的应用
  9. C语言数据结构之顺序队列
  10. 谷歌账号无法与服务器建立连接服务器,谷歌市场无法与服务器建立可靠的数据连接怎么解决...
  11. IMDB TOP250中文版(截止2011.6.18)
  12. ubuntu配置搜狗输入法
  13. Android访问剪贴板权限,Android 12新增剪贴板访问提醒,可调查应用获取位置数据的频率...
  14. 营收增速环比放缓 Okta高歌猛进的那股劲去哪了?
  15. python面向对象_05(面向对象封装案例 II)
  16. 炼石喜获“2020中国网络安全产业联盟突出贡献单位奖”
  17. 假设知道服务器IP,如何查询它绑定的域名?
  18. python 学生信息管理系统(二)
  19. 文件复制-字节输入输出流的使用
  20. Towards Robust Tampered Text Detection in Document Image: New dataset and New Solution

热门文章

  1. 开直播辣!生成对抗网络全脉络梳理!
  2. 2016,你最不应该错过的热门技术文章
  3. sysbench在美团点评中的应用
  4. 论文浅尝 | 利用跨内和跨间信息的预训练实体关系编码器
  5. 论文浅尝 - COLING2020 | 桥接文本和知识的多原型嵌入在少样本关系三元组抽取中的研究...
  6. 论文浅尝 | 基于RNN与相似矩阵CNN的知识库问答
  7. 领域应用 | 深度学习在知识图谱构建中的应用
  8. Hadoop 命令操作
  9. ElasicSearch(3) 安装elasticsearch-head
  10. windows定时计划备份MySql