你真的了解ELT和ETL吗?
作者:数据一哥 来源:数据社
全文共1700个字,建议6分钟阅读
大家好,我是一哥。
ETL 和 ELT 有很多共同点,从本质上讲,每种集成方法都可以将数据从源端抽取到数据仓库中,两者的区别在于数据在哪里进行转换。 接下来,我们一起详细地分析一下 ETL 和 ELT各自的优缺点,看看在你们现在的业务中用哪种方式处理数据比较合适。
01 ETL
ETL - 抽取、转换、加载
从不同的数据源抽取信息,将其转换为根据业务定义的格式,然后将其加载到其他数据库或数据仓库中。另一种 ETL 集成方法是反向 ETL,它将结构化数据从数据仓库中加载到业务数据库中,如我们常用数据仓库加工好的报表,推送到报表系统的数据库中。
02 ELT
ELT - 抽取、加载、转换
同样的从一个或多个数据源中抽取数据,然后将其加载到目标数据仓库中,此时不需要进行数据格式的转换。在 ELT 过程中,数据的转换发生在目标数据仓库中。ELT 对远程资源的要求较少,只需要它们的原始数据即可。
03 ELT的演变
ELT 已经存在了一段时间,但 Hadoop 等大数据技术出现后,更加活跃了。像以前转换 PB 级原始数据这样的大型任务无法处理,现在可以被分成小作业,进行处理,然后再加载到目标数据库中。同时,处理能力也提高了,尤其是以私有云集群的方式,把处理、加工数据可以在一个数据仓库中完成了。
04 ELT的工作原理
与 ETL 不同,ELT是从多个数据源收集信息,将其加载到数据仓库(或者数据湖)中,然后将其转换为可操作的商业智能的过程。
抽取——在ELT和ETL两种数据管理方法中的原理相似。一般我们会采用增量抽取,对于一些维表数据量比较小的也会采用全量抽取。
加载——这是 ELT 和 ETL 开始不同的地方了。ELT 不是在抽取大量原始数据的过程中将其转换,而是将所有数据都加在到湖仓中,然后统一进行转换,这样做加快了抽取的效率,但也意味着数据变得有用之前还有很多工作要做。
转换——数据湖或数据仓库对数据进行规范化,将部分或全部数据保留在湖仓中,并可用于定制报告。存储海量数据的开销更高,但也是为了后续能够更加快速的进行数据挖掘和报表展现,也就是我们常说的用空间换时间。
05 什么时候我们选择ELT
这取决于公司现有的网络和技术架构、预算以及它已经利用云和大数据技术的程度。如果是有下面三个需求场景时,那么ELT就是正确的选择~
1. 当抽取速度是第一选择时
因为 ELT 不必等待数据在抽取过程中进行转换后再加载,那么抽取过程要快得多。
2. 当需要随时访问原始数据时
有很多场景,我们需要保留所有历史数据,分析师可以根据时间、销售模式、季节性趋势或任何对业务变得重要的新兴指标进行挖掘。由于数据在加载之前未进行转换,因此您可以访问所有原始数据。比如,数据仓库一般都有一个原始数据层,很多数据科学家更喜欢访问原始数据,而业务用户更喜欢使用分析后的应用层或者模型层数据。
3. 当需要随时可扩展数据湖仓时
当您使用 Hadoop 或云数据仓库等数据处理引擎时,ELT 可以利用本机处理能力实现更高的可扩展性。
06 数据湖是不是很好的ELT落脚点
首先,我们思考一下数仓为什么会出现?其实是数据量的飞速增长,以至于当时的数据存储计算引擎,不能很好的满足分析需求;于是数仓概念和经典的理论出现了,很好的解决了当时的问题,用“规范+存储”来解决了当时的问题。
那么现在大数据时代,随着技术的不断发展,很多新技术出现了,大批量的存储和计算不再是那么难了,那么我们放弃数仓那一套是否可行呢?从一哥现在处理的业务看,如果你的业务系统相对较单一,没有几十个业务系统每天往数仓里灌数据,那么数据湖可以满足你的需求,并且对于“数据驱动”更“敏捷”。如果一线的业务系统较复杂,那么现在使用数据湖也会一不小心会变成“数据沼泽”。
数据湖治理策略没有明确前,还不要急着就上数据湖,并不是适用于每个公司的业务场景的!
07 结语
ELT和ETL都有各自的应用场景,可以说现在大数据环境下,很多已经是ELT架构了,所以这也是我近几年一直不看好很多厂商在推“拖拉拽”的ETL工具或者平台,未来肯定是需要一种通用语言来实现所有的ELT过程。
同样,数据湖是趋势,但现在依然不成熟,不要看网上很多一线大厂的技术文章中提到了很多数据湖的概念和技术应用,但是请结合自己公司的业务场景,暂时先谨慎选择!
公众号推送规则变了
点击上方公众号名片,收藏公众号,不错过精彩内容推送!
万字详解ETL和数仓建模!
2022-03-10
为什么要做数仓分层,不做行吗?
2022-02-20
100页Flink超全知识总结.pdf
2022-02-26
你真的了解ELT和ETL吗?相关推荐
- ELT和ETL分不清楚?2张图就能理解透彻
ETL 和 ELT 有很多共同点,从本质上讲,每种集成方法都可以将数据从源端抽取到数据仓库中,两者的区别在于数据在哪里进行转换. 接下来,我们一起详细地分析一下 ETL 和 ELT各自的优缺点,看看在 ...
- 数据集成的两种架构:ELT和ETL
数据集成的两种架构:ELT和ETL 集成是数据工程师要做的工作之一.一般来说,数据工程师的工作包括了数据的ETL和数据挖掘算法的实现.算法实现 可以理解,就是通过数据挖掘算法,从数据仓库中找到&quo ...
- 什么是 ELT 和 ETL?
转自: https://docs.microsoft.com/zh-cn/learn/modules/explore-concepts-of-data-analytics/2-describe-dat ...
- 一学就会一用却废!到底应该用ETL还是ELT?
技术专家 祁国辉 前 Oracle 云平台事业部电信行业技术总监 [作者介绍]网名"atiger",前 Oracle 云平台事业部电信行业技术总监.拥有超过25年数据库和数据仓 ...
- 一文搞懂ETL和ELT的区别
在过去的十年,我们对存储和管理数据的方式发生了很大的变化,并从ETL模式逐渐转向ELT,然而,小编认为这并不会是终点:未来极有可能会向EL(T)发展,也就是EL和T进行完全解耦.当然这只是一种猜想.本 ...
- 为什么是ELT而非ETL
这是大数据技术扫盲系列的第四篇[什么是ELT] 全文1000字,阅读需要5分钟 一.什么是ELT? ELT是抽取(Extract).加载(Load).转换(Transform)的缩写. 数据抽取:EL ...
- 数据仓库、数据整合、ETL、ELT和EII之间的区别?
在数据仓库领域里,的一个重要概念就是数据整合(data intergration).数据整合它就是把不同数据库中的数据整合到一起,对外提供统一的数据视图. 数据整合最典型的案例就是整合存货数据和订单数 ...
- mysql elt_引入可观察的自记录ELT
mysql elt Virevol ai is a collaborative visual shopping app. We run a remote-first lean team, have b ...
- ETL (数据仓库技术)
参考:ETL (数据仓库技术)_百度百科 ETL讲解(很详细!!!) 常见的几种ETL工具 ETL,是英文 Extrac ...
最新文章
- mybatis中getMapper是怎么通过动态代理得到dao接口的实现类并执行mapper文件sql语句的
- 修改GIT的user.name和user.email
- 用 Shell 快速写一个嵌入式测试框架
- 我的计算机专业作文800字,我家的电脑作文800字
- 计算机报临时用户,大师练习win10系统添加临时登录账户win10电脑临时账户的办法?...
- Windows程序设计:使用VS2010创建窗口程序
- 制作一个简单的通讯录
- 无标度网络的生成模型
- Web渗透测试之信息收集
- 数字化转型没有银弹,不破不立,如何破?如何立?
- 新手学游戏开发必知的一课
- HDMI RGB_TO_DVI模块
- 深度学习白平衡(Color Constancy,AWB):ICCV2019论文解析
- 从一个运维人员的角度看微盟的这次删库跑路的节奏
- 神奇。cv2.calcHist()函数返回值,灰度值为255的像素个数看似为0。
- 二级网站域名怎么申请?
- 论文阅读笔记:(2021.06, cvpr) Monocular 3D Object Detection: An Extrinsic Parameter Free Approach
- 外服剑灵卡刀宏使用教程
- 手撕代码deep image matting(6):dataset(1)
- R基础学习(一)数据结构
热门文章
- ExecuteNonQuery方法和ExecuteScalar方法的区别
- Notability for Mac(笔记软件)
- 夸克链创始人周期:把区块链的好处带给千家万户
- python作业.创建两个文本框,一个按钮。第 1 个文本框绑定任意键事件,敲击键盘任意可显示字符,在交互窗口中显示该字符;第 2 个文本框绑定<a>键事件,敲击键盘 a 字符,在交互窗口中显示 10
- #计算机网络与应用:某中学校园网方案设计
- 全国计算机等级考试三级数据库知识点总结!
- 输入某年某月某日,判断这一天是这一年的第几天python
- php连接mssql(mssql_connect方式)
- 常见通信协议整理归纳
- Re: 从0开始的DMD学习