数据仓库、数据整合、ETL、ELT和EII之间的区别?
在数据仓库领域里,的一个重要概念就是数据整合(data intergration)。数据整合它就是把不同数据库中的数据整合到一起,对外提供统一的数据视图。
数据整合最典型的案例就是整合存货数据和订单数据。数据整合的另一个案例就是把各个部门的客户关系管理系统中的客户信息整合到公司客户关系管理系统中。
数据整合是一个比ETL更加广泛的概念,ETL是指从一个或多个数据源抽取数据,经过一个或多个转换步骤后,物理地存储到目标环境中,目标环境通常是数据仓库。
ETL是data integration中的一种而已。
1、抽取:一般抽取过程需要连接到不同的数据源,以便为随后的步骤提供数据。这一部分看上去简单而繁琐,实际上它是ETL解决方案成功实施的一个主要障碍。
2、转换:在抽取和加载之间的,任何对数据的处理过程都是需要转换。这些处理过程通常包括(但不局限于)下面的这些操作:
移动数据
根据规则验证数据
数据内容和数据结构的修改
集成多个数据源的数据
根据处理后的数据计算派生值和聚集值
3、加载:将数据加载到目标系统的所有操作。
一图胜千言!
数据仓库典型架构图
在上图中,有多个业务源系统,一个数据中转区,一个保存了所有历史数据的数据仓库和多个可以由终端用户访问的数据集市。
这些组成部分都是由数据整合过程来完成的,就是上图中显示的ETL。
在源系统和数据仓库之间,有一个数据中转区,也可以叫做数据缓冲区。它仅用来快速地从源数据系统中获取数据,并暂时保留这些数据。它不一定是一个数据仓库,在很多情况下,将数据保存在ASCII文件中比插入数据库表中还要快。
ELT和ETL的区别
ELT,(即抽取、加载和转换的简称),在同ETL在数据整合的方法上有略微不同。在ETL的情况下,数据首先从源数据(可能是多个)进行抽取、加载到目标数据库中,再转换为所需的格式。所有大数据量处理全部放在目标数据库中进行。这种做法的好处在于,一般情况下,数据库系统更适合处理负荷在百万级以上的数据集成。
ELT工具需要知道,如何使用目标数据库平台和相应的SQL语言。这就是在市面ELT解决方案较少的原因,类似Kettle这样的通用ETL工具也同样缺少这些功能。
EII是虚拟数据整合,为什么要提出呢?因为啊,ETL和ELT都属于物理数据整合。即都是以物理方式将数据从OLTP移动或复制到数据仓库。
有些情况啊,没有必要移动或复制数据。实际上,大多数用户并不关心ETL过程和数据仓库:他们只是想获得他们想要的数据!好比,我把上图比喻成饭店的厨房吧,我作为一个顾客并不关心饭菜是如何做出的,我只是希望能准时并且味道口可就行,什么厨房里发生事情跟我顾客身份无关。
那么,这个生活里的道路,也适合在数据仓库里:即有些用户并不关心数据是如何处理的,他们紫红色想快速而容易访问到数据就行。
即,除了属于物理数据集成方式里的ETL和ELT外,还有属于虚拟数据集成方式的EII。
虚拟数据集成和物理数据集成的比较
当然,我这系列博客,是定位于Kettle,目前最流行、功能最强大的数据整合工具是Kettle,也被称为Pentaho Data Integration。
本文转自大数据躺过的坑博客园博客,原文链接:http://www.cnblogs.com/zlslch/p/6906809.html,如需转载请自行联系原作者
数据仓库、数据整合、ETL、ELT和EII之间的区别?相关推荐
- 【原创】BI解决方案选型之ETL数据整合工具对比
[原创]BI解决方案选型之ETL数据整合工具对比 参考文章: (1)[原创]BI解决方案选型之ETL数据整合工具对比 (2)https://www.cnblogs.com/xiongnanbin/p/ ...
- 数据集成--ETL工具
背景:不同平台都可以获得用户,这些用户之间可能是交叉重复,比如你之前在A平台注册了,后来你又在B平台注册了.而不同的平台存储数据的表结构,表字段可能不同.最有代表性的,美团合并了大众点评,两家外卖平台 ...
- 如何实现多源异构系统数据整合?
在信息化建设过程中,由于各业务系统建设和实施数据管理系统的阶段性.技术性以及其它经济和人为因素等因素影响,导致企业在发展过程中积累了大量采用不同存储方式的业务数据,包括采用的数据管理系统也大不相同,从 ...
- 新数据整合的五大方式
导读:数据整合将是2011年信息技术的重点.无论你的兴趣是商业智能.信息访问还是运营,这些都与客户资料.交易.产品与竞争信息.网络博客等企业数据有着千丝万缕的联系,你需要从日益增长的如潮水一般的社交/ ...
- 详解数据仓库数据湖及湖仓一体
随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断.有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性. ...
- 大数据测试之ETL测试入门
概述 在我们学习ETL测试之前,先了解下business intelligence(即BI)和数据仓库. 什么是BI? BI(Business Intelligence)即商务智能,它是一套完整的解决 ...
- 数据平台发展史-从数据仓库数据湖到数据湖仓
数据平台发展史-从数据仓库数据湖到数据湖仓 做数据的同学经常听到一些数据相关的术语,常见的包括数据仓库,逻辑数据仓库,数据湖,数据湖仓/湖仓一体,数据网格 data mesh,数据编织 data fa ...
- 用IBM WebSphere DataStage进行数据整合: 第 1 部分
转自:http://www.ibm.com/developerworks/cn/data/library/techarticles/dm-0602zhoudp/ 引言 传统的数据整合方式需要大量的手工 ...
- 一篇文章搞懂数据仓库:常用ETL工具、方法
目录 一.什么是ETL? 二.ETL & ELT 三.常用的ETL工具 3.1 sqoop 3.2 DataX 3.3 Kettle 3.4 canal 3.5 StreamSets 四.ET ...
最新文章
- 拷贝 var lib mysql 备份_mysql复制与备份
- python3 [装饰器] 总结
- Python知识整理_1
- php 5.3新增的闭包语法介绍function() use() {}
- 卷积神经网络对咖啡病虫害识别和分割(分割+分类,病害严重程度详细)
- poj3349找相同的雪花(哈希)
- Cefsharp入坑实操
- handler机制及使用场景
- VS2017安装并配置VTK
- 在elementUI中sort-orders排序,默认为三种,怎么改成两种
- day16 Java 集合
- layui导出Excel功能的两种方式的尝试
- ios 穿山甲广告联盟集成_穿山甲广告集成支持IOS14
- Android facebook集成
- 视频剪辑用计算机,用于视频剪辑的笔记本电脑,我们都有哪些选择
- Word文档中文繁体简体的转换
- python鱼眼图像识别_使用OpenCV校准鱼眼镜头的方法
- 电压采样,输出有效值
- 【项目总结】stm32红外循迹蓝牙超声波小车
- 如何正确的找到合适的固码呢
热门文章
- Cisco Firepower App for Splunk
- where 1=1永真与永假
- Python数学实验与建模 课后习题第5章解析
- 远程连接桌面到ubuntu登录闪退
- oracle apex接口文件,Oracle Apex 实用笔记系列 2 - 文件上传管理
- 试试程序员专用字体CascadiaCode支持连字体
- WebAssembly emscripten工具链的搭建
- npm install报错:EPERM: operation not permitted
- Python制作小软件——1. 安装并使用PyQt5进行界面设计
- 国内外GIS流行软件之概述