最近在看Ralph Kimball写的数据仓库ETL工具箱,虽说这本书距今看历史悠久,有些架构和设计可能也不符合现在互联网公司的架构要求,但是就我自己来说技术这东西我还是喜欢从头看起。一种技术的从无到有再到“家喻户晓,没他不行”的状态,定经历了需求——实现——问题——解决问题——越来越多的问题——颠覆性变革——主流产品,这么个过程。凡事知其因才能晓其果。当让,就职场而言,一种技术只要你会运用能掌握,面试的时候人本家问你的时候能遮过去,干活的时候能对付上就够了。再不济能根据公司的业务场景修修改改,弄个开源放到社区,那您就是大佬了。但要说如何决定这项技术的未来,那您还必须得了解它的过去。就这方面而言,Ralph Kimball这老爷子可以说是DW和BI领域的头沟了。或许有些大佬认为数仓时BI中的一部分或者说是业务分支,不能说您说的不对,但是我jiao(三声)着还是得看从哪个维度来论了。就现阶段互联网技术得发展,要是从大数据这个维度来看,无疑数仓是主导,从这样的架构来看,BI只是上层业务中的一种;但要说从一个数据分析型的业务来看,您还别说,无论您下面是数据仓库还是数据湖,还真都是为了上层BI服务的。总结来说,技术无大小,看您怎么用。

什么是ETL?

E:EXTRACT(抽取)

T:TRANSFORM(转换)

L:LOAD(加载)

ETL是对数据进行处理的一套工具集,不是某个产品,不是某种理论,是实实在在的程序化工具。ETL的作用是将业务系统的数据从底层数据库抽取,通过对数据的处理(清洗、转换),将处理好的数据加载到数据仓库中,统一数据标准,为企业提供决策性的信息。

ETL的作用在于:

  1. 消除数据错误并纠正缺失数据
  2. 提供对于数据可信度的文档化衡量
  3. 为保护数据获取相互作用的数据流程
  4. 把多个源数据整合到一起
  5. 将数据进行结构化供最终用户使用

由于不了解ETL的实现过程,所以上述的作用看着有点懵B,我们来逐条解释一下,由于比较懒,所以直接用序号代替每一条了。

1的意思是说,我们从数据源(一般是源系统的数据或者其它非结构化的数据,比如日志之类的)获得的数据可能存在错误,比如获取callcenter系统的记录中只有客户手机号没有客户姓名,或者同一个手机号的客户姓名不同(系统设计时用手机号和姓名做联合业务主键)这样的数据就属于缺失的数据和错误的数据,需要向业务部门确认,修改或补全记录后再进行抽取。2的情景是,比如从ECP系统中获取的客户生日是‘1900-01-01’,对应的订单信息该客户经常购买时装、3C产品、化妆品等。那么这位“百岁老人”的生活确实挺潮啊。我们还是需要向业务确定信息是否可信,并且确定可信数据的指标,比如生日在什么范围内才是有效的客户信息,可以作为E的抽取标准;3这条描述有点纠结,书中并没有详细的解释,但是我个人的理解因该就是为了怕数据在系统流程中被消耗或变形而获取的血缘关系,没错,指的就是我们常听到的数据血缘关系。4的意思就是企业中存在很多业务系统,相应的由不同业务系统会获取的相同的业务信息,比如CRM中客户相关的信息和ECP中客户相关的信息就有部分的重叠,ETL需要把重叠部分的信息统一整合。5理解起来就相对简单了,最终用户要么指的是数据分析师,要么指的是BI或其它的业务系统,这些“最终用户”的信息都是从“数据集市”获取的,数据集市呈现给“最终用户”的就是结构化数据。

ETL的两条主线

ETL的工作应改具备两条主线:

  1. 规划和设计主线:需求/现状 -> 架构 -> 实现 -> 测试/发布
  2. 数据流主线:抽取 -> 清洗 -> 规格化 -> 提交

两条主线的具体内容和匹配关系留到下一篇再介绍,写博客应该和听评书一样,留个扣子让自己长寿!

数据仓库ETL工具箱——简介相关推荐

  1. 数据仓库ETL工具箱——实时ETL系统

    建立实时ETL数据仓库的解决方案需要理解不同的整合技术,这个领域体现了具有新技术.新方法.新词汇的全新理念.通过选择合适的实时ETL技术.特征.方法来指导专业实验数据仓库构建实时ETL的四个过程: 调 ...

  2. 数据仓库ETL工具箱——清洗和规范化(一)

    在ETL系统中,数据的抽取和加载只是改变了数据的格式和数据的位置,而真正改变数据价值的恰恰是清洗和规范化的步骤,这对于数据能否用于预期目标起了决定性的作用.清洗和规范化包含三个重要的可提交内容: 数据 ...

  3. 数据仓库ETL工具箱——元数据

    由于ETL是数据仓库得核心,时常承担着管理和存储数据仓库大量元数据得职责.在数据仓库中ETL处理程序是元数据最重要得创建者--数据沿袭.数据沿袭追踪数据从源系统和文件中得请确位置直到最终被装载之前.数 ...

  4. 字节大数据手册火了 ! 离线数据/实时数据/数据仓库ETL/实时交易系统/啥都有 !...

    最近有幸在一位字节跳动大数据高级工程师手里扒到了这份学习笔记,将部分知识章节发布到了在B站上竟然获得了5000+点赞! 本来想将文件上传到github上,但由于文件太大有的都无法显示所以直接整理成多个 ...

  5. python名词解释数据仓库_python实现数据仓库ETL

    通常讲的数据仓库ETL, 可以分为ETL和ELT两种实现方式.  ELT是在加载到仓库后, 再做数据转换.  ETL 是在加载之前完成转换, 落地的数据就是转换后的样子了. ELT多使用在MPP架构的 ...

  6. 清晰的数据仓库ETL流程(有干货)

    数据仓库ETL流程 整体思路 具体步骤 1.工具 2.流程 3.小结 总结 整体思路 要想开发一个完整的数据仓库etl流程必须先从整个项目的结构层次入手,逐个剖析每一层的程序,在纸上画出整个的流程图, ...

  7. Matlab符号处理工具箱简介

    Matlab符号推理工具箱简介 一,微积分... 2 diff: 2 int: 3 limit:... 3 symsum:... 4 taylor: 4 二,线性代数... 4 det 4 diag. ...

  8. 大数据学习——基于大数据平台的数据仓库ETL基本思路

    大数据平台数据仓库ETL基本思路 ETL工具 开源工具: Sqoop:Hadoop(hive)和关系型数据库之间传输数据的开源ETL工具. Beeline:hive客户端工具,基于SQLline的JD ...

  9. MATLAB 图像处理工具箱简介

    前言 MATLAB提供的工具箱种类很多,设计的应用领域也很广,利用这些工具箱可以很方便的实现所需要的计算.分析.处理.可视化和算法设计等功能. 一.MATLAB自带的图像处理工具箱简介 https:/ ...

  10. 数据仓库ETL之DataX(一)简介

    简介 ETL,使用ETL工具将数据从数据源端(Extracting,Transform,Loading),抽取,传输,加载同步到目标端的过程. dataX是阿里巴巴内部被广泛使用的离线数据同步工具,实 ...

最新文章

  1. JAVA中的并发工具 -- CountDownLatch、CyclicBarrier、Semaphore
  2. xftp permission is not allowed
  3. EIgen:Matricx和vector类的定义和使用
  4. iText in Action 2nd5.4节(Adding page events to PdfWriter)读书笔记
  5. 精通 Oracle+Python 系列
  6. 【今日CV 计算机视觉论文速览 第126期】Thu, 6 Jun 2019
  7. 面试被问项目上线没_从面试官角度谈观察到的程序员技能瓶颈
  8. c语言进程调度报告,操作系统C进程调度算法实验报告
  9. dlibdotnet 人脸相似度源代码_C#开发的人脸左右相似度计算软件源码分析
  10. 每年考证时间表(绝对有用)
  11. 利用python构建马科维茨_Markowitz投资组合之Python模拟
  12. 编程方式实现Excel转为JPG/PDF等格式
  13. [转]铁路客车列车座位分布
  14. winsxs是什么文件夹 Winsxs文件夹可以删除吗
  15. 内存测试内存检测工具
  16. FirmAE安装指北
  17. 南卡A2降噪耳机开箱测评:降噪实力派
  18. 消息队列如何保证消息的幂等性
  19. 计算机方面的英语文章300字,关于电脑作文300字5篇
  20. C/C++ 回调函数的使用

热门文章

  1. 最新MT2503平台技术资料集锦
  2. mtk屏幕背光默认时间修改
  3. Windows如何查看.db数据库文件
  4. TCP/IP 报文格式(IP数据包、TCP报头、UDP报头)
  5. 求100以内的所有素数
  6. python画正弦函数_python 图像处理画一个正弦函数代码实例
  7. php实现高并发解决方案
  8. linux a7 a8,iOS12 A7/A8 固定Generator值 图文教程
  9. python 执行dos命令_对python中执行DOS命令的3种方法总结
  10. Windows上Dos命令操作文件及文件夹