数据抽取、转换和加载,装载(ETL)

(1)数据抽取:抽取是源数据进入数仓的第一步,每个业务系统不同,因此需建立不同的抽取。并进行下一步清洗。抽取目的,提供批处理服务(抽取流程启动,监控,作业调度抽取)、更标准化(业务数据源和数仓中数据类型统一)、过滤功能(保证数据质量)、数据适配(JDBC,ODBC,XML)等。

如图:

(2)数据清洗:保证数据符合数仓要求,清洗分两种:不同业务清洗规则不同,则可使用各自的清洗流程;不同业务清洗规则相同,则可以使用相同的清洗规则。编写清洗规则时,也可使用通用函数,减少重复工作。

数据修正:用固定算法或检查程序验证数据准确性

标准化:数仓数据统一

匹配合并:数据验证,重复数据验证,合并

(3)数据转换:对数据进行计算,根据业务需求的特点;对数据放大,添加额外信息;

(4)数据加载:将数据加载到目标表中,目标表可以是事实表,也可以是维度表。用代理键代替原来的主键

ETL的流程架构包括数据源,ODS缓冲层,ODS统一视图层,数据仓库(DW),数据集市(DM)

1)源数据抽取到ODS层

ODS按功能划分ODS缓冲层和ODS统一视图层。ODS缓冲层是数据临时存储的位置,与源数据保持一致。ODS统一视图层提供数据视图,数据源于缓冲层。源数据抽取到ODS层分为全量和增量,顾名思义。全量抽不过滤,增量抽粗略过滤。

2)ODS缓冲层抽取到统一信息视图层

除第一次全量抽取后继增量抽取,按照时间戳或者版本号。

3)ODS统一信息视图层抽取到DW

数仓数据涵盖很多,颗粒度低,细节高,定期刷新给数据集市提供更新的数据。

4)DW抽取到数据集市

特定的集合,是报表的数据来源。数仓的数据整合或计算然后被抽取到数据集市。

上述整个流程需要ETL,需要建立映射,以及ETL调度。

数据的加载:可以已时间戳作为加载条件;也可以以源表日志的信息作为对目标表作为数据加载的条件;也可以通过全表的方式进行加载,通过全表对目标表的每条数据进行比较,目标表不存在主键则插入,主键存在,比较其他字段,不同则进行更新。全表对比不需要对源数据进行修改,安全性高,但流程复杂,抽取效率低。

商业智能,数据仓库,ETL,数仓调度工具informatica介绍手账(三)相关推荐

  1. 商业智能,数据仓库,ETL,数仓调度工具informatica介绍手账(二)

    数据仓库 数据仓库定义:数据仓库是面向主题的.集成的.稳定的.反应历史变化的.随着时间的历史吧反应变化的数据集合. 数据仓库的特点: (1)面向主题:常规数据库主要是面向事务性处理,比如增删改查.数仓 ...

  2. 商业智能,数据仓库,ETL,数仓调度工具informatica介绍手账(一)

    商业智能 什么是商业智能?什么样的企业需要商业智能?大家知道商业银行所涉及的系统非常之多,银行网点也非常之多,每家网点现金流入.流出每天都是不一样的,那么银行面临的问题出现了,如何平衡各网点现金流? ...

  3. 数仓 调度_数仓调度研究-总论

    作为一个IT从业不满三年的菜鸟,可能写类似总结性的文章还是比较费力,但是我还是想尝试写一篇比较出色总结,那么我讲从数据调度N个方面依次详细讲述ETL调度问题. 回答内容如下: 1.什么是数据调度 2. ...

  4. 数据仓库(5)数仓Kimball与Inmon架构的对比

    数据仓库主要有四种架构,Kimball的DW/BI架构.独立数据集市架构.辐射状企业信息工厂Inmon架构.混合Inmon与Kimball架构.不过不管是那种架构,基本上都会使用到维度建模. Kimb ...

  5. 数据仓库(1)什么是数据仓库,数仓有什么特点

      本文原链接:什么是数据仓库,数仓有什么特点   数据仓库,简称数仓,英文名称为Data Warehouse,可简写为DW或DWH.数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战 ...

  6. 数据仓库(二) 数仓理论(重点核心)

    文章目录 数据仓库(二) 数仓理论(重点核心) 数仓分层 数据仓库分层 ODS层 DWD层 DWS层 DWT层 ADS层 数据仓库分层的好处 关系建模与维度建模 关系建模 维度建模 星型模型 雪花模型 ...

  7. 数据仓库(9)数仓缓慢变化维度数据的处理

      数据仓库的重要特点之一是反映历史变化,所以如何处理维度的变化是维度设计的重要工作之一.缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化,与数据增长较为快 ...

  8. 数据仓库(3)数仓建模之星型模型与维度建模

      维度建模是一种将数据结构化的逻辑设计方法,也是一种广泛应用的数仓建模方式,它将客观世界划分为度量和上下文.度量是常常是以数值形式出现,事实周围有上下文包围着,这种上下文被直观地分成独立的逻辑块,称 ...

  9. 数据仓库(7)数仓规范设计

    规范设计在这里取<大数据之路:阿里巴巴大数据实践>中的定义,这里记录一下本人对这一块自己的理解. 规范定义指以维度建模作为理论基础 构建总线矩阵,划分和定义数据域.业务过程.维度.度量 原 ...

最新文章

  1. 解决百度网盘(百度云)分享链接不存在失效、分享的文件已经被取消的问题
  2. 孙正义的软银愿景宫斗内幕:印度裔高管争宠,黑公关手段,设局桃色仙人跳...
  3. linux设置双屏拼接_双屏办公,用起来到底有多爽
  4. (8)操作系统安全机制之二
  5. javaScript DOM编程常用的方法与属性
  6. 年底要算绩效了,高校青椒有多难?
  7. 如何利用shell脚本和client-go实现自己的k8s调度器
  8. React-Router4按需加载
  9. 167. Two Sum II - Input array is sorted两数之和
  10. 零基础学python图文版-如何快速创建投票页面 | 腾讯问卷怎么用_什么值得买
  11. Undefined function 'conv2' for input arguments of type 'double' and attributes 'full 3d complex'.
  12. java t输出_java --输入输出
  13. Java后端技术概览
  14. Cydia怎样添加威锋源
  15. 不到两年的前端小白2017个人年终总结:今年的年终总结是为了更好的自己
  16. Math三点共线判断
  17. MySQL备库复制延迟的原因及解决办法
  18. 怎样将PPT文件进行压缩?这几步很简单
  19. 什么内网穿透?如何使用内网穿透?
  20. WSUS服务器不能下载补丁的最终解决办法

热门文章

  1. C语言 | C语言深度解剖 ——章节2 符号
  2. Jupyter notebook常用快捷键
  3. unity剩余高度自适应实现办法
  4. fatal: The remote end hung up unexpectedly解决办法
  5. 使用 AppFuse 的七个理由之二
  6. win101909要不要更新_win101909更新了哪些内容?Win10 1909千万别更新原因
  7. 电机分类-电机在高空作业平台中的应用
  8. 屏幕亮度无法调节问题解决
  9. 互联网高手教你如何搜集你想要的信息
  10. CnSeu社工库免费查询_ip代理-golang测试纯真ip库与免费版ipip.net库比较