ETL的四个基本过程.
转自:http://www.chinabi.net/blog/user1/lastwood/archives/2006/888.html
What are the four basic data flow steps of an ETL process?
答:
Kimball 数据仓库构建方法中, ETL的过程和传统的实现方法有一些不同, 主要分为4个阶段, 分别是抽取(extract), 清洗(clean), 一致性处理(comform) 和交付(delivery). 坚持ECCD.
1. Extract 阶段的主要任务是:
读取系统的数据模型.
连接并访问源系统的数据.
变化数据捕获
抽取数据到数据准备区.
2.clean阶段的主要任务是:
清洗并增补列的属性.
清洗并增补数据结构.
清洗并增补数据规则.
清洗并增补业务规则.
建立元数据库描述数据质量.
将清洗后的数据保存到数据准备区
3. comform阶段的主要任务是:
一致性处理业务标签, 即维度表中的描述属性.
一致性处理业务度量及性能指标, 通常是事实表中的事实.
去除重复数据.
国际化处理.
将一致性处理后的数据保存到数据准备区.
4.delivery阶段的主要任务是:
加载性行的和经过雪花处理的维度表数据.
产生日期维度.
加载退化维度.
加载子维度.
加载1.2.3型的缓慢变化维度.
处理迟到的维度和迟到的事实.
加载多值维度.
加载有复杂层级结构的维度表
处理事实表的代理键.
加载三个基本类型的事实性数据.
加载和更新聚集.
将处理好的数据加载到数据仓库.
从这个任务列表中可以看出, ETL的过程和数据仓库建模的过程结合的非常紧密. 换句话说, ETL系统的设计和目标表的设计同时开始. 通常来说, 数据仓库架构师和ETL系统设计师是同一个人.
ETL的四个基本过程.相关推荐
- mysql三次握手_一文彻底搞懂 TCP三次握手、四次挥手过程及原理
原创文章首发于公众号:「码农富哥」,欢迎收藏和关注,如转载请注明出处! TCP 协议简述 TCP 提供面向有连接的通信传输,面向有连接是指在传送数据之前必须先建立连接,数据传送完成后要释放连接. 无论 ...
- TCP三次握手、四次挥手过程及原理
TCP 协议简述 TCP 提供面向有连接的通信传输,面向有连接是指在传送数据之前必须先建立连接,数据传送完成后要释放连接. 无论哪一方向另一方发送数据之前,都必须先在双方之间建立一条连接.在TCP/I ...
- TCP三次握手和四次挥手过程
1.三次握手 (1)三次握手的详述 首先Client端发送连接请求报文,Server段接受连接后回复ACK报文,并为这次连接分配资源.Client端接收到ACK报文后也向Server段发生ACK报文, ...
- 经典面试题之 TCP三次握手 和 TCP四次挥手过程----详解
TCP三次握手过程: 第一次握手:建立连接时,客户端发送syn包(seq=j)到服务器,并进入SYN_SENT状态,等待服务器确认:SYN:同步序列编号(Synchronize Sequence Nu ...
- go tcp客户端自动重连_阿里面试: HTTP、HTTPS、TCP/IP、三次握手四次挥手过程?(附全网最具深度讲解)
前言 这段时间面试官都挺忙的,频频出现在博客文章标题,虽然我不是特别想蹭热度,但是实在想不到好的标题了-.-,蹭蹭就蹭蹭 :) 事实上我在阿里面试的时候确实被问到了这个问题,HTTP.HTTPS.TC ...
- 三次握手与四次挥手过程详解
三次握手与四次挥手过程详解 三次握手建立连接: 传输数据过程: 四次握手断开连接: 常见面试问题: TCP通信过程包括三个步骤:建立TCP连接通道,传输数据,断开TCP连接通道 上图主要包括三部分:建 ...
- 深入理解TCP三次握手与四次挥手过程以及抓包实验
一.前言 最近,我正好在做socket相关的实验,发现现在对计算机网络知识有一点点模糊,借此机会,熟悉一下TCP连接过程并利用WireShark工具进行测试. 二.TCP报文首部 源端口号:占16比特 ...
- 第七章 中子----中子源、应用、能量分类、探测四个基本过程
文章目录 中子源 应用 能量分类 探测四个基本过程 核反应法 核反冲法 核裂变法 核活化法 中子星:全是中子的物质:行星坍塌后,爆炸的冲击力使质子+电子–>中子,核内仅剩中子,密度极大:超流体, ...
- HTTP与HTTPS的区别, 以及SSL四次握手过程
超文本传输协议HTTP协议被用于在Web浏览器和网站服务器之间传递信息,HTTP协议以明文方式发送内容,不提供任何方式的数据加密,如果攻击者截取了Web浏览器和网站服务器之间的传输报文,就可以直接读懂 ...
最新文章
- 网络集中投射了全部安全问题
- export linux命令_linux 初级3 环境变量命令env、set、export、declare的区别
- 大数据算法:排位问题(2)
- boost::geometry::azimuth用法的测试程序
- leetcode340. 至多包含 K 个不同字符的最长子串
- Windows平台RTMP多实例推送探讨
- 三星Galaxy Note10配件图曝光:红蓝配色成焦点
- 菜鸟涂鸦作品展_No.1
- render注册一个链接组件_vue 动态加载并注册组件、 且通过 render动态创建该组件...
- 使用 SignalR与SSE(Sever sent event)向客户端推送提示信息
- 应用 Valgrind 发现 Linux 程序的内存问题
- 收敛数列有界的通俗理解
- 【淘宝装修】PS DW 介绍 教程 代码(终极篇)
- 高频变压器设计,可提供完整设计过程资料
- 神州数码无线配置命令
- ssm教务系统网站 毕业设计-附源码290915
- 问:全局变量是否可以定义在被多个.c文件包含的头文件.h中?
- python增加一列数据_使用Python向DataFrame中指定位置添加一列或多列的方法
- c语言人民邮电出版社课后答案,C语言程序设计教程(人民邮电出版社) 课后习题解答6-10...
- 智能物流仓储机器人|海格里斯HEGERLS货物夹抱式防倾倒装置四向穿梭车