抽取和提交数据虽然也很重要,但是只是传输和装载数据而已。

数据的清洗和归一化是ETL系统为数据增值的步骤,实际上改变了数据。

子系统4——数据清洗系统

主要用于修正脏数据,同时又希望数据仓库提供该数据的准确描述。

数据清洗的目标之一是提供一个用于数据清洗的综合架构,捕捉与数据质量相关的事件,同时在数据仓库中对数据质量进行度量并最终加以控制。

这一子系统的目标应当包括:

  • 对数据质量问题的早期诊断和鉴别分类(早期诊断)
  • 让源系统的集成工作提供更优质的数据(更优数据)
  • 具有为ETL过程中遇到的数据错误提供特定描述的功能(错误描述)
  • 具有能够随着时间推移捕捉所有数据质量错误和度量数据质量的框架(时间延续)
  • 对最终的质量可信度进行度量的附加功能(可信度评价)

子系统5——错误事件模式

记录质量筛选所抛出的每一个错误事件。

子系统6——审计维装配器

ETL系统在后台为每个事实表装配一个审计维(啥叫事实表,啥叫审计维)。

子系统7——重复数据删除系统

数据可能会来源于多个方面,有的信息可能会需要由多个业务信息和外部源中的信息合并而成。

存活(survivorship)是将一些列匹配的记录整合为同一的像(image),将匹配结果中质量最高的列整合称为一个一致行。

子系统8——一致化系统

一致化包括将维度中的某些或所有列和数据仓库其他部分的另一个相同或者相似的维度中的列进行对准所需的所有步骤。

比如发票和客户服务信息的源系统很可能来自于不同的客户数据库,因此这两个来源很难保证一致性。

一致化包括之前提到的一致性维度和一致性事实。

为了达到这个目的,需要对来自多个系统的数据进行整合和集成,使数据在结构上是一致的、不重复的,并且滤去了无效数据。

一致化过程的大部分工作是前面所阐述的删除重复结构、匹配和存活处理。

转载于:https://www.cnblogs.com/tuhooo/p/5418357.html

抽取、转换和装载介绍(五)抽取数据相关推荐

  1. Kettle实现数据抽取转换和装载工具运行及源代码编译

    Kettle标榜的就是绿色运行无安装,不过有些环境运行起来很麻烦,这里有一些相关的总结,希望可以帮助到使用Kettle十分崩溃的初学者,当然我也是其中之一.Kettle在Win7下有问题,建议直接重装 ...

  2. 抽取、转换和装载介绍(八)实时的意义(待续)

    越来越多的业务用户希望数据仓库能够全天候地持续更新,并且越来越对旧的数据无法忍受.创建一个实时的DW/BI系统需要为实时数据收集高度概括性的真实业务需求,并且确定一个恰当的ETL架构,将多种技术整合到 ...

  3. kettle详解(数据抽取、转换、装载)

    一:下载路径 当你要学习一个工具时,往往一开始就找不到下载路径,也不知道是为什么,连个官网都找不到,最后还是问的别人要的路径,做程序好心酸. http://community.pentaho.com/ ...

  4. 开放信息抽取(OIE)系统(五)-- 第四代开放信息抽取系统(基于深度学习, deeplearning-based, 抽取式生成式)

    开放信息抽取(OIE)系统(五)-- 第四代开放信息抽取系统(基于深度学习, deeplearning-based, 抽取式&生成式) 一.第四代开放信息抽取系统背景 第四代开放信息抽取系统的 ...

  5. pandas使用extract函数根据正则表达式从dataframe指定数据列的字符串中抽取出数字并生成新的数据列(extract numbers from column)

    pandas使用extract函数根据正则表达式从dataframe指定数据列的字符串中抽取出数字并生成新的数据列(extract numbers from column and generate n ...

  6. pandas任取dataframe中的一个或者多个数据行(head、tail、loc、iloc),将抽取到的一个或者多个数据行复制N次形成新的dataframe

    pandas任取dataframe中的一个或者多个数据行(head.tail.loc.iloc),将抽取到的一个或者多个数据行复制N次形成新的dataframe 目录

  7. osmosis抽取PBF矢量数据,导出xml格式数据

    osmosis 用于处理OSM数据的Java命令行应用程序,包括许多插件式的组件.比如读写数据库和文件的组件.继承和修改数据源的组件.对数据排序管理的组件等,避免了实现常用功能而重复性编写代码. 目前 ...

  8. IO流 (五) ----- 对象数据的序列化与反序列化

    相关文章: <IO流 (一) ----- 基本概念和File类> <IO流 (二) ----- 文件流> <IO流 (三) ----- 字符流和字符缓冲流> < ...

  9. SQL Server 2008空间数据应用系列五:数据表中使用空间数据类型

    友情提示,您阅读本篇博文的先决条件如下: 1.本文示例基于Microsoft SQL Server 2008 R2调测. 2.具备 Transact-SQL 编程经验和使用 SQL Server Ma ...

  10. WCF技术剖析之十五:数据契约代理(DataContractSurrogate)在序列化中的作用

    如果一个类型,不一定是数据契约,和给定的数据契约具有很大的差异,而我们要将该类型的对象序列化成基于数据契约对应的XML.反之,对于一段给定的基于数据契约的XML,要通过反序列化生成该类型的对象,我们该 ...

最新文章

  1. Linux下高并发socket最大连接数所受的各种限制
  2. 辍学的名人_我辍学去追求成为网络开发人员和设计师的梦想
  3. [转]wxODBC(wxWidgets)中使用驱动程序方式打开数据库
  4. SAP QM 事务代码QE01录入结果后回车,为啥不弹出Manual Valuation窗口?
  5. iOS基本UI控件总结
  6. html网页大小自动调整大小,根据电脑屏幕分辩率大小自动调整网页宽度
  7. AssertJ的SoftAssertions –我们需要它们吗?
  8. Android之Activity框架
  9. matlab绘制8条曲线,科学网—【Matlab】如何用plotyy对应坐标绘制多条曲线 - 叶瑞杰的博文...
  10. 戴尔网站的服务器,PowerEdge 11G R610机架式服务器
  11. Java 命令行运行参数大全
  12. t-testpython_Python-56 用numpy和scipy.stats 进行t-test检验 2020-09-05
  13. linux 备份到云存储空间,Ubuntu 使用教程- 自动备份Ubuntu 14.04到Box云存储上
  14. 主成分分析法(PCA方法)计算OBB包围盒
  15. 如何构建你的认知体系?查理芒格的100个思维模型
  16. 里程碑!家里的开发板能使用Dnspod的动态域名服务,稳定
  17. [批处理]在线获取双色球开奖结果历史数据
  18. JSP如何统计页面访问次数
  19. 【哈佛大学:计算生物学 生物信息学】学习记录(二)
  20. linux 分区数据恢复

热门文章

  1. SWIFT显示底部的工具条
  2. WinAPI: midiOutSetVolume - 设置 MIDI 输出设备的音量
  3. 关于chrome不能设置小于12px字体的问题
  4. Web.config常用节点解析:
  5. MyEclipse发布项目更改项目名
  6. android kk界面旋转流程_【技术浅析】基于Android的五轴联动数控系统设计
  7. open-falcon采集的一些指标及说明
  8. 课程《设计模式之美》笔记之关于面向对象与面向过程
  9. dell笔记本驱动安装失败_声卡驱动安装失败的解决方法
  10. 数据库与表的操作之创建表(CREATE TABLE)