《数据挖掘:概念与技术(原书第2版)》

2.4 数据集成和变换

数据挖掘经常需要数据集成—合并来自多个数据存储的数据。数据还可能需要转换成适于挖掘的形式。本节介绍数据集成和数据变换。

2.4.1 数据集成

Ø 数据分析任务多半涉及数据集成。数据集成合并多个数据源中的数据,存放在一个一致的数据存储(如数据仓库)中。这些数据源可能包括多个数据库、数据立方体或一般文件。

Ø 在数据集成时,有许多问题需要考虑。模式集成和对象匹配可能需要技巧。来自多个信息源的现实世界的等价实体如何才能匹配?这涉及实体识别问题。例如,数据分析者或计算机如何才能确信一个数据库中的customer_id和另一个数据库中的cust_number指的是相同的属性?每个属性的元数据包括名字、含义、数据类型和属性的允许取值范围,以及处理空白、零或null值的空值规则(见2.3节)。这样的元数据可以用来帮助避免模式集成的错误。元数据还可以用来帮助变换数据(例如,pay_type的数据编码在一个数据库中可以是“H”和“S”,而在另一个数据库中是1和2)。因此,这一步也与前面介绍的数据清理有关。

Ø 冗余是另一个重要问题。一个属性(如年收入)可能是冗余的,如果它能由另一个或另一组属性“导出”。属性或维命名的不一致也可能导致结果数据集中的冗余。

Ø 有些冗余可以被相关分析检测到。给定两个属性,这种分析可以根据可用的数据度量一个属性能在多大程度上蕴涵另一个。对于数值属性,通过计算属性A和B之间的相关系数(又称皮尔逊积矩系数(Pearson product coefficient),用发明者Karl Pearson的名字命名),我们可以估计这两个属性的相关度rA,B。即

Ø 注意,相关并不意味因果关系。也就是说,如果A和B是相关的,这并不意味A导致B或B导致A。例如,在分析人口统计数据库时,我们可能发现一个地区的医院数与汽车盗窃数是相关的。这并不意味一个导致另一个。实际上,二者必然地关联到第三个属性—人口。

Ø 统计检验假设A和B是独立的。检验基于显著水平,具有(r-1)×(c-1)自由度。如果可以拒绝该假设,则我们说A和B是统计相关的或关联的。

Ø 数据语义的异构和结构对数据集成提出了巨大挑战。由多个数据源小心地集成数据能够帮助降低和避免结果数据集中的冗余和不一致。这有助于提高其后挖掘过程的准确率和速度。

2.4.2数据变换

Ø 数据变换将数据转换或统一成适合于挖掘的形式。数据变换可能涉及如下内容:

光滑:去掉数据中的噪声。这种技术包括分箱、回归和聚类。

聚集:对数据进行汇总或聚集。例如,可以聚集日销售数据,计算月和年销售量。通常,这一步用来为多粒度数据分析构造数据立方体。

数据泛化:使用概念分层,用高层概念替换低层或“原始”数据。例如,分类的属性,如街道,可以泛化为较高层的概念,如城市或国家。类似地,数值属性如年龄,可以映射到较高层概念如青年、中年和老年。

规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0~1.0或0.0~1.0。

属性构造(或特征构造):可以构造新的属性并添加到属性集中,以帮助挖掘过程。

Ø 通过将属性值按比例缩放,使之落入一个小的特定区间,如0.0~1.0,对属性规范化。对于涉及神经网络或距离度量的分类算法(如最近邻分类)和聚类,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘(见第6章),对于训练元组中量度每个属性的输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性(如income)与具有较小初始值域的属性(如二元属性)相比权重过大。

转载于:https://www.cnblogs.com/itolssy/archive/2008/08/04/1260392.html

读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.4 数据集成和变换相关推荐

  1. 【读书笔记-数据挖掘概念与技术】数据立方体技术

    基本概念: 基本单元:基本方体的单元 聚集单元:非基本方体的单元 冰山立方体:部分物化的立方体 最小支持度(最小支持度阀值):部分物化的最小阀值(说白了就是限定了一个范围) ∵冰山立方体仍有大量不感兴 ...

  2. 【读书笔记-数据挖掘概念与技术】聚类分析:基本概念和方法

    下图摘自:http://blog.163.com/qianshch@126/blog/static/48972522201092254141315/ 主要的聚类方法可以划分为以下几类: 划分方法 层次 ...

  3. 【读书笔记-数据挖掘概念与技术】数据挖掘的发展趋势和研究前沿

    复杂的数据类型 数据挖掘的其他方法 关于数据挖掘基础的观点: 可视和听觉数据挖掘 数据可视化 数据挖掘结构可视化 数据挖掘过程可视化 交互式可视数据挖掘 数据挖掘的应用 转载于:https://www ...

  4. 【读书笔记-数据挖掘概念与技术】分类:高级方法

    贝叶斯信念网络 这个贝叶斯信念网络和上一章学的朴素贝叶斯分类,最大的不同点在于: 朴素贝叶斯分类法假定类条件独立,即给定元组的类标号,假定属性的值可以条件地相互独立.这一假定简化了计算. 贝叶斯信念网 ...

  5. 【数据挖掘概念与技术】学习笔记5-数据立方体技术

    基本方体是数据立方体中泛化程度最低的方体.泛化程序最高的方体是顶点方体,通常用all表示.基本方体的单元是基本单元,非基本方体的单元是聚集单元. 聚集单元在一个或多个维上聚集,其中每个聚集维用单元记号 ...

  6. 数据挖掘概念与技术课后笔记

    数据挖掘概念与技术一 数据爆炸:自动数据收集工具和成熟的数据库技术使大量的数据被收集,储存在数据库.数据仓库或其他信息库中以待分析. 数据挖掘:从大量的数据中挖掘令人感兴趣的.有用的.隐含的.先去未知 ...

  7. 【读书笔记】【WebKit技术内 幕(二)】Chromium Webkit资源加载与网络栈、DOM树、HTML解释器、影子DOM、CSS解释器和样式布局、网页层次与渲染、绘图上下文、

    文章目录 前言 Something great 第4章 资源加载和网络栈 Webkit 资源加载 Chromium多进程资源加载 Chromium 网络栈 第5章 HTML解释器和DOM模型 DOM模 ...

  8. 《微软的软件测试之道》读书笔记 之 结构测试技术

    <微软的软件测试之道>读书笔记 之 结构测试技术 2014-07-18 我们需要结构测试吗? 微软的一项试验说明了结构测试的在代码覆盖中起到的效果: 超过3000名测试员参与了这项实验,每 ...

  9. 知识图谱·概念与技术--第1章学习笔记--知识图谱概述--知识图谱的概念,与传统语义网络的区别

    知识图谱·概念与技术--第1章学习笔记--知识图谱概述--知识图谱的概念,与传统语义网络的区别 知识图谱的概念,与传统语义网络的区别 狭义概念 作为语义网络的内涵 与传统语义网络的区别 优点 缺点 与 ...

  10. 读书笔记:大数据清洗技术 02

    读书笔记:大数据清洗技术 作者:哈尔滨工业大学博导王宏志 第二章 大数据处理技术概述 上一章我们主要从大数据的定义及特征,大数据的质量问题,大数据清洗技术的进展和本书的技术创新点四个方面对这本书有了初 ...

最新文章

  1. thinkpad重装系统不引导_重装系统时,如何判断Windows的启动方式是Legacy还是UEFI?...
  2. 【个人随笔】准备整理整理以往的资料
  3. 通过示波器数据进行正弦信号参数估计
  4. 无论你在学什么语言,都能有小姐姐来陪着你一起学习!
  5. (转载) min()的宏定义中的(void) (_x == _y)的含义
  6. 西门子em235模块的功能_图文讲解PLC模拟量模块与传感器接线方法和注意事项
  7. Hamcrest 测试匹配框架
  8. 口碑点餐相关问题FAQ
  9. 【案例分析】PCB行业产业服务平台开发案例分析
  10. IxChariot测试网络设备性能
  11. 【Sharding-JDBC】 (五)整合mybatis-plus 解决分布式事务(基于XA)
  12. ThinkPad加装SSD固态硬盘/内存条 系统迁移
  13. 安全性设计之-ip白名单设计
  14. 千里之行,始于足下--致2013-2014上半年总结
  15. ERP系统标准功能模块
  16. 分享一个前两天写的自动监控blocking 的脚本(基于12C)
  17. 华为手机百度云息屏后停止下载_华为智选车载智慧屏评测:像手机一般好用,行车体验更便捷...
  18. Microsoft Excel 教程:如何在 Excel 中使用 XLOOKUP 函数?
  19. 乖离性暗机器人_乖离性百万亚瑟王超级妖 暗机器人攻略详解
  20. Telink之标准SDK的介绍_1

热门文章

  1. redis之adlist.c
  2. linux下各个头文件及作用总结
  3. 常考数据结构与算法:实现二叉树先序,中序和后序遍历
  4. Jmeter模拟不同带宽进行测试
  5. mdb导入SqlServer
  6. 入门学习webpack笔记
  7. 通过外部表改进一个繁琐的大查询
  8. SCCM 2012 R2实战系列之三:独立主站点部署
  9. 文本文件数据导入mysql注意事项
  10. Node.js webpack-dev-server配置命令的两种方式