《数据挖掘》国防科技大学
《数据挖掘》青岛大学
《数据挖掘与python实践》

数据挖掘之数据预处理

1. 数据清洗 Data Cleaning

数据清洗:缺失值、噪声数据、离群点、不一致数据
(1)对于丢失数据:

  • 忽略元组(对象),特别是缺少类标签时
  • 删除缺失值比例较大的属性
  • 手动补全:麻烦
  • 自动插值:均值、众数等
    (2)对于噪声数据和离群点:
  • 识别噪声数据并去除:聚类、回归
  • 使用箱线图检测离群点并删除
  • 平滑噪音以降低噪声数据的影响:分箱法binning、概念分层
    分箱法:
     按箱平均值平滑
     按箱中值平滑
     按箱边界平滑

    (3)对于不一致数据
    计算推理、替换、全局替换

2. 数据集成

数据集成:整合多个数据库、多维数据集或文件
(1)模式集成:统一同一含义的字段名
(2)实体识别:统一同一对象的不同称呼
(3)数据冲突和解决:统一单位
(4)冗余信息处理:相同对象或属性的不同名称、表征同一特征的多个属性

  • 相关性分析
    ① 卡方检验——离散变量——越大越相关


    观测值(期望值),期望值=行合计×列合计/总数
    ② 相关系数(皮尔逊相关系数)——连续变量——越大越相关
  • 协方差分析

3. 数据缩减

数据缩减/规约/压缩:降维、降数据
➢用于数据归约的时间不应当超过或“抵消”在归约后的数据集上挖掘节省的时间。
➢归约得到的数据比原数据小得多,但可以产生相同或几乎相同的分析结果。
(1)降维/维归约(检测并删除不想管、弱相关或冗余的属性维)

  • 主成分分析PCA(将多个相同的属性合并成一个)
    计算花费低,可以用于有序和无序的属性,并且可以处理稀疏和倾斜数据。
  • 属性子集选择
    属性子集选择的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性的原分布。通常使用压缩搜索空间的启发式算法,策略是做局部最优选择,期望由此导致全局最优解。
    ① 逐步向前选择
    该过程由空属性集开始,选择原属性集中最好的属性,并将它添加到该集合中。在其后的每一次迭代,将原属性集剩下的最好的属性添加到该集合中。
    ② 逐步向后删除
    该过程由整个属性集开始。在每一步,删除掉尚在属性集中的最坏属性。如:粗糙集理论
    ③ 向前选择和向后删除的结合
    将向前选择和向后删除方法结合在一起;
    每一步选择一个最好的属性,并在剩余属性中删除一个最坏的属性。
    ④ 判定树归纳
    判定树归纳构造一个类似于流程图的结构,其每个内部(非树叶)节点表示一个属性上的测试,每个分枝对应于测试的一个输出;每个外部(树 叶)节点表示一个判定类。在每个节点,算法选择“最好”的属性,将数据划分成类。
  • 数据立方体聚集

    (2)降数据:数据规模太大时
  • 简单抽样:放回/不放回随机抽样
  • 分层抽样:先分层后取样
  • 聚类抽样:先聚类后取样
    (3)数据压缩
  • 无损压缩
  • 有损压缩
    小波变换:
    可用于多维数据;对于稀疏或倾斜数据和具有有序属性的数据,小波变换可以给出很好的结果。
    主成分分析

4. 数据转换和数据离散化

规范化、离散化、生成概念层次结构
(1)规范化

  • 最小最大规范化
  • Z得分规范化:书用于分布不变的流式数据
  • 小数定标规范化

    移动位数依赖于最大绝对数
    (2)离散化
  • 非监督离散
    • 等宽法:根据属性的值域划分,每个区间的宽度相等
    • 等频法:根据取值出现的频数划分,并要求落在每个区间的样本数目相等
    • 聚类:利用聚类将数据划分到不同的离散类别
  • 有监督离散
    • 基于熵的离散化

    • ChiMerge方法:合并相邻小区间为大区间,基于统计量卡方检验实现


      (3)数据概化:使用概念分层用更抽样的概念取代低层次或数据层的数据对象。
      如数值型的年龄属性映射到年轻、中年和老年。
      如街道属性繁华到更高层次的城市、国家等。

数据挖掘——数据预处理相关推荐

  1. 数据挖掘 —— 数据预处理

    数据挖掘 -- 数据预处理 1. 数据清洗 2. 特征预处理 2.1 特征选择 2.2 特征变换 3 特征降维 1. 数据清洗 数据清洗包括数据样本抽样和异常值(空值)处理 直接丢弃(包括重复数据) ...

  2. 数据挖掘-数据预处理的必要性及主要任务

    数据预处理的必要性及主要任务 1.数据预处理的必要性 数据库极易受噪声.缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异构数据源.低质量的数据导致低质量的数据挖掘. 2.数据预处理技术 ( ...

  3. Python数据挖掘 数据预处理案例(以航空公司数据为例)

    Python数据预处理 一.内容: 1.数据清洗 2.数据集成 3.数据可视化 二.实验数据 根据航空公司系统内的客户基本信息.乘机信息以及积分信息等详细数据,依据末次飞行日期( LAST_FLIGH ...

  4. 数据挖掘—数据预处理

    文章目录 数据预处理 1 数据清洗 缺失值处理 异常值处理 2 数据集成 实体识别 冗余属性识别 数据变换 简单函数变换 规范化 连续属性离散化 属性构造 3 数据规约 属性归约 数值归约 Pytho ...

  5. 机器学习与数据挖掘——数据预处理

    如果有兴趣了解更多相关内容,欢迎来我的个人网站看看:瞳孔空间 一:关于数据预处理 在工程实践中,我们得到的数据会存在有缺失值.重复值等,在使用之前需要进行数据预处理.数据预处理没有标准的流程,通常针对 ...

  6. 文本数据挖掘----数据预处理

    一.数据预处理简介 1.为什么要进行数据预处理 一开始拿到的数据在数据的质量方面或多或少有一些问题,即在数据的准确性.完整性.一 致性.合时性(实时性).可信性.解释性等方面可能存在问题,所以需要数据 ...

  7. 数据挖掘数据预处理(验证性)

    一.背景 软件:python 实验内容: (选做)使用Pandas_datareader获取任意两支股票近三个月的交易数据.做出收盘价的变动图像. 使用Pandas_datareader获取世界银行数 ...

  8. 【数据挖掘】分类任务简介 ( 分类概念 | 分类和预测 | 分类过程 | 训练集 | 测试集 | 数据预处理 | 有监督学习 )

    文章目录 I . 分类概念 II . 分类 ( 离散值 ) 和 预测 ( 连续值 ) III . 分类过程 IV . 分类过程中使用的数据集 ( 训练集 | 测试集 | 新数据 ) V . 数据预处理 ...

  9. 【数据挖掘笔记三】数据预处理

    3.数据预处理 数据预处理技术: 数据清理用来清除数据中的噪声,纠正不一致: 数据集成将数据由多个数据源合并成一个一致的数据存储,如数据仓库: 数据归约通过如聚集.删除冗余特征或聚类来降低数据的规模: ...

  10. 插值法补齐缺失数据_数据挖掘非常重要的一步:数据预处理

    为什么数据处理很重要? 对数据挖掘熟悉的小伙伴,数据处理相关的工作时间占据了整个项目的70%以上.数据的质量,直接决定了模型的预测和泛化能力的好坏.它涉及很多因素,包括:准确性.完整性.一致性.时效性 ...

最新文章

  1. Firefox下http协议监测工具LiveHttpHeaders
  2. VTK:可视化算法之ExponentialCosine
  3. /hbase/WALs/desktop,xxxxxxxx-splitting is non empty: Directory is not empty
  4. gkz cloud sql_使用Cloud SQL的Google App Engine全文搜索
  5. SpringCloud Stream消息驱动
  6. (精)【ACM刷题之路】POJ题目详细多角度分类及推荐题目
  7. MIX 2008与ASP.NET MVC框架的Road-Map
  8. Js中Currying的应用
  9. python必备基础代码-python基础知识和练习代码
  10. qt4--qt5引用头文件区别
  11. Web项目常用技术整理
  12. .NET Interop.SHDocVw和MSHTML引用如何操作
  13. Socket TCP Ping使用小结
  14. 颜色选择器(拾色器)
  15. Django模型层(2)
  16. IDEACPU占用100%_卡顿 解决办法
  17. Windows文件搜索工具(文件、文件夹、文件内容搜索,支持大小写、全字、正则表达式搜索条件)
  18. bower报错:EINVALID Name must be lowercase, can contain digits, dots, dashes, @ or spaces
  19. 面经-【兴业证券】【京东】【网易】
  20. cairo填充_Cairo图形指南

热门文章

  1. 俞敏洪:把眼前的做好,一切就都好了
  2. mysql 管理工具—phpmyadmin docker 版使用
  3. 写烂代码的人离职之后...
  4. 《人.地.城》读书笔记
  5. 解决被卡巴斯基提示说KEY被列为黑名单
  6. Java实现的各种排序算法
  7. elipse下载及安装
  8. python安装包的路径
  9. 服务器群晖系统安装,使用电脑为群晖NAS安装DSM操作系统
  10. lopatkin俄大神精简中文系统 DREY PIP MICRO BOX LITE区别