文章目录

  • 1. 数据存在的问题
    • 1.1 原始数据存在的问题
    • 1.2 数据质量要求
    • 1.3 预处理主要任务
  • 2. 数据清洗
    • 2.1 空缺值处理
    • 2.2 噪声处理
  • 3. 数据集成
    • 3.1 集成过程中涉及的实体识别
    • 3.2 冗余问题
    • 3.3 检测冗余方法
  • 4. 数据归约
    • 4.1 数据归约的标准:
    • 4.2 数量归约:直方图
    • 4.3 数量归约:数据立方体
    • 4.4 数据归约——属性子集选择
    • 4.5 数据归约——抽样
    • 4.6 数量规约——聚类采样
    • 4.7 数量规约——分层取样
  • 5. 数据变化与数据离散化

1. 数据存在的问题

数据预处理是数据挖掘中的重要一环,而且必不可少。要更有效地挖掘出知识,就必须为其提供干净,准确,简洁的数据。

现实世界中数据常常是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。

1.1 原始数据存在的问题

  1. 数据的不一致(如单位)
  2. 噪声数据
  3. 缺失值

1.2 数据质量要求

准确性:数据记录的信息是否存在异常或错误。
完整性:数据信息是否存在缺失。
一致性:指数据是否遵循了统一的规范,数据集合是否保持了统一的格式
时效性:某些数据是否能及时更新
可信性:用户信赖的数据的数量
可解释性:指数据自身是否易于人们理解

1.3 预处理主要任务

  1. 数据清理(清洗):去掉数据中的噪声,纠正不一致。
  2. 数据集成:将多个数据源合并成一致的数据存储,构成一个完整的数据集,如数据仓库。
  3. 数据归约(消减):通过聚集、删除冗余属性或聚类等方法来压缩数据。
  4. 数据变换(转换):将一种格式的数据转换为另一格式的数据(如规范化)。

2. 数据清洗

数据清理就是对数据进行重新审查和校验的过程。其目的在于纠正存在的错误,并提供数据一致性。

  • 缺失值的处理;
  • 噪声数据;
  • 不一致数据。

2.1 空缺值处理

  1. 引起空缺值的原因:
    设备异常
    与其他已有数据不一致而被删除
    因为误解而没有被输入的数据
    在输入时,有些数据因为得不到重视而没有被输入
    对数据的改变没有进行日志记载
  2. 空缺值要经过推断而补上
  3. 如何处理空缺值
    1)忽略元组:
    若一条记录中有属性值被遗漏了,则将该记录排除在数据挖掘之外
    但是,当某类属性的空缺值所占百分比很大时,直接忽略元组会使挖掘性能变得非常差
    2)忽略属性列:
    若某个属性的缺失值太多,则在整个数据集中可以忽略该属性
    3)人工填写空缺值:
    工作量大,可行性低
    4)使用属性的中心度量值填充空缺值:
    如果数据的分布是正常的,就可以使用均值来填充缺失值
    如果数据的分布是倾斜的,可以使用中位数来填充缺失值。
    5)使用一个全局变量填充空缺值:
    对一个所有属性的所有缺失值都使用一个固定的值来填补(如“Not sure”或∞)。
    6)使用可能的特征值来替换空缺值(最常用):
    生成一个预测模型,来预测每个丢失值
    如可以利用回归、贝叶斯计算公式或判定树归纳确定,推断出该条记录特定属性最大可能的取值

2.2 噪声处理

  1. 噪声(noise) :被测量的变量产生的随机错误或误差:
    数据收集工具的问题
    数据输入错误
    数据传输错误
    技术限制
    命名规则的不一致
  2. 如何检测噪声数据
    1)基于统计的技术
    使用距离度量值(如马氏距离)来实现;
    给定p维数据集中的n个观察值

    数据挖掘——第三章:数据预处理相关推荐

    1. 【数据挖掘笔记三】数据预处理

      3.数据预处理 数据预处理技术: 数据清理用来清除数据中的噪声,纠正不一致: 数据集成将数据由多个数据源合并成一个一致的数据存储,如数据仓库: 数据归约通过如聚集.删除冗余特征或聚类来降低数据的规模: ...

    2. R语言学习(三)— 数据预处理

      第四章-数据预处理 4.1数据清洗 1.缺失值处理 2.异常值处理 4.2数据集成 1.实体识别 2.冗余属性识别 4.3 数据变换 1.简单函数变换 2.规范化 3.连续属性离散化 4.属性构造 4 ...

    3. c语言中,x-y,'105',ab,7f8那个是正确的,C语言程序设计_第三章 数据.ppt

      C语言程序设计_第三章 数据 * 运算符功能 与运算量关系 要求运算量个数 要求运算量类型 运算符优先级别 结合方向 结果的类型 学习运算符应注意 * 基本算术运算符: + - * / % 结合方向: ...

    4. 数据科学和人工智能技术笔记 三、数据预处理

      三.数据预处理 作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 为 Scikit-Learn 转换 Pandas 类别数据 # 导入所需的库 from sklearn ...

    5. 数据挖掘综合应用:数据预处理代码实战

      数据挖掘综合应用:数据预处理代码实战 在数据预处理的过程中主要包括两个部分:数据清洗和特征预处理. 数据清洗: 缺失值处理:一般包括去除或者填补两种方式. 填补方式主要有:均值.中位数.众数.回归分析 ...

    6. 【第二章 数据预处理】袁博《数据挖掘:理论与算法》

      目录 1 数据清洗 Outline 1.数据从哪里来? 2.为什么要做数据预处理? 3.缺失数据(Missing Data) 4.Outliers(离群点) 5.Anomaly(异常点) 2 异常值与 ...

    7. 【TL第二期】动手学数据分析-第二章 数据预处理

      文章目录 第二章 第一节 数据清洗及特征处理 第二节 数据重构1 第三节 数据重构2 第四节 数据可视化 第二章 第一节 数据清洗及特征处理 数据清洗:对于原始数据中的缺失值.异常值进行处理.相当于数 ...

    8. Python数据分析与挖掘第三章数据探索学习笔记

      一.数据质量分析: **意义:**数据质量分析是数据准备过程中重要的一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础. **主要任务:**检查原始数据中是否存在脏数据. **脏数据: ...

    9. 数据挖掘概念汇总及数据预处理

      数据挖掘简介 数据挖掘,顾名思义,就是在大量的数据中发现有用的信息,随着信息技术发展,每天都会产生大量的数据,可以说我们正处于一个大数据的时代.面对如此多的数据,传统的分析方法不再适用,这就需要我们用 ...

    最新文章

    1. 特殊的Windows消息
    2. LeetCode: Search a 2D Matrix
    3. Linux 跟踪进程对CPU的占用情况,对内存的占用情况
    4. java 更新对象_java通过key-list和对应value更新当前对象
    5. 极端懒惰:使用Spring Boot开发JAX-RS服务
    6. 微信公众平台PHP开发
    7. 【工具推荐】个人本地 markdown 知识图谱软件 Obsidian
    8. mac的word中添加带圆圈的数字
    9. CentOS下使用命令行Web浏览器Links
    10. 淘宝详情页排版布局怎么做?大神导航,一个神奇的网站,从此开启大神之路!
    11. 一文掌握python连接SQL Server,MySQL,MongoDB,Redis数据库
    12. java导入excel数据_java使用POI批量导入excel数据的方法
    13. 什么是Activity?Activity的生命周期!
    14. Java计算机毕业设计腾讯网游辅助小助手源码+系统+数据库+lw文档
    15. Unity 中国区总经理符国新:3D引擎开发
    16. hydra笔记-利用hydra暴力破解ssh弱口令
    17. 奥特曼系列赛文飞踢是哪个服务器,盘点奥特兄弟最强飞踢技,第一名实至名归你能猜到吗?...
    18. 工具条(Ext.Toolbar)
    19. 固定电话+手机号码 正则表达式
    20. 97岁诺奖得主的励志人生:本科学文学,博士转物理,54岁才开始锂电池研究

    热门文章

    1. 邮箱服务器满了foxmail,foxmail收件箱太满不能发邮件该怎么解决?
    2. 【头歌】求解n皇后问题
    3. 原创】OllyDBG 入门系列(一)-认识OllyDBG
    4. BIM、GIS、CIM等技术共同助力数字孪生城市的建设
    5. 【项目实战】Spring Cloud Gateway入门介绍 - 网关过滤器工厂
    6. 基于计算机视觉的智能交通监控系统
    7. java毕业设计汽车租赁系统mybatis+源码+调试部署+系统+数据库+lw
    8. 进销存管理系统—供货商管理
    9. 关于云端软件上安装matlab
    10. 推荐8个免费建站、域名或虚拟主机