数据挖掘——第三章:数据预处理
文章目录
- 1. 数据存在的问题
- 1.1 原始数据存在的问题
- 1.2 数据质量要求
- 1.3 预处理主要任务
- 2. 数据清洗
- 2.1 空缺值处理
- 2.2 噪声处理
- 3. 数据集成
- 3.1 集成过程中涉及的实体识别
- 3.2 冗余问题
- 3.3 检测冗余方法
- 4. 数据归约
- 4.1 数据归约的标准:
- 4.2 数量归约:直方图
- 4.3 数量归约:数据立方体
- 4.4 数据归约——属性子集选择
- 4.5 数据归约——抽样
- 4.6 数量规约——聚类采样
- 4.7 数量规约——分层取样
- 5. 数据变化与数据离散化
1. 数据存在的问题
数据预处理是数据挖掘中的重要一环,而且必不可少。要更有效地挖掘出知识,就必须为其提供干净,准确,简洁的数据。
现实世界中数据常常是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。
1.1 原始数据存在的问题
- 数据的不一致(如单位)
- 噪声数据
- 缺失值
1.2 数据质量要求
准确性:数据记录的信息是否存在异常或错误。
完整性:数据信息是否存在缺失。
一致性:指数据是否遵循了统一的规范,数据集合是否保持了统一的格式
时效性:某些数据是否能及时更新
可信性:用户信赖的数据的数量
可解释性:指数据自身是否易于人们理解
1.3 预处理主要任务
- 数据清理(清洗):去掉数据中的噪声,纠正不一致。
- 数据集成:将多个数据源合并成一致的数据存储,构成一个完整的数据集,如数据仓库。
- 数据归约(消减):通过聚集、删除冗余属性或聚类等方法来压缩数据。
- 数据变换(转换):将一种格式的数据转换为另一格式的数据(如规范化)。
2. 数据清洗
数据清理就是对数据进行重新审查和校验的过程。其目的在于纠正存在的错误,并提供数据一致性。
- 缺失值的处理;
- 噪声数据;
- 不一致数据。
2.1 空缺值处理
- 引起空缺值的原因:
设备异常
与其他已有数据不一致而被删除
因为误解而没有被输入的数据
在输入时,有些数据因为得不到重视而没有被输入
对数据的改变没有进行日志记载 - 空缺值要经过推断而补上
- 如何处理空缺值
1)忽略元组:
若一条记录中有属性值被遗漏了,则将该记录排除在数据挖掘之外
但是,当某类属性的空缺值所占百分比很大时,直接忽略元组会使挖掘性能变得非常差
2)忽略属性列:
若某个属性的缺失值太多,则在整个数据集中可以忽略该属性
3)人工填写空缺值:
工作量大,可行性低
4)使用属性的中心度量值填充空缺值:
如果数据的分布是正常的,就可以使用均值来填充缺失值
如果数据的分布是倾斜的,可以使用中位数来填充缺失值。
5)使用一个全局变量填充空缺值:
对一个所有属性的所有缺失值都使用一个固定的值来填补(如“Not sure”或∞)。
6)使用可能的特征值来替换空缺值(最常用):
生成一个预测模型,来预测每个丢失值
如可以利用回归、贝叶斯计算公式或判定树归纳确定,推断出该条记录特定属性最大可能的取值
2.2 噪声处理
- 噪声(noise) :被测量的变量产生的随机错误或误差:
数据收集工具的问题
数据输入错误
数据传输错误
技术限制
命名规则的不一致 - 如何检测噪声数据
1)基于统计的技术
使用距离度量值(如马氏距离)来实现;
给定p维数据集中的n个观察值数据挖掘——第三章:数据预处理相关推荐
- 【数据挖掘笔记三】数据预处理
3.数据预处理 数据预处理技术: 数据清理用来清除数据中的噪声,纠正不一致: 数据集成将数据由多个数据源合并成一个一致的数据存储,如数据仓库: 数据归约通过如聚集.删除冗余特征或聚类来降低数据的规模: ...
- R语言学习(三)— 数据预处理
第四章-数据预处理 4.1数据清洗 1.缺失值处理 2.异常值处理 4.2数据集成 1.实体识别 2.冗余属性识别 4.3 数据变换 1.简单函数变换 2.规范化 3.连续属性离散化 4.属性构造 4 ...
- c语言中,x-y,'105',ab,7f8那个是正确的,C语言程序设计_第三章 数据.ppt
C语言程序设计_第三章 数据 * 运算符功能 与运算量关系 要求运算量个数 要求运算量类型 运算符优先级别 结合方向 结果的类型 学习运算符应注意 * 基本算术运算符: + - * / % 结合方向: ...
- 数据科学和人工智能技术笔记 三、数据预处理
三.数据预处理 作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 为 Scikit-Learn 转换 Pandas 类别数据 # 导入所需的库 from sklearn ...
- 数据挖掘综合应用:数据预处理代码实战
数据挖掘综合应用:数据预处理代码实战 在数据预处理的过程中主要包括两个部分:数据清洗和特征预处理. 数据清洗: 缺失值处理:一般包括去除或者填补两种方式. 填补方式主要有:均值.中位数.众数.回归分析 ...
- 【第二章 数据预处理】袁博《数据挖掘:理论与算法》
目录 1 数据清洗 Outline 1.数据从哪里来? 2.为什么要做数据预处理? 3.缺失数据(Missing Data) 4.Outliers(离群点) 5.Anomaly(异常点) 2 异常值与 ...
- 【TL第二期】动手学数据分析-第二章 数据预处理
文章目录 第二章 第一节 数据清洗及特征处理 第二节 数据重构1 第三节 数据重构2 第四节 数据可视化 第二章 第一节 数据清洗及特征处理 数据清洗:对于原始数据中的缺失值.异常值进行处理.相当于数 ...
- Python数据分析与挖掘第三章数据探索学习笔记
一.数据质量分析: **意义:**数据质量分析是数据准备过程中重要的一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础. **主要任务:**检查原始数据中是否存在脏数据. **脏数据: ...
- 数据挖掘概念汇总及数据预处理
数据挖掘简介 数据挖掘,顾名思义,就是在大量的数据中发现有用的信息,随着信息技术发展,每天都会产生大量的数据,可以说我们正处于一个大数据的时代.面对如此多的数据,传统的分析方法不再适用,这就需要我们用 ...
最新文章
- 特殊的Windows消息
- LeetCode: Search a 2D Matrix
- Linux 跟踪进程对CPU的占用情况,对内存的占用情况
- java 更新对象_java通过key-list和对应value更新当前对象
- 极端懒惰:使用Spring Boot开发JAX-RS服务
- 微信公众平台PHP开发
- 【工具推荐】个人本地 markdown 知识图谱软件 Obsidian
- mac的word中添加带圆圈的数字
- CentOS下使用命令行Web浏览器Links
- 淘宝详情页排版布局怎么做?大神导航,一个神奇的网站,从此开启大神之路!
- 一文掌握python连接SQL Server,MySQL,MongoDB,Redis数据库
- java导入excel数据_java使用POI批量导入excel数据的方法
- 什么是Activity?Activity的生命周期!
- Java计算机毕业设计腾讯网游辅助小助手源码+系统+数据库+lw文档
- Unity 中国区总经理符国新:3D引擎开发
- hydra笔记-利用hydra暴力破解ssh弱口令
- 奥特曼系列赛文飞踢是哪个服务器,盘点奥特兄弟最强飞踢技,第一名实至名归你能猜到吗?...
- 工具条(Ext.Toolbar)
- 固定电话+手机号码 正则表达式
- 97岁诺奖得主的励志人生:本科学文学,博士转物理,54岁才开始锂电池研究
热门文章
- 【数据挖掘笔记三】数据预处理