数据预处理的必要性及主要任务

1、数据预处理的必要性

数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异构数据源。低质量的数据导致低质量的数据挖掘。

2、数据预处理技术

(1)数据清理:可以用来清除数据中的噪声,纠正不一致。
(2)数据集成:将数据由多个数据源合并成一个一致的数据存储,如数据仓库。
(3)数据归约:可以通过如狙击、删除冗余特征或聚类来降低数据的规模。
(4)数据变换:可以用来把数据压缩到较小的区间,如0.0到1.0。这可以提高设计距离度量的挖掘算法的准确率和效率。
这些技术不是互相排斥的,可以一起使用。

3.为什么要对数据预处理

数据如果能满足其应用要求,那么它肯定是高质量的。数据质量涉及许多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性
数据质量的三个要素:准确性、完整性和一致性。
不正确、不完整和不一致的数据是现实世界的大型数据库和数据仓库的共同特点。
导致不正确的数据(具有不正确的属性值)可能有多种原因:收集数据的设备可能出现故障;人或计算机的错误可能在数据输入时出现;当用户不希望提交个人信息时,可能故意向强制输入字段输入不正确的值。这成为被掩盖的缺失数据。错误也可能在数据传输中出现。也可能是由命名约定或所用的数据代码不一致,或输入字段的格式不一致而导致的。重复元组也需要数据清理。
不完整数据的出现可能有多种原因。有些感兴趣的属性,如销售事务数据中顾客的信息,并非总是可以得到的。其他数据没有包含在内,可能只是因为输入时认为是不重要的。相关数据没有记录可能是由于理解错误,或者因为设备故障。与其他记录不一致的数据可能已经被删除。此外,历史或修改的数据可能被忽略。缺失的数据,特别是某些属性上缺失值的元组,可能需要推导出来。
时效性(timeliness)也影响数据的质量。
影响数据质量的另外两个因素是可信性和可解释性。可信性(believability)反映有多少数据是用户信赖的,而可解释性(interpretability)反映数据是否容易理解。

4.数据预处理的主要任务

数据清理(data cleaning)例程通过填写缺失的值,光滑噪声数据,识别或删除利群点,并解决不一致性来清理数据。如果用户认为数据是脏的,则他们可能不会相信这些数据上的挖掘结果。此外,脏数据可能使挖掘过程陷入混乱,导致不可靠的输出。尽管大部分挖掘例程都有一些过程用来处理不完整数据或噪声数据,但是他们并非总是鲁棒的(Robust,系统的健壮性)。相反,他们更致力于避免被建模的函数过分拟合数据。因此,一个有用的预处理步骤旨在使用数据清理例程处理你的数据。

分析使用来自多个数据源的数据,涉及集成多个数据库、数据立方体或文件,即数据集成(data integration)。代表同一概念的属性在不同的数据库中可能具有不同的名字,导致不一致性和冗余。命名的不一致还可能出现在属性值中。包含大量冗余数据可能降低知识发现过程的性能或使之陷入混乱。显然,除了数据清理之外,必须采取措施避免数据集成时的冗余。通常,在为数据仓库准备数据时,数据清理和集成将作为预处理步骤进行。还可以再次进行数据清理,检测和删去可能由集成导致的冗余。

在为分析而选取的数据集是巨大的,这肯定会降低数据挖掘过程的速度。数据归约可以降低数据集的规模,而又不损害数据挖掘的结果。数据归约(data reduction)得到数据集的简化表示,它小得多,但能够产生同样的(或几乎同样的)分析结果。数据归约策略包括维归约和数值归约。
在维归约中,使用数据编码方案,以便得到原始数据的简化或“压缩”表示。例子包括数据压缩技术(例如,小波变换和主成分分析),以及属性子集选择(例如,去掉不相关的属性)和属性构造(例如,从原来的属性集导出更有用的小属性集)。
在数值归约中,使用参数模型(例如,回归和对数线性模型)或非参数模型(例如,直方图、聚类、抽样或数据聚集),用较小的表示取代数据。

对于数据挖掘而言,离散化与概念分层产生是强有力的工具,因为它们使得数据的挖掘可以在多个抽象层上进行。规范化、数据离散化和概念分层产生都是某种形式的数据变换(data transformation)。数据变换操作是引导挖掘过程成功的附加的预处理过程。

总之,数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的准确率和效率。由于高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。检测数据异常,尽早的调整数据,并归约待分析的数据,将为决策带来高回报。

转载于:https://www.cnblogs.com/EnzoDin/p/10713908.html

数据挖掘-数据预处理的必要性及主要任务相关推荐

  1. 数据预处理(一)——数据预处理的必要性

    主要内容: 数据预处理的必要性 数据清洗 数据集成 数据标准化 数据规约 数据变换与离散化 利用sklearn进行数据预处理 小结 一.数据预处理的必要性 1.数据的不一致 各应用系统的数据缺乏统一的 ...

  2. 数据挖掘 —— 数据预处理

    数据挖掘 -- 数据预处理 1. 数据清洗 2. 特征预处理 2.1 特征选择 2.2 特征变换 3 特征降维 1. 数据清洗 数据清洗包括数据样本抽样和异常值(空值)处理 直接丢弃(包括重复数据) ...

  3. Python数据挖掘 数据预处理案例(以航空公司数据为例)

    Python数据预处理 一.内容: 1.数据清洗 2.数据集成 3.数据可视化 二.实验数据 根据航空公司系统内的客户基本信息.乘机信息以及积分信息等详细数据,依据末次飞行日期( LAST_FLIGH ...

  4. 数据挖掘—数据预处理

    文章目录 数据预处理 1 数据清洗 缺失值处理 异常值处理 2 数据集成 实体识别 冗余属性识别 数据变换 简单函数变换 规范化 连续属性离散化 属性构造 3 数据规约 属性归约 数值归约 Pytho ...

  5. 机器学习与数据挖掘——数据预处理

    如果有兴趣了解更多相关内容,欢迎来我的个人网站看看:瞳孔空间 一:关于数据预处理 在工程实践中,我们得到的数据会存在有缺失值.重复值等,在使用之前需要进行数据预处理.数据预处理没有标准的流程,通常针对 ...

  6. 文本数据挖掘----数据预处理

    一.数据预处理简介 1.为什么要进行数据预处理 一开始拿到的数据在数据的质量方面或多或少有一些问题,即在数据的准确性.完整性.一 致性.合时性(实时性).可信性.解释性等方面可能存在问题,所以需要数据 ...

  7. 数据挖掘数据预处理(验证性)

    一.背景 软件:python 实验内容: (选做)使用Pandas_datareader获取任意两支股票近三个月的交易数据.做出收盘价的变动图像. 使用Pandas_datareader获取世界银行数 ...

  8. 数据预处理 拉依达准则 matlab,数学建模数据预处理.doc

    数据预处理 摘要 目前,大量研究工作都集中于数据挖掘算法的探讨,而忽略了对数据预处理的研究.事实上,数据预处理对数据挖掘十分重要,而且必不可少.要使数据挖掘出有效的知识,必须为其提供干净,准确,简洁的 ...

  9. 数据预处理(三)——数据集成

    主要内容: 数据预处理的必要性 数据清洗 数据集成 数据标准化 数据规约 数据变换与离散化 利用sklearn进行数据预处理 小结 三.数据集成 数据集成是将多个数据源中的数据合并,存放于一个一致的数 ...

最新文章

  1. 【小心勿喷,吃饭中的小朋友最好别看】史上最搞笑的前端vue文件命名,没有之一,呵呵哒
  2. Transformer和自注意力机制Self-Attention详解和时间复杂度计算+Image Transformer简介
  3. hibernate配置相关知识
  4. Algorithm之RS:RS常用的一些库
  5. Android 中的线程及 AsyncTask(线程形态之一)解析一下
  6. 撰写本文的所有基本React.js概念
  7. Spring Cloud 入门 之 Eureka 篇(一)
  8. 51单片机数码管闪烁c语言,AT89C51单片机数码管闪烁问题怎么解决
  9. 视频教程-HTML零基础经典入门视频-HTML5/CSS
  10. 最简单PS双重曝光效果制作教程
  11. java语言中modifiers_Java基础——Modifier类
  12. HMI-36-【节能模式】开搞
  13. 使用 Piral 创建微前端
  14. 2023全网首发抖音标签检测程序源码+花800买的/最新版本
  15. 移卡参投的乐享互动首日破发:旗下乐刷罚单不断,逾期率高居不下
  16. 电脑蓝牙耳机连接不稳定_一个困扰我半年的 macOS 蓝牙有时断连的问题终于解决了!...
  17. 快速刷QQ空间访问量QQ军刀
  18. Vue移动端登录页面(H5)
  19. 谷粒商城ES自定义词库(十八)
  20. 测试用例(功能用例)——资产维修、资产报废

热门文章

  1. --SQL code# --创建表及字段描述信息
  2. jquery flexigrid 增加行双击事件
  3. 【CyberSecurityLearning 74】DC系列之DC-5渗透测试
  4. 程序改错(递归函数):数字转字符
  5. cmake跨平台编译之判断操作系统平台、32位64位系统
  6. JAVA的三种常量池
  7. C语言再学习 -- 标识符
  8. 试验篇--thttpd安装与调试
  9. 初识Frida--Android逆向之Java层hook (二)
  10. [Android]你不知道的Android进程化(3)--进程等级