数据处理的工作时间占整个数据分析项目的70%以上,因此,数据的质量直接决定了分析模型的准确性。那么,数据预处理的方法是什么呢?例如数据清理、数据集成、数据规范、数据转换等,其中最常用的是数据清理和数据集成,下面中琛魔方将来详细介绍一下这2种方法。

  数据预处理的方法

  1、数据清洗

  数据清洗是通过填补缺失值,平滑或删除离群点,纠正数据的不一致来达到清洗的目的。简单来说,就是把数据里面哪些缺胳膊腿的数据、有问题的数据给处理掉。总的来讲,数据清洗是一项繁重的任务,需要根据数据的准确性、完整性、一致性、时效性、可信性和解释性来考察数据,从而得到标准的、干净的、连续的数据。

  (1)缺失值处理

  实际获取信息和数据的过程中,会存在各类的原因导致数据丢失和空缺。针对这些缺失值,会基于变量的分布特性和变量的重要性采用不同的方法。若变量的缺失率较高(大于80%),覆盖率较低,且重要性较低,可以直接将变量删除,这种方法被称为删除变量;若缺失率较低(小于95%)且重要性较低,则根据数据分布的情况用基本统计量填充(最大值、最小值、均值、中位数、众数)进行填充,这种方法被称为缺失值填充。对于缺失的数据,一般根据缺失率来决定“删”还是“补”。

  (2)离群点处理

  离群点(异常值)是数据分布的常态,处于特定分布区域或范围之外的数据通常被定义为异常或噪声。我们常用的方法是删除离群点。

  (3)不一致数据处理

  实际数据生产过程中,由于一些人为因素或者其他原因,记录的数据可能存在不一致的情况,需要对这些不一致数据在分析前进行清理。例如,数据输入时的错误可通过和原始记录对比进行更正,知识工程工具也可以用来检测违反规则的数据。

  2、数据集成

  随着大数据的出现,我们的数据源越来越多,数据分析任务多半涉及将多个数据源数据进行合并。数据集成是指将多个数据源中的数据结合、进行一致存放的数据存储,这些源可能包括多个数据库或数据文件。在数据集成的过程中,会遇到一些问题,比如表述不一致,数据冗余等,针对不同的问题,下面简单介绍一下该如何处理。

  (1)实体识别问题

  在匹配来自多个不同信息源的现实世界实体时,如果两个不同数据库中的不同字段名指向同一实体,数据分析者或计算机需要把两个字段名改为一致,避免模式集成时产生的错误。

  (2)冗余问题

  冗余是在数据集成中常见的一个问题,如果一个属性能由另一个或另一组属性“导出”,则此属性可能是冗余的。

  (3)数据值的冲突和处理

  不同数据源,在统一合并时,需要保持规范化,如果遇到有重复的,要去重。

  在实践中,我们得到的数据可能包含大量的缺失值、异常值等,这对数据分析是非常不利的。此时,我们需要对脏数据进行预处理,以获得标准、干净和连续的数据,这些数据可以用于数据分析、数据挖掘等。

数据预处理的方法有哪些相关推荐

  1. 数据预处理的方法有哪些?

    数据处理的工作时间占据了整个数据分析项目的70%以上.因此,数据的质量直接决定了分析模型的准确性.那么,数据预处理的方法有哪些呢?比如数据清洗.数据集成.数据规约.数据变换等,其中最常用到的是数据清洗 ...

  2. python数据预处理_Python数据分析——数据预处理的方法

    前言 1. 关于数据集 数据来源:日月光华老师的<Python数据分析从入门到机器学习>的 lianjia 数据. 数据概况: cjtaoshu:成交套数 mendian:门店 cjzon ...

  3. python数据预处理的方法_python中常用的九种数据预处理方法

    python中常用的九种预处理方法分享 本文总结的是我们大家在python中常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍; 1. 标准化(Standardizat ...

  4. python数据预处理的方法_文本数据预处理的方法

    文本数据分析(一):基本框架 在文本数据分析基本框架中,我们涉及到了六个步骤: 数据收集 数据预处理 数据挖掘和可视化 模型构建 模型评估 虽然框架需要迭代,但是我们先将其看作是一个线性的过程: 修正 ...

  5. 美赛O奖大佬的PYTHON的数据预处理基本方法(想要详细资料的或者美赛需要思路以及论文援助的加我哦,vx在简介中)

  6. 整理一份详细的数据预处理方法

    作者:lswbjtu https://zhuanlan.zhihu.com/p/51131210 编辑:机器学习算法与Python实战 为什么数据处理很重要? 熟悉数据挖掘和机器学习的小伙伴们都知道, ...

  7. 光滑噪声数据常用的方法_整理一份详细的数据预处理方法

    重磅干货,第一时间送达 作者:lswbjtuhttps://zhuanlan.zhihu.com/p/51131210 为什么数据处理很重要? 熟悉数据挖掘和机器学习的小伙伴们都知道,数据处理相关的工 ...

  8. 几种数据预处理方法汇总(标准/中心化、归一化、正则化)+Python代码

    1. 数据的标准化(规范化/归一化) 数据标准化是将样本的属性缩放到某个指定的范围. 数据标准化的原因: 某些算法要求样本具有零均值和单位方差: 需要消除样本不同属性具有不同量级时的影响:①数量级的差 ...

  9. 关于文本数据预处理的一些方法

    最近在进行一个关于深度学习的文本情感分类的项目,从数据获取到清洗,以及文本标注这些都在准备.文本预处理是NLP中十分关键的一个流程,正所谓数据是否优质决定着神经网络的训练效果,以及后续对神经网络的调参 ...

  10. 机器学习中数据预处理方法

    在知乎上也看到了这个,不知道哪个是原创,这里粘上链接 https://zhuanlan.zhihu.com/p/51131210 前言 数据预处理的重要性? 熟悉数据挖掘和机器学习的小伙伴们都知道,数 ...

最新文章

  1. 昨天晚上,亲眼目睹了我一哥们的崩溃,被空降90后上司鄙视,说他这种人在公司......
  2. 2021 年 NLP 重要国际会议时间
  3. IT十八掌作业_java基础第八天_多线程
  4. 有趣的网页注释代码,保护我方源码
  5. 简述C# XML解析方法的特点及应用
  6. 【2018北京集训(六)】Lcm
  7. gsonformat插件_收藏非常有用的IDEA插件,没用过这些IDEA插件?怪不得写代码头疼
  8. C语言编译流程:预处理、编译、汇编、链接
  9. GoogleMapAPI
  10. Leetcode 558.四叉树交集
  11. appium python框架结构_Appium 自动化测试之框架
  12. Argparse 使用
  13. 搞懂神经网络处理器的性能指标
  14. 计算机第二学期末考试题,离散数学期末考试试题及答案
  15. fqa什么意思_FQA是什么意思
  16. 巴蜀1471 魔兽争霸
  17. 外接Hdmi没有声音怎么设置
  18. linux中使用U盘拷贝
  19. 使用FTP(IOS FTP客户端开发教程)
  20. 从敏思博客的倒闭事件看历史重现... 1

热门文章

  1. hishop6.0和易分销2.0数据库迁移手册
  2. ios支付宝客户端集成流程
  3. 计算机中丢失msvcp120.dll是什么意思,win7系统玩游戏提示“msvcp120.dll丢失”怎么修复...
  4. DAS、NAS、SAN简介以及区别
  5. Java char类型介绍
  6. 5G的落地现状与未来变局
  7. PHP怎么加入购物车MySQL_php实现简单加入购物车功能
  8. 解决GREENPLUM某些版本gprecoverseg –r失败后镜像双坏,系统无法启动的问题
  9. STM32串口通信程序模拟超市打印机工作-使用接收中断、空闲中断、校验中断
  10. 中学生物教学杂志中学生物教学杂志社中学生物教学编辑部2022年第15期目录