一、脏数据

种类:

  • 缺失数据:可以通过填充平均值、按比例填充随机数等方法处理,若有备份数据,直接将备份数据引入即可
  • 重复数据:去除重复部分即可
  • 错误数据:可以通过以下三种方式解决:

1.通过对数据区间进行限定,排除明显异常的数据
2.通过系统的内部逻辑结构查找不符合格式的数据
3.通过建立匹配规则,匹配不统一的数据

  • 不可用数据:正确,但无法直接使用,可以通过文本函数将其进行拆分(如日期数据)

二、脏数据的常规处理方法

  • 结构化

需要对数据进行缩减,将其变为可测量、可分析的结构
如将用户评论中的好、不好、中等,进行数量化,好:2,中:1,差:0

  • 规范化

通过将数据规范化,将脏数据中合格的部分筛选出来,如:将日期数据2020-01-01规范化,可以筛选出年份、月份、日期

  • 可关联

数据之间应该有关联性,通过相互关联的数据可以将脏数据定位
如:销售数据中出现了一笔非常大的交易额,若想查看它是否正常,
应当把交易额与客户姓名、购买日期、订单号、单价等相关联,
当查找这个异常的脏数据时就可以十分清楚的定位到相关信息,看是否正常。

三、数据处理要遵循的原则

  • 约束输入
    让用户输入数据时,按照一定的规范格式进行输入,如限定必填项、提供下拉列表、格式错误提醒等,表单的设计要细致化

  • 规范输出
    要让同一个指标在每张报表的表述相同,如地名北京,不能在一张表中是北京,另一张表中就是beijing
    要对各种数据在数据库中备份,以确定原始数据的格式是怎样的,若要变动时,可以依据备份数据进行变动
    对于备份数据的输出可以通过表格、图形进行展示,以便查阅。

数据分析 --- 如何处理脏数据相关推荐

  1. 深度学习核心技术精讲100篇(八十)-脏数据如何处理?置信学习解决方案

    前言 在实际工作中,你是否遇到过这样一个问题或痛点:无论是通过哪种方式获取的标注数据,数据标注质量可能不过关,存在一些错误?亦或者是数据标注的标准不统一.存在一些歧义?特别是badcase反馈回来,发 ...

  2. [NewLife.XCode]脏数据

    NewLife.XCode是一个有10多年历史的开源数据中间件,支持nfx/netstandard,由新生命团队(2002~2019)开发完成并维护至今,以下简称XCode. 整个系列教程会大量结合示 ...

  3. 箱式图 添加异常值平均值_什么是脏数据?怎样用箱形图分析异常值?终于有人讲明白了...

    导读:数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础.没有可信的数据,数据挖掘构建的模型将是空中楼阁. 数据质量分析的主要任务是检查原始数 ...

  4. 什么是脏数据?怎样用箱形图分析异常值?终于有人讲明白了

    导读:数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础.没有可信的数据,数据挖掘构建的模型将是空中楼阁. 数据质量分析的主要任务是检查原始数 ...

  5. 不能bostype没有元数据异常_手把手教你用Python画个箱形图,找出“脏数据”

    导读:数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础.没有可信的数据,数据挖掘构建的模型将是空中楼阁. 数据质量分析的主要任务是检查原始数 ...

  6. 内存脏数据下刷(linux2.6.18/linux.2.6.32)剖析

    1   前言 BDI机制原本主要是用于检测磁盘的繁忙程度等作用,从2.6.19内核开始,将此部分功能整合到了mm/backing_dev.c中,一直到2.6.31内核为止,其功能也只是在不段的完善,但 ...

  7. 数据清洗- Pandas 清洗“脏”数据(一)

    概要 准备工作 检查数据 处理缺失数据 添加默认值 删除不完整的行 删除不完整的列 规范化数据类型 必要的转换 重命名列名 保存结果 更多资源 Pandas 是 Python 中很流行的类库,使用它可 ...

  8. 数据分析系列之数据探索

    根据观测,调查收集到的初步的样本数据集后,接下来要考虑的是样本的数据集的数量和质量是否满足模型构建的要求 ,是否出现从未设想过的数据状态?其中有什么明显的规律趋势,各因素之间有什么关联性?通过检验数据 ...

  9. python处理excel教程实例-python如何处理excel数据

    python处理excel数据的方法:1.使用xlrd来处理:2.使用[xlutils+xlrd]来处理:3.使用xlwt来处理:4.使用pyExcelerator来处理:5.使用Pandas库来处理 ...

  10. 机器学习中如何处理缺失数据(NAN和Ifo)?

    机器学习中如何处理缺失数据(NAN)? 文章目录: 一.NAN 和 Inf 二.机器学习中空值的处理方法 一.NAN 和 Inf NAN(Not A number):意思:不是一个数字,是一个空值 I ...

最新文章

  1. SWPU OnlingJudge 在线评测平台 使用教程
  2. pyhton 安装pip 以及 numpy (解决python:ModuleNotFoundError:No module named numpy 等类似缺包问题
  3. 【Python-ML】SKlearn库支持向量机(SVM) 使用
  4. UNIX 网络协议的深度分析
  5. qtcreator 自动进入反汇编_1.2 Qt Creator简介
  6. java全局变量怎么定义_怎么在java中创建一个自定义的collector
  7. 前端学习(1968)vue之电商管理系统电商系统之将不同的参数挂载到数据源上
  8. Cloudera CDH 5.1版本的Hive与LDAP-2.4.44集成
  9. Android ViewPager示例教程
  10. Silverlight 的导航框架与动态加载
  11. 如何复制百度文库中需要收费的文字
  12. springboot系列(十八):如何Windows安装redis?你玩过么|超级详细,建议收藏
  13. js通过开始时间和结束时间计算出中间的所有日期
  14. JZOJ 3505. 【NOIP2013模拟11.4A组】积木(brick)
  15. 最快路由器服务器地址,路由器中radius服务器IP地址要用什么样的IP
  16. 如何在Photoshop里抠头发丝
  17. 微信 朋友圈 缩略图 php,Wordpress分享微信朋友圈缩略图设置 | 听可科技|TMC
  18. 群晖经典第三方套件_使用群晖第三方套件进行IPV6的DDNS
  19. 查看本机mac地址/ ipconfig /all 的一点笔记
  20. 华为3108raid安linux,华为服务器 RAID卡配置 SR430 LSISAS3108(EFI/UEFI模式)

热门文章

  1. java txt 分段读取_Java 读取TXT文件的多种方式
  2. 如何在Nintendo Switch上管理和传输数据
  3. 北京市延庆区谷歌卫星地图下载
  4. 顺序表的基本操作(完整代码)
  5. ORACLE rollup函数
  6. 阿里中间件-全链路压测 总结
  7. 联想M7650DF加粉和重置/清零的正确方法
  8. python 批量爬取网页pdf_批量抓取网页pdf文件
  9. ARM体系结构与编程模型总结
  10. 收获不止mysql_收获 不止SQL优化 抓住SQL的本质pdf