数据预处理

1概述。为了提高数据的质量,数据质量涉及准确性、完整性、一致性、时效性、可信性(反应多少数据是用户信赖的)和可解释性(反映数据是否容易理解)。数据预处理的主要步骤:数据清理、数据集成、数据归约和数据变换。

数据清理:例程通过填写缺失的值,光滑噪声数据、识别或删除离群点,并解决不一致性来“清理”数据。数据集成:集成多个数据库、数据立方体或文件。数据归约:得到数据的简化表示,它小但能够产生同样的分析结果。(包括维归约和数值归约)。规范化、数据离散化和概念分层产生都是某种形式的数据变换。

2数据清理。

数据清理:试图填充缺失值、光滑噪声并且识别离群点、纠正数据中的不一致。

缺失值的处理方法:

  1. 忽略元祖:当缺少类标号时常这样
  2. 人工填写缺失值:费时,数据量超大时不靠谱
  3. 使用一个全局常量填充缺失值:例如NA,+替换,但是如果全用NA可能会形成一个有趣的概念,他们拥有相同的值。
  4. 使用属性的中心度量(均值、中位数)填充缺失值:对于对称数据使用均值,而倾斜数据的分布应该使用中位数填充。
  5. 使用与给定元祖组同属一类的所有样本的属性均值或中位数
  6. 使用最可能的值填充缺失值:利用回归、贝叶斯形式化的方法基于推理工具或决策树归纳确定。

注意:缺失值并不意味着数据有错误。

噪声数据:是被测量的变量的随机误差或方差。 ,

“光滑”数据、去掉噪声的方法:

  1. 分箱:通过考察数据的“近邻”值来光滑有序数据值,通过分箱,来进行局部光滑。有:用箱均值光滑、用箱中位数光滑、用箱边界光滑(给定箱中的最大和最小值同样被视为箱边界)。一般而言,宽度越大,光滑效果越明显。
  2. 回归:用函数拟合数据来光滑数据。
  3. 离群点分析:可以通过聚类来检测。落在簇以外的被称为离群点。

许多数据光滑的方法也用于数据离散化和数据归约。

关于数据清理的总结:

第一步需要偏差检测,如何进行检测,需要用到元数据(关于数据的数据)。必须警惕编码不一致和数据表示不一致的问题。字段过载是另一种错误源,通常是由于:开发者将新属性的定义挤进已经定义的的属性未使用(位)部分。

根据唯一性规则(给定属性的每个值都必须不同于该属性的其他值)、连续性规则(属性的最低和最高值之间没有缺失值,并且所有的值必须是唯一的。例如,检验数)和空值规则(说明空白、问好、特殊符号或指示空值条件的其他串的使用,以及如何处理这样的值)考察数据。

帮助进行偏差检测的工具有:数据清洗工具(简单的领域知识)、数据审计工具(可以使用统计分析)、数据迁移工具(支持数据变换)、ETL(提取、变换、装入)工具允许在GUI说明变换。但是功能有限。

Potter’s Wheel、SQL等扩充和使用时非常有必要的,有效的表达数据清理的具体要求的算法。更好的进行偏差检测和数据变换(纠正偏差),随着对数据的了解和加深,不断更新元数据以反应这种知识很重要。

推荐阅读:数据挖掘概念与技术

学习笔记(三)数据预处理之数据清理相关推荐

  1. pandas学习笔记三之处理丢失数据

  2. 大数据HiveSQL学习笔记三-查询基础语法以及常用函数

    大数据HiveSQL学习笔记三-查询基础语法以及常用函数 一.基础语法 1.SELECT -列名- FROM -表名- WHERE -筛选条件- 如:需要根据城市,性别找出匹配的10个用户 user_ ...

  3. tensorflow学习笔记——使用TensorFlow操作MNIST数据(1)

    续集请点击我:tensorflow学习笔记--使用TensorFlow操作MNIST数据(2) 本节开始学习使用tensorflow教程,当然从最简单的MNIST开始.这怎么说呢,就好比编程入门有He ...

  4. Python学习笔记_1_基础_2:数据运算、bytes数据类型、.pyc文件(什么鬼)

    Python学习笔记_1_基础_2:数据运算.bytes数据类型..pyc文件(什么鬼) 一.数据运算 Python数据运算感觉和C++,Java没有太大的差异,百度一大堆,这里就不想写了.比较有意思 ...

  5. Python学习笔记:用Python获取数据(本地数据与网络数据)

    Python学习笔记:用Python获取数据(本地数据与网络数据) 一.用Python获取本地数据 读写文件(三种基本模式:r, w, a) 1.写文件 2.读文件

  6. 【Python实战】数据预处理(数据清理、集成、变换、归约)

    [Python实战]数据预处理 前言 数据预处理概述 数据清理 异常数据处理 1.异常数据分析 2.异常数据处理方法 缺失值处理 噪声数据处理 数据集成 1.实体识别 2.冗余属性 3.数据不一致 数 ...

  7. 数据预处理—-(数据探索、数据清理、数据集成、数据规约、数据变换)

    数据挖掘概念与技术 定义挖掘目标–>数据取样–>数据探索–>数据预处理–>挖掘建模–>模型评价 第一章.数据 挖掘的数据类型:时间序列,序列,数据流,时间空间数据,多媒体 ...

  8. 2023-01-29 学习笔记:常见28种数据分析模型

    2023-01-29 学习笔记:常见28种数据分析模型 知乎上的一篇文章,虽然之前对深度学习相关模型有所了解,但通过这篇文章了解了更多模型的应用场景,同时也知道了日常一共有多少种实用模型. Excel ...

  9. 2021-09-01 学习笔记:Python爬虫、数据可视化

    2021-09-01 学习笔记:Python爬虫.数据可视化 结于2021-09-07: 内容来自 成都工业大学 数字媒体专业实训: 主要内容: PyCharm开发Python脚本的基础配置: Pyt ...

  10. R语言小白学习笔记3—R语言读取数据

    R语言小白学习笔记3-R语言读取数据 笔记链接 想说的话 学习笔记3-R语言读取数据 3.1 读取CSV文件 3.1.1 read_delim函数 3.1.2 fread函数 3.2 读取Excel数 ...

最新文章

  1. 详解Silverlight Treeview的HierarchicalDataTemplate使用
  2. Python的零基础超详细讲解(第二天)-Python的基础语法1
  3. 网络推广专员带大家了解网站优化中长尾词的特征与优势!
  4. 一键去除网页BOM属性【解决乱码,头部空白,#65279问题】
  5. CityEngine快捷键一览表
  6. (转)Spring Boot通过ImportBeanDefinitionRegistrar动态注入Bean
  7. Android状态选择器用法总结
  8. 计算机基础课作业答案,计算机应用基础课程作业及答案.doc
  9. Loopback、Null0接口揭秘
  10. 利用common-fileupload组件实现java上传下载
  11. 【操作系统】银行家算法
  12. 进程控制(PCB,进程ID,进程状态,fork函数,文件共享)
  13. 【读书笔记《Android游戏编程之从零开始》】18.游戏开发基础(碰撞检测)
  14. 如何入门参与数学建模?
  15. python对经济统计学有什么用_经济统计学是一个怎样的学科?就业方向主要是什么?...
  16. 关于VLAN-tag
  17. flutter 仿照 uiswitch
  18. 附件的文件夹超过了服务器,邮件附件太大发不了 这3种方式了解一下
  19. 论文浅尝 | DKN: 面向新闻推荐的深度知识感知网络
  20. yml和properties的区别

热门文章

  1. UCHome源码阅读
  2. 驱动ST7789 240*240 TFT屏 制作分光棱镜显示要点总结(镜像后图片颜色R、B对调了,使用PS修改图片)
  3. RouterOS(ROS)软路由端口映射转发回流
  4. html图片边框显示不全,css border边框显示不完全
  5. h264js解码直播解码显示
  6. SOC厂商--全志瑞芯微
  7. matlab怎么计算矩阵的迹,求Matlab中矩阵的秩和迹
  8. 图论邮递员问题程序代码_图论的简短实用程序员指南
  9. 网络安全技术(第4版)复习资料整理
  10. 观点| 胡小明:不确定性环境下的智慧城市顶层设计