1.数据归约的概念

数据变换的概念和数据离散化
在数据预处理过程中,不同的数据适合不同的数据挖掘算。数据变换是一种将原始数据变换成较好数据格式的方法,以便作为数据处理前特定数据挖掘算法的输入。

  • 数据离散化是一种数据变换形式。
  • 数据变换策略概述
  • 通过规范化变换数据-
  • 通过分箱离散化
  • 通过直方图分析离散化
  • 通过聚类、决策树和相关分析离散化
  • 标称数据的概念分层产生

2 数据变换策略概述

在数据变换中,数据被变换或统一成适合于挖掘的形式。数据变换策略包括如下几种:

  • 光滑(smoothing):去掉数据中的噪声。这类技术包括分箱、回归和聚类。
  • 属性构造:可以由给定的属性构造新的属性并添加到属性集中,以帮助挖掘过程。
  • 聚集:对数据进行汇总或聚集。例如,可以聚集日销售数据,计算月和年销售量。。
  • 规范化:把属性数据按比例缩放,使之落入一个特定的小区间,如0.0~1.0。
  • 离散化:数值属性(例如,年龄)的原始值用区间标签(例如,0~10,11~20等)。
  • 由标称数据产生概念分层:属性,如street,可以泛化到较高的概念层,如city或country。

3 通过规范化变数据

3.1 最小-最大规范化:对原始数据进行线性变换

令minA和maxA表示属性A的最小值和最大值,最小—最大值标准化将值vi映射为vi’(范围是[new_minA, new_maxA]:

最小—最大值标准化保留了原有数据值的关系。如果后来的输入的标准化的数据落在了原有数据区间的外面,将会发生过界的错误。

3.2 最小-最大规范化:例子

假定收入属性的最小值和最大值分别是$12,000和$98,000. 将收入属性映射到范围[0.0, 1.0]上。则一个值为$73,600的收入标准化为。

3.3 z-分数标准化

属性A的值,基于平均值和标准差来标准化。计算公式:

其中A¯和σA是属性A的均值和标准差。这种方法在实际的最小值和最大值未知时很有用,或者离群点主导了最小—最大值的标准化。
3.2.4 z-分数标准化——例子*
假定income属性的均值和标准差是$54,000和$16,000。使用z-分数标准化,则$73,600被转换为: 。

4 数据离散化

4.1 通过分箱离散化

分箱并不使用类信息,因此是一种非监督的离散化技术,对用户制定的箱个数很敏感,也容易受离群点的影响。

4.2 通过直方图分箱离散化

直方图分析也是一种非监督离散化技术,因为它不使用类信息。

4.3 通过聚类、决策树和相关分析离散化

聚类将数据划分成簇或组;离散化的决策树方法是监督的,它们使用了类标号(分类)。

5. 标称数据的概念分层产生

5.1 标称数据的数据变化

现在,我们考察标称数据的数据变换。特别地,我们研究标称属性的概念分层产生。标称属性具有有穷多个不同值(但可能很多),值之间无序。例如地理位置、工作类别和商品类型。

1、对于用户和领域专家而言,人工定义概念分层是一项乏味和耗时的任务。幸运的是,许多分层结构都隐藏在数据库的模式中,并且可以在模式定义级自动地定义。
2、概念分层可以用来把数据变换到多个粒度层。例如,关于销售的数据挖掘模式除了在单个分店挖掘之外,还可以针对指定的地区或国家挖掘。

5.2 根据每个属性的不同值个数产生概念分层

假设用户从数据库中选择了一个关于location的属性集country(15), province_or_state(365),city(3567), street(674339),但没有指出这些属性之间的分层次序。

十六、数据变换和数据离散化相关推荐

  1. Redis进阶实践之十六 Redis大批量增加数据

    原文:Redis进阶实践之十六 Redis大批量增加数据 一.介绍 有时候,Redis实例需要在很短的时间内加载大量先前存在或用户生成的数据,以便尽可能快地创建数百万个键.这就是所谓的批量插入,本文档 ...

  2. 第十六届中国大数据技术大会五大分论坛顺利举办!

    1月8日下午,由苏州市人民政府指导.中国计算机学会主办.苏州市吴江区人民政府支持,CCF大数据专家委员会.苏州市吴江区工信局.吴江区东太湖度假区管委会.苏州市吴江区科技局.苏州大学未来科学与工程学院及 ...

  3. 《Python编程:从入门到实践》第十六章:下载数据

    下载数据 我们将访问并可视化以两种常见格式存储的数据:CSV和JSON.我们将使用Python模块csv来处理以CSV(逗号分隔的值)格式存储的天气数据,找出两个不同地区在一段时间内的最高温度和最低温 ...

  4. 拥抱数字时代 | 第十六届中国大数据技术大会成功举办

    2月26日,由中国计算机学会(CCF)主办,苏州市吴江区人民政府支持,CCF大数据专家委员会.苏州市吴江区工信局.吴江区东太湖度假区管理办公室.苏州市吴江区科技局.苏州大学未来科学与工程学院.Data ...

  5. 数据变换,数据规范化的方法之归一化(Min-max规范化)、标准化(Z-score规范化)、小数定标规范化

    这篇总结了哪些东西: 1. 数据变换 2. 数据规范化方法 归一化(Min-max规范化) 标准化(Z-score标准化) 小数定标规范化 4. 规范化的作用 3. 数据挖掘算法中是否都需要进行规范化 ...

  6. 机器学习基础(三十六)—— 非规整数据(值缺失、异常值)的处理

    (1)非规整 (2)值缺失 (3)异常值(outlier) 一般来说,现实中的数据会存在信息不完整.数据点缺失和异常值的情况,理想情况下,我们会去尝试修复非规整数据,但很多数据集都源于一些难以重现(不 ...

  7. python数据预处理—数据清洗、数据集成、数据变换、数据归约

    进行数据分析时,需要预先把进入模型算法的数据进行数据预处理.一般我们接收到的数据很多都是"脏数据",里面可能包含缺失值.异常值.重复值等:同时有效标签或者特征需要进一步筛选,得到有 ...

  8. 数据预处理-数据变换-连续属性离散化实现:pandas(0.23)+sklearn(0.19.1)+matplotlib(2.2.2)

    代码来源:Python数据分析与挖掘实战 源代码有如下错误: line22: 原: data.reshape      修改后:  data.values.reshape line23: 原: sor ...

  9. 十六、C# 表格数据控件

    初始DataGridView DataGridView控件提供了一种强大而灵活的以表格形式显示数据的方式.用户可以使用DataGridView控件来显示少量数据的只读视图,也可以对齐进行缩放以显示特大 ...

最新文章

  1. 字节跳动最新开源!java语言程序设计进阶篇
  2. muduo之Singleton
  3. Eclipse旧版本Luna SR2(版本4.4.2)下载地址
  4. MIT自然语言处理第一讲:简介和概述(第一部分)
  5. java实现闹钟功能_AlarmManager类的应用(实现闹钟功能)
  6. IOS客户端Coding项目记录(二)
  7. linux nohup命令
  8. P4331 [BalticOI 2004]Sequence 数字序列(左偏树)
  9. 【BZOJ3622】已经没有什么好害怕的了,两次DP
  10. 分布式系统下数据一致性
  11. linux 鼠标残影,Win10系统拖动鼠标有残影怎么办
  12. html vue 动态加载组件
  13. 调查问卷设计的一般步骤与方法
  14. JavaWeb项目(登录注册页面)全过程详细总结
  15. python安装失败0x80240017
  16. GPU Raid卡加持!PBlaze6 6920挑战8盘Raid5
  17. 一、highcarts简介
  18. Java面试题(十九) 细说线程池秘境“七大参数”护法的身世
  19. 前端-网站性能优化——CDN加速
  20. [Python]:热血传奇-Wzl,Wzx的解析

热门文章

  1. redis根据通配符去批量删除指令
  2. http三次握手四次挥手详解
  3. Django 多数据库联用(看着不错还有源码可以下载)
  4. Python日志模块的两种用法
  5. 使用Jupyter notebook,按下ctrl+enter后,一直出现In[*]呢?
  6. 分布式应用解耦利器rabbitmq
  7. yaf框架学习文件配置
  8. PHP的pcntl多进程
  9. TP5.1类的自动加载
  10. TP5 连接oracle数据库