商务智能系列文章目录

【商务智能】数据预处理

文章目录

商务智能系列文章目录
前言
一、数据预处理主要任务
二、数据规范方法
- 1、z-score 规范化
- 2、最小-最大规范化
三、数据离散方法
- 1、分箱离散化
- 2、基于熵的离散化
总结

前言

在进行数据分析之前 , 先要对数据进行预处理操作 , 本篇博客简要介绍常用的数据预处理方法 ;

一、数据预处理主要任务

数据预处理主要任务 :

① 数据离散化 : 分箱离散化 , 基于熵的离散化 , ChiMerge 离散化 ;

② 数据规范化 : 又称数据标准化 , 统一样本数据的取值范围 , 避免在数据分析过程中 , 因为属性取值范围不同 , 在数据分析过程中导致分析结果出现误差 ; 如 : 时间属性的数值 , 有用秒作为单位的 , 有用小时作为单位的 , 必须统一成同一个时间单位 ;

③ 数据清洗 : 识别和处理数据缺失 , 噪音数据 , 数据不一致等情况 ; 如 : 某样本某属性数据缺失 , 将同类样本的该属性的平均值赋值给该缺失属性的样本 ;

④ 特征提取与特征选择 : 面向分类的特征选择方法 , 有效的特征选择 , 既可以降低数据量 , 又能提高分类模型的构建效率 , 还能提高分类准确率 ;

二、数据规范方法

1、z-score 规范化

z-score : 也称为标准分 ; z-score 值为 z=x−μσz = \cfrac{x - \mu}{\sigma}z=σx−μ ;

其中 xxx 是本次要规范的属性值 , μ\muμ 是均值 , σ\sigmaσ 是标准差 , 该公式的含义是计算当前属性值 xxx 偏离均值 μ\muμ 的距离是多少个标准差 σ\sigmaσ ;

z-score 规范化 又称为零均值规范化 ( Zero-Mean Normalization ) , 给定属性 AAA , 均值为 μ\muμ , 标准差为 σ\sigmaσ , 属性 AAA 的取值 xxx 规范后的值 z=x−μσz = \cfrac{x - \mu}{\sigma}z=σx−μ ;

年收入平均值 828282 万 , 标准差 393939 , 年收入 606060 万使用 z-score 规范化后的值为 :

z=60−8239=0.564z = \cfrac{60 - 82}{39} =0.564z=3960−82=0.564

2、最小-最大规范化

样本属性原来取值范围 [l,r][l , r][l,r] , 现在需要将样本属性映射到 [L,R][L, R][L,R] 区间内 , 根据等比例映射原理 , 属性值 xxx 映射到新区间后的值计算方法如下 :

v=x−lr−l(R−L)+Lv = \cfrac{x - l}{r-l}(R-L) + Lv=r−lx−l(R−L)+L

某样本属性为年收入 , 取值范围 [10,100][10, 100][10,100] , 将其映射到 [0,1][0, 1][0,1] 区间内 , 则 202020 映射到新区间后的值为 :

v=20−10100−10(1−0)+0=0.1111v = \cfrac{20 - 10}{100-10}(1-0) + 0 =0.1111v=100−1020−10(1−0)+0=0.1111

三、数据离散方法

1、分箱离散化

分箱离散化 分为等距离分箱 , 等频率分箱 ;

等距离分箱 : 又称为等宽度分箱 , 将属性的每个取值映射到等大小区间的方法 ;

如 : 学生考试分数 , 000 ~ 100100100 分 , 以 101010 分为一档 , 分为 101010 档 ,

151515 分处于 111111 ~ 202020 档 ,
525252 分处于 515151 ~ 606060 档 ;

等距离分箱 , 可能导致某些取值多 , 某些取值少 , 如 717171 ~ 808080 这一档很多 , 010101 ~ 101010 这一档几乎没有 ;

等频率分箱 : 又称为等深度分箱 , 将每个取值映射到一个区间 , 每个区间包含的取值个数相同 ;

2、基于熵的离散化

分箱离散化是无监督离散化方法 , 基于熵的离散化是有监督离散化方法 ;

给定数据集 DDD 及其分类属性 , 类别集合为 C={c1,c2,⋯,ck}C = \{ c_1 , c_2 , \cdots , c_k \}C={c1,c2,⋯,ck} , 数据集 DDD 的信息熵 entropy(D)\rm entropy(D)entropy(D) 计算公式如下 :

entropy(D)=−∑i=1kp(ci)log2p(ci)\rm entropy(D) = - \sum_{i=1}^k p(c_i) log_2p(c_i)entropy(D)=−i=1∑kp(ci)log2p(ci)

p(ci)p(c_i)p(ci) 的值是 count(ci)∣D∣\rm \cfrac{count(c_i)}{|D|}∣D∣count(ci) , count(ci)\rm count(c_i)count(ci) 是指 cic_ici 在数据集 DDD 中出现的次数 , ∣D∣|D|∣D∣ 表示数据样本个数 ;

信息熵 entropy(D)\rm entropy(D)entropy(D) 取值越小 , 类别分步越纯 ;

属性信息熵计算参考【数据挖掘】决策树中根据信息增益确定划分属性 ( 信息与熵 | 总熵计算公式 | 每个属性的熵计算公式 | 信息增益计算公式 | 划分属性确定 ) 博客 ;

总结

本博客主要讲解数据预处理需要进行的操作 , 数据规范化 , 数据离散化 , 数据清洗 , 特征提取与特征选择 ;

数据规范化涉及最小-最大规范化和 z-score 规范化 ;

数据离散化涉及分箱离散化和基于熵的离散化 , 分箱离散化分为等距离分箱和等频率分箱 ;

【商务智能】数据预处理相关推荐

机器学习PAL数据预处理
机器学习PAL数据预处理本文介绍如何对原始数据进行数据预处理,得到模型训练集和模型预测集. 前提条件完成数据准备,详情请参见准备数据. 操作步骤登录PAI控制台. 在左侧导航栏,选择模型开发和训 ...
深度学习——数据预处理篇
深度学习--数据预处理篇文章目录深度学习--数据预处理篇一.前言二.常用的数据预处理方法零均值化(中心化) 数据归一化(normalization) 主成分分析(PCA.Principal ...
目标检测之Faster-RCNN的pytorch代码详解(数据预处理篇)
首先贴上代码原作者的github:https://github.com/chenyuntc/simple-faster-rcnn-pytorch(非代码作者,博文只解释代码) 今天看完了simple- ...
第七篇：数据预处理(四) - 数据归约(PCA/EFA为例)
前言这部分也许是数据预处理最为关键的一个阶段. 如何对数据降维是一个很有挑战,很有深度的话题,很多理论书本均有详细深入的讲解分析. 本文仅介绍主成分分析法(PCA)和探索性因子分析法(EFA),并给 ...
数据预处理--噪声_为什么数据对您的业务很重要-以及如何处理数据
数据预处理--噪声 YES! Data is extremely important for your business. 是! 数据对您的业务极为重要. A human body has five ...
数据预处理（完整步骤）
原文:http://dataunion.org/5009.html 一:为什么要预处理数据? (1)现实世界的数据是肮脏的(不完整,含噪声,不一致) (2)没有高质量的数据,就没有高质量的挖掘结果(高 ...
3D目标检测深度学习方法数据预处理综述
作者 | 蒋天元来源 | 3D视觉工坊(ID: QYong_2014) 这一篇的内容主要要讲一点在深度学习的3D目标检测网络中,我们都采用了哪些数据预处理的方法,主要讲两个方面的知识,第一个是rep ...
整理一份详细的数据预处理方法
作者:lswbjtu https://zhuanlan.zhihu.com/p/51131210 编辑:机器学习算法与Python实战为什么数据处理很重要? 熟悉数据挖掘和机器学习的小伙伴们都知道, ...
pandas数据预处理(标准化归一化、离散化/分箱/分桶、分类数据处理、时间类型数据处理、样本类别分布不均衡数据处理、数据抽样)
1. 数值型数据的处理 1.1 标准化&归一化数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模.特征.分布差异等对模型的影响. ...