商务智能系列文章目录

【商务智能】数据预处理


文章目录

  • 商务智能系列文章目录
  • 前言
  • 一、数据预处理主要任务
  • 二、数据规范方法
    • 1、z-score 规范化
    • 2、最小-最大规范化
  • 三、数据离散方法
    • 1、分箱离散化
    • 2、基于熵的离散化
  • 总结

前言

在进行数据分析之前 , 先要对数据进行预处理操作 , 本篇博客简要介绍常用的数据预处理方法 ;

一、数据预处理主要任务

数据预处理主要任务 :

① 数据离散化 : 分箱离散化 , 基于熵的离散化 , ChiMerge 离散化 ;

② 数据规范化 : 又称数据标准化 , 统一 样本数据的 取值范围 , 避免在数据分析过程中 , 因为属性取值范围不同 , 在数据分析过程中导致分析结果出现误差 ; 如 : 时间属性的数值 , 有用秒作为单位的 , 有用小时作为单位的 , 必须统一成同一个时间单位 ;

③ 数据清洗 : 识别 和 处理 数据缺失 , 噪音数据 , 数据不一致 等情况 ; 如 : 某样本某属性数据缺失 , 将 同类样本的该属性的平均值 赋值给该缺失属性的样本 ;

④ 特征提取与特征选择 : 面向分类的特征选择方法 , 有效的特征选择 , 既可以 降低数据量 , 又能 提高分类模型的构建效率 , 还能 提高分类准确率 ;

二、数据规范方法

1、z-score 规范化

z-score : 也称为 标准分 ; z-score 值为 z=x−μσz = \cfrac{x - \mu}{\sigma}z=σx−μ​ ;

其中 xxx 是本次要规范的属性值 , μ\muμ 是均值 , σ\sigmaσ 是标准差 , 该公式的含义是 计算当前属性值 xxx 偏离均值 μ\muμ 的距离是多少个标准差 σ\sigmaσ ;

z-score 规范化 又称为 零均值规范化 ( Zero-Mean Normalization ) , 给定属性 AAA , 均值为 μ\muμ , 标准差为 σ\sigmaσ , 属性 AAA 的取值 xxx 规范后的值 z=x−μσz = \cfrac{x - \mu}{\sigma}z=σx−μ​ ;

年收入平均值 828282 万 , 标准差 393939 , 年收入 606060 万使用 z-score 规范化后的值为 :

z=60−8239=0.564z = \cfrac{60 - 82}{39} =0.564z=3960−82​=0.564

2、最小-最大规范化

样本属性原来取值范围 [l,r][l , r][l,r] , 现在需要将样本属性映射到 [L,R][L, R][L,R] 区间内 , 根据等比例映射原理 , 属性值 xxx 映射到新区间后的值计算方法如下 :

v=x−lr−l(R−L)+Lv = \cfrac{x - l}{r-l}(R-L) + Lv=r−lx−l​(R−L)+L

某样本属性为年收入 , 取值范围 [10,100][10, 100][10,100] , 将其映射到 [0,1][0, 1][0,1] 区间内 , 则 202020 映射到新区间后的值为 :

v=20−10100−10(1−0)+0=0.1111v = \cfrac{20 - 10}{100-10}(1-0) + 0 =0.1111v=100−1020−10​(1−0)+0=0.1111

三、数据离散方法

1、分箱离散化

分箱离散化 分为 等距离分箱 , 等频率分箱 ;

等距离分箱 : 又称为 等宽度分箱 , 将属性的每个取值映射到等大小区间的方法 ;

如 : 学生考试分数 , 000 ~ 100100100 分 , 以 101010 分为一档 , 分为 101010 档 ,

151515 分处于 111111 ~ 202020 档 ,
525252 分处于 515151 ~ 606060 档 ;

等距离分箱 , 可能导致某些取值多 , 某些取值少 , 如 717171 ~ 808080 这一档很多 , 010101 ~ 101010 这一档几乎没有 ;

等频率分箱 : 又称为 等深度分箱 , 将每个取值映射到一个区间 , 每个区间包含的取值个数相同 ;

2、基于熵的离散化

分箱离散化 是 无监督 离散化方法 , 基于熵的离散化 是 有监督 离散化方法 ;

给定数据集 DDD 及其分类属性 , 类别集合为 C={c1,c2,⋯,ck}C = \{ c_1 , c_2 , \cdots , c_k \}C={c1​,c2​,⋯,ck​} , 数据集 DDD 的信息熵 entropy(D)\rm entropy(D)entropy(D) 计算公式如下 :

entropy(D)=−∑i=1kp(ci)log2p(ci)\rm entropy(D) = - \sum_{i=1}^k p(c_i) log_2p(c_i)entropy(D)=−i=1∑k​p(ci​)log2​p(ci​)

p(ci)p(c_i)p(ci​) 的值是 count(ci)∣D∣\rm \cfrac{count(c_i)}{|D|}∣D∣count(ci​)​ , count(ci)\rm count(c_i)count(ci​) 是指 cic_ici​ 在数据集 DDD 中出现的次数 , ∣D∣|D|∣D∣ 表示数据样本个数 ;

信息熵 entropy(D)\rm entropy(D)entropy(D) 取值越小 , 类别分步越纯 ;

属性 信息熵 计算参考 【数据挖掘】决策树中根据 信息增益 确定划分属性 ( 信息与熵 | 总熵计算公式 | 每个属性的熵计算公式 | 信息增益计算公式 | 划分属性确定 ) 博客 ;


总结

本博客主要讲解数据预处理需要进行的操作 , 数据规范化 , 数据离散化 , 数据清洗 , 特征提取与特征选择 ;

数据规范化涉及 最小-最大规范化 和 z-score 规范化 ;

数据离散化涉及 分箱离散化 和 基于熵的离散化 , 分箱离散化分为 等距离分箱 和 等频率分箱 ;

【商务智能】数据预处理相关推荐

  1. 机器学习PAL数据预处理

    机器学习PAL数据预处理 本文介绍如何对原始数据进行数据预处理,得到模型训练集和模型预测集. 前提条件 完成数据准备,详情请参见准备数据. 操作步骤 登录PAI控制台. 在左侧导航栏,选择模型开发和训 ...

  2. 深度学习——数据预处理篇

    深度学习--数据预处理篇 文章目录 深度学习--数据预处理篇 一.前言 二.常用的数据预处理方法 零均值化(中心化) 数据归一化(normalization) 主成分分析(PCA.Principal ...

  3. 目标检测之Faster-RCNN的pytorch代码详解(数据预处理篇)

    首先贴上代码原作者的github:https://github.com/chenyuntc/simple-faster-rcnn-pytorch(非代码作者,博文只解释代码) 今天看完了simple- ...

  4. 第七篇:数据预处理(四) - 数据归约(PCA/EFA为例)

    前言 这部分也许是数据预处理最为关键的一个阶段. 如何对数据降维是一个很有挑战,很有深度的话题,很多理论书本均有详细深入的讲解分析. 本文仅介绍主成分分析法(PCA)和探索性因子分析法(EFA),并给 ...

  5. 数据预处理--噪声_为什么数据对您的业务很重要-以及如何处理数据

    数据预处理--噪声 YES! Data is extremely important for your business. 是! 数据对您的业务极为重要. A human body has five ...

  6. 数据预处理(完整步骤)

    原文:http://dataunion.org/5009.html 一:为什么要预处理数据? (1)现实世界的数据是肮脏的(不完整,含噪声,不一致) (2)没有高质量的数据,就没有高质量的挖掘结果(高 ...

  7. 3D目标检测深度学习方法数据预处理综述

    作者 | 蒋天元 来源 | 3D视觉工坊(ID: QYong_2014) 这一篇的内容主要要讲一点在深度学习的3D目标检测网络中,我们都采用了哪些数据预处理的方法,主要讲两个方面的知识,第一个是rep ...

  8. 整理一份详细的数据预处理方法

    作者:lswbjtu https://zhuanlan.zhihu.com/p/51131210 编辑:机器学习算法与Python实战 为什么数据处理很重要? 熟悉数据挖掘和机器学习的小伙伴们都知道, ...

  9. pandas数据预处理(标准化归一化、离散化/分箱/分桶、分类数据处理、时间类型数据处理、样本类别分布不均衡数据处理、数据抽样)

    1. 数值型数据的处理 1.1 标准化&归一化 数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模.特征.分布差异等对模型的影响. ...

最新文章

  1. 新能源汽车电驱系统行业深度报告
  2. 软件工程的实践项目课程的自我目标
  3. ios 获取一个枚举的所有值_凯哥带你从零学大数据系列之Java篇---第十一章:枚举...
  4. linux lcd驱动调试 echo dev/fb0,LCD驱动程序 - osc_msmij2gf的个人空间 - OSCHINA - 中文开源技术交流社区...
  5. 2299 Ultra-QuickSort(归并)
  6. 可怕的春运,烦人的火车票!
  7. 手把手叫你一台电脑配置两个Git账户
  8. mut a:T 和a:mut T的区别
  9. 从全然不知到融会贯通 ——对小猿搜题手机APP的教学设计分析
  10. Java 多态性理解
  11. 串口转WIFI的工作方式理解
  12. mysql数据文件后缀名_数据文件的后缀名_MySQL
  13. 无法启动此程序因为计算机中丢失msvcp140d,msvcp140.dll文件丢失修复工具
  14. 手动删除eureka多余服务
  15. 装修鸿蒙瓷砖选择,电视墙用什么材料好?实用与美观,到底该如何选?
  16. 关于MySQL的between函数含头尾的问题
  17. 20-40K/月,百度车联网招聘多岗位Android工程师(地点:深圳)
  18. android 3d翻页动画,使用XML在Android中创建3D翻页动画
  19. java实现m3u8文件抓取器
  20. iOS和Android的差别

热门文章

  1. 关于使用AIR开发移动APP 的技术解决方案 笔记
  2. 第二次结对编程之软件测试
  3. 活动目录系列之十:活动目录数据库的维护
  4. legend3---lavarel多对多模型操作实例
  5. 【集训队作业2018】围绕着我们的圆环
  6. 洛谷P1541 乌龟棋
  7. hive的用户和用户权限
  8. 原创关于python中的一些坑点
  9. iOS 集成银联支付swift
  10. (多图) 基于FPGA的FIR数字滤波器设计与仿真