• 归一化原因
  • 归一化目的
  • 连续值归一化常见方法
    • Max-Min
    • 0均值标准化Z-Score
    • 对数函数法
  • 离散值归一化常见方法
    • One-Hot编码

归一化原因

1. 如果多个特征之间数值差异较大,那么收敛速度会很慢。如吴恩达老师在《机器学习》中给出的例子:

x1的取值为0-2000,而x2的取值为1-5,假如只有这两个特征,对其进行优化时,会得到一个窄长的椭圆形,导致在梯度下降时,梯度的方向为垂直等高线的方向而走之字形路线,这样会使迭代很慢,相比之下,右图的迭代就会很快
2. 在涉及到距离计算的模型中,若多个特征之间数值差异较大,那么数值小的特征对距离的影响则很小,这会造成精度的影响

归一化目的

1. 将数据按照一定的规则转变为(0,1)之间的数据;
2. 把有量纲表达式转变为无量纲表达式

连续值归一化常见方法

Max-Min

Xmin/Xmax分别对应数据集中最小、最大的数据,X是待归一化数据

0均值标准化(Z-Score)

其中x为某一具体分数,μ为平均数,σ为标准差。
Z值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算。在原始分数低于平均值时Z则为负数,反之则为正数。

在距离度量计算相似性、PCA中使用第二种方法(Z-score standardization)会更好,参考Max-Min和Z-Score对比

对数函数法

主要用于数量级很大的场合

###反正切函数 ![这里写图片描述](http://images2015.cnblogs.com/blog/323808/201603/323808-20160307152932163-740933698.png)

主要用于将角频率等变量转换到[-1,1]的范围

离散值归一化常见方法

One-Hot编码

独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。

例如:
1. 自然状态码为:000,001,010,011,100,101
独热编码为:000001,000010,000100,001000,010000,100000
2. 性别特征有三种特征值:男、女、其他
独热编码为:001,010,100

参考
http://blog.csdn.net/pipisorry/article/details/52247379
http://blog.csdn.net/pipisorry/article/details/61193868

数据预处理—归一化(连续值和离散值)相关推荐

  1. 四、数据预处理——处理连续型特征:二值化与分段

    四.数据预处理--处理连续型特征:二值化与分段 点击标题即可获取文章相关的源代码文件哟! - sklearn.preprocessing.Binarizer 根据阈值将数据二值化(将特征值设置为0或1 ...

  2. 机器学习之数据预处理——归一化,标准化

    机器学习之数据预处理--归一化,标准化 基础知识 1.什么是特征预处理 2.预处理方法 : 3.预处理API: 数据的标准化(normalization)和归一化 数据的标准化 数据归一化 1 把数变 ...

  3. 基于python的九轴惯性传感器的数据预处理代码-中值滤波实验

    ** 基于python的九轴惯性传感器的数据预处理代码-中值滤波实验 ** import random import numpy as np import pandas as pd import sc ...

  4. [数据与处理]归一化(连续值和离散值)

    归一化原因 归一化目的 连续值归一化常见方法 Max-Min 0均值标准化Z-Score 对数函数法 反正切函数 离散值归一化常见方法 One-Hot编码 归一化原因 如果多个特征之间数值差异较大,那 ...

  5. matlab数据无量纲化_MATLAB数据预处理——归一化和标准化

    输入/输出数据的预处理 尺度变换 尺度变换也称归一化或标准化,是指通过变换处理将网络的输入/输出数据限制在[0,1]或[-1,1]区间内.进行尺度变换的原因有: (1)网络的各个输入数据常常具有不同的 ...

  6. 数据预处理 - 归一化与Z-Score标准化

    归一化 归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量, 在多种计算中都经常用到这种方法.归一化方法有两种形式,一种是把数变为(0,1)之间的小数,一种是把有量 ...

  7. Python数据分析入门笔记4——数据预处理之重复值

    系列文章目录 Python数据分析入门笔记1--学习前的准备 Python数据分析入门笔记2--pandas数据读取 Python数据分析入门笔记3--数据预处理之缺失值 Python数据分析入门笔记 ...

  8. 数据预处理——归一化标准化

    数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间. 去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权 最典型的就是数据的归 ...

  9. 数据预处理归一化Z-score归一化Min-Max归一化程序

    在训练神经网络模型的时候,对数据进行预处理是必不可少的操作,而对数据进行归一化是预处理最常用的操作. 最常用的归一化方法有两种,Min-Max归一化和Z-score归一化. Min-Max归一化 原理 ...

最新文章

  1. LeetCode实战:三数之和
  2. android activity根节点addview_Activity问你4个问题,你敢回答吗?
  3. 人生苦短,我用Python
  4. python编程标准_Python常见编程规范总结
  5. 关于使用 git 命令行来和“码云”账号上的项目互通过程的基础步骤
  6. 卡西欧9860连接电脑数据传输_轻松办公好助手,卡西欧STYLISH计算器体验记
  7. ECstore报表不显示解决
  8. android 索引怎么使用情况,android 數據庫查詢中使用索引-大幅提高數據庫操作速度...
  9. java jar包示例_Java包isCompatibleWith()方法与示例
  10. 【Gitlab+Jenkins+Ansible】构建自动化部署
  11. 分享一个vue项目“脚手架”项目的实现步骤
  12. 原生JavaScript实现幻灯片效果
  13. 洛谷3244 [HNOI2015]落忆枫音
  14. CRM-如何获取客户
  15. 桌面计算机右键管理没反应,右键计算机(我的电脑)管理选项打不开解决措施
  16. 计算机的cpu不能用,CPU故障该怎么确定?解决办法?
  17. 嵌入式调试神器-虚拟示波器之JScope
  18. 信息学奥赛一本通:1055:判断闰年
  19. 十年技术进阶路:让我明白了三件要事。关于如何做好技术 Team Leader?如何提升管理业务技术水平?(10000字长文)...
  20. c语言blackjack设计思路,Veriog——简易的BlackJack(21点)程序

热门文章

  1. CentOS7设置阿里镜像源
  2. 关于数值策划在使用Excel表时的一点想法
  3. 算法:五笔编码,如何根据输入的词条自动生成输入编码
  4. 软件压力测试图片60张,Win10 64位用鲁大师界面cpu温度60上下,显卡40多。用压力测试7-8分钟cpu75左右,...
  5. 博弈论基础(acwing)
  6. MOOC-浙江大学-博弈论基础-学习笔记(三)
  7. [乐意黎原创] 左右格式的3D电影怎么播放
  8. 使用weui调用年月日时分
  9. 更新、修改access mdb数据库中的数据,用于swat的mdb文件
  10. 什么是含源一端口网络_什么是电子配线架?为什么要使用电子配线架?