一般做机器学习应用的时候大部分时间是花费在特征处理上,其中很关键的一步就是对特征数据进行归一化,那么为什么要归一化呢?

目录:

  1. 定义
  2. 优点
  3. 方法
  4. 结构

一、定义

数据标准化(Normalization),也称为归一化,归一化就是将你需要处理的数据在通过某种算法经过处理后,限制将其限定在你需要的一定的范围内。

数据标准化处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要对数据进行归一化处理,解决数据指标之间的可比性问题。

二、优点

从定义中我们可以得知,数据归一化的目的就是为了把不同来源的数据统一到同一数量级(或者是一个参考坐标系)下,这样使得比较起来有意义。归一化使得后面数据的处理更为方便,它有两大优点:

(1)归一化提高梯度下降发求解最优解的速度

如下图,蓝色的圈圈表示特征的等高线。其中左图的两个特征x1和x2区间相差较大,x1~[0,2000],x2~[1,5],期所形成的等高线在一些区域相距非常远,当使用梯度下降法求解最优解的时候,很可能垂直等高线走“之字型”路线(左图红色路径),从而导致需要迭代很多次才能收敛,也可能不收敛。而右图对两个原始特征进行了归一化处理,其对应的等高线显得很圆,在梯度下降的时候就能很快收敛。因此,如果机器学习使用梯度下降法求解最优解时,归一化往往是非常有必要的。

(2)归一化有可能提高精度

一些分类器(如KNN)需要计算样本之间的距离(如欧式距离)。如果一个特征值域范围非常大,那么距离计算就要取决于这个特征,如果这时实际情况是值域范围小的特征更重要,那么归一化就要起作用了。

三、归一化方法

(1)线性归一化,也称min-max标准化、离差标准化;是对原始数据的线性变换,使得结果值映射到[0,1]之间。转换函数如下:

这种归一化比较适用在数值较集中的情况。但是这种方法有一个缺陷,就是如果max和min不稳定的时候,很容易使得归一化的结果不稳定,易受极值影响,影响后续使用效果。所以在实际应用中,我们一般用经验常量来替代max和min。

(2)标准差归一化,也叫Z-score标准化,这种方法给予原始数据的均值(mean,μ)和标准差(standard deviation,σ)进行数据的标准化。经过处理后的数据符合标准正态分布,即均值为0,标准差为1,转化函数为:

(3)非线性归一化,这种方法一般使用在数据分析比较大的场景,有些数值很大,有些很小,通过一些数学函数,将原始值进行映射。一般使用的函数包括log、指数、正切等,需要根据数据分布的具体情况来决定非线性函数的曲线。

四、结构

(1)深度模型的激活函数

(2)激活函数导致的梯度消失

(3)批量归一化

(4)自归一化神经网络

总结:

如果对输出结果范围有要求,或是数据较为稳定,不存在极端的最大最小值,就可以用归一化

如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响

均值归一化_机器学习之归一化(Normalization)相关推荐

  1. 均值归一化_机器学习总结(算法):高斯、高斯过程、SVM、归一化

    高斯 高斯判别分析(GDA) 对于高维空间中的一般似然和先验函数,很难用贝叶斯定理进行推断.但是,如果使用已知的分布函数对它们建模是可行的,我们可以设法通过分析轻松地解决它们.考虑一个分类问题,将对象 ...

  2. python怎么数据归一化_基于数据归一化以及Python实现方式

    数据归一化: 数据的标准化是将数据按比例缩放,使之落入一个小的特定区间,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权. 为什么要做归一化: 1)加快梯度下降 ...

  3. python 归一化_几种归一化方法(Normalization Method)python实现

    数据归一化问题是数据挖掘中特征向量表达时的重要问题,当不同的特征成列在一起的时候,由于特征本身表达方式的原因而导致在绝对数值上的小数据被大数据"吃掉"的情况,这个时候我们需要做的就 ...

  4. matlab 归一化_机器学习中如何用Fscore进行特征选择(附Matlab代码)

    作者:kervin 编辑:阿吉 目前,机器学习在脑科学领域的应用可谓广泛而深入,不论你是做EEG/ERP研究,还是做MRI研究,都会看到机器学习的身影.机器学习最简单或者最常用的一个应用方向是分类,如 ...

  5. python array按行归一化_机器学习 第40集:特征不归一化有什么危害?特征归一化公式是什么?( 含有笔记、代码、注释 )...

    特征不归一化有什么危害?特征归一化公式是什么? ① 例如,我用一个人身高(cm)与脚码(尺码)大小来作为特征值,类别为男性或者女性.我们现在如果有5个训练样本,分布如下: A [(179,42),男] ...

  6. r语言归一化_数据变换-归一化与标准化

    一般在机器学习的模型训练之前,有一个比较重要的步骤是数据变换. 因为,一般情况下,原始数据的各个特征的值并不在一个统一的范围内,这样数据之间就没有可比性. 数据变换的目的是将不同渠道,不同量级的数据转 ...

  7. 对数坐标归一化_数据的归一化处理

    数据的标准化(normalization)和归一化 数据的标准化 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间.在某些比较和评价的指标处理中经常会用到,去除数 ...

  8. 对数坐标归一化_数据预处理-归一化/数据转换

    有时候我们在拿到原始数据的时候,我们不能直接使用.大概场景有下面这些,我遇到的 1. 数字比较大,容易爆计算量,更不容易收敛 2. 比如房子价格这种变量,并不是正态分布,有时候不利于我们做一些和正态分 ...

  9. 均值归一化_超越BN和GN!谷歌提出新的归一化层:FRN

    码字不易,欢迎给个赞! 欢迎交流与转载,文章会同步发布在公众号:机器学习算法工程师(Jeemy110) 目前主流的深度学习模型都会采用BN层(Batch Normalization)来加速模型训练以及 ...

最新文章

  1. (原)Eclipse 字体过小问题
  2. Keepalived简介
  3. Scala 位运算及代码块
  4. VmWare5.5主机Citrix桌面实施方案(二)
  5. [CF/AT]各大网站网赛 体验部部长第一季度工作报告
  6. linux下ip协议(V4)的实现(三)
  7. 【Git】Git如何在不提交当前分支的情况下切换到其它分支进行操作-git stash
  8. 如何向小白讲述软件架构发展历程?
  9. 《自控力》-自控力极限
  10. react 结合 axios 异步请求封装
  11. 网易邮箱服务器怎么注册,免费网易域名邮箱申请教程(图)
  12. 通过IO口控制STC15F2K60S2系列单片机输出pwm
  13. 485通讯测试软件,Modbus 测试工具| Modbus 通信测试软件
  14. python读取pcd文件_Python读取pcd点云文件
  15. 物流行业如何利用智慧物流体系实现转型升级?
  16. 微信小程序python token验证_微信小程序登录对接Django后端实现JWT方式验证登录
  17. 学计算机用啥u盘好,U盘制作工具哪个好用?2020U盘制作工具推荐
  18. 点击图片放大预览,遮罩屏幕放大展示
  19. iphone,ipad,关于icon图标的那些事(必须1024啦~~)
  20. 搜索引擎三国鼎立:百度 vs 360 vs 搜狗

热门文章

  1. 关于LaunchScreen.storyboard启动设置(包含不同设备适配)
  2. 期末WEB大作业——做一个可视化大屏
  3. hydra(九头蛇)暴力破解
  4. 中文 NLP(11) -- stanfordNLP 生成文法之 PCFG 模型
  5. 电源模块中CNT、TRM和SENSE引脚
  6. JS SHA1加密算法(微信小程序 SHA1加密算法使用)
  7. [附源码]计算机毕业设计springboot基于SpringBoot的演唱会购票系统论文2022
  8. Springboot做文件上传和文件下载
  9. Linux系统的时间、日期和月历命令的使用方法
  10. 阴阳师服务器维护更新,《阴阳师》手游2月14日维护更新公告