(1)最大最小值归一化(min-max normalization):将数值范围缩放到 [0, 1] 区间里

(2)均值归一化(mean normalization):将数值范围缩放到 [-1, 1] 区间里,且数据的均值变为0

(3)标准化 / z值归一化(standardization / z-score normalization):将数值缩放到0附近,且数据的分布变为均值为0,标准差为1的标准正态分布(先减去均值来对特征进行 中心化 mean centering 处理,再除以标准差进行缩放)


(4)最大绝对值归一化(max abs normalization ):也就是将数值变为单位长度(scaling to unit length),将数值范围缩放到 [-1, 1] 区间里

(5)稳键标准化(robust standardization):先减去中位数,再除以四分位间距(interquartile range),因为不涉及极值,因此在数据里有异常值的情况下表现比较稳健


具体使用哪种方法进行特征缩放?

1.在需要使用距离来度量相似性的算法中,或者使用PCA技术进行降维的时候,通常使用标准化(standardization)或均值归一化(mean normalization)比较好。
2.如果数据分布不是正态分布或者标准差非常小,以及需要把数据固定在 [0, 1] 范围内,那么使用最大最小值归一化(min-max normalization)比较好(min-max 常用于归一化图像的灰度值)。
3.但是min-max比较容易受异常值的影响,如果数据集包含较多的异常值,可以考虑使用稳键归一化(robust normalization)。
4.对于已经中心化的数据或稀疏数据的缩放,比较推荐使用最大绝对值归一化(max abs normalization ),因为它会保住数据中的0元素,不会破坏数据的稀疏性(sparsity)。

一些算法的例子,其中的特征缩放是很重要的:

1.k-最近邻具有欧氏距离度量,对大小敏感,因此应该对所有特征进行缩放,使其尺度相同。

2.主成分分析(PCA),缩放是关键。主成分分析试图得到方差最大的特征,对于高幅值特征,方差较大。这使得PCA倾向于高幅值特征。

3.梯度下降可以通过缩放进行加速。这是因为θ在小尺度上会下降的很快,在大尺度上会很慢,所以,变量尺度不均匀的时候,在最优化的路径上会有震荡,效率下降。

4.基于树的模型不是基于距离的模型,可以处理不同范围的特性。因此,建模树时不需要缩放。

5.线性判别分析(LDA)、朴素贝叶斯等算法设计的时候就准备好了处理这一问题,并相应地赋予特征权重。在这些算法中执行特征缩放可能没有多大效果。

————————————————
参考文章
[1] https://www.cnblogs.com/HuZihu/p/9761161.html
[2] CSDN博主「ronghuaiyang」的文章

Feature Scaling(特征缩放)的一些方法和使用选择相关推荐

  1. 【ML05】Feature Scaling 特征缩放

    Feature Scaling Feature Scaling 特征缩放的目的是什么 Feature Scaling Method #3 Dividing by maximum Mean Normal ...

  2. EOF-DataScience:数据预处理/特征工程之线性变换—四种特征缩放Scaling算法简介、标准化standardization、归一化Normalization的概述与区别

    DataScience:数据预处理/特征工程之线性变换-四种特征缩放Scaling算法简介.标准化standardization.归一化Normalization的概述与区别 目录 数据处理中常见的四 ...

  3. 机器学习中的特征缩放(feature scaling)浅谈

    引言 在运用一些机器学习算法的时候不可避免地要对数据进行特征缩放(feature scaling),比如:在随机梯度下降(stochastic gradient descent)算法中,特征缩放有时能 ...

  4. 浅谈机器学习中的特征缩放(feature scaling)

    引言 在运用一些机器学习算法的时候不可避免地要对数据进行特征缩放(feature scaling),比如:在随机梯度下降(stochastic gradient descent)算法中,特征缩放有时能 ...

  5. 特征缩放 feature scaling

    样本不同特征的取值范围如果不一样,可能导致迭代很慢,为了减少特征取值的影响,可以对特征数据进行缩放,加速算法的收敛.常见的映射范围有 [0,1][0, 1][0,1] 和 [−1,1][-1, 1][ ...

  6. 特征缩放feature scaling(吴恩达版详解)

    前言 最近在学习吴恩达的深度学习,对于特征缩放的知识点很是困惑,不明白为什么它会加快收敛速度,在网上看大佬们的解答,大佬们也都是给了两个对比图之后就把这个问题带过去了,于是我认认真真,反复看了吴恩达的 ...

  7. 特征缩放(Feature Scaling)

    如果某个特征的取值范围比其他特征大很多,那么数值计算就受该特征的主要支配.但实际上并不一定是这个特征最重要,通常需要把每个特征看成同等重要.归一化/标准化数据可以使不同维度的特征放在一起进行比较,可以 ...

  8. matlab进行特征缩放,机器学习中(Feature Scaling)特征缩放处理的matlab实现方式

    在进行特征缩放的时候,其一般做法是(X-mu)/sigma mu:代表均值 sigma:代表标准差 在matlab中,函数mean可以求特征的均值,函数std可以求特征的标准差. 假设训练集为m,特征 ...

  9. CS229 1 .线性回归与特征归一化(feature scaling)

    线性回归是一种回归分析技术,回归分析本质上就是一个函数估计的问题(函数估计包括参数估计和非参数估计),就是找出因变量和自变量之间的因果关系.回归分析的因变量是应该是连续变量,若因变量为离散变量,则问题 ...

最新文章

  1. 让Updatepanel中的控件触发整个页面Postback
  2. 说说浏览器的沙箱机制
  3. 绝对Linux服务器管理利器webmin
  4. Overfull \hbox或Underfull \hbox错误提示 基于LaTex+VSCode+MAC
  5. 书写存储过程遇到的问题(后续添加中。。。。)
  6. SAP移动类型103解析
  7. PHP的var_dump(‘1‘==‘1e0‘)的结果为true
  8. 江苏大学考研885程序设计 - 谭浩强课后习题
  9. 【不积跬步,无以致千里】DELETE SINGLE IPTABLES RULES
  10. Git的使用--如何将本地项目上传到Github(两种简单、方便的方法)
  11. PHP正则获取HTML里需要的数据
  12. 企业IT架构转型之道 - 读书笔记
  13. Ubuntu 10.10 下安装spoonwep-wpa工具
  14. 携程数据开发2022留用实习面试
  15. 物联网技术在智慧校园中的应用
  16. JS 数组 按个数进行分组
  17. “请珍惜”震撼心灵的感动;当我们老了,还能一起真三么?
  18. ws2812怎么调亮度_深度解析OLED屏幕的低亮度DC调光是如何实现的?
  19. 沈南鹏@《遇见大咖》: A轮没投,投了8个月以后就证明了张一鸣是对了,在美国都没有张一鸣这种模式...
  20. UUUUUUUUUUnity

热门文章

  1. cxf wsdl2java wsdl_通过cxf 包的 wsdl2java 生成客户端 测试webservice
  2. S03_CH03_AXI_DMA_OV7725摄像头采集系统
  3. jq 中each的用法 (share)
  4. 事务的隔离级别 数据库
  5. 服务器内容推送技术(转)
  6. SQLite学习笔记(三)--创建内存数据库
  7. 《设计模式详解》行为型模式 - 状态模式
  8. 《设计模式详解》创建型模式 - 原型模式
  9. 那年我学过的SpringBoot笔记
  10. vnpy学习11_增加测试评估指标