作者:代码律动
链接:数据预处理的归一化手段应该如何应用到训练集,测试集和验证集中? - 知乎
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

作者:Orginal
链接:https://zhuanlan.zhihu.com/p/424518359
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

什么是归一化,它与标准化的区别是什么?_guyu1003的博客-CSDN博客_标准化和归一化的区别

1.归一化处理训练集、验证集、测试集

测试集的方差与均值都应该来自训练集的先验数据。需要你的数据集划分足够合理,使训练集上训练出来的模型有足够的泛化能力(当然模型的设计更关键)。

验证集的归一化也要和训练集一样,在调整参数的时候,我们面对的是验证集的结果。在验证集上得到最佳的参数设置,最终在测试集上进行实验。

2.常用归一化方法

Zero-mean normalization(z-score标准化)

公式:

(1) 将原始数据集归一化为均值为0、方差1的数据集

(2) 该种归一化方式要求原始数据的分布可以近似为高斯分布,否则归一化的效果会变得很糟糕。

应用场景:在分类、聚类算法中,需要使用距离来度量相似性的时候(比如K-means等聚类算法 中),或者使用PCA技术进行降维的时候,Z-score standardization表现更好。

Min-max normalization(最大最小归一化)

公式:

(1) 线性函数将原始数据线性化的方法转换到[0 1]的范围, 计算结果为归一化后的数据,X为原始数据

(2) 本归一化方法比较适用在数值比较集中的情况;

(3) 缺陷:如果max和min不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定。实际使用中可以用经验常量来替代max和min。

应用场景:在不涉及距离度量、协方差计算、数据不符合正太分布的时候,可以使用该方法或其他归一化方法(不包括Z-score方法)。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围

Non-linear normaliztions(神经网络归一化)

非线性的归一化函数包含 log,exp,arctan, sigmoid等等。用非线性归一化的函数取决于输入数据范围以及期望的输出范围。比如 log() 函数在 [0, 1] 区间上有很强的区分度,arctan() 可以接收任意实数病转化到 [−π2,π2] 区间,sigmoid 接收任意实数并映射到 (0, 1)。

(1)log对数函数归一化

x' = log10(x) /log10(max)

其中max表示样本数据的最大值,并且所有样本数据均要大于等于1.

(2)反正切函数归一化

x' = atan(x)*(2/pi)

使用这个方法需要注意的是如果想映射的区间为[0,1],则数据都应该大于等于0,小于0的数据将被映射到[-1,0]区间上.

Length-one normalization

公式:

将特征转为单位向量的形式,可以剔除特征的强度的影响。这种处理用在不考虑向量大小而需要考虑向量方向的问题中,比如在一些文本情感的分类中,我们可能并不需要知道情感表达的强弱,而只要知道情感的类型,比如开心,生气等等。

3.什么时候用归一化?

(1)如果对输出结果范围有要求,用归一化。

(2)如果数据较为稳定,不存在极端的最大最小值,用归一化。

(3)如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响。

3.归一化与标准化区别

不同点: 

(1)归一化:将样本的特征值转换到同一量纲下把数据映射到[0,1]或者[-1, 1]区间内,仅由变量的极值决定,因区间放缩法是归一化的一种。

应用于没有距离计算的地方上,丢失了距离信息;

“归一”,注意“一”,就是把数据归到(0,1)这个区间内;

常用的方法有: min-max归一化

(2)标准化:依照特征矩阵的列处理数据,其通过求z-score的方法,转换为标准正态分布,和整体样本分布相关,每个样本点都能对标准化产生影响。

标准化则是使用在不关乎权重的地方上,丢失了权重信息;

“标准”,就是标准正态分布,把数据转换成标准正态分布;
常用的方法有:z-score标准化

相同点:都能取消由于量纲不同引起的误差;都是一种线性变换,都是对向量X按照比例压缩再进行平移

拓展:

归一化和标准化之外,还有中心化(就是将数据的mean变成0).

一般来说,工程上优先使用标准化,然后再归一化

【python学习】数据预处理-如何归一化?相关推荐

  1. 深度学习——数据预处理篇

    深度学习--数据预处理篇 文章目录 深度学习--数据预处理篇 一.前言 二.常用的数据预处理方法 零均值化(中心化) 数据归一化(normalization) 主成分分析(PCA.Principal ...

  2. 神经网络中的网络优化和正则化(二)之参数初始化/数据预处理/逐层归一化

    转载请注明出处:https://thinkgamer.blog.csdn.net/article/details/101026786 博主微博:http://weibo.com/234654758 G ...

  3. Scikit-learn 数据预处理之归一化MinMaxScaler

    Scikit-learn 数据预处理之归一化MinMaxScaler 1 声明 本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理. 2 MinM ...

  4. pandas用众数填充缺失值_【机器学习】scikit-learn中的数据预处理小结(归一化、缺失值填充、离散特征编码、连续值分箱)...

    一.概述 1. 数据预处理 数据预处理是从数据中检测,修改或删除不准确或不适用于模型的记录的过程 可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断. 也可 ...

  5. 数据归一化处理方法_数据预处理:归一化和标准化

    1. 概述 数据的归一化和标准化是特征缩放(feature scaling)的方法,是数据预处理的关键步骤.不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间 ...

  6. 数据预处理之归一化/标准化/正则化/零均值化

    数据预处理之归一化/标准化/正则化/零均值化 一.标准化(Standardization) 二.归一化(Normalization) 三,中心化/零均值化 (Zero-centered) 四.正则化 ...

  7. python图片保存和图片展示顺序_【IT专家】【 python 】 —— 数据预处理:(1) 读取与显示图片 + 图像通道顺序变换...

    本文由我司收集整编,推荐下载,如有疑问,请与我司联系 [ python ] -- 数据预处理: (1) 读取与显示图片 + 图像通道顺 序变换 2018/05/31 29 # ---- 用 OPENC ...

  8. Python数据分析数据预处理特征值独热编码

    [小白从小学Python.C.Java] [Python-计算机等级考试二级] [Python-数据分析] Python数据分析 数据预处理 特征值独热编码 独热编码,是一种将分类变量转换为若干二进制 ...

  9. python 归一化_一文学会用python进行数据预处理

    怎样用Python进行数据转换和归一化 1.概述 ​ 实际的数据库极易受到噪声.缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源,低质量的数据将会导致低质量的数据分析结果,大量的数 ...

最新文章

  1. 去除浏览器ip检测_浏览器怎么多开换ip,每个窗口不同的独立IP-VMLogin中文版指纹浏览器...
  2. OVS 添加端口流程(二十九)
  3. docker与k8s面试题基础
  4. java 3number_java 数据Number、Math
  5. 帆软报表嵌入python程序_在线报表FineReport中如何进行嵌入式部署
  6. python空条件_python – 如何在SQLAlchemy中指定一个条件,其中一个条件要求列为空?...
  7. 蓝桥杯 ALGO-101 算法训练 图形显示
  8. 51 Nod 1005 大数加法【Java大数乱搞,python大数乱搞】
  9. 用acdess制作html文件,Acdsee如何制作幻灯片 Acdsee制作幻灯片方法教程
  10. 拉格朗日插值一个公式概括
  11. java 词云_在线词云生成工具
  12. opencv学习(四十四)之图像角点检测Harris
  13. 电脑端微信用户图片DAT格式解码为图片(TK版)
  14. 完美解决桌面右键一直转圈,反应卡顿问题(重点是怎样删除workfolders)
  15. Excel计算个人所得税公式
  16. MTK6737平台匹配设备节点的方法
  17. 内嵌资源html,go 1.16 embed 实现资源文件(html, css, js等)内嵌
  18. 【Tensorflow】op的理解和自定义损失函数
  19. 批量删除svn隐藏文件
  20. drill apache_大数据SQL:Apache Drill查询执行功能概述–白板演练

热门文章

  1. 【.NET框架】—— ASP.NET MVC5 初识(一)
  2. 硬盘计算机类比推理,2019年国家公务员考试每日一练:类比推理(15)
  3. 2019蓝桥杯每周一题第二周之Mineweep(扫雷)
  4. 小学计算机课小报,【教学设计】信息技术第五册第1课:制作小报初规划
  5. 计算机科学与技术导论小报,电子科大信息论导论复习精要.doc
  6. tanner2019安装教程
  7. linux daemon启动脚本,Linux 启动脚本
  8. 【u8+】调账提示:此分录已两清,不能删除或修改
  9. 笑傲江湖之精忠报国,终于做完了
  10. linux 进程 锁定cpu,如何限制Linux中任何进程的CPU使用情况 | MOS86