数据标准化的方法与意义
含义
数据标准化和归一化存在区别
数据归一化是数据标准化的一种典型做法,即将数据统一映射到[0,1]区间上.
数据的标准化是指将数据按照比例缩放,使之落入一个特定的区间.
意义
求解需要
比如在SVM中处理分类问题是又是需要进行数据的归一化处理,不然会对准确率产生很大的影响,具体点说,比如避免出现因为数值过大导致c,g取值超过寻优范围除此之外,最明显的是在神经网络中的影响,主要有四个层面
- 有利于初始化的进行
- 避免给梯度数值的更新带来数值问题
- 有利于学习率数值的调整
- 搜索轨迹:加快寻找最优解速度
具体情况请参考:神经网络为什么要归一化:
http://blog.csdn.net/fontthrone/article/details/74064971
2. 加快寻找最优解(加快收敛速度)
没有归一化前,寻找最优解的过程:
归一化后的过程:
3. 无量纲化(业务上需求上的):
指去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或者量级的指标能够进行和加权.
比如身高与体重,房子数量与收入等.
4. 数值问题
不归一化的数值,比如浮点数可能会产生数值不相等的问题.
5. 数值范围减小对许多算法在纯粹的数值计算上都有一定加速作用(个人看法,虽然影响不大,但效果还是有的)
常用公式
- min-max标准化(Min-max normalization)
又名离差标准化,是对原始数据的线性转化,公式如下
含义: max : 样本最大值; min: 样本最小值;
问题: 当有新数据加入时需要重新进行数据归一化
2. z-score 标准化(zero-mean normalization)
又名标准差标准化,归一化后的数据呈正态分布,即均值为零,标准差为一公式如下:
其中μ为所有样本数据的均值,σ为所有样本数据的标准差。与离差标准化的不同之处在于,离差标准化仅仅仅仅对原数据的的方差与均差进行了倍数缩减,而标准差标准化则使标准化的数据方差为一。这对许多的算法更加有利,但是其缺点在于假如原始数据没有呈高斯分布,标准化的数据分布效果并不好。
3. atan反正切函数标准化
公式如下:
问题: 数据必须大于零,大于零的函数将会被映射到[-1,0]上
atan函数图像如下:
4. log函数标准化
公式如下:
问题:
a . 数据必须大于等于一
b. 如果数值大于10**10(十的十次方),那么映射的数据将大于一
解决问题b 的方案,改变公式以类似于 ” min-max标准化的方式 “, 如下:
max: 样本最大值
通过 ” /log10(max) ” 值得方式,可以保证所有样本能够正确的映射到[0,1]空间,
数据标准化的方法与意义相关推荐
- 几种常见的数据标准化的方法总结
一.标准化 在进行数据分析时,数据具有单位是非常常见的,比如说GDP可以以亿作为单元,也可以以百万作为单位,那么此时就会出现由于单位问题导致的数字大小问题:这种情况对于分析可能产生影响,因此需要对其进 ...
- 最大最小标准化 数值_分享丨实验数据标准化处理方法
能力验证上报数据(n个数据)通过什么方法处理后进行的判定?这些问题都涉及数据标准化. 在数据分析之前,通常需要先将数据标准化,利用标准化后的数据进行数据分析.数据标准化也就是统计数据的指数化. 为什么 ...
- 数据标准化的方法与作用
在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析.数据标准化也就是统计数据的指数化.数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面. ...
- 数据标准化处理方法_机器学习系列-数据预处理-数据标准化(归一化)-理论
在做一个具体的机器学习项目中,拿到收集到的数据后,一般都是需要做数据预处理,而标准化(暂时不考虑标准化和归一化的主要区别)是数据预处理中一个比较重要的环节,那么为什么需要对数据进行标准化处理呢? 数据 ...
- 数据标准化的原因和方法
数据标准化的原因和方法 原因 由于不同变量常常具有不同的单位和不同的变异程度. 不同的单位常使系数的实践解释发生困难.例如:第1个变量的单位是kg,第2个变量的单位是cm,那么在计算绝对距离时将出 ...
- 数据标准化的原因及方法
一.为何要将数据标准化? 由于不同变量常常具有不同的单位和不同的变异程度. 不同的单位常使系数的实践解释发生困难.例如:第1个变量的单位是kg,第2个变量的单位是cm,那么在计算绝对距离时将出现将两 ...
- 【指数编制系列二】数据标准化方法
在系统学习指数编制方法之前,先介绍一下几个指数编制过程中会经常使用的数据处理方法,如:数据标准化方法.权重设置方法.异常值处理方法.因为在后面指数编制过程中会经常用到这些方法.接下来我还是按照分类 ...
- 数据缺失,数据异常,数据标准化的处理方法
数据缺失 一.缺失值产生的原因 缺失值的产生的原因多种多样,主要分为机械原因和人为原因.机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段 ...
- 数据归归一化方法(标准化)
数据归一化方法 数据标准化(normalization)数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面. 数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用 ...
最新文章
- 《梦醒黄金城》主创暨明星见面会举办 预计2019年完成拍摄
- 产生随机数的几种方法
- 下面中???该如何填写,才可以正确执行强制类型转换? int (*monthp)[31]; monthp = (???)malloc(31);
- 中澜视讯产品运营总监黄超强:产品+付费+未来汽车
- git 列出标签_Git标签介绍:如何在Git中列出,创建,删除和显示标签
- C++算法三:选择排序
- 利用膨胀和腐蚀获取图像边缘 matlab实现
- 03JavaScript程序设计修炼之道_2019-06-18_21-41-56_事件onfocus
- 【nmake】Nmake基本语法和Windows下的makefile.vc编写demo
- 电商后台管理系统——权限管理模块
- [copypaste]各种渐进表示法
- 【WPS单元格】汉字转拼音的方法
- 黑苹果系统完全移植新硬盘
- iphone8 android传文件,如何从iPhone或Android将数据传输到新的iPhone 8
- java smb删除指定文件,java 利用SMB向远道机器写文件
- Python的装饰器decorator
- 坐标系基础相关知识:右手定则
- MATLAB常用命令及函数大全(字母顺序)
- 双系统重装ubuntu18.04
- Java智能五子棋(更新中)
热门文章
- 免费的容器架构可视化工具 | 阿里云应用高可用服务 AHAS 发布重大新特性
- String和StringBuffer的区别,String长度是固定的?
- 给wxPython事件处理函数传递参数
- 内卷严重?加班多?给几条程序员都适用的建议
- 京东把 Elasticsearch 用的真牛逼!
- 这个开源项目帮你将Linux命令行一网打尽!
- Java 线程池艺术探索
- springboot源码分析之环境属性构造过程1
- java.lang.IllegalStateException: Context namespace element ‘annotation-config’ and its parser class
- FetchType.LAZY和FetchType.EAGER什么区别?(懒加载和急加载的理解)