原文地址:数据的规范化,归一化,标准化,正则化作者:打湿井盖

数据的规范化,归一化,标准化,正则化,这几个破词整得我头晕,首先这些词就没规范好,对数据做实验更晕,网上狂搜一阵后,发现数据归一化,标准化,正则化,还是有差别

数据规范化

  一种是针对数据库的解释 

  规范化理论把关系应满足的规范要求分为几级,满足最低要求的一级叫做第一范式(1NF),在第一范式的基础上提出了第二范式(2NF),在第二范式的基础上又提出了第三范式(3NF),以后又提出了BCNF范式,4NF,5NF。范式的等级越高,应满足的约束集条件也越严格。

 另一种是就是对数据而言,一直想把数据的规范化的概念与归一化,标准化,正则化区分清楚。纠结一阵后个人认为,数据的规范化包含了归一化,标准化,正则化,是一个统称(也有人把标准化做为统称,)。针对不同的问题作用也不同。


1 数据规范化

数据规范化是数据挖掘中数据变换的一种方式,数据变换将数据转换或统一成适合于挖掘的形式。而数据规范化是指将被挖掘对象的属性数据按比例缩放,使其落入一个小的特定区间(如[-1,1]或[0,1])。

对属性值进行规范化常用于涉及神经网络或距离度量的分类算法和聚类算法中。比如使用神经网络向后传播算法进行分类挖掘时,对训练元组中度量每个属性的输入值进行规范化有助于加快学习阶段的速度。对于基于距离度量相异度的方法,数据规范化可以让所有的属性具有相同的权重。

数据规范化的常用方法有三种:按小数定标规范化、最小-最大值规范化和z-score规范化。

(1) 最小-最大规范化对原始数据进行线性变换。
zi=xi-xmin/xmax-xmin
其中:zi为指标的标准分数,xi为某镇某指标的指标值,xmax为全部镇中某指标的最大值,xmin为全部镇中某指标的最小

(2) z-score规范化也称零-均值规范化。属性A的值是基于A的平均值与标准差规范化。

公式为:(x-mean(x))/std(x)
(3) 小数定标规范化

通过移动属性值的小数点位置进行规范化,通俗的说就是将属性值除以10的j次幂。

如j=3,-986规范化后为-0.986,而917被规范化为0.917。达到了将属性值缩到小的特定区间[-1,1]的目标。

2 归一化(Normalization


把数变为(0,1)之间的小数
主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内。

一般方法是最小-最大规范的方法:  (x-min(x))/(max(x)-min(x)),

3 标准化(Standardization

数据的标准化是将数据按比例缩放,使之落入一个小的特定区间,标准化后的数据可正可负,但是一般绝对值不会太大。一般是z-score规范化方法:(x-mean(x))/std(x)


4 正则化(Regularization

在求解最优化问题中,调节拟合程度的,参数一般称为正则项,越大表明欠拟合,越小表明过拟合,推荐中主要用在矩阵分

李航博士在《统计学习方法》中提到,统计学习的三要素是模型、策略和算法,在机器学习领域,这个“模型”就是我们要求解的概率分布或决策函数。

假设我们现在要求一个逻辑回归问题,首先我们要做的是假设一个函数,可以覆盖所有的可能:y=wx,其中w为参数向量,x为已知样本的向量,如果用yi表示第i个样本的真实值,用f(xi)表示样本的预测值,那么我们的损失函数可以定义为:

L(yi,f(xi))=yi−sigmoid(xi)

这里可以不用关心这个函数是什么意思,就知道代表误差就行了。对于该模型y=wx的所有样本的损失平均值成为“经验风险”(empiricalrisk)或”经验损失”(empirical loss)。很显然,经验风险最小化(empirical riskminimization,ERM)就是求解最优模型的原则。为了达到这个目的,模型的设定会越来越复杂,最后造成该模型只适用于当前的样本集(即over-fitting,过拟合)。

为了解决过拟合问题,通常有两种办法,第一是减少样本的特征(即维度),第二就是我们这里要说的”正则化“(又称为”惩罚“,penalty)。正则化的一般形式是在整个平均损失函数后增加一个正则项(L2范数正则化,也有其他形式的正则化,他们的作用也不同):


A=1N(∑iNL(yi,f(xi))+∑inλw2i)

后面的

∑inλw2i

就是正则化项,其中λ越大表明惩罚粒度越大,等于0表示不做惩罚,N表示所有样本的数量,n表示参数的个数。

从下面的图中,可以很明显的看出正则化函数的作用:

λ=0λ=0的情况,即没有正则化

λ=1λ=1的情况,即合适的惩罚

λ=100,λ=100过度惩罚,出现欠拟合问题

数据的规范化,归一化,标准化,正则化相关推荐

  1. 数据预处理之归一化/标准化/正则化/零均值化

    数据预处理之归一化/标准化/正则化/零均值化 一.标准化(Standardization) 二.归一化(Normalization) 三,中心化/零均值化 (Zero-centered) 四.正则化 ...

  2. 关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化

    20220121 z-score标准化 模型存储和load再调用其实没有关系 再load计算的时候,也是以实际的数据重新计算 并不是以save模型的边界来计算的 20211227 onehot训练集保 ...

  3. 使用sklearn进行数据预处理 —— 归一化/标准化/正则化

    本文主要是对照scikit-learn的preprocessing章节结合代码简单的回顾下预处理技术的几种方法,主要包括标准化.数据最大最小缩放处理.正则化.特征二值化和数据缺失值处理.内容比较简单, ...

  4. 规范化、标准化、归一化、正则化

    规范化: 针对数据库 规范化把关系满足的规范要求分为几级,满足要求最低的是第一范式(1NF),再来是第二范式.第三范式.BC范式和4NF.5NF等等,范数的等级越高,满足的约束集条件越严格. 针对数据 ...

  5. 几种数据预处理方法汇总(标准/中心化、归一化、正则化)+Python代码

    1. 数据的标准化(规范化/归一化) 数据标准化是将样本的属性缩放到某个指定的范围. 数据标准化的原因: 某些算法要求样本具有零均值和单位方差: 需要消除样本不同属性具有不同量级时的影响:①数量级的差 ...

  6. 分清规范化(标准化、归一化)、离散化、正则化、

    在机器学习中,特征与模型都很重要,因此在数据集中寻找本质特征有利于后面的工作,借鉴了以前上课的课件,今天总结一下机器学习的几种数据预处理方法. 1. 规范化(包括标准化和归一化) 将特征值按比例缩放映 ...

  7. 机器学习中之规范化,中心化,标准化,归一化,正则化,正规化

    一.归一化,标准化和中心化 广义的标准化: (1)离差标准化(最大最小值标准化) (2)标准差标准化 (3)归一化标准化 (4)二值化标准化 (5)独热编码标准化 归一化 (Normalization ...

  8. 【机器学习】 - 数据预处理之数据归一化(标准化)与实战分析,正则化

    一.为什么要进行数据归一化 定义:把所有数据的特征都归到 [0,1] 之间 或  均值0方差1 的过程. 原则:样本的所有特征,在特征空间中,对样本的距离产生的影响是同级的: 问题:特征数字化后,由于 ...

  9. 数据规范化(标准化)

    数据规范化(标准化) 在数据预处理时,这两个术语可以互换使用.(不考虑标准化在统计学中有特定的含义).  下面所有的规范化操作都是针对一个特征向量(dataFrame中的一个colum)来操作的.  ...

最新文章

  1. Transformer的前世今生
  2. centos6.4安装apache php mysql_CentOS6.4下apache+php的简易搭建
  3. 关于大型站点技术演进的思考(七)--存储的瓶颈(7)
  4. java子类实例初始化过程
  5. 2.7万字还原行业面貌,《2019 AI金融风控行业研究报告》正式上线!...
  6. connection url mysql,JDBC 连接MySQL实例详解
  7. uniApp微信小程序获取当前用户手机号码(前端)
  8. Tableau LOD表达式
  9. postgresql整理
  10. Flink批流一体的理解
  11. java dispatcher详解_Java Web开发详解:RequestDispatcher接口
  12. Java初学者一定要注意的问题,这些错误你犯过哪些?永远不要停止学习。
  13. 【Debugger】解决springboot报错Failed to resolve org.junit.platform:junit-platform-launcher:1.x.x的两种解决方案
  14. 盖亚假说:地球是一个生命体吗?
  15. 前端工程筹建NodeJs+gulp+bower
  16. 南昌师范学院同学会05级计算机,返校感言|故事初始,是回归,回到南昌师范学院的TA们,说了这些……...
  17. 用STC仿真器点亮开发板的灯(第一次用单片机)
  18. Abaqus idle 3600 seconds问题解决
  19. 升级鸿蒙OS后原来APP还在,更新后APP数据原封不动,鸿蒙系统被嘲讽就换了一个开机动画...
  20. 本特利传感器330901-00-90-10-02-CN

热门文章

  1. Kubernetes Pod的生命周期(Lifecycle)
  2. Golang unsafe.Pointer指针
  3. python图片转字符画
  4. idea控制台怎么调出来_酸汤饺子最近火了,可是酸汤是怎么调出来的?引起了网友的好奇...
  5. java oom_Java中关于OOM的场景及解决方法
  6. 三元一次方程组步骤_[七年级网上课堂]8.4 三元一次方程组
  7. Formik官方应用案例解析( 五)React Native
  8. This text field does not specify an inputType or a hint
  9. 谈行业数字化转型,先要搞明白ICT生态的共赢共生
  10. ABBYY PDF Transformer+支持的格式