数据规格化(Scaling)又称数据尺度归一化,就是将特征的某个属性(特征向量的某一维)的取值范围映射到一个特定范围之内,以消除数值型属性因大小范围不一而影响基于距离的分类方法结果的公正性。

可以毫不夸张地说,Scaling 在一个模式识别问题占据着举重轻重的地位,甚至关系到整个识别系统的成败。然而不幸的是,如此重要的一个环节却往往已被初学者忽视。当读者在同一个数据集上应用了相同的分类器却得到远不如他人的结果时,往往请确定读者是否进行了正确的Scaling。

1. Scaling 的必要性

  • (1)防止那些相对较大的数值范围(Numeric Ranges)的特征压倒那些相对较小的数值范围的特征。很多分类器,都是基于欧式距离的,如处在小范围的身高(1.2-2.5m)对于距离的计算几乎没有什么贡献,分类器将几乎只根据体重特征(35-120kg)来分类而不考虑样本间身高的差异。

  • (2)避免计算过程中出现的数值问题,例如在计算 SVM 的核函数时通常需要计算特征向量的内积(线性核函数和多项式核函数),较大的特征取值可能造成最终的内积结果太大以至于超出计算机的表示范围而溢出。针对这种情况本文建议线性地缩放各个属性到统一的范围 [-1,+1] 或 [0, 1]。

    还比如计算复合概率的情况(Marcov Model,马尔科夫模型),此时需要计算很多值的连乘积,由于概率取值都在0-1之间,很容易造成浮点数的下溢。这就需要在每步运算之后对数据进行等比例的缩放,使计算中间结果始终保持在表示精度的范围以内。

2. 数据规格化的方法

在训练之前,需要对训练集中的全体样本进行规格化,一般来说,有以下两种常见的数据规格化策略。

  • (1)最大最小规格化方法

    该方法对初始数据进行一种线性转换,设 minA\min_A 和 maxA\max_A 分别为属性 A 的最小和最大值,最大最小规格化方法将属性 A 的一个值 vv 映射为 v′v',且 v′∈[new_maxA,new_maxB]v'\in [\text{new_max}_A,\text{new_max}_B](你想最终变换的范围),具体映射计算公式如下:

    v′=v−minAmaxA−minA⋅(new_maxB−new_maxA)+new_minA

    v'=\frac{v-\min_A}{\max_A-\min_A}\cdot (\text{new_max}_B-\text{new_max}_A)+\text{new_min}_A

  • (2)零均值规格化

    该方法根据属性 AA 的均值 μA\mu_A 和偏差 σA\sigma_A 进行规格化,可将训练集中的每个样本特征的均值统一变换为0,并且都具有统一的方差(如1)。属性 AA 的值 vv 可通过如下计算公式获得其映射值 v′v':

    v′=v−μAσA

    v'=\frac{v-\mu_A}{\sigma_A}

机器学习基础(二十八) —— 数据规格化相关推荐

  1. 机器学习(二十八)——Monte-Carlo

    动态规划(续) Value Iteration vk+1(s)=maxa∈A(Ras+γ∑s′∈SPass′vk(s′))vk+1(s)=maxa∈A(Rsa+γ∑s′∈SPss′avk(s′)) v ...

  2. 吴恩达机器学习(二十八)推荐系统

    文章目录 前言 1.基于内容的推荐算法 2.协同过滤 2.协同过滤算法 3.矢量化:低秩矩阵分解 4.实施细节:均值规范化 前言   机器学习领域的一个伟大思想:对于某些问题,有一些算法可以自动地学习 ...

  3. 机器学习知识点(二十八)Beta分布和Dirichlet分布理解

    1.二者关系: Dirichlet分布是Beta分布的多元推广.Beta分布是二项式分布的共轭分布,Dirichlet分布是多项式分布的共轭分布. 通常情况下,我们说的分布都是关于某个参数的函数,把对 ...

  4. 机器学习基础(十八) —— decision stump

    基本原理 decision stump,决策树桩(我称它为一刀切),也称单层决策树(a one level decision tree),单层也就意味着尽可对每一列属性进行一次判断.如下图所示(仅对 ...

  5. 机器学习笔记(二十八):高斯核函数

    凌云时刻 · 技术 导读:核函数是机器学习算法中一个重要的概念.简单来讲,核函数就是样本数据点的转换函数.这一节我们来看看应用非常广泛的一个核函数,高斯核函数. 作者 | 计缘 来源 | 凌云时刻(微 ...

  6. 【零基础学Java】—笔记本USB接口案例(二十八)

    [零基础学Java]-笔记本USB接口案例(二十八) 一.笔记本电脑 笔记本电脑(laptop)通常具备使用USB设备的功能,在生产时,笔记本都预留了可以插入USB设备的USB接口,但具体什么是USB ...

  7. 二十八、统计机器翻译基础

    二十八.统计机器翻译基础 由于本人喜欢在纸上手推原理,所以附上照片,欢迎提出建议

  8. OpenCV学习笔记(二十六)——小试SVM算法ml OpenCV学习笔记(二十七)——基于级联分类器的目标检测objdect OpenCV学习笔记(二十八)——光流法对运动目标跟踪Video Ope

    OpenCV学习笔记(二十六)--小试SVM算法ml 总感觉自己停留在码农的初级阶段,要想更上一层,就得静下心来,好好研究一下算法的东西.OpenCV作为一个计算机视觉的开源库,肯定不会只停留在数字图 ...

  9. kafka maven 依赖_SpringBoot入门建站全系列(二十八)整合Kafka做日志监控

    SpringBoot入门建站全系列(二十八)整合Kafka做日志监控 一.概述 Apache Kafka是一个分布式发布 - 订阅消息系统和一个强大的队列,可以处理大量的数据,并使您能够将消息从一个端 ...

  10. SpringBoot入门建站全系列(二十八)整合Kafka做日志监控

    SpringBoot入门建站全系列(二十八)整合Kafka做日志监控 一.概述 Apache Kafka是一个分布式发布 - 订阅消息系统和一个强大的队列,可以处理大量的数据,并使您能够将消息从一个端 ...

最新文章

  1. 芯片组x299是服务器主板吗,最强的酷睿i9只能用它!X299主板首发评测
  2. OpenCV二值图像分析之形态学应用技巧
  3. C/C++ 电子书推荐
  4. 1847 奇怪的数学题(杜教筛 + Min_25 + 第二类斯特林数)
  5. bzoj 2431: [HAOI2009]逆序对数列
  6. python3读取多行数据合并_python3 数据规整化:清理、转换、合并、重塑(一)
  7. ROS联合Webots之实现趣味机器人巡线刷圈
  8. python尺与米的转换_在线长度换算-公里换算-米换算-纳米换算-长度单位在线换算工具...
  9. pem加密php,PHP格式化RSA公钥私钥(pem文件)
  10. 开源的看板管理工具Wekan
  11. 层次分析法和多属性决策算法
  12. lpad与rpad函数
  13. gta5怎么设置画质最好_GTA5画面如何设置最好_GTA5画质设置成最高配置推荐-win7之家...
  14. 网页设计css导航链接怎么做,如何用DIV+CSS制作导航条
  15. offset 和 零点的一点解释
  16. 熔断机制什么意思_熔断机制是什么意思?熔断机制的作用
  17. 小米关机一直显示android,小米手机一直卡在fastboot怎么办
  18. 关于Ransomware备份 哪些是该做和不该做的?
  19. 修改文件后是否需要重启服务器
  20. 网站怎么快速优化关键词排名?

热门文章

  1. python怎么读excelsheet_python怎么读写excel文件
  2. Scala文件内容生成本地文件
  3. css背景透明度不影响文字_唯美文字背景图 | 生活不一定很酷
  4. 通过傅里叶变换方法求图像卷积-OpenCV实现
  5. python脚本案例
  6. 消息队列(MQ)原理总结
  7. Stanford机器学习---第一讲. Linear Regression with one variable
  8. 目标检测 数据集—标注工具 labelImg/labelme
  9. 21个TensorFlow项目转换tfrecord:TypeError: 'RGB' has type str, but expected one of: bytes(法二)
  10. Linux 下 Tomcat Https