数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。

  其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上,常见的数据归一化的方法有:

min-max标准化(Min-max normalization)

  也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:

  其中max为样本数据的最大值,min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。

log函数转换

  通过以10为底的log函数转换的方法同样可以实现归一下,具体方法如下:

  看了下网上很多介绍都是x*=log10(x),其实是有问题的,这个结果并非一定落到[0,1]区间上,应该还要除以log10(max),max为样本数据最大值,并且所有的数据都要大于等于1。

atan函数转换

  用反正切函数也可以实现数据的归一化:

  使用这个方法需要注意的是如果想映射的区间为[0,1],则数据都应该大于等于0,小于0的数据将被映射到[-1,0]区间上。

  而并非所有数据标准化的结果都映射到[0,1]区间上,其中最常见的标准化方法就是Z标准化,也是SPSS中最为常用的标准化方法:

z-score 标准化(zero-mean normalization)

  也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:

  其中μ为所有样本数据的均值,σ为所有样本数据的标准差。

机器学习中数据的归一化处理相关推荐

  1. 如何解决机器学习中数据不平衡问题

    作者:无影随想  时间:2016年1月.  出处:https://zhaokv.com/machine_learning/2016/01/learning-from-imbalanced-data.h ...

  2. 如何解决机器学习中数据不平衡问题(转)

    作者:无影随想  时间:2016年1月.  出处:http://www.zhaokv.com/2016/01/learning-from-imbalanced-data.html 这几年来,机器学习和 ...

  3. 机器学习之数据预处理——归一化,标准化

    机器学习之数据预处理--归一化,标准化 基础知识 1.什么是特征预处理 2.预处理方法 : 3.预处理API: 数据的标准化(normalization)和归一化 数据的标准化 数据归一化 1 把数变 ...

  4. 机器学习中数据预处理——标准化/归一化方法(scaler)

    由于工作问题比较忙,有两周没有总结一下工作学习中遇到的问题. 这篇主要是关于机器学习中的数据预处理的scaler变化. 工作中遇到的问题是:流量预测问题,拿到的数据差距非常大,凌晨的通话流量很少几乎为 ...

  5. 论机器学习中数据的重要性

    机器学习实验报告 一.数据工程意义及其内容(自创名词,勿怪) ​ 现如今,机器学习在越来越多的领域中凸显出其不可替代的重要性,人们开始从各领域渗透机器学习的典型案例,希望其大规模投入使用,而好的训练结 ...

  6. 对于机器学习中数据拟合度和模型复杂度的一些建议

    Advice for Applying Machine Learning 我这里想做的是,确保大家在设计机器学习系统时,能够明白怎样选择一条最合适.最正确的路径.因此,接下来我们要讨论一些实用的建议和 ...

  7. 机器学习中数据预处理方法

    在知乎上也看到了这个,不知道哪个是原创,这里粘上链接 https://zhuanlan.zhihu.com/p/51131210 前言 数据预处理的重要性? 熟悉数据挖掘和机器学习的小伙伴们都知道,数 ...

  8. 机器学习中数据预处理的方式

    数据标量化 如果需要学习的不同的数据标签之间的量纲差距太大,那么需要进行数据标量化操作,有3个主要的优势: 可以使梯度下降更快 躲避"NaN陷阱",数据中有些数值可能超过了计算机的 ...

  9. 【机器学习算法专题(蓄力计划)】九、机器学习中数据的假设检验

    文章目录 假设检验的概述 假设校验的应用 假设校验的基本思想 显著性水平 假设检验的步骤 左右侧检验与双侧检验 原假设与备择建设 检验统计量计算检验的统计量 检验中常说的小概率 P值 左侧检验与右侧检 ...

最新文章

  1. oracle数据迁移常用
  2. python统计单词频率、存放在字典中_Python3实现统计单词表中每个字母出现频率的方法示例...
  3. python如何调用c函数实现真正意义的多线程_python如何使用多线程执行多个函数?...
  4. mycat两个mysql实例的搭建_Mycat-多实例的搭建
  5. vs debug 调试 快捷键
  6. oracle12密码大小写,oracle 11g 设置用户密码大小写敏感测试
  7. GDI和GUI的区别
  8. PostgreSQL bloat 检查与处理
  9. 目标检测Anchor-free分支:基于关键点的目标检测(最新网络全面超越YOLOv3)
  10. 爬取12306火车票信息
  11. 程序和算法之间,主要有什么关系?
  12. 本机电脑清除DNS缓存+浏览器清除DNS缓存
  13. 网络安全——Webshell管理工具
  14. Cadence Allegro 过孔通孔盲孔埋孔详细说明及设计举例图文教程
  15. cacti 监控mysql 无数据_cacti无图无数据等常见问题排查
  16. 召回率 matlab代码,召回率和精度(示例代码)
  17. Java鱼雷apex大套件,SRAM APEX 1x11S公路车油碟单盘套件使用体验
  18. 整理兼职网站资源分享
  19. 工业路由器厂家,工业路由器品牌.工业CPE厂家,工业CPE品牌
  20. MySQL学习(8)︱DISTINCT去重与表连接

热门文章

  1. pku-电子系统基础训练-Arduino制作信号发生器
  2. linux面试宝典 pdf,运维工程师面试题(面试版).pdf
  3. golang 搜索引擎
  4. 20150214日,2014年最后一天上班了
  5. 出身清华姚班,斯坦福博士!她的毕业论文为何成为「爆款」?
  6. 清华大学uCore-操作系统内核实现
  7. 中国医药产业黄金十年的投资地图
  8. 编写一个程序,输入公里数,将其转换成里和米(c语言)
  9. 2008北京奥运开幕式高清晰视频下载 (换个角度欣赏高清奥运开幕式!NBC电视台720P HDTV)...
  10. outlook邮件恢复字体_如何更改Outlook 2013中邮件列表中使用的字体大小