数据归一化和两种常用的归一化方法

一、总结

一句话总结:

min-max标准化:x* =(x-min)/(max-min):新数据加入,需重新计算max和min

Z-score标准化:x* =(x-μ)/σ:μ为所有样本数据的均值,σ为所有样本数据的标准差

1、为什么要对数据进行归一化处理?

不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理

二、数据归一化和两种常用的归一化方法

转自或参考:数据归一化和两种常用的归一化方法

https://www.cnblogs.com/chaosimple/p/3227271.html

数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种常用的归一化方法:

一、min-max标准化(Min-Max Normalization)

也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。转换函数如下:

其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。

二、Z-score标准化方法

这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,转化函数为:

其中为所有样本数据的均值,为所有样本数据的标准差。

参考文献:

http://webdataanalysis.net/data-analysis-method/data-normalization/

归一化mysql函数_数据归一化和两种常用的归一化方法相关推荐

  1. 数据归一化和两种常用的归一化方法

    数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可 ...

  2. 数据归一化:两种常用的归一化方法

    数据归一化:不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据归一化处理,以解决数据指标之间的可比性.原始数据经过数据归一化处理后,各 ...

  3. python 卡方检验 特征选择_结合Scikit-learn介绍几种常用的特征选择方法

    特征选择(排序)对于数据科学家.机器学习从业者来说非常重要.好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点.底层结构,这对进一步改善模型.算法都有着重要作用. 特征选择主要有两个功能: 减 ...

  4. python列表去重函数_对python中两种列表元素去重函数性能的比较方法

    测试函数: 第一种:list的set函数 第二种:{}.fromkeys().keys() 测试代码: #!/usr/bin/python #-*- coding:utf-8 -*- import t ...

  5. excel 两组数据交点_数据分析入门:8种常用的数据分析方法

    分析数据是将收集的数据通过加工.整理和分析.使其转化为信息,通常用方法有: 排列图 排列图是一种找出影响产品质量主要因素的图表方法. 其结构是由两个纵坐标和一个横坐标,若干个直方形和一条折线构成.左侧 ...

  6. 关于两种常用特殊字符判断方法

    1.将所有特殊字符都列出来,判断目标字符串包含特殊字符. public bool IsSpecialChar(string str){     Regex regExp = new Regex(&qu ...

  7. 数据归一化及两种常用归一化方法

    数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可 ...

  8. docker容器运行mysql持久化_docker容器实现数据持久化的两种方式及其区别

    前言 这篇博文是我对docker实现数据持久化几种方式的特征进行一个总结. 在docker中,它的存储文件系统是在dockerhost上原有的xfs或ext4架设了一层文件系统:overlay2(将此 ...

  9. 数据中心两种常用流量模型运用mininet的实现

    为什么80%的码农都做不了架构师?>>>    编者按:在网络性能评估中一个巨大的挑战就是如何生成真实的网络流量,还好可以通过程序来创造人工的网络流量,通过建立测试环境来模拟真实的状 ...

最新文章

  1. 华为MSTP配置教程(二)
  2. python span.string函数_【转】python f-string
  3. 增益比值 dB 以及 dBw-dBmv 等之详解
  4. 30个类仿真手写spring框架V2.0版本
  5. 亿达中国运用云服务,亿达中国打造智能园区
  6. 现实迷途 第二十五章 重见故人
  7. 电气专业学校排名全国计算机专业学校排名,电气工程及其自动化专业学校排名...
  8. python文档中文版下载,python帮助文档中文版
  9. AMOS分析技术:结构方程模型的拟合度评价指标
  10. 几何公差基础知识之平行度
  11. wan口有流量但电脑上不了网_路由器wan口流量_双WAN口路由器配置(WAN口设置/WAN口在线检测/流量均衡控制)_路由器检测不到wan...
  12. 前端项目分析:我是如何做图片优化的(预加载、懒加载和延迟加载)
  13. 安卓手机如何查看手机控制台输出
  14. 我的2020年度总结 “既往不恋,纵情向前”
  15. MySQL源代码的海洋中游弋 初探MySQL之SQL执行过程 [转]
  16. 高速AD采集项目JESD204B采集卡详细上板教程
  17. 【转载】裸眼识别二维码
  18. 病原菌基因组快速搜索算法实现
  19. UI框架 Vant、ElementUI、WeUI、AUI、LayUI
  20. 【翻译】.NET 5中的性能改进

热门文章

  1. GitHub 上 100K+ Star 的前端面试开源项目汇总(进大厂必备)
  2. 公司中常见的项目类型
  3. 服务器微信接口返回乱码,微信开发时,返回的消息中文乱码问题
  4. 我若为梦,愿为你织一帘幽然
  5. 切割钢条问题(rod cutting problem)
  6. 跨界智能手表:比亚迪向左,小鹏向右
  7. 物联网环境监测数据中心系统
  8. cocos2dx 植物大战僵尸 5 塔基Terrain的更新
  9. 篇1:如何为FPGA选择合适的电源管理方案
  10. 达梦数据库初始化、创建用户和修改密码