无量纲化

1.介绍

在机器学习算法中,往往需要将不同规格的数据转换为同一规格,或者将不同分布的数据转换到某个特定分布,这种需求统称为“无量纲化”。
在以梯度与矩阵为核心的算法中,如逻辑回归、支持向量机、神经网络,无量纲化可以加快求解速度;而在距离类模型中,如K近邻、Kmeans中,无量纲化可以避免某个取值范围特别大的特征对距离计算造成影响,提高模型的精度。

2.数据归一化

x∗=x−min(x)max(x)−min(x)x^*={x-min(x)\over{max(x) - min(x)}}x∗=max(x)−min(x)x−min(x)​

特点:

(1)对于异常值较为敏感;
(2)可以将数据压缩至指定区间
(3)在不涉及距离度量、梯度、协方差计算中用的比较多。

sklearn实现代码:

from sklearn.preprocessing import MinMaxScaler
import pandas as pd
#制造数据
x = np.array([1,2],[3,4],[5,2])
#进行归一化
scaler = MinMaxScaler()
result = scaler.fit_transform(x)

numpy实现代码:

import numpy as np
result = (x - x.min(axis =0))/(x.max(axis = 0)- x.min(axis = 0))

3.数据标准化

x∗=(x−μ)σx^* = {(x - μ)\over \sigma}x∗=σ(x−μ)​

特点:

(1)在涉及距离度量、梯度、协方差计算时,用标准化进行处理,能够加快计算,并且避免部分特征的数值过大造成的影响;
(2)广泛用于pca、聚类算法、逻辑回归、支持向量机、神经网络这些算法中;
(3)一般默认用标准化,而不是中心化;

sklearn实现代码:

from sklearn.preprocessing import StandardScaler
#进行标准化
scaler = StandardScaler()
x_std = scaler.fit_transform(x)
#查看属性
scaler.mean_
scaler.var_
#逆转标准化
scaler.inverse_transform(x_std)

numpy实现代码:

import numpy as np
x_std = (x - x.mean(axis = 0) /x.std(axis = 0))

数据预处理(一):无量纲化相关推荐

  1. 数据预处理之中心化(零均值化)与标准化(归一化)

    数据预处理之中心化(零均值化)与标准化(归一化) 目的: 通过中心化和标准化处理,最终得到均值为0,标准差为1的服从标准正态分布的数据.可以取消由于量纲不同.自身变异或者数值相差较大所引起的误差. 原 ...

  2. matlab 均值中心化,数据预处理之中心化(零均值化)与标准化(归一化)

    在机器学习回归问题,以及训练神经网络过程中,通常需要对原始数据进行中心化(零均值化)与标准化(归一化)处理. 背景 在数据挖掘数据处理过程中,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响 ...

  3. 机器学习之数据预处理——归一化,标准化

    机器学习之数据预处理--归一化,标准化 基础知识 1.什么是特征预处理 2.预处理方法 : 3.预处理API: 数据的标准化(normalization)和归一化 数据的标准化 数据归一化 1 把数变 ...

  4. 基于Python的海量豆瓣电影、数据获取、数据预处理、数据分析、可视化、大屏设计项目(含数据库)

    目录 项目介绍 研究背景 国内外研究现状分析 研究目的 研究意义 研究总体设计 网络爬虫介绍 豆瓣电影数据的采集 数据预处理 大数据分析及可视化 豆瓣影评结构化分析 大屏可视化 文本可视化 总结 每文 ...

  5. 机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler)

    机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...

  6. R语言使用caret包的preProcess函数进行数据预处理:对所有的数据列进行center中心化、scale标准化(每个数据列减去平均值、除以标准差)、设置参数为center和scale

    R语言使用caret包的preProcess函数进行数据预处理:对所有的数据列进行center中心化.scale标准化(每个数据列减去平均值.除以标准差).设置method参数为center和scal ...

  7. Scikit-learn数据预处理分类变量编码之多标签二值化

    Scikit-learn数据预处理分类变量编码之多标签二值化 1 声明 本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理. 2 名义变量多标签二 ...

  8. Scikit-learn数据预处理分类变量编码之标签二值化

    Scikit-learn数据预处理分类变量编码之标签二值化 1 声明 本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理. 2 名义变量标签二值化 ...

  9. 四、数据预处理——处理连续型特征:二值化与分段

    四.数据预处理--处理连续型特征:二值化与分段 点击标题即可获取文章相关的源代码文件哟! - sklearn.preprocessing.Binarizer 根据阈值将数据二值化(将特征值设置为0或1 ...

  10. 数据预处理之归一化/标准化/正则化/零均值化

    数据预处理之归一化/标准化/正则化/零均值化 一.标准化(Standardization) 二.归一化(Normalization) 三,中心化/零均值化 (Zero-centered) 四.正则化 ...

最新文章

  1. Redis——由分布式锁造成的重大事故
  2. GraphPad Prism —— 简单又好用的生物数据统计绘图软件
  3. java Stream
  4. 《游戏大师Chris Crawford谈互动叙事》一22.1 互动叙事前途无量
  5. Android Gradle 批量修改生成的apk文件名
  6. linux安装系统ftp服务器配置,linux系统搭建ftp服务器的配置方 - 电子发烧友网
  7. 国内首款性能最稳定ISO 14443B身份证读卡器芯片FSV9523国产替代MFRC523 国产NFC芯片 不缺货 性价比高 可提供软硬件DEMO
  8. 读一本自己心爱的书,冒什么风险都是值得的
  9. EDK II工程文档官方网址
  10. Liunx Mint下载方案Aria2、web面板AriaNG搭建
  11. 含泪向小米贱卖处理器? 联发科:断章取义
  12. 基于yolov5+deepsort的智能售货机商品目标检测种类识别计数
  13. 奔涌吧 后浪!!! 哔哩哔哩 何冰
  14. chrome无痕模式可访问但正常模式访问不了
  15. 基于AutoJs抖音极速版辅助App
  16. php 5.3中的一个type hinting的用法
  17. robotframework以手机模式打开浏览器
  18. EndNote中补充文献信息的两种方法
  19. 华为胖瘦AP切换方法
  20. VUE中使用Antv.X6实现将侧边导航栏节点拖拽到画布中,并能够将画布保存到缓存中

热门文章

  1. Elasticsearch之快速入门篇(个人笔记)
  2. word常用宏方法介绍
  3. css 设置图片原来大小,用CSS设置背景图像的大小?
  4. 小码哥C++_汇编指令
  5. 多功能计算机如何关闭,电脑教程:键盘关闭fn多功能键盘
  6. window.open在苹果手机上失效的问题
  7. 在VMWare虚拟机上安装Kali linux系统的完整过程(图文)
  8. Flutter实战-请求封装(五)之Isolate线程改造
  9. java 临时文件_java创建临时文件
  10. BUPT Summer Journey #test11 A