数据预处理(一):无量纲化
无量纲化
1.介绍
在机器学习算法中,往往需要将不同规格的数据转换为同一规格,或者将不同分布的数据转换到某个特定分布,这种需求统称为“无量纲化”。
在以梯度与矩阵为核心的算法中,如逻辑回归、支持向量机、神经网络,无量纲化可以加快求解速度;而在距离类模型中,如K近邻、Kmeans中,无量纲化可以避免某个取值范围特别大的特征对距离计算造成影响,提高模型的精度。
2.数据归一化
x∗=x−min(x)max(x)−min(x)x^*={x-min(x)\over{max(x) - min(x)}}x∗=max(x)−min(x)x−min(x)
特点:
(1)对于异常值较为敏感;
(2)可以将数据压缩至指定区间
(3)在不涉及距离度量、梯度、协方差计算中用的比较多。
sklearn实现代码:
from sklearn.preprocessing import MinMaxScaler
import pandas as pd
#制造数据
x = np.array([1,2],[3,4],[5,2])
#进行归一化
scaler = MinMaxScaler()
result = scaler.fit_transform(x)
numpy实现代码:
import numpy as np
result = (x - x.min(axis =0))/(x.max(axis = 0)- x.min(axis = 0))
3.数据标准化
x∗=(x−μ)σx^* = {(x - μ)\over \sigma}x∗=σ(x−μ)
特点:
(1)在涉及距离度量、梯度、协方差计算时,用标准化进行处理,能够加快计算,并且避免部分特征的数值过大造成的影响;
(2)广泛用于pca、聚类算法、逻辑回归、支持向量机、神经网络这些算法中;
(3)一般默认用标准化,而不是中心化;
sklearn实现代码:
from sklearn.preprocessing import StandardScaler
#进行标准化
scaler = StandardScaler()
x_std = scaler.fit_transform(x)
#查看属性
scaler.mean_
scaler.var_
#逆转标准化
scaler.inverse_transform(x_std)
numpy实现代码:
import numpy as np
x_std = (x - x.mean(axis = 0) /x.std(axis = 0))
数据预处理(一):无量纲化相关推荐
- 数据预处理之中心化(零均值化)与标准化(归一化)
数据预处理之中心化(零均值化)与标准化(归一化) 目的: 通过中心化和标准化处理,最终得到均值为0,标准差为1的服从标准正态分布的数据.可以取消由于量纲不同.自身变异或者数值相差较大所引起的误差. 原 ...
- matlab 均值中心化,数据预处理之中心化(零均值化)与标准化(归一化)
在机器学习回归问题,以及训练神经网络过程中,通常需要对原始数据进行中心化(零均值化)与标准化(归一化)处理. 背景 在数据挖掘数据处理过程中,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响 ...
- 机器学习之数据预处理——归一化,标准化
机器学习之数据预处理--归一化,标准化 基础知识 1.什么是特征预处理 2.预处理方法 : 3.预处理API: 数据的标准化(normalization)和归一化 数据的标准化 数据归一化 1 把数变 ...
- 基于Python的海量豆瓣电影、数据获取、数据预处理、数据分析、可视化、大屏设计项目(含数据库)
目录 项目介绍 研究背景 国内外研究现状分析 研究目的 研究意义 研究总体设计 网络爬虫介绍 豆瓣电影数据的采集 数据预处理 大数据分析及可视化 豆瓣影评结构化分析 大屏可视化 文本可视化 总结 每文 ...
- 机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler)
机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...
- R语言使用caret包的preProcess函数进行数据预处理:对所有的数据列进行center中心化、scale标准化(每个数据列减去平均值、除以标准差)、设置参数为center和scale
R语言使用caret包的preProcess函数进行数据预处理:对所有的数据列进行center中心化.scale标准化(每个数据列减去平均值.除以标准差).设置method参数为center和scal ...
- Scikit-learn数据预处理分类变量编码之多标签二值化
Scikit-learn数据预处理分类变量编码之多标签二值化 1 声明 本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理. 2 名义变量多标签二 ...
- Scikit-learn数据预处理分类变量编码之标签二值化
Scikit-learn数据预处理分类变量编码之标签二值化 1 声明 本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理. 2 名义变量标签二值化 ...
- 四、数据预处理——处理连续型特征:二值化与分段
四.数据预处理--处理连续型特征:二值化与分段 点击标题即可获取文章相关的源代码文件哟! - sklearn.preprocessing.Binarizer 根据阈值将数据二值化(将特征值设置为0或1 ...
- 数据预处理之归一化/标准化/正则化/零均值化
数据预处理之归一化/标准化/正则化/零均值化 一.标准化(Standardization) 二.归一化(Normalization) 三,中心化/零均值化 (Zero-centered) 四.正则化 ...
最新文章
- Redis——由分布式锁造成的重大事故
- GraphPad Prism —— 简单又好用的生物数据统计绘图软件
- java Stream
- 《游戏大师Chris Crawford谈互动叙事》一22.1 互动叙事前途无量
- Android Gradle 批量修改生成的apk文件名
- linux安装系统ftp服务器配置,linux系统搭建ftp服务器的配置方 - 电子发烧友网
- 国内首款性能最稳定ISO 14443B身份证读卡器芯片FSV9523国产替代MFRC523 国产NFC芯片 不缺货 性价比高 可提供软硬件DEMO
- 读一本自己心爱的书,冒什么风险都是值得的
- EDK II工程文档官方网址
- Liunx Mint下载方案Aria2、web面板AriaNG搭建
- 含泪向小米贱卖处理器? 联发科:断章取义
- 基于yolov5+deepsort的智能售货机商品目标检测种类识别计数
- 奔涌吧 后浪!!! 哔哩哔哩 何冰
- chrome无痕模式可访问但正常模式访问不了
- 基于AutoJs抖音极速版辅助App
- php 5.3中的一个type hinting的用法
- robotframework以手机模式打开浏览器
- EndNote中补充文献信息的两种方法
- 华为胖瘦AP切换方法
- VUE中使用Antv.X6实现将侧边导航栏节点拖拽到画布中,并能够将画布保存到缓存中
热门文章
- Elasticsearch之快速入门篇(个人笔记)
- word常用宏方法介绍
- css 设置图片原来大小,用CSS设置背景图像的大小?
- 小码哥C++_汇编指令
- 多功能计算机如何关闭,电脑教程:键盘关闭fn多功能键盘
- window.open在苹果手机上失效的问题
- 在VMWare虚拟机上安装Kali linux系统的完整过程(图文)
- Flutter实战-请求封装(五)之Isolate线程改造
- java 临时文件_java创建临时文件
- BUPT Summer Journey #test11 A