特征处理方法总览:

标准化和归一化介绍:

(1)标准化
  标准化需要计算特征的均值和标准差,公式表达为:

  使用preproccessing库的StandardScaler类对数据进行标准化的代码如下

from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris
iris=load_iris()
#标准化,返回值为标准化后的数据
StandardScaler().fit_transform(iris.data)

(2)归一化

使用preproccessing库的Normalizer类对数据进行归一化的代码如下:

from sklearn.preprocessing import Normalizer
#归一化,返回值为归一化后的数据
Normalizer().fit_transform(iris.data)

区间缩放法其实是归一化的一种:
区间缩放法的思路有多种,常见的一种为利用两个最值进行缩放,公式表达为:

使用preproccessing库的MinMaxScaler类对数据进行区间缩放的代码如下:

from sklearn.preprocessing import MinMaxScaler
#区间缩放,返回值为缩放到[0, 1]区间的数据
MinMaxScaler().fit_transform(iris.data)

标准化和归一化适用范围

几条说明:

(1)如果对输出结果范围有要求,用归一化。
(2)如果数据较为稳定,不存在极端的最大最小值,用归一化。
(3)如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响。
(4)SVM、KNN(K近邻)、神经网络、PCA等模型必须先标准化、归一化
  优先使用标准化。对于输出有要求时再尝试别的方法,如归一化或者更加复杂的方法。很多方法都可以将输出范围调整到[0, 1],如果我们对于数据的分布有假设的话,更加有效的方法是使用相对应的概率密度函数来转换。

举个例子:

在大论文的计算中,我需要不断增加预测集的数量,但相对于训练集增加的个数相当少,此时只能用标准化。如果采用区间缩放法(归一化),则Max,Min值可能会变化,进而改变缩放的空间,但标准化是均值和标准差所以几乎不变。

归一化作用

详见链接
归一化的作用.

标准化、归一化等的适用范围相关推荐

  1. 机器学习——标准化/归一化的目的、作用和场景

    对每个特征进行归一化处理,使得每个特征的取值缩放到0~1之间.这样做有两个好处: 模型训练更高效. 特征前的权重大小可代表该变量对预测结果的贡献度(因为每个特征值本身的范围相同). (一)归一化的作用 ...

  2. pandas数据预处理(标准化归一化、离散化/分箱/分桶、分类数据处理、时间类型数据处理、样本类别分布不均衡数据处理、数据抽样)

    1. 数值型数据的处理 1.1 标准化&归一化 数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模.特征.分布差异等对模型的影响. ...

  3. 数据处理之标准化/归一化方法

    数据处理之标准化/归一化方法 归一化方法(Normalization Method) 1.把数变为(0,1)之间的小数 主要是为了数据处理方便提出来的,把数据映射到0-1范围之内处理,更加便捷快速,应 ...

  4. 机器学习中数据预处理——标准化/归一化方法(scaler)

    由于工作问题比较忙,有两周没有总结一下工作学习中遇到的问题. 这篇主要是关于机器学习中的数据预处理的scaler变化. 工作中遇到的问题是:流量预测问题,拿到的数据差距非常大,凌晨的通话流量很少几乎为 ...

  5. 机器学习——标准化/归一化的目的和作用

    机器学习--标准化/归一化的目的.作用和场景 (一)归一化的作用 在机器学习领域中,不同评价指标(即特征向量中的不同特征就是所述的不同评价指标)往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析 ...

  6. dataframe数据标准化处理_数据预处理——标准化/归一化(实例)

    这次我们来说说关于数据预处理中的数据标准化及归一化的问题.主要以理论+实例的方式为大家展示. 本次实验也将会展示部分数据以及代码,有兴趣的小伙伴可以自己动手试试~ 在本次实例过程中,我们使用的数据是: ...

  7. python 标准化/归一化与逆标准化/逆归一化

    标准化等公式和Python代码请参考: python 数据归一化/标准化方法与代码(离差标准化,log归一化,标准化,比例归一化,反正切归一化) 我们使用sklearn来操作: 首先准备数据: imp ...

  8. matlab对数据标准化 归一化的处理

    1.数值标准化 首先计算各属性的平均值和平均绝对误差,公式为 其中,表示第k个属性的均值,表示第k个属性的平均绝对误差,表示第i条记录的第k个属性. 然后对每条数据记录进行标准化度量,即 其中,表示标 ...

  9. 独家 | 数据转换:标准化vs 归一化(附代码链接)

    作者:Clare Liu, 英国金融科技数据科学家 翻译:林鹤冲 校对:王紫岳 本文约2300字,建议阅读10分钟 本文将解释数据转换中常见的特征缩放方法:"标准化"和" ...

  10. 【机器学习基础】Python数据预处理:彻底理解标准化和归一化

    数据预处理 数据中不同特征的量纲可能不一致,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果,因此,需要对数据按照一定比例进行缩放,使之落在一个特定的区域,便于进行综合分析. 常用的方法有两 ...

最新文章

  1. Windows 10浏览器Edge和Chrome大比拼
  2. linux: 查找文件
  3. Sketch 57.1 Mac中文版
  4. java textfield事件_[求助]TextField失去焦点触发事件问题
  5. nc 发布元数据_海南接线端子数控NC尼龙加工现货_苏州九兴电子
  6. 动态控制SAP C4C UI元素的显示和隐藏
  7. 人脸验证(一)--Deepface
  8. workman php教程_Workerman
  9. CSDN博客下载器v2.2发布
  10. 手机怎么打开html游戏,网页游戏打不开怎么解决 网页游戏打不开解决方法
  11. 为什么要通过w3c验证.
  12. Kubernetes——KubeSphere部署worldpress应用
  13. 微信小程序导入Bmob后端云的步骤
  14. 钉钉/微信开放平台加解密(钉钉/微信加密解密) 钉钉/微信AES 加密解密
  15. 如何学习理财知识,零基础怎么学习理财
  16. 2020年车易加加油优惠卡开启移动加油新时代
  17. Verilog 代码编写 DDS信号发生器(幅频相可调正弦波、方波、三角波、锯齿波)纯VIVADO编写仿真
  18. 中外法律文献查找下载常用数据库大盘点
  19. 影视后期制作课题报告
  20. xssgame第九关至第十关

热门文章

  1. 生成万花筒效果并截图
  2. 股市股票基金市场研报合集(2022年,共195份)
  3. 纯小白Python爬取东方财富网研报内容并通过机器学习的SVM模型进行文本分析(四)
  4. Vue - 实现复制内容到剪贴板(一键复制)
  5. binlog2sql 用法
  6. html前端简单页面,web前端制作一个简单的登录页面
  7. 问卷设计二:问题设计要遵循哪些原则?
  8. 深圳车牌识别助力汽车检测,颠覆传统方式
  9. 几行代码,把你的小电影全部藏好了!
  10. python 输出 百分比