1. 概述

特征归一化是将所有特征都统一到一个大致相同的数值区间内,通常为[0,1]。主要是用来解决数据的量纲不同的问题。

2. 常用的特征归一化方法

1)Min-Max Scaling(归一化/区间缩放法)

       对原始数据进行线性变换,使结果映射到[0,1]的范围,实现对数据的等比例缩放。

代码如下:

from sklearn.preprocessing import MinMaxScaler
x1 = MinMaxScaler().fit_transform(x)

2) Z-Score Standardization(标准化)

理论上,标准化适用于服从正态分布的数据,标准化后,其转换成标准正态分布(均值为0,标准差为1)。目前很多工程都依赖大数据,所以在样本足够多的情况下,工程师往往直接使用标准化对数据进行无量纲化预处理。在深度学习里,将数据标准化到一个特定的范围能够在反向传播中保证更好的收敛。如果不进行数据标准化,有些特征(值很大)将会对损失函数影响更大,使得其他值比较小的特征重要性降低。因此,数据标准化可以使得每个特征的重要性更加均衡。

代码如下:

from sklearn.preprocessing import StandardScaler
x1 = StandardScaler().fit_transform(x)

3. 哪些机器学习算法需要做特征归一化,为什么?

在采用梯度更新的学习方法(包括线性回归、逻辑回归、支持向量机、神经网络等)对模型求解过程中,未归一化的数值特征在学习时,梯度下降较为抖动,模型难以收敛(通常需要较长的时间模型才能收敛);而归一化之后的数值特征则可以使梯度下降较为稳定,进而减少梯度计算的次数,也更容易收敛。下图中,左边为特征未归一化时,模型的收敛过程;而右边是经过特征归一化之后模型的收敛过程。

4. 哪些机器学习算法不需要做特征归一化,为什么?

以决策的树为基础的模型,比如随机森林、梯度提升决策树等。不需要给特征值做归一化。因为决策树的学习过程本质上是选择合适的特征,分裂并构建树节点的过程,而分裂节点的标准是由树构建前后的目标增益(比如信息增益和信息增益率)决定的。这些指标与特征值之间的数值范围差异并无关系,因此不需要做特征归一化。

【AI面试题】特征归一化相关推荐

  1. AI基础:特征工程-数字特征处理

    0.导语 特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用. 在此之前,我已经写了以下几篇AI基础的快速入门,本篇文章讲解特征工程基础第二部 ...

  2. 为什么要做特征归一化/标准化?

    作者:shine-lee 来源:极市平台公众号 链接:https://blog.csdn.net/blogshinelee/article/details/102875044 编辑:王萌(深度学习冲鸭 ...

  3. 苹果、谷歌等大厂的AI面试题(转)

    苹果.谷歌等大厂的AI面试题被我们搞到手了,你敢来挑战吗? 本文由 「AI前线」原创**(ID:ai-front),**原文链接:苹果.谷歌等大厂的AI面试题被我们搞到手了,你敢来挑战吗? 作者 | ...

  4. 解读:为什么要做特征归一化/标准化?

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:shine-lee,编辑:极市平台 本文解读了一项数据预处理中的重 ...

  5. ML之KMeans:利用KMeans算法对Boston房价数据集(两特征+归一化)进行二聚类分析

    ML之KMeans:利用KMeans算法对Boston房价数据集(两特征+归一化)进行二聚类分析 目录 利用KMeans算法对Boston房价数据集(两特征+归一化)进行二聚类分析 设计思路 输出结果 ...

  6. ML之LiR:利用LiR线性回归算法(自定义目标函数MSE和优化器GD)对Boston房价数据集(两特征+归一化)进行回归预测

    ML之LiR:利用LiR线性回归算法(自定义目标函数MSE和优化器GD)对Boston房价数据集(两特征+归一化)进行回归预测 目录 利用LiR线性回归算法(自定义目标函数MSE和优化器GD)对Bos ...

  7. 关于你不知道的特征归一化/标准化

    目录 1. Feature scaling 的必要性 2. 常用的Feature scaling方法有什么 3. 什么时候需要feature scaling 4. 什么情况不需要Feature 1. ...

  8. AI基础:特征工程-文本特征处理

    0.导语 特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用. 在此之前,我已经写了以下几篇AI基础的快速入门,本篇文章讲解特征工程基础第三部 ...

  9. python array按行归一化_机器学习 第40集:特征不归一化有什么危害?特征归一化公式是什么?( 含有笔记、代码、注释 )...

    特征不归一化有什么危害?特征归一化公式是什么? ① 例如,我用一个人身高(cm)与脚码(尺码)大小来作为特征值,类别为男性或者女性.我们现在如果有5个训练样本,分布如下: A [(179,42),男] ...

最新文章

  1. grub2 命令行进入系统
  2. Feature Schema中Module和File节点属性含义的解释
  3. maven 单元测试并行_并行运行单元测试
  4. KNN算法(K近邻学习)
  5. 记忆化搜索本质是dp
  6. python去除列表指定位置元素_Python实现判断并移除列表指定位置元素的方法
  7. axure键盘弹出_AXURE教程:手机键盘
  8. 低压差线性稳压器MPQ2013A-AEC1品牌MPS国产替代
  9. MRP存在的七大缺陷,你造吗?
  10. 工厂智能化远程运营管理系统方案
  11. 更改matlab快捷键 matlab 复制粘贴键不对
  12. STM8新建IAR工程
  13. 解决ERROR: text file '***' contains disallowed UTF-8 whitespace character(s)
  14. 外服游戏服务器如何显示中文,避免国外服务器出现乱码的办法
  15. 新星计划·能够 120% 提升博文美感的表情包,你们确定不心动吗?
  16. 40、查询选修“张三”老师所授课程的学生中成绩最高的学生姓名及其成绩(重要top)
  17. 利用Python进行性能测试(上)
  18. t440 linux指纹识别,ThinkPad X220 Ubuntu 14.10 上安装指纹识别
  19. 人工智能在医疗产业的五大应用场景及典型案例
  20. 关于以太坊合并你应该知道的15个知识点

热门文章

  1. Windows核心编程条件变量
  2. 【嵌入式Linux】嵌入式Linux驱动开发基础知识之设备树模型
  3. 【K210】【MaixPy】二、Maix Dock入门之Timer、PWM基础模块,实现一个变色呼吸灯(效果参考罗技G502)
  4. 【C语言】全局变量、本地变量、静态本地变量(书写规范代码,正确定义变量,防止未知错误)
  5. 关于ioremap,request_mem_region
  6. excel导出多重表头utils_Java中注解学习系列教程-4 使用自定义注解实现excel导出...
  7. v8声卡调音软件_声卡出现杂音怎么办?教你几招解决杂音问题
  8. 【经验分享】为什么后台取到的时间和前台差8个小时?
  9. 每天一点点之vue框架开发 - vue坑-input 的checked渲染问题
  10. BZOJ3597 SCOI2014方伯伯运椰子(分数规划+spfa)