在给机器学习模型的数据中,对数据要进行归一化的处理。
为什么要进行归一化处理?

举个例子
假定为预测汽油的例子,两种汽油93#、95#,自变量为加油的容量,因变量为油价。
那么可以得到的公式为:

其中x1代表油的容量,θ1代表x1变量前面的系数。

其中x2代表油的容量,θ2代表x2变量前面的系数。

首先我们作出两张图代表数据是否均一化的最优解寻解过程。

未归一化:

归一化后:

上述两幅图代码的是损失函数的等高线。
我们在寻找最优解的过程也就是在使得损失函数值最小的θ1、θ2。

对比发现造成的影响

J(θ1,θ2)=(100×θ1+500×θ2-yk)^2

造成图像的等高线为类似椭圆形状,最优解的寻优过程就是像下图所示:

而数据归一化之后,损失函数的表达式可以表示为:

J(θ1,θ2)=(0.11×θ1+0.15×θ2-yk)^2

其中变量的前面系数几乎一样,则图像的等高线为类似圆形形状,最优解的寻优过程像下图所示:

从上可以看出,数据归一化后,最优解的寻优过程明显会变得平缓,更容易正确的收敛到最优解。在使用梯度下降的方法求解最优化问题时, 归一化/标准化后可以加快梯度下降的求解速度,即提升模型的收敛速度。如第1张所示,未归一化/标准化时形成的等高线偏椭圆,迭代时很有可能走“之”字型路线(垂直长轴),从而导致迭代很多次才能收敛。而如第2张图对两个特征进行了归一化,对应的等高线就会变圆,在梯度下降进行求解时能较快的收敛。

所以,数据需要归一化。
归一化/标准化实质是一种线性变换,线性变换有很多良好的性质,这些性质决定了对数据改变后不会造成“失效”,反而能提高数据的表现,这些性质是归一化/标准化的前提。比如有一个很重要的性质:线性变换不会改变原始数据的数值排序。

为什么要对数据进行归一化处理相关推荐

  1. 为什么一些机器学习模型需要对数据进行归一化?——1)归一化后加快了梯度下降求最优解的速度;2)归一化有可能提高精度...

    为什么一些机器学习模型需要对数据进行归一化? http://www.cnblogs.com/LBSer/p/4440590.html 机器学习模型被互联网行业广泛应用,如排序(参见:排序学习实践).推 ...

  2. 机器学习笔记:为什么要对数据进行归一化处理?

    机器学习笔记:为什么要对数据进行归一化处理? rocling 于 2019-06-22 17:03:39 发布 7090  收藏 9 分类专栏: 人工智能 文章标签: 机器学习 归一化 版权 人工智能 ...

  3. 为什么一些机器学习模型需要对数据进行归一化?

    http://www.cnblogs.com/LBSer/p/4440590.html 机器学习模型被互联网行业广泛应用,如排序(参见:排序学习实践).推荐.反作弊.定位(参见:基于朴素贝叶斯的定位算 ...

  4. 2vec需要归一化吗_LTSM模型预测数据如何归一化?(知乎回答)

    LTSM模型预测数据如何归一化?(知乎回答) 小白想问一个问题困扰很久的问题.我已经训练好了一个LTSM网络模型,训练的数据都是经过归一化,但是我用新的数据进行预测的时候,预测数据也要归一化吗?如果我 ...

  5. 机器学习之数据预处理——归一化,标准化

    机器学习之数据预处理--归一化,标准化 基础知识 1.什么是特征预处理 2.预处理方法 : 3.预处理API: 数据的标准化(normalization)和归一化 数据的标准化 数据归一化 1 把数变 ...

  6. 数据预处理——归一化标准化

    数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间. 去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权 最典型的就是数据的归 ...

  7. 数据预处理归一化Z-score归一化Min-Max归一化程序

    在训练神经网络模型的时候,对数据进行预处理是必不可少的操作,而对数据进行归一化是预处理最常用的操作. 最常用的归一化方法有两种,Min-Max归一化和Z-score归一化. Min-Max归一化 原理 ...

  8. 训练数据的归一化处理

    对于一般的数据(如两列的数据特征,第三列是label) 数据的归一化处理 # 归一化处理 for i in range(2):x_data[:,i]=(x_data[:,i]-x_data[:,i]. ...

  9. 数据的归一化与标准化

    机器学习中常见数据的归一化(normalization)和标准化(standardization),其实这二者的作用和处理方法都很相似,本文作简单介绍. 两者的基本作用是消除不同变量之间量纲的影响,方 ...

最新文章

  1. 考那么多试,拿那么高分,大模型们真的懂语言了吗?
  2. 【收藏】mydockfinder下载地址
  3. Python使用远程仓库时建议忽略的文件
  4. Win7下如何用Eclipse导出jar类型的文件,并且可以用鼠标双击打开jar类型的文件的方法(解决双击后一闪而过)...
  5. ubuntu解压缩zip/tar/tar.gz/tar.bz2
  6. 第三方插件渗透攻击之KingView
  7. 覆写Activity的finish()方法
  8. 串灯控制盒去掉怎么接_仿木地板瓷砖怎么样?仿木地板瓷砖怎么铺?
  9. centos8安装mysql5.5_CentOS 6.8 编译安装MySQL5.5.32 (二 多实例)
  10. The Closest M Points//kd树+优先队列
  11. Android Studio Prettify 插件
  12. 视频编解码之H.264
  13. java 报异常_java 报异常
  14. abb机器人编程指令goto指令_abb机器人编程指令——轨迹偏移使用的指令以及moveL指令...
  15. PS 图层的基本操作
  16. 【数据分析】快速获取微博用户数据,图片,视频
  17. 计算机平面设计是什么学的什么,计算机平面设计主要学什么?
  18. OPEN-SET RECOGNITION:A GOOD CLOSED-SET CLASSIFIER IS ALL YOU NEED
  19. MAC电脑修改ssh端口
  20. 随笔6 崇拜轩昂神有感

热门文章

  1. 景联文科技:关于语音标注,你知道多少?
  2. 程序员要注重沟通能力的提升
  3. heic文件怎么转换成jpg?实用图片格式转换方法分享
  4. 2020年数学建模国赛B题解题思路
  5. MPS与MRP的区别
  6. C# URL编码转换 URL转码 UrlDecode UrlEncode
  7. Linux 性能监控工具命令大全
  8. Throttling - Django REST framework
  9. 队列的定义、循环队列的顺序存储结构及链式存储结构
  10. elevation格式_Google Elevation的工作方式以及如何创建简单的C#应用​​程序?