为什么要比较这两种方法呢?很多人可能不知道,我先简单的介绍一下

机器学习有两种,一种是监督学习,另一种是非监督学习。监督学习就是我告诉计算机你把班上同学分个类,分类标准是按照性别,男生和女生;非监督分类就是告诉计算机你自己去把班上同学分个类吧,我不告诉你分类标准。

在监督学习中,如果我们面对的变量是连续型的变量就要用到回归

回归其实是非常容易理解,也非常实用的一种方法,很多经济类的学生在写论文的时候都会用到回归的方法。比方说,距离市中心的距离越近(距离为x),房价就越高(房价是y),可以得到一个y=kx+b的式子来大概的表示x和y之间的关系

不过,大部分的情况下是很多条件一起制约y的,不仅有离市中心的距离x₁,还有房子的新旧程度x₂等等条件,那么可以用到多元回归,一般式如下:

其中   是预测值

 是系数

是自变量

我们想要让这个方程拟合的非常好,那么就要使误差尽量小,评价误差小的方法就是所有误差的平方和最小

计算误差平方和最小的方法最常见的就是最小二乘法和梯度下降法


最小二乘法

最小二乘法是所有有数学思维的人面对这个问题第一想到的方法,最直接最不拐弯抹角的方法。就是求多元函数极值,这就是最小二乘法的思想!其实根本不用把最小二乘法想的多么高大上,不就是求极值嘛~

学过大学高等数学的人应该都知道求极值的方法:就是求偏导,然后使偏导为0,这就是最小二乘法整个的方法了,so easy啊~

最后使所有的偏导等于0

然后解这个方程组就可以得到各个系数的值了


梯度下降法

我们注意到最小二乘法最后一步要求p个方程组,是非常大的计算量,其实计算起来很难,因此我们就有了一种新的计算方法,就是梯度下降法,梯度下降法可以看作是 更简单的一种 求最小二乘法最后一步解方程 的方法

虽然只是针对最后一步的改变,不过为了计算简便,仍然要对前面的步骤做出一些改变:

recall上面的最小二乘法,我们有一个这样子的式子,就是所有误差的平方和:

假设有m个数据,2个系数(θ₀和θ₁),我们要对最小二乘法的Q稍加改变,变成代价函数J,虽然用不同的字母表示了,但是他们的含义是一模一样的啦~

前面的1/2m系数只是为了后面求导的时候,那个平方一求导不是要乘一个2嘛,然后和1/2m的2抵消就没了,变成如下:

然后θ₀和θ₁分别是这样子被计算出来的(其中:=为赋值的意思):

这个计算方法其实理解起来比较难,那么我们先来看看这个J函数的图像吧,J函数是关于θ₀和θ₁的函数,因此是三维的,为了使J的值最小,也就是高度最。相当于一个人要下山,下到海平面最低的地方,在图中就是蓝色部分,那就是最低的地方

再想象这个人,要下到海平面最低的地方有很多条路啊,他可以绕着山头一圈一圈的下,像盘山公路一样(但没有人这样下山的,要走的距离也太长了8),最省力的方法就是按照梯度的方向下山,如图所示:

梯度:梯度是一个向量,梯度的方向就是最快下山,或者说沿着变化率最大的那个方向

我们再来看一下

这个一个反复迭代的式子,就是初始的时候,先找一个点(θ₀,θ₁)(可以随便找),然后在这个点沿着梯度下降的方向,即这个向量的方向

然后α的意思就是下山的跨步,比方说我知道了我接下来哪个方下是最快下山的方向了,我一步子跨多大,跨的小容易娘炮,跨的大容易扯着蛋(开玩笑),跨的小容易走了很多步才到山脚下,跨的大容易把最地点那个坑 给一下子跨过去,因此要确定合适的α

每跨一步,就到了一个新的点,然后在这个点的基础上继续跨步,直到下到最低点(此时再想走的话就是上坡了,即偏导为正了),这就是一个反复迭代的过程

最小二乘法MSE 梯度下降法相关推荐

  1. 最小二乘法、梯度下降法以及最大似然法之间区别整理

    一.最小二乘法(least square method) 转自https://blog.csdn.net/suibianshen2012/article/details/51532003 1.背景 先 ...

  2. 最小均方误差的推导+最小二乘法、梯度下降法、牛顿法、高斯牛顿法

    最小二乘法(又称最小平方法)是一种数学优化技术.它通过最小化误差的平方和寻找数据的最佳函数匹配.利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小.最小二乘法 ...

  3. 线性回归算法(涉及最小二乘法、梯度下降法)

    目录: 一.简单线性回归算法 二.向量化 三.衡量线性回归法的指标MSE.RMS.MAE.R Squared 指标 四,多元线性回归(最小二乘法) 五.多元线性回归(梯度下降法) 一.简单线性回归算法 ...

  4. Python-多元线性回归方程比较最小二乘法与梯度下降法

    最小二乘法是先将方程自变量与因变量化为系数矩阵X,再求该矩阵的转置矩阵(X1),接着求矩阵X与他的转置矩阵的X1的乘积(X2),然后求X2的逆矩阵.最后整合为系数矩阵W,求解后分别对应截距b.a1.和 ...

  5. 【机器学习】总结:线性回归求解中梯度下降法与最小二乘法的比较

    在线性回归算法求解中,常用的是最小二乘法与梯度下降法,其中梯度下降法是最小二乘法求解方法的优化,但这并不说明梯度下降法好于最小二乘法,实际应用过程中,二者各有特点,需结合实际案例具体分析. 最后有两份 ...

  6. 最小二乘法、梯度下降法和两者区别

    一.最小二乘法(最小平方法) 参考来源:一元线性回归模型与最小二乘法及其C++实现 http://blog.csdn.net/qll125596718/article/details/8248249 ...

  7. 人工智能必备数学知识· 学习笔记 ·001【线性回归,最小二乘法梯度下降法】

    注:笔记 来自课程 人工智能必备数学知识 Tips①:只是记录从这个课程学到的东西,不是推广.没有安利 Tips②:本笔记主要目的是为了方便自己遗忘查阅,或过于冗长.或有所缺省.或杂乱无章,见谅 Ti ...

  8. 最小二乘法、迭代优化、坐标轴下降法(Coordinate Descent, CD)、坐标下降和梯度下降对比、梯度下降法/最速下降法

    最小二乘法.迭代优化.坐标轴下降法(Coordinate Descent, CD).坐标下降和梯度下降对比.梯度下降法/最速下降法 目录

  9. 最小二乘法+牛顿法+拟牛顿法+梯度下降法+梯度上升法+共轭梯度法

    最小二乘法+牛顿法+拟牛顿法+梯度下降法+梯度上升法+共轭梯度法 最小二乘法+牛顿法+拟牛顿法+梯度下降法+梯度上升法+共轭梯度法 上述几种方法,除了最小二乘法是直接使用公式取得之外,另外几种方法都是 ...

最新文章

  1. mysql2005错误_sql-server-2005 – SQL Server 2005错误701 – 内存不足
  2. 【活动(北京)】Global Azure Bootcamp
  3. jdk 加密_使用JDK的密码流的加密怪癖(以及该怎么做)
  4. 遍历Map keySet和entrySet
  5. 【Kafka】Flink 消费 kafka 部分 分区 一直不提交 offset
  6. c/c++ 变量作用域
  7. hpux11.31 环境下如何查看磁盘的WWID( scsimgr lun_map)
  8. leetcode——Divide Two Integers
  9. LabVIEW 2021 工具包
  10. linux下双机热备份系统,基于Linux的双机热备份系统的研究与设计
  11. 这可能是最完整的进藏攻略
  12. 进入BeOS的花花世界 系列三
  13. Integer的equals方法
  14. 饼状图环形图数据信息PR图形模板MOGRT
  15. MySQL NDB Cluster使用docker compose一键部署
  16. 腾讯云SSL证书申请流程!
  17. locate用主动还是被动_iBeacon设备定位是怎么实现的?燚智能点评主动定位、被动定位两种的差别...
  18. 数据处理——实现数据过滤
  19. SurfaceView实现抽奖转盘
  20. MOS管的知识,看这一篇就可以了

热门文章

  1. 消息队列-----生成者 Spring整合rabbitmq
  2. 在maven项目中使用Junit进行单元测试
  3. NeurIPS 2021 | 通过动态图评分匹配预测分子构象
  4. Nat. Mach. Intell. | 深度神经网络中的捷径学习
  5. MOSES | 分子生成模型的基准平台
  6. RDKit | 基于RDKit去除片段(盐或络合物等)
  7. cytoscape插件centiscape的使用
  8. corrplot包绘制相关性图
  9. 微生物所高程-郭良栋组(内附招聘)在菌根适应策略研究中取得进展
  10. QIIME 2教程. 20实用程序Utilities(2021.2)