视频地址:https://www.bilibili.com/video/BV1aE411o7qd?p=9
笔记地址:https://www.yuque.com/books/share/f4031f65-70c1-4909-ba01-c47c31398466/mkn2fh

P9 线性回归-最小二乘法及其几何意义

Loss函数

几何意义:让所有样本的真实值yi和预测值wTxi的平方差之和最小。

伪逆X+:把L(w)优化为一个矩阵运算的公式。

P10 线性回归-最小二乘法-概率视角-高斯噪声

本节内容:论证最小二乘估计等价于噪声为高斯分布的极大似然估计MLE。

假设:假设噪声 ε 服从高斯分布: ε ~ N(0,σ2),则测量值y可以表示为真实值wTx加上噪声:y=wTx+ε。注意这里的 ε 是一个噪声分布,而不是偏置,偏置已经包含在w中了。偏置的目的是让函数整体上升或者下移,比如y=2x+1中的1是为了让y=2x整体上升一个单位,但平移之后函数仍是一条直线。而这里的 ε 是为了让直线wTx上的点随机产生一些偏移,有的点上升有的下降不在一条直线上,从而模拟真实测量y的一些误差,由此可知 ε 不是偏置,而是一个噪声分布。

推导:因为y=wTx+ε,所以ε ~ N(0,σ2) ==> y|w,x ~ N(wTx,σ2)。
这里说的噪声服从高斯分布时,真实测量值y也服从高斯分布,指的是在对一个样本点的多次测量过程中y服从高斯分布。比如假设在测量x=1.5时,理论函数值wTx=3,但是由于噪声的存在,我们实际测量的结果y并不是3,而是在3左右上下波动,这时由于噪声 ε 服从高斯分布,那么我们多次测量的y也会服从高斯分布,这也就是为什么y的均值为wTx,方差为σ2。因为这个y的分布是对一个确定的样本点 x 的多次测量而言的,理论函数值wTx是一个定值。从下一步极大似然连乘的计算方式也可以看出应该把y的高斯分布看成是对特定点x的测量,因为每一个样本点xi处的测量都符合这个高斯分布,所以最后总的Loss才是把每个样本点处的y的高斯概率密度连乘起来。

结论:假设独立同分布,将Loss函数L(w)写成一堆y的高斯分布的连乘的形式,然后对w求偏导即可得到上一节中最小二乘的Loss函数公式的形式。所以可以得到结论:最小二乘估计就是噪声服从高斯分布 且样本独立同分布 的极大似然估计。

注意:这里极大似然MLE的目标是最大化P(Y|X,w),意思就是在X和w确定的条件下使得实际观测值为y的概率最大。连乘是保证这个w让所有样本满足自己观测值的联合概率最大。

P11 线性回归-正则化-岭回归-频率角度

本节内容:论证L2正则化可以使得XTX正定,从而可以求逆。

一个问题:用最小二乘估计计算w时,我们一般用最后的伪逆矩阵乘法公式 w=(XTX)-1XTY。这里有一个问题,XTX是一个实对称矩阵,是半正定的,但并不总能求逆,只有在满秩的时候才能求逆。一般情况下样本数量N远大于样本维度P,从而保证XTX满秩可求逆,但是如果N的数量相对于P来说不足时,就不可求逆,也即发生了过拟合现象。

应对过拟合的方法:①增加数据量 ②特征选择/特征提取 ③正则化

正则化框架

对加了L2正则的最小二乘估计(岭回归)的一些理解

把最小二乘估计的Loss函数加上L2约束,再求偏导得到最优的 w=(XTX+λI)-1XTY,可以发现这个w比原来的伪逆公式 (XTX)-1XTY 就多了个λI。因为XTX是实对称矩阵,半正定,再加上一个单位阵就变成正定矩阵了。满秩,所以此时保证XTX可求逆,这是L2范数除了选择较小参数w之外的作用。(这里可以进一步思考一下可逆与过拟合之间的一些关系)

P12 线性回归-正则化-岭回归-贝叶斯角度

本节内容:论证加了L2正则的最小二乘估计等价于噪声为高斯分布 且 w为高斯先验下的最大后验估计MAP。同时假设P(Y|X,w)服从高斯分布,也假设w的先验概率也服从高斯分布:P(w)~N(0,σ*),这时用MAP计算出的Loss函数表达式也等于最小二乘估计加上L2正则化项。这是因为我们假设了w的先验概率,这类似于对w的取值进行了约束,所以最后导出来的表达式也有一个惩罚项。

注意一:MAP最大化的对象是P(w|Y),这个后边看看最大后验估计是怎么设计的。

注意二:高斯概率密度公式的展开

指数部分的分子上是自变量减去其均值,P(y|w)的自变量是y,均值是wTx,所以表示为(y-wTx)2;P(w)的自变量是w,均值是0,所以表示为||w||2

总结:线性回归模型是最简单的模型,但是麻雀虽小,五脏俱全,在这里,我们利用最小二乘误差得到了闭式解。同时也发现,①最小二乘估计等价于噪声为高斯分布极大似然估计MLE; ②加了L2正则的最小二乘估计等价于噪声为高斯分布 且 w为高斯先验下最大后验估计MAP

【+】(闭式解也叫解析解,就是一些严格的公式,给出任意的自变量就可以求出其因变量,也就是问题的解, 他人可以利用这些公式计算各自的问题,最小二乘估计里边的伪逆矩阵计算公式就是。)

白板机器学习笔记 P9-P12线性回归相关推荐

  1. [机器学习笔记] Note3--多变量线性回归

    继续是机器学习课程的笔记,这节课介绍的是多变量的线性回归. 多变量线性回归 多维特征 上节课介绍的是单变量的线性回归,这节课则是进一步介绍多变量的线性回归方法. 现在假设在房屋问题中增加更多的特征,例 ...

  2. [机器学习笔记] Note2--单变量线性回归

    继续是机器学习课程的笔记,这节介绍的是单变量线性回归算法,线性回归算法也是一个比较基础的算法. 模型表达 首先是以房屋交易问题为例,假设我们回归问题的训练集如下表所示: Size in feet2fe ...

  3. 吴恩达机器学习笔记 —— 5 多变量线性回归

    http://www.cnblogs.com/xing901022/p/9321045.html 本篇主要讲的是多变量的线性回归,从表达式的构建到矩阵的表示方法,再到损失函数和梯度下降求解方法,再到特 ...

  4. 白板机器学习笔记 P28-P35 支持向量机

    视频地址:https://www.bilibili.com/video/BV1aE411o7qd?p=28 笔记地址:https://www.yuque.com/books/share/f4031f6 ...

  5. 白板机器学习笔记 P13-P21 线性分类

    视频地址:https://www.bilibili.com/video/BV1aE411o7qd 笔记地址:https://www.yuque.com/books/share/f4031f65-70c ...

  6. 机器学习笔记二 单型线性回归

    线性回归 (一)介绍 (二) 数学模型 2.1 一元线性回归公式 2.2 方差 - 损失函数 Cost Function 2.3 优化方法 Optimization Function 2.4 算法步骤 ...

  7. 白板机器学习笔记 P60-P65 EM算法

    视频地址:https://www.bilibili.com/video/BV1aE411o7qd?p=46 笔记地址:https://www.yuque.com/books/share/f4031f6 ...

  8. 白板机器学习笔记 P39-P45 指数族分布

    视频地址:https://www.bilibili.com/video/BV1aE411o7qd?p=39 笔记地址:https://www.yuque.com/books/share/f4031f6 ...

  9. 白板机器学习笔记 P36-P38核方法

    视频地址:https://www.bilibili.com/video/BV1aE411o7qd?p=36 笔记地址:https://www.yuque.com/books/share/f4031f6 ...

最新文章

  1. 给手绘图着色(添加颜色或色彩):CVPR2020论文点评
  2. Linux纯脚本故障转移集群
  3. 安卓工程不继承ActionBarActivity的设置
  4. ARP(Address Resolution Protocol)地址解析协议初识
  5. linux进程的高级管理,Linux高级程序设计(第2版) PDF扫描版[94MB]
  6. Regex.Match 方法
  7. 没网可以用python吗_在没有网络的情况下能自学python吗?
  8. 暑假周进度总结报告2
  9. Word——如何给公式自动编号插入题注交叉引用时不出现公式本身||公式行距变大怎么办
  10. jupyter notebook的自动补全
  11. 网络触发的detach
  12. Undefined symbol main (referred from entry9a.o).
  13. 针式打印机设置打印纸张定义长度/宽度
  14. 阿里云服务器ECS装好宝塔 但访问不了面板的解决方法
  15. [深度学习] PyTorch 实现双向LSTM 情感分析
  16. 【实战+源码】RGB-D移动抓取服务机器人(四)——完结篇(ROS机器人、系统设计、运动规划、目标定位)
  17. 用Java玩转选择排序
  18. 古龙妙语大全 下 朱近墨
  19. Python与图像处理8
  20. CVPR2020 步态论文:Gait Recognition via Semi-supervised Disentangled Representation Learning to Identit

热门文章

  1. jQuery链式操作[转]
  2. [转载][FPGA]有限状态机FSM学习笔记(二)
  3. 利用VBA把PowerDesigner的comment复制到name
  4. LAMP 3.2 mysql登陆
  5. JAVA---事件适配器----用内部类,匿名类实现事件处理
  6. C#中用DateTime的ParseExact方法解析日期时间(excel中使用系统默认的日期格式)
  7. java 过滤器filter使用案例
  8. 1026. 程序运行时间(15)
  9. C语言小案例——万年历制作
  10. 如何启用“锁定内存页”选项 (Windows)