这次接着一元线性回归继续介绍多元线性回归,同样还是参靠周志华老师的《机器学习》,把其中我一开始学习时花了较大精力弄通的推导环节详细叙述一下。

本文用到的部分关于向量求导的知识可以参看博文标量、向量、矩阵求导

数据集 D={(x1,y1),(x2,y2)⋯(xm,ym)} D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) ⋯ ( x m , y m ) } D=\{(\boldsymbol x_1, y_1), (\boldsymbol x_2, y_2) \cdots (\boldsymbol x_m, y_m)\},其中 xi=[x(1)i,x(2)i⋯x(d)i]T x i = [ x i ( 1 ) , x i ( 2 ) ⋯ x i ( d ) ] T \boldsymbol x_i=[x_i^{(1)}, x_i^{(2)} \cdots x_i^{(d)}]^T 表示一条样本数据有 d d d 个属性,我们的目标是寻找 d" role="presentation">ddd 维列向量 w w \boldsymbol w 和常数 b b b,使得模型

(1)f(xi)=wTxi+b" role="presentation">f(xi)=wTxi+b(1)(1)f(xi)=wTxi+b

f(\boldsymbol x_i)=\boldsymbol w^T\boldsymbol x_i+b\tag 1所得的预测值与真实值 yi y i y_i 尽可能接近。

我们可以采用一些小策略把式(2)统一用矩阵和向量表示,把常数 b b b 放入权值向量 w" role="presentation">ww\boldsymbol w 得到一个 (d+1) ( d + 1 ) (d+1) 维的权值向量 w^=(w;b) w ^ = ( w ; b ) \boldsymbol{\hat w}=(\boldsymbol w; b),同时在每个样本实例中添加第 (d+1) ( d + 1 ) (d+1) 个属性,置为 1 1 1,xi^=(xi;1)" role="presentation">xi^=(xi;1)xi^=(xi;1)\boldsymbol{\hat {x_i}}=(\boldsymbol x_i;1)。将样本所有属性排列为矩阵可以得到:

X=⎡⎣⎢⎢⎢⎢x1^x2^⋮xm^⎤⎦⎥⎥⎥⎥ X = [ x 1 ^ x 2 ^ ⋮ x m ^ ]

\boldsymbol X= \left [ \begin{matrix}\boldsymbol{\hat {x_1}} \\\boldsymbol{\hat {x_2}} \\\vdots \\\boldsymbol{\hat {x_m}} \\ \end{matrix} \right]
令 y=(y1,y2⋯ym)T y = ( y 1 , y 2 ⋯ y m ) T \boldsymbol y=(y_1, y_2\cdots y_m)^T ,同一元线性回归中最小化预测值与真实值误差平方和一样,在多元回归中我们要最小化

||y−Xw^||2 | | y − X w ^ | | 2

||\boldsymbol y-\boldsymbol X\boldsymbol{\hat {w}}||^2

w∗=argw^min(y−Xw^)T(y−Xw^) w ∗ = arg w ^ ⁡ min ( y − X w ^ ) T ( y − X w ^ )

\boldsymbol w^*=\arg_\boldsymbol{\hat w}\min (\boldsymbol y-\boldsymbol X\boldsymbol{\hat {w}})^T(\boldsymbol y-\boldsymbol X\boldsymbol{\hat {w}})
此处将最小化的目标函数视为 w^ w ^ \boldsymbol{\hat w} 的“单变量”函数,令 h(w^)=(y−Xw^)T(y−Xw^) h ( w ^ ) = ( y − X w ^ ) T ( y − X w ^ ) h(\boldsymbol{\hat w})=(\boldsymbol y-\boldsymbol X\boldsymbol{\hat {w}})^T(\boldsymbol y-\boldsymbol X\boldsymbol{\hat {w}}),求它的最小值只需其对 w^ w ^ \boldsymbol{\hat w} 求导,导数值为 0 时 w^ w ^ \boldsymbol{\hat w} 的取值即为所求。

∂h(w^)∂w^=∂[(y−Xw^)T(y−Xw^)]∂w^=2∂(y−Xw^)T∂w^(y−Xw^)=2∂yT∂w^(y−Xw^)−2∂(Xw^)T∂w^(y−Xw^)=0−2XT(y−Xw^)=2XT(Xw^−y)(2)(3)(4)(5) ∂ h ( w ^ ) ∂ w ^ = ∂ [ ( y − X w ^ ) T ( y − X w ^ ) ] ∂ w ^ (2) = 2 ∂ ( y − X w ^ ) T ∂ w ^ ( y − X w ^ ) (3) = 2 ∂ y T ∂ w ^ ( y − X w ^ ) − 2 ∂ ( X w ^ ) T ∂ w ^ ( y − X w ^ ) (4) = 0 − 2 X T ( y − X w ^ ) (5) = 2 X T ( X w ^ − y )

\begin{align*} \frac{\partial h(\boldsymbol{\hat w})}{\partial \boldsymbol{\hat w}} &= \frac{\partial [(\boldsymbol y-\boldsymbol X\boldsymbol{\hat {w}})^T(\boldsymbol y-\boldsymbol X\boldsymbol{\hat {w}})]}{\partial \boldsymbol{\hat w}}\\ &= 2\frac{\partial (\boldsymbol y-\boldsymbol X\boldsymbol{\hat {w}})^T}{\partial \boldsymbol{\hat w}}(\boldsymbol y-\boldsymbol X\boldsymbol{\hat {w}})\tag 2\\ &= 2\frac{\partial \boldsymbol y^T}{\partial \boldsymbol{\hat w}}(\boldsymbol y-\boldsymbol X\boldsymbol{\hat {w}})-2\frac{\partial (\boldsymbol X\boldsymbol{\hat {w}})^T}{\partial \boldsymbol{\hat w}}(\boldsymbol y-\boldsymbol X\boldsymbol{\hat {w}}) \tag 3\\ &= 0-2\boldsymbol X^T(\boldsymbol y-\boldsymbol X\boldsymbol{\hat {w}})\tag 4\\ &= 2\boldsymbol X^T(\boldsymbol X\boldsymbol{\hat {w}}-\boldsymbol y)\tag 5\\ \end{align*}
上述步骤(2)运用了 链接博文的式(9):

步骤(3)简单求导的拆分
步骤(4)第一项中 yT y T \boldsymbol y^T 与 w^ w ^ \boldsymbol{\hat {w}} 无关,所以求导为0;第二项运用了 链接博文的式(6):

最后我们令式(5)为0,此时的 w^ w ^ \boldsymbol{\hat {w}} 即为所求 w∗ w ∗ \boldsymbol w^*

∵2XT(Xw^−y)=2XTXw^−2XTy=0∴XTXw^=XTy∴w^=(XTX)−1XTy∴w∗=(XTX)−1XTy ∵ 2 X T ( X w ^ − y ) = 2 X T X w ^ − 2 X T y = 0 ∴ X T X w ^ = X T y ∴ w ^ = ( X T X ) − 1 X T y ∴ w ∗ = ( X T X ) − 1 X T y

\begin{eqnarray*} &&\because 2\boldsymbol X^T(\boldsymbol X\boldsymbol{\hat {w}}-\boldsymbol y)=2\boldsymbol X^T\boldsymbol X\boldsymbol{\hat {w}}-2\boldsymbol X^T\boldsymbol y=0\\ &&\therefore \boldsymbol X^T\boldsymbol X\boldsymbol{\hat {w}}=\boldsymbol X^T\boldsymbol y\\ &&\therefore \boldsymbol{\hat {w}}=(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\boldsymbol y\\ &&\therefore \boldsymbol w^*=(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\boldsymbol y \end{eqnarray*}

至此,权值向量被样本集中的数据估计出来了,完成了学习任务,当然此处仍有有待解决的问题:方阵 XTX X T X \boldsymbol X^T\boldsymbol X 只有在满秩时才可逆,而这一条件并非所有学习任务均能满足,可以引进正则化等方法来选择非满秩时多解的 w^ w ^ \boldsymbol{\hat {w}}。这一点以后再写。

下一篇准备写一下广义线性模型和逻辑回归,keep going!

多元线性回归中的公式推导相关推荐

  1. 多元线性回归中多重共线性_多重共线性如何在线性回归中成为问题。

    多元线性回归中多重共线性 Linear Regression is one of the simplest and most widely used algorithms for Supervised ...

  2. 多元线性模型分类变量方差_第三十一讲 R多元线性回归中的多重共线性和方差膨胀因子...

    在前两讲中,我们介绍了多元线性回归的概念以及多元线性回归中的交互作用.今天学习的主要内容是多元线性回归中的多重共线性和方差膨胀因子. 1. 共线性的概念 1 共线性 在多元回归中,两个或多个预测变量可 ...

  3. 一元线性回归与多元线性回归理论及公式推导

    一元线性回归 回归分析只涉及到两个变量的,称一元回归分析. 一元回归的主要任务是从两个相关变量中的一个变量去估计另一个变量,被估计的变量,称因变量,可设为Y:估计出的变量,称自变量,设为X.回归分析就 ...

  4. matlab regress RMSE,在利用regress进行多元线性回归中出现的问题

    在利用这个命令X=[ones(size(T1)),T1,T2,T3,T4];[b,bint,r,rint,stats]=regress(Y,X),Q=r'*r,Q2=Q/(15-2),stepwise ...

  5. python梯度下降法实现线性回归_梯度下降法的python代码实现(多元线性回归)

    梯度下降法的python代码实现(多元线性回归最小化损失函数) 1.梯度下降法主要用来最小化损失函数,是一种比较常用的最优化方法,其具体包含了以下两种不同的方式:批量梯度下降法(沿着梯度变化最快的方向 ...

  6. R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归

    在这篇文章中,我将对多元线性回归做同样的事情.我将得出阻塞的Gibbs采样器所需的条件后验分布.然后我将对采样器进行编码并使用模拟数据对其进行测试. 一个贝叶斯模型 假设我们有一个样本大小的​科目.我 ...

  7. 多元线性回归的缺陷_轻松阅 | 多元线性回归的“参差不齐

    残差"齐不齐" 关于残差 在多元线性回归中,我们想根据连续数据来进行预测.例如,我们有包含不同年份的资本投入,劳动力投入和技术水平的列表,并想预测当年的产出水平.或者,可能有一些人 ...

  8. 吴恩达机器学习(二)多元线性回归(假设、代价、梯度、特征缩放、多项式)

    目录 0. 前言 1. 假设函数(Hypothesis) 2. 代价函数(Cost Function) 3. 梯度下降(Gradient Descent) 4. 特征缩放(Feature Scalin ...

  9. coursera机器学习笔记-多元线性回归,normal equation

    #对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补 ...

最新文章

  1. Linux磁盘占用100%解决方法
  2. pytorch nn.Conv2d
  3. [architecture]-spin_unlock中是怎样让cpu退出standby模式的?
  4. Knative 实战:如何在 Knative 中配置自定义域名及路由规则
  5. Java反射理解与案例
  6. MFC动态调用DLL
  7. 简单理解Tomasulo算法与重加载缓冲区
  8. linux-shell命令之mkdir(make dir)【创建目录】
  9. phpcmsV9一、二级导航栏目loop循环输出、当前高亮显示
  10. if - else 案例.py
  11. 基于STM32F429的DCMI实现OV7725-NF无缓存摄像头的图像采集HAL库
  12. 什么是IPFS?(三)
  13. python通过鼠标点击进行图像截图,类似QQ截图
  14. 现实感:找准定位,躬身前行
  15. 大豆技术面分析_大豆优质高产技术分析,种植大豆产量低,只因这几点你没做到...
  16. 超级计算机也无法算尽圆周率,如果圆周率算尽了,会出现什么后果?
  17. (附源码)spring boot学生社团管理系统的设计与实现 毕业设计 151109
  18. 电脑dhcp服务器修改,更改电脑dhcp服务器地址
  19. 玛雅云渲染计算机设置,Maya如何使用云渲染,怎么操作?
  20. 卸载WPS后,原office出现各种问题,报错,图标混乱

热门文章

  1. 云服务器跟弹性云主机一样吗,什么是弹性云主机
  2. 零售数字化必经哪四个阶段?
  3. Linux配置ssh远程连接服务
  4. 安全邮箱是什么,163邮箱安全中心,安全邮箱怎么注册?
  5. 马云的经典语录(转)
  6. 智能家居项目(八)之树莓派+摄像头进行人脸识别
  7. Sql server语句(增删改查)
  8. commons-lang3 简介、中文文档、中英对照文档 下载
  9. 安卓手机管理_Mac上的安卓手机管理工具:HandShaker for mac
  10. 数据分析师兴起并繁荣背后的原因