在多元线性回归部分,西瓜书的省略实在是太多了,有时候会让读者很无奈。这篇博客便针对这些问题进行详细的解答,希望对大家理解西瓜书有帮助。
在多元线性回归这一章节中,或许是囿于篇幅,西瓜书中(1)没有解释清楚www和bbb怎么组合成w^的\hat{w}的w^的(注:此处的www和w^\hat{w}w^都是向量,因为这是多元线性回归了)(2)没有解释损失函数Ew^E_{\hat{w}}Ew^​怎么来的。(3)没有解释为什么∂Ew^∂w^=0\frac{\partial E_{\hat{w}}}{\partial{\hat{w}}}=0∂w^∂Ew^​​=0时,就有最小值。

1、www向量和bbb组合成w^\hat{w}w^向量

对于多元的情况,我们可以的到一个回归公式,
f(xi)=wTxi+bf(x_i)=w^Tx_i+bf(xi​)=wTxi​+b,因为www和xxx都是列向量,所以我们可以将其展开,得到如下的式子。f(xi)=w1xi1+w2xi2+⋯+wdxid+bf(x_i)=w_1x_{i1}+w_2x_{i2}+\cdots+w_dx_{id}+bf(xi​)=w1​xi1​+w2​xi2​+⋯+wd​xid​+b i代表第几个样本,d代表样本的维度。
令b=wd+1⋅1b=w_{d+1} \cdot1b=wd+1​⋅1,所以f(xi)f(x_i)f(xi​)又可以变成如下的式子:
f(xi^)=(w1w2⋯wdwd+1)⏟w^T(xi1xi2⋮xid1)⏟xi^=w^T⋅xi^f(\hat{x_i})=\underbrace{ \begin{pmatrix}w_1&w_2\cdots&w_d&w_{d+1}\end{pmatrix}}_{\rm \hat{w}^T} \underbrace{ \begin{pmatrix} x_{i1}\\x_{i2}\\\vdots \\ x_{id}\\1\\ \end{pmatrix}} _{\rm \hat{x_i}}=\hat{w}^T\cdot \hat{x_i} f(xi​^​)=w^T(w1​​w2​⋯​wd​​wd+1​​)​​xi​^​⎝⎜⎜⎜⎜⎜⎛​xi1​xi2​⋮xid​1​⎠⎟⎟⎟⎟⎟⎞​​​=w^T⋅xi​^​
所以我们这样就表示出了w^\hat{w}w^和x^\hat{x}x^

2、损失函数Ew^E_{\hat{w}}Ew^​的“前世今生”

损失函数Ew^=∑i=1m(yi−f(xi^))2=∑i=1m(yi−w^Txi^)2E_{\hat{w}}=\sum_{i=1}^{m}(y_i-f(\hat{x_i}))^2=\sum_{i=1}^{m}(y_i-\hat{w}^T\hat{x_i})^2Ew^​=i=1∑m​(yi​−f(xi​^​))2=i=1∑m​(yi​−w^Txi​^​)2但这和西瓜书上的损失函数表达式不同,所以还应该进行恒等变形。所以我们现在求得的就是损失函数的“前世”了。由上一篇博客可知,一个求和符号就代表了两个向量相乘。所以我们接下来进行向量化。

2.1、向量化

首先我们先来定义一个矩阵X和向量yyy:
X=(x11x12x13⋯x1d1x21x22x23⋯x2d1⋮⋮⋮⋱⋮⋮xm1xm2xm3⋯xmd1)=(x1T1x2T1⋮xmT1)=(x1^Tx2^T⋮xm^T)X= \begin{pmatrix} x_{11} & x_{12} & x_{13} & \cdots & x_{1d} & 1 \\ x_{21} & x_{22} & x_{23} & \cdots & x_{2d}&1 \\ \vdots & \vdots & \vdots & \ddots & \vdots & \vdots \\ x_{m1} & x_{m2} & x_{m3} & \cdots & x_{md} &1 \\\\ \end{pmatrix} = \begin{pmatrix} x_1^T&1\\ x_2^T&1\\ \vdots\\ x_m^T&1\\ \end{pmatrix} = \begin{pmatrix} \hat{x_1}^T\\ \hat{x_2}^T\\ \vdots\\ \hat{x_m}^T\\ \end{pmatrix} X=⎝⎜⎜⎜⎜⎜⎛​x11​x21​⋮xm1​​x12​x22​⋮xm2​​x13​x23​⋮xm3​​⋯⋯⋱⋯​x1d​x2d​⋮xmd​​11⋮1​⎠⎟⎟⎟⎟⎟⎞​=⎝⎜⎜⎜⎛​x1T​x2T​⋮xmT​​111​⎠⎟⎟⎟⎞​=⎝⎜⎜⎜⎛​x1​^​Tx2​^​T⋮xm​^​T​⎠⎟⎟⎟⎞​
y=(y1y2y3⋮ym)y=\begin{pmatrix} y_1\\y_2\\y_3\\\vdots\\y_m \end{pmatrix} y=⎝⎜⎜⎜⎜⎜⎛​y1​y2​y3​⋮ym​​⎠⎟⎟⎟⎟⎟⎞​
准备工作结束了,我们先将Ew^E_{\hat{w}}Ew^​的求和项展开成矩阵相乘的形式。

Ew^=(y1−w^Tx1^)2+(y2−w^Tx2^)2+⋯+(ym−w^Txm^)2E_{\hat{w}}=(y_1-\hat{w}^T\hat{x_1})^2+(y_2-\hat{w}^T\hat{x_2})^2+\cdots+(y_m-\hat{w}^T\hat{x_m})^2Ew^​=(y1​−w^Tx1​^​)2+(y2​−w^Tx2​^​)2+⋯+(ym​−w^Txm​^​)2
Ew^=[(y1−w^Tx1^)(y1−w^Tx1^)⋯(ym−w^Txm^)][(y1−w^Tx1^)(y2−w^Tx2^)⋮(ym−w^Txm^)]E_{\hat{w}}= \begin{bmatrix} (y_1-\hat{w}^T\hat{x_1})&(y_1-\hat{w}^T\hat{x_1})\cdots(y_m-\hat{w}^T\hat{x_m}) \end{bmatrix} \begin{bmatrix} (y_1-\hat{w}^T\hat{x_1})\\ (y_2-\hat{w}^T\hat{x_2})\\ \vdots\\ (y_m-\hat{w}^T\hat{x_m}) \end{bmatrix} Ew^​=[(y1​−w^Tx1​^​)​(y1​−w^Tx1​^​)⋯(ym​−w^Txm​^​)​]⎣⎢⎢⎢⎡​(y1​−w^Tx1​^​)(y2​−w^Tx2​^​)⋮(ym​−w^Txm​^​)​⎦⎥⎥⎥⎤​
再对里面的小项进行恒等变形,
[(y1−w^Tx1^)(y2−w^Tx2^)⋮(ym−w^Txm^)]=[y1y2y3⋮ym]−[w^Tx1^w^Tx2^⋮w^Txm^]=y−[w^Tx1^w^Tx2^⋮w^Txm^]\begin{bmatrix} (y_1-\hat{w}^T\hat{x_1})\\ (y_2-\hat{w}^T\hat{x_2})\\ \vdots\\ (y_m-\hat{w}^T\hat{x_m}) \end{bmatrix} =\begin{bmatrix} y_1\\y_2\\y_3\\\vdots\\y_m \end{bmatrix} - \begin{bmatrix} \hat{w}^T\hat{x_1}\\ \hat{w}^T\hat{x_2}\\ \vdots\\ \hat{w}^T\hat{x_m} \end{bmatrix} =y- \begin{bmatrix} \hat{w}^T\hat{x_1}\\ \hat{w}^T\hat{x_2}\\ \vdots\\ \hat{w}^T\hat{x_m} \end{bmatrix} ⎣⎢⎢⎢⎡​(y1​−w^Tx1​^​)(y2​−w^Tx2​^​)⋮(ym​−w^Txm​^​)​⎦⎥⎥⎥⎤​=⎣⎢⎢⎢⎢⎢⎡​y1​y2​y3​⋮ym​​⎦⎥⎥⎥⎥⎥⎤​−⎣⎢⎢⎢⎡​w^Tx1​^​w^Tx2​^​⋮w^Txm​^​​⎦⎥⎥⎥⎤​=y−⎣⎢⎢⎢⎡​w^Tx1​^​w^Tx2​^​⋮w^Txm​^​​⎦⎥⎥⎥⎤​
发现w^Txi^\hat{w}^T\hat{x_i}w^Txi​^​是一个标量而非向量,根据矩阵转置的法则,标量转置还是等于原先的标量。所以我们就把w^Txi^\hat{w}^T\hat{x_i}w^Txi​^​转置成xi^Tw^\hat{x_i}^T\hat{w}xi​^​Tw^再进行恒等变形。
[w^Tx1^w^Tx2^⋮w^Txm^]=[x1^Tw^x2^Tw^⋮xm^Tw^]=[x1^Tx2^T⋮xm^T]w^=X⋅w^\begin{bmatrix} \hat{w}^T\hat{x_1}\\ \hat{w}^T\hat{x_2}\\ \vdots\\ \hat{w}^T\hat{x_m} \end{bmatrix} =\begin{bmatrix} \hat{x_1}^T\hat{w}\\ \hat{x_2}^T\hat{w}\\ \vdots\\ \hat{x_m}^T\hat{w} \end{bmatrix} =\begin{bmatrix} \hat{x_1}^T\\ \hat{x_2}^T\\ \vdots\\ \hat{x_m}^T \end{bmatrix} \hat{w} =X\cdot \hat{w} ⎣⎢⎢⎢⎡​w^Tx1​^​w^Tx2​^​⋮w^Txm​^​​⎦⎥⎥⎥⎤​=⎣⎢⎢⎢⎡​x1​^​Tw^x2​^​Tw^⋮xm​^​Tw^​⎦⎥⎥⎥⎤​=⎣⎢⎢⎢⎡​x1​^​Tx2​^​T⋮xm​^​T​⎦⎥⎥⎥⎤​w^=X⋅w^
所以损失函数Ew^E_{\hat{w}}Ew^​的“今生”就得到了,
Ew^=(y−Xw^)T(y−Xw^)E_{\hat{w}}=(y-X\hat{w})^T(y-X\hat{w})Ew^​=(y−Xw^)T(y−Xw^)

3、证明损失函数为凸函数

证明多元函数为凸函数的方法与证明一元函数(详情请见一元线性回归(一))有所不同,又有点相似之处。
最大的不同之处就是一元函数求偏导,是对标量求偏导;而多元则是对向量求偏导,所以这里要补充一些概念(只是图有点多而已概念不难只需了解就好)。
下面的这个公式将用来恒等变形(公式里的x,a,Bx,a,Bx,a,B都是矩阵或者向量)
现在可以开始着手证明Ew^E_{\hat{w}}Ew^​是个凸函数了。
∂Ew^∂w^=∂(y−Xw^)T(y−Xw^)∂w^\frac{\partial{E_{\hat{w}}}} {\partial{\hat{w}}}=\frac{\partial{(y-X\hat{w})^T(y-X\hat{w})}}{\partial{\hat{w}}}∂w^∂Ew^​​=∂w^∂(y−Xw^)T(y−Xw^)​
恒等变形,得
∂Ew^∂w^=∂(−yTXw^−w^TXTy+w^TXTXw^)∂w^\frac{\partial{E_{\hat{w}}}} {\partial{\hat{w}}}=\frac{\partial{( -y^TX\hat{w}-\hat{w}^TX^Ty+\hat{w}^TX^TX\hat{w} ) }}{\partial{\hat{w}}}∂w^∂Ew^​​=∂w^∂(−yTXw^−w^TXTy+w^TXTXw^)​
再用上面给出的公式对每一项进行化简,最后得,
∂Ew^∂w^=2XT(Xw^−y)\frac{\partial{E_{\hat{w}}}} {\partial{\hat{w}}}=2X^T(X\hat{w}-y)∂w^∂Ew^​​=2XT(Xw^−y)
一阶导数已经求出来了,但是根据多元函数凹凸性的定理,我们需要求出二阶导数,所以继续求偏导。
∂(∂Ew^∂w^)∂w^=∂[2XT(Xw^−y)]∂w^=∂(2XTXw^)∂w^\frac{\partial( \frac{\partial{E_{\hat{w}}}} {\partial{\hat{w}}} )}{\partial\hat{w}}=\frac{\partial{[2X^T(X\hat{w}-y)]}} {\partial{\hat{w}}}=\frac{\partial{(2X^TX\hat{w})}} {\partial{\hat{w}}} ∂w^∂(∂w^∂Ew^​​)​=∂w^∂[2XT(Xw^−y)]​=∂w^∂(2XTXw^)​
再次利用公式,所以
∂(∂Ew^∂w^)∂w^=2XTX(Hession矩阵)\frac{\partial( \frac{\partial{E_{\hat{w}}}} {\partial{\hat{w}}} )}{\partial\hat{w}}= 2X^TX \tag{Hession矩阵} ∂w^∂(∂w^∂Ew^​​)​=2XTX(Hession矩阵)
根据多元函数凹凸性判定定理,Hession矩阵需要是正定矩阵,这样才能证明是凸函数,事实上Hession矩阵不一定是正定矩阵,因为XXX代表的是我们的样本数据,如果没有经过处理的话,是很难符合条件的。所以西瓜书为了简便起见,直接假设Hession矩阵是正定的。
我们同样也假设Hession矩阵是正定的,那么根据判定定理,损失函数应该为凸函数。
再由凸充分性定理可知当一阶导数=0时,w^\hat{w}w^为全局解。
∂Ew^∂w^=2XT(Xw^−y)=0\frac{\partial{E_{\hat{w}}}}{\partial{\hat{w}}} =2X^T(X\hat{w}-y)=0 ∂w^∂Ew^​​=2XT(Xw^−y)=0
XTXw^=XTyX^TX\hat{w}=X^Ty XTXw^=XTy
w^=(XTX)−1XTy\hat{w}=(X^TX)^{-1}X^Tyw^=(XTX)−1XTy
花了一下午写这篇博客,深感疲惫,得抱着我的吉他弹弹“5323”了

西瓜书——多元线性回归(知识点:多元实值函数凹凸性的证明)相关推荐

  1. python 多元线性回归_多元统计分析之多元线性回归的R语言实现

    多元统计分析之多元线性回归的R语言实现 多元统计分析--multivariate statistical analysis 研究客观事物中多个变量之间相互依赖的统计规律性.或从数学上说, 如果个体的观 ...

  2. 利用二次导数对函数凹凸性的证明

    很多人其实都知道可以利用函数的二次导数来判断函数的凹凸性,但是很多人忘记了怎么来证明的,在这里我来再次证明一下. 求证:若f(x)在(a,b)内连续并且二次可导,若f''(x)>0则函数凹,反之 ...

  3. 西瓜书《机器学习》多元线性回归公式推导

  4. 统计学 多元线性回归

    文章目录 统计学 多元线性回归 多元线性回归模型 拟合优度 显著性检验 线性关系检验 回归系数检验 多重共线性及其处理 多重共线性的问题 多重共线性的识别与处理 变量选择 利用回归方程进行预测 哑变量 ...

  5. 《计量经济学》学习笔记之多元线性回归模型

    导航 上一章:一元线性回归模型 下一章:放宽基本假定的模型 文章目录 导航 3.1多元线性回归模型 一.多元线性回归模型 二.多元线性回归的基本假设 3.2多元线性回归模型的参数估计 四.参数统计量的 ...

  6. 多元线性回归及案例(Python)

    1 多元线性回归简介 多元线性回归模型可以表示为如下所示的公式. 其中x1.x2.x3--为不同的特征变量,k1.k2.k3--则为这些特征变量前的系数,k0为常数项. 2 案例:客户价值预测模型 利 ...

  7. 【数学建模】多元线性回归(PythonMatlab代码实现)

    目录 1 概述 2 算例1 2.1 算例 2.2 Python代码实现  2.3 结果 3 算例2  3.1 算例 3.2 Python代码 3.3 结果 4 算例3 4.1 算例 4.2 Pytho ...

  8. 线性回归-多元线性回归

    线性回归-多元线性回归 上次讲到简单线性回归,本文主要讲下如何处理多元线性回归,多元线性回归中如何检查多重共线性,以及如何进行feature selection. 多元线性回归,故名思意,用多个变量来 ...

  9. 三、多元线性回归模型(计量经济学学习笔记)

    ①多元线性回归模型及古典假定 1.1多元线性回归模式 多元线性回归模型是指对各个回归参数而言是线性的,而对于变量既可以是线性的,也可以不是线性的. 一般地,由n个单位构成的总体,包含被解释变量Y和k- ...

最新文章

  1. golang中的collection
  2. java do while变量无法赋值_Java流是否等同于具有变量赋值的while
  3. Spring事务那些事儿
  4. mac完美解决NotADirectoryError: [Errno 20] Not a directory: ‘chromedriver
  5. 深入浅出VC++串口编程--第三方类
  6. 如何在GPU上产生随机数
  7. 如何将FAT32分区直接转为NTFS分区
  8. 重构 阅读心得(转)
  9. C3模块-空洞可分离卷积存在的问题及轻量化语义分割模型架构技巧
  10. C语言--《C专家编程》C语言申明的优先级规则
  11. C语言字母大小写转换
  12. 漂亮的JQUERY SLIDESHOW 磨砂玻璃背景
  13. mysql null处理_MySQL中处理Null时要注意两大陷阱
  14. http的长连接和短连接(史上最通俗!)
  15. 一款Android图文识别与扫描软件
  16. UnityShader_天空盒子中的反射、折射、聂菲尔效应
  17. 未知病毒提交的分析方法
  18. 东华大学计算机蔡博士,我院2018届博士生蔡圆获得第二届全国偏微分方程优秀博士论文奖...
  19. oracle访问控制策略查看,ORACLE 安全访问策略VPD与ORA-28132
  20. window修改chrome关闭标签tab快捷键

热门文章

  1. 公文管理系统案例展示
  2. ajax页面 js文件上传,jQuery插件ajaxfileupload.js实现上传文件
  3. 跨语言rpc框架Thrift
  4. 清除FreeIPA SSSD缓存
  5. P30有ROOT吗,华为p30能root吗
  6. 不同风格吉他曲目收录
  7. python爬取高匿代理IP(再也不用担心会进小黑屋了)
  8. 如何提高外贸询单转化率
  9. 设计——免费PSD素材+设计网站+图标生成工具+自动标注
  10. 高德地图 定位失败,10: 定位服务启动失败 解决办法