西瓜书——多元线性回归（知识点：多元实值函数凹凸性的证明）

在多元线性回归部分，西瓜书的省略实在是太多了，有时候会让读者很无奈。这篇博客便针对这些问题进行详细的解答，希望对大家理解西瓜书有帮助。
在多元线性回归这一章节中，或许是囿于篇幅，西瓜书中（1）没有解释清楚www和bbb怎么组合成w^的\hat{w}的w^的（注：此处的www和w^\hat{w}w^都是向量，因为这是多元线性回归了）（2）没有解释损失函数Ew^E_{\hat{w}}Ew^怎么来的。（3）没有解释为什么∂Ew^∂w^=0\frac{\partial E_{\hat{w}}}{\partial{\hat{w}}}=0∂w^∂Ew^=0时，就有最小值。

1、www向量和bbb组合成w^\hat{w}w^向量

对于多元的情况，我们可以的到一个回归公式，
f(xi)=wTxi+bf(x_i)=w^Tx_i+bf(xi)=wTxi+b，因为www和xxx都是列向量，所以我们可以将其展开，得到如下的式子。f(xi)=w1xi1+w2xi2+⋯+wdxid+bf(x_i)=w_1x_{i1}+w_2x_{i2}+\cdots+w_dx_{id}+bf(xi)=w1xi1+w2xi2+⋯+wdxid+b i代表第几个样本，d代表样本的维度。
令b=wd+1⋅1b=w_{d+1} \cdot1b=wd+1⋅1，所以f(xi)f(x_i)f(xi)又可以变成如下的式子：
f(xi^)=(w1w2⋯wdwd+1)⏟w^T(xi1xi2⋮xid1)⏟xi^=w^T⋅xi^f(\hat{x_i})=\underbrace{ \begin{pmatrix}w_1&w_2\cdots&w_d&w_{d+1}\end{pmatrix}}_{\rm \hat{w}^T} \underbrace{ \begin{pmatrix} x_{i1}\\x_{i2}\\\vdots \\ x_{id}\\1\\ \end{pmatrix}} _{\rm \hat{x_i}}=\hat{w}^T\cdot \hat{x_i} f(xi^)=w^T(w1w2⋯wdwd+1)xi^⎝⎜⎜⎜⎜⎜⎛xi1xi2⋮xid1⎠⎟⎟⎟⎟⎟⎞=w^T⋅xi^
所以我们这样就表示出了w^\hat{w}w^和x^\hat{x}x^

2、损失函数Ew^E_{\hat{w}}Ew^的“前世今生”

损失函数Ew^=∑i=1m(yi−f(xi^))2=∑i=1m(yi−w^Txi^)2E_{\hat{w}}=\sum_{i=1}^{m}(y_i-f(\hat{x_i}))^2=\sum_{i=1}^{m}(y_i-\hat{w}^T\hat{x_i})^2Ew^=i=1∑m(yi−f(xi^))2=i=1∑m(yi−w^Txi^)2但这和西瓜书上的损失函数表达式不同，所以还应该进行恒等变形。所以我们现在求得的就是损失函数的“前世”了。由上一篇博客可知，一个求和符号就代表了两个向量相乘。所以我们接下来进行向量化。

2.1、向量化

首先我们先来定义一个矩阵X和向量yyy:
X=(x11x12x13⋯x1d1x21x22x23⋯x2d1⋮⋮⋮⋱⋮⋮xm1xm2xm3⋯xmd1)=(x1T1x2T1⋮xmT1)=(x1^Tx2^T⋮xm^T)X= \begin{pmatrix} x_{11} & x_{12} & x_{13} & \cdots & x_{1d} & 1 \\ x_{21} & x_{22} & x_{23} & \cdots & x_{2d}&1 \\ \vdots & \vdots & \vdots & \ddots & \vdots & \vdots \\ x_{m1} & x_{m2} & x_{m3} & \cdots & x_{md} &1 \\\\ \end{pmatrix} = \begin{pmatrix} x_1^T&1\\ x_2^T&1\\ \vdots\\ x_m^T&1\\ \end{pmatrix} = \begin{pmatrix} \hat{x_1}^T\\ \hat{x_2}^T\\ \vdots\\ \hat{x_m}^T\\ \end{pmatrix} X=⎝⎜⎜⎜⎜⎜⎛x11x21⋮xm1x12x22⋮xm2x13x23⋮xm3⋯⋯⋱⋯x1dx2d⋮xmd11⋮1⎠⎟⎟⎟⎟⎟⎞=⎝⎜⎜⎜⎛x1Tx2T⋮xmT111⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛x1^Tx2^T⋮xm^T⎠⎟⎟⎟⎞
y=(y1y2y3⋮ym)y=\begin{pmatrix} y_1\\y_2\\y_3\\\vdots\\y_m \end{pmatrix} y=⎝⎜⎜⎜⎜⎜⎛y1y2y3⋮ym⎠⎟⎟⎟⎟⎟⎞
准备工作结束了，我们先将Ew^E_{\hat{w}}Ew^的求和项展开成矩阵相乘的形式。

Ew^=(y1−w^Tx1^)2+(y2−w^Tx2^)2+⋯+(ym−w^Txm^)2E_{\hat{w}}=(y_1-\hat{w}^T\hat{x_1})^2+(y_2-\hat{w}^T\hat{x_2})^2+\cdots+(y_m-\hat{w}^T\hat{x_m})^2Ew^=(y1−w^Tx1^)2+(y2−w^Tx2^)2+⋯+(ym−w^Txm^)2
Ew^=[(y1−w^Tx1^)(y1−w^Tx1^)⋯(ym−w^Txm^)][(y1−w^Tx1^)(y2−w^Tx2^)⋮(ym−w^Txm^)]E_{\hat{w}}= \begin{bmatrix} (y_1-\hat{w}^T\hat{x_1})&(y_1-\hat{w}^T\hat{x_1})\cdots(y_m-\hat{w}^T\hat{x_m}) \end{bmatrix} \begin{bmatrix} (y_1-\hat{w}^T\hat{x_1})\\ (y_2-\hat{w}^T\hat{x_2})\\ \vdots\\ (y_m-\hat{w}^T\hat{x_m}) \end{bmatrix} Ew^=[(y1−w^Tx1^)(y1−w^Tx1^)⋯(ym−w^Txm^)]⎣⎢⎢⎢⎡(y1−w^Tx1^)(y2−w^Tx2^)⋮(ym−w^Txm^)⎦⎥⎥⎥⎤
再对里面的小项进行恒等变形，
[(y1−w^Tx1^)(y2−w^Tx2^)⋮(ym−w^Txm^)]=[y1y2y3⋮ym]−[w^Tx1^w^Tx2^⋮w^Txm^]=y−[w^Tx1^w^Tx2^⋮w^Txm^]\begin{bmatrix} (y_1-\hat{w}^T\hat{x_1})\\ (y_2-\hat{w}^T\hat{x_2})\\ \vdots\\ (y_m-\hat{w}^T\hat{x_m}) \end{bmatrix} =\begin{bmatrix} y_1\\y_2\\y_3\\\vdots\\y_m \end{bmatrix} - \begin{bmatrix} \hat{w}^T\hat{x_1}\\ \hat{w}^T\hat{x_2}\\ \vdots\\ \hat{w}^T\hat{x_m} \end{bmatrix} =y- \begin{bmatrix} \hat{w}^T\hat{x_1}\\ \hat{w}^T\hat{x_2}\\ \vdots\\ \hat{w}^T\hat{x_m} \end{bmatrix} ⎣⎢⎢⎢⎡(y1−w^Tx1^)(y2−w^Tx2^)⋮(ym−w^Txm^)⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎢⎢⎡y1y2y3⋮ym⎦⎥⎥⎥⎥⎥⎤−⎣⎢⎢⎢⎡w^Tx1^w^Tx2^⋮w^Txm^⎦⎥⎥⎥⎤=y−⎣⎢⎢⎢⎡w^Tx1^w^Tx2^⋮w^Txm^⎦⎥⎥⎥⎤
发现w^Txi^\hat{w}^T\hat{x_i}w^Txi^是一个标量而非向量，根据矩阵转置的法则，标量转置还是等于原先的标量。所以我们就把w^Txi^\hat{w}^T\hat{x_i}w^Txi^转置成xi^Tw^\hat{x_i}^T\hat{w}xi^Tw^再进行恒等变形。
[w^Tx1^w^Tx2^⋮w^Txm^]=[x1^Tw^x2^Tw^⋮xm^Tw^]=[x1^Tx2^T⋮xm^T]w^=X⋅w^\begin{bmatrix} \hat{w}^T\hat{x_1}\\ \hat{w}^T\hat{x_2}\\ \vdots\\ \hat{w}^T\hat{x_m} \end{bmatrix} =\begin{bmatrix} \hat{x_1}^T\hat{w}\\ \hat{x_2}^T\hat{w}\\ \vdots\\ \hat{x_m}^T\hat{w} \end{bmatrix} =\begin{bmatrix} \hat{x_1}^T\\ \hat{x_2}^T\\ \vdots\\ \hat{x_m}^T \end{bmatrix} \hat{w} =X\cdot \hat{w} ⎣⎢⎢⎢⎡w^Tx1^w^Tx2^⋮w^Txm^⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡x1^Tw^x2^Tw^⋮xm^Tw^⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡x1^Tx2^T⋮xm^T⎦⎥⎥⎥⎤w^=X⋅w^
所以损失函数Ew^E_{\hat{w}}Ew^的“今生”就得到了，
Ew^=(y−Xw^)T(y−Xw^)E_{\hat{w}}=(y-X\hat{w})^T(y-X\hat{w})Ew^=(y−Xw^)T(y−Xw^)

3、证明损失函数为凸函数

证明多元函数为凸函数的方法与证明一元函数（详情请见一元线性回归（一））有所不同，又有点相似之处。
最大的不同之处就是一元函数求偏导，是对标量求偏导；而多元则是对向量求偏导，所以这里要补充一些概念（只是图有点多而已，概念不难只需了解就好）。
下面的这个公式将用来恒等变形（公式里的x,a,Bx,a,Bx,a,B都是矩阵或者向量）
现在可以开始着手证明Ew^E_{\hat{w}}Ew^是个凸函数了。
∂Ew^∂w^=∂(y−Xw^)T(y−Xw^)∂w^\frac{\partial{E_{\hat{w}}}} {\partial{\hat{w}}}=\frac{\partial{(y-X\hat{w})^T(y-X\hat{w})}}{\partial{\hat{w}}}∂w^∂Ew^=∂w^∂(y−Xw^)T(y−Xw^)
恒等变形，得
∂Ew^∂w^=∂(−yTXw^−w^TXTy+w^TXTXw^)∂w^\frac{\partial{E_{\hat{w}}}} {\partial{\hat{w}}}=\frac{\partial{( -y^TX\hat{w}-\hat{w}^TX^Ty+\hat{w}^TX^TX\hat{w} ) }}{\partial{\hat{w}}}∂w^∂Ew^=∂w^∂(−yTXw^−w^TXTy+w^TXTXw^)
再用上面给出的公式对每一项进行化简，最后得，
∂Ew^∂w^=2XT(Xw^−y)\frac{\partial{E_{\hat{w}}}} {\partial{\hat{w}}}=2X^T(X\hat{w}-y)∂w^∂Ew^=2XT(Xw^−y)
一阶导数已经求出来了，但是根据多元函数凹凸性的定理，我们需要求出二阶导数，所以继续求偏导。
∂(∂Ew^∂w^)∂w^=∂[2XT(Xw^−y)]∂w^=∂(2XTXw^)∂w^\frac{\partial( \frac{\partial{E_{\hat{w}}}} {\partial{\hat{w}}} )}{\partial\hat{w}}=\frac{\partial{[2X^T(X\hat{w}-y)]}} {\partial{\hat{w}}}=\frac{\partial{(2X^TX\hat{w})}} {\partial{\hat{w}}} ∂w^∂(∂w^∂Ew^)=∂w^∂[2XT(Xw^−y)]=∂w^∂(2XTXw^)
再次利用公式，所以
∂(∂Ew^∂w^)∂w^=2XTX(Hession矩阵)\frac{\partial( \frac{\partial{E_{\hat{w}}}} {\partial{\hat{w}}} )}{\partial\hat{w}}= 2X^TX \tag{Hession矩阵} ∂w^∂(∂w^∂Ew^)=2XTX(Hession矩阵)
根据多元函数凹凸性判定定理，Hession矩阵需要是正定矩阵，这样才能证明是凸函数，事实上Hession矩阵不一定是正定矩阵，因为XXX代表的是我们的样本数据，如果没有经过处理的话，是很难符合条件的。所以西瓜书为了简便起见，直接假设Hession矩阵是正定的。
我们同样也假设Hession矩阵是正定的，那么根据判定定理，损失函数应该为凸函数。
再由凸充分性定理可知当一阶导数=0时，w^\hat{w}w^为全局解。
∂Ew^∂w^=2XT(Xw^−y)=0\frac{\partial{E_{\hat{w}}}}{\partial{\hat{w}}} =2X^T(X\hat{w}-y)=0 ∂w^∂Ew^=2XT(Xw^−y)=0
XTXw^=XTyX^TX\hat{w}=X^Ty XTXw^=XTy
w^=(XTX)−1XTy\hat{w}=(X^TX)^{-1}X^Tyw^=(XTX)−1XTy
花了一下午写这篇博客，深感疲惫，得抱着我的吉他弹弹“5323”了