神经网络：全连接神经网络

1 简介

全连接神经网络也称作多层感知机（MLP）

1.1 神经元

神经元接收输入向量xxx
神经元节点有权重向量w和偏置项b 输出值为f(wTx+b)f(w^Tx+b)f(wTx+b)
在经过类似线性回归之后使用激活函数对得到值进行操作

1.2 网络结构

输入层：[特征维度，n]
隐含层：权重矩阵 [输出维度，输入维度] 或者说[这层维度，上层维度]
输出层：[类别数，n]

个人对于每一层的理解就是使用[这层维度，上层维度]的权重矩阵
将输入转化为其他维度并且使用非线性的激活函数得到输出

1.3 正向传播

确定网络结构之后
假设有m层网络第 lll 层的权重矩阵 WlW^lWl 偏置为 blb^lbl
整个网络从输入到输出的流程为

x1=xx^1=xx1=x
对于l=2,3,...ml=2,3,...ml=2,3,...m每一层
ul=Wlxl−1+blu^l=W^lx^{l-1}+b^lul=Wlxl−1+bl（线性回归）
xl=f(ul)x^l=f(u^l)xl=f(ul)（非线性激活函数）
得到xmx^mxm 即为输出可能是每个类别的概率组成的向量也可能是回归值

1.4 反向传播

如何训练每一层的W和b 就需要反向传播算法
假设单个样本的损失函数是：
L=12(h(x)−y)2L=\cfrac12(h(x)-y)^2L=21(h(x)−y)2
目标优化函数：
L=12m∑i=1m(h(xi)−yi)2L=\cfrac1{2m}\sum_{i=1}^m(h(x_i)-y_i)^2L=2m1i=1∑m(h(xi)−yi)2
反向传播算法的流程是:

①正向传播计算每一层的输出值
②反向传播：对输出层计算损失函数对uuu的梯度 ▽ulL=(xl−y)⨀f′(ul)\bigtriangledown _{u^l}L=(x^l-y) \bigodot f^{\prime}(u^l)▽ulL=(xl−y)⨀f′(ul)(因为损失函数用的欧式距离所以是xl−yx^l-yxl−y)
③对于l=nl−1,nl−2....2l=n_l-1,n_l-2....2l=nl−1,nl−2....2的各层计算每层损失函数对uuu的梯度
▽ulL=(Wl+1)T[▽ul+1L]⨀f′(ul)\bigtriangledown _{u^l}L=(W^{l+1})^T[\bigtriangledown _{u^{l+1}}L]\bigodot f^{\prime}(u^l)▽ulL=(Wl+1)T[▽ul+1L]⨀f′(ul)
④计算损失函数对WWW和bbb的梯度
▽WlL=[▽ulL](xl−1)T\bigtriangledown _{W^l}L=[\bigtriangledown _{u^l}L] (x^{l-1})^T▽WlL=[▽ulL](xl−1)T
▽blL=▽ulL\bigtriangledown _{b^l}L=\bigtriangledown _{u^l}L▽blL=▽ulL
⑤梯度下降更新WWW和bbb
Wl=Wl−η[▽WlL]W^l=W^l-\eta [\bigtriangledown _{W^l}L]Wl=Wl−η[▽WlL]
bl=bl−η[▽blL]b^l=b^l-\eta [\bigtriangledown _{b^l}L]bl=bl−η[▽blL]

需要推导出每一层都适用的结论是
▽WlL=[▽ulL](xl−1)T\bigtriangledown _{W^l}L=[\bigtriangledown _{u^l}L] (x^{l-1})^T▽WlL=[▽ulL](xl−1)T
▽blL=▽ulL\bigtriangledown _{b^l}L=\bigtriangledown _{u^l}L▽blL=▽ulL
可见需要每一层损失函数对u的梯度
然后只有输出层的这个梯度是可以直接求出来的
隐藏层的这个梯度都依靠于下一层才能求出来
所以按顺序计算nl,nl−1,nl−2,....,2n_l,n_l-1,n_l-2,....,2nl,nl−1,nl−2,....,2层的梯度

如果训练时使用多个样本对每个样本求出梯度求出梯度的均值进行梯度下降即可
反向传播算法的证明还需掌握（复合函数求导）