深度学习的Dimension检查

在构建深度学习神经网络结构的时候，由于网络的拓扑结构比较复杂，包括比较多的层次（hidden layer)，以及每一层又有许多activation(neuron)单元组成，因此在计算forward以及backward propagation时，为了减少不必要的错误，最好对其中的每一层的input/output matrix的dimension有个底，也对每一层的input/output结构有更好的理解。

为了更好地表述，一般需要统一一下用到的一些符号，以及其代表的意义。下面以一个5层的神经网络结构为例子：

Denotation

L ：整个网络的层次，上图就是一个5层的神经网络，它包含4个hidden layers, 一个output layer，通常input 层不计算在L里面，当然也可以认为它是第0层。
ℓ\ell ：(小写L)，表示当前是第几层。
m：有多少个training/test example
nxn_x ：每一个training/test example有多少个feature, 上图nxn_x=2 (x1,x2x_1, x_2)
n[ℓ]n^{[\ell]}：第ℓ\ell层有多少个activation unit，比如上图中n[1]n^{[1]}=3, n[2]n^{[2]}=5, …, n[5]n^{[5]}=1, 其中n[0]n^{[0]}=nxn_x=2
W[ℓ]W^{[\ell]}：第ℓ\ell层的parameters, 用来计算第ℓ\ell层的activation unit (Z=WX+b)
b[ℓ]b^{[\ell]}：第ℓ\ell层的校正量(bias)，同上用于计算Z函数
Z[ℓ]Z^{[\ell]}：Forward propagation的线性输出，Z[ℓ]Z^{[\ell]} = W[ℓ]W^{[\ell]}A[ℓ−1]A^{[\ell-1]}+b[ℓ]b^{[\ell]}，其中第一层Z[1]Z^{[1]} = W[1]W^{[1]}X+b[1]b^{[1]}
A[ℓ]A^{[\ell]}：第ℓ\ell层的activation，是对Z[ℓ]Z^{[\ell]} apply activation function产生的输出，比如：sigmoid/tanh/ReLU。通常这样写：A[ℓ]A^{[\ell]}=g[ℓ]g^{[\ell]}(Z), g表示上同提到的activation function.
dvar：最终输出对变量var的偏导数，假如f(v)=3vf(v)=3v，则dv=∂f(v)∂v=3dv={\partial f(v) \over \partial v}=3; v=3x+2, 则函数f对变量x的偏导数dx=∂f(v)∂x=∂f(v)∂v⋅∂v∂x=9dx={\partial f(v) \over \partial x}={\partial f(v) \over \partial v} \cdot {\partial v \over \partial x}=9。

Dimension

假如有m个training example，则输入变量X的dimention=[nxn_x，m]，其中每一列表示一个training example, 总共有m列，表示m个training example，如下图所示：

X(nx,m)=⎡⎣⎢|x1||x2|⋯⋯⋯|xi|⋯⋯⋯|xm|⎤⎦⎥

X_(n_x, m) = \begin{bmatrix}| & | & \cdots & | & \cdots & |\\x^1 & x^2 & \cdots & x^i & \cdots & x^m \\| & | & \cdots & | & \cdots & |\\\end{bmatrix}
其中 xix^i是column vector, 表示第i个example：

xi=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢xi1xi2⋮xii⋮xinx⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

x^i = \begin{bmatrix}x_1^i \\x_2^i \\\vdots \\x_i^i \\\vdots \\x_{n_x}^i\end{bmatrix}
W由于是连接任意邻近两层的参数，所以 W[ℓ]W^{[\ell]} = [ n[ℓ],n[ℓ−1]n^{[\ell]}, n^{[\ell-1]}]，上图中：
W[1]W^{[1]} = [3， 2]， W[2]W^{[2]}=[5，3]， W[3]W^{[3]}=[4，5]， W[4]W^{[4]}=[2，4]， W[5]W^{[5]}=[1，2]

Z[ℓ]=W[ℓ]A[ℓ−1]+b[ℓ],A[ℓ]=g(Z[ℓ])Z^{[\ell]}=W^{[\ell]}A^{[\ell -1]}+b^{[\ell]}, A^{[\ell]}=g(Z^{[\ell]})，因此Z[ℓ]Z^{[\ell]}的dimension跟A^{[\ell]}的dimension是一样的:
{
Z[1]=W[1]A[0]+b[1]=W[1]X+b[1]Z^{[1]}=W^{[1]}A^{[0]}+b^{[1]}=W^{[1]}X+b^{[1]}, [3, 2]的matrix 乘以[2, m]得到[3, m]的matrix
Z[2]=W[2]A[1]+b[2]Z^{[2]}=W^{[2]}A^{[1]}+b^{[2]}，得到[5, m]的matrix
Z[3]=W[3]A[2]+b[3]Z^{[3]}=W^{[3]}A^{[2]}+b^{[3]}，得到[4, m]的matrix
…\dots
Z[5]=W[5]A[4]+b[5]Z^{[5]}=W^{[5]}A^{[4]}+b^{[5]}，得到[1, m]的matrix
}

因此Z[ℓ]Z^{[\ell]}以及A[ℓ]A^{[\ell]} 的dimension=[n[l],m][n^{[l]}, m]，它们的dimension是跟training example的数量有关的。

下表是各个变量的dimension:

Matrix	Dimension
W[ℓ]W^{[\ell]}	[n[ℓ],n[ℓ−1]][n^{[\ell]}, n^{[\ell-1]}]
b[ℓ]b^{[\ell]}	[n[ℓ],1][n^{[\ell]}, 1]
dw[ℓ]dw^{[\ell]}	[n[ℓ],n[ℓ−1]][n^{[\ell]}, n^{[\ell-1]}]
db[ℓ]db^{[\ell]}	[n[ℓ],1][n^{[\ell]}, 1]
Z[ℓ]Z^{[\ell]}	[n[l],m][n^{[l]}, m]
A[ℓ]A^{[\ell]}	[n[l],m][n^{[l]}, m]