拿到input输入的时间_【Keras 笔记】Input/Dense层的数学本质

在你写下x=Input(shape=(128,128,3))的时候你是习以为常，还是在思考发生了什么？

抱着这样的问题，我做了几个实验，简单记录几个以后可能用到的知识点。

1.Input并非“Input”？

Input的本质是实例化一个Keras Tensor，你可以把Input理解为一个class，你在写下：

x=Input(shape=(128,128,3))

的时候，其实是再创建一个Input实例，千万不要被“Input”的意思迷惑，这里仅仅是声明创建了一个Keras张量。之所以叫“Input”，是因为一般一个模型最开始的第一个张量都是数据本身，即input data，但久而久之，在使用Input的时候，可能会忘记Input的本质。

y=Dense(100,activation='sigmoid')(x)习惯了层结构，站在宏观角度的你，是不是忘了数学本质？

2.Dense下面发生了什么？

2.1先弄懂Dense的操作对象

首先对3D Tensor进行一个实验：

>>> x=Input(shape=(10000,5,20))
>>> y=Dense(1,activation='softmax')(x)
>>> model=Model(x,y)
>>> model.summary()
_________________________________________________________________
Layer (type)                 Output Shape              Param #
=================================================================
input_8 (InputLayer)         (None, 10000, 5, 20)      0
_________________________________________________________________
dense_5 (Dense)              (None, 10000, 5, 1)       21
=================================================================
Total params: 21
Trainable params: 21
Non-trainable params: 0
_________________________________________________________________

再对一个8D Tensor进行一个实验：

>>> x=Input(shape=(10,20,30,40,50,60,70,20))
>>> y=Dense(1,activation='softmax')(x)
>>> model=Model(x,y)
>>> model.summary()
_________________________________________________________________
Layer (type)                 Output Shape              Param #
=================================================================
input_9 (InputLayer)         (None, 10, 20, 30, 40, 50 0
_________________________________________________________________
dense_6 (Dense)              (None, 10, 20, 30, 40, 50 81
=================================================================
Total params: 21
Trainable params: 21
Non-trainable params: 0
_________________________________________________________________

我们发现，无论对一个几维张量，这里为了叙述方便，设输入nD Tensor

Dense层总是把前 (n-1)D Tensor作为一个样本点，把第n维作为描述前(n-1)D Tensor样本点的个数。

这句话是什么意思呢，大白话来讲，可以通过举例来这样理解：

对于一个1D Tensor，也就是形如{1，2，5，4，7,...，6，7}这样的数据

，我们记作

每个样本

都是标量。Dense层在神经元个数为1的情况下，本身相当于在做

，这里w就是权重weights，b就是偏置量bias，这n个w外加1个b一共n+1个参数parameters，就是我们要让神经网络学习的参数。

对于一个2D Tensor，也就是形如{{4，5，8}，{8，4，3}，{8，1，6}，...，{4，2，2}}这样的数据

，我们也记作

，

但是这里，每个样本

都是

向量。Dense层在神经元个数为1的情况下，本身仍相当于在做

，所以参数

仍是n+1个parameters

由此我们知道，

对1D Tensor，相当于n个0维标量，Dense操作的对象是每个标量。

对2D Tensor，相当于n个1维向量，Dense操作的对象是每个向量。

对3D Tensor，相当于n个2维矩阵，Dense操作的对象是每个矩阵。

对4D Tensor，相当于n个3D Tensor，Dense操作的对象是每个3D Tensor。

对4D Tensor这种高维空间想象不来的朋友，可以把他理解成一段视频。一段视频由若干张照片也就是我们常说的帧Frame连接构成，每个Frame照片是（R,G,B）的3D Tensor，加上时间，视频就是（R,G,B,t）的4D Tensor了。

对4D Tensor，Dense操作的对象是每个3D Tensor。也就是说，当你把视频送入Dense，在神经元个数为1的情况下，Dense在进行

操作，每个操作对象都是一张Frame照片。

2.2神经元个数不为1时发生了什么？

Dense(2)实际是指units=2，我们先考虑Dense(2)的情况，2.1中讲过，Dense(1)对应的运算是

，也就是说，一个神经元的工作任务就是对n个样本求权重并加上bias。Dense(2)就很好理解了，就是有两个神经元各自在做这个任务。

对于Dense(2)，我们给第一个神经元起名叫A神经元，第二个叫B神经元，那么我们可以写出这两个神经元的工作：

对于神经元A来说：

对于神经元B来说：

对A写成向量形式：

对B写成向量形式：

观察到这两个神经元做的事情是一样的，各自在并行地进行一样的工作。这就好像矩阵的分块乘法，分块矩阵A和分块矩阵B各自进行各自的运算，互不干扰。

那么继续改写成分块矩阵形式：

为了从矩阵角度观察，我们将其不分块，看看公式是什么样：

到此为止，我们可以很清晰的看到一个Dense(2)的数学本质是什么了，是矩阵乘法

Dense(2)也就是声明了一个权重矩阵

和一个偏置向量

，产生了2*(n+1)个parameters，操作对象是

那么对于一个具有m个神经元的Dense(m)，其数学本质就是

,此时若

操作对象(注意说的不是输入对象)不是1-D Tensor而是d-D Tensor，那么最终的推广形式就是：

这就是我们熟知的全连接层，Fully Connection Layer，A.K.A. FC只不过在Keras里面叫成了Dense，pytorch里面叫成了Linear，猫里面叫了个咪。

2.3关于增广形式（待更）

2.4关于你们最喜欢的FC的图片表示（待更）