【DSN】Deeply-Supervised Nets

这是一篇2014年的论文，还是有点年代感的，因为在Unet++中有使用到深度监督的思想，所以来打个卡。

文章目录

概述
细节部分
- 1、Motivation
- 2、结构
- 3、Formulation
Experiments

概述

设计目的？
- 让隐藏层的学习过程可以更加直接（direct）和透明（transparent）。
- 减少分类的错误。
- 让学习的特征更加的鲁棒性和discriminativeness（易区分的，独特的）
- 更好的解决梯度爆炸和梯度消失的问题。
如何做，内容？
- Introduce Companion objective to hidden layer（类正则化）
Results
- 使用的数据集Benchmark dataset：MNIST, CIFAR-10, CIFAR-100, SVHN。
- 在以上数据集取得了比以往的state-of-the-art results更好的结果。
对当时DL framework的问题总结？
- 1、中间隐藏层在训练时候的不透明
- 2、梯度消失和梯度爆炸
- 3、算法缺乏全面的数学理解
- 4、依赖于大量的数据
- 5、手工调整网络的复杂性

细节部分

1、Motivation

结构上是将SVM模型不止在output层上而是接在每一个层上。

分类器在highly discriminative features上训练会得到一个更好的结果。
properties of companion objective：
- 可以表现出正则化的性质，在不牺牲训练准确率的情况下提高了测试集合的准确率。
- 可以更快的收敛，特别是在小训练集上。

2、结构

基础结构还是和标准的CNN框架一样。然后在output和隐藏层增加SVM model或者Softmax。这样就是DSN-SVM,和DSN-Softmax。【早期已经有了将CNN和SVM结合起来的paper，但是动机和这篇paper的不一样。】

3、Formulation

CNN weights：W=(W(1),...,W(M))W=(W^{(1)}, ..., W^{(M)})W=(W(1),...,W(M))
Output layer weights(SVM)：WoutW^{out}Wout
Companion classifier weights(SVM)：w=(w(1),...,w(M−1))w = (w^{(1)}, ..., w^{(M-1)})w=(w(1),...,w(M−1))
Combined objection function：overall loss + companion loss

其中：overall loss（output产生的）为

companion loss（hidden layer产生的）为

∣∣W(out)∣∣2||W^{(out)}||^2∣∣W(out)∣∣2和L(W,wout)L(W, w^{out})L(W,wout)各自代表 margin and squared hinge loss of the SVM classiﬁer at the output layer。（也就是说前面两个式子代表了SVM的对最终输出层的标准损失函数）。后面的求和部分，也是标准的SVM对输出求值的过程，只不过要来对中间的所有隐藏层的SVM损失进行求和。
衰减函数：αm=αm∗0.1∗(1−t/N)\alpha_m=\alpha_m *0.1*(1-t/N)αm=αm∗0.1∗(1−t/N)，ttt表示epoch step，N是total number of epoch，αm\alpha_mαm是为了在迭代一定次数后，就舍弃掉第二部分的loss，相当于是overall loss（output objective）和companion loss（companion objective）的平衡权重。
γ\gammaγ是一个超参数阈值，一旦中间的隐藏层所产生的loss小于γ\gammaγ，那么将其舍弃。

Some Tips：其中的overall loss和companion loss都是hinge loss（铰链误差），如下图（图片部分来源于：here）。

求梯度的时候：

后面有一个SGD部分
略

Experiments

1、MNIST

2、CIFAR-10 & CIFAR-100

3、Street View House Numbers (SVHN) dataset