这是一篇2014年的论文,还是有点年代感的,因为在Unet++中有使用到深度监督的思想,所以来打个卡。

文章目录

  • 概述
  • 细节部分
    • 1、Motivation
    • 2、结构
    • 3、Formulation
  • Experiments

概述


  • 设计目的?

    • 让隐藏层的学习过程可以更加直接(direct)和透明(transparent)。
    • 减少分类的错误。
    • 让学习的特征更加的鲁棒性和discriminativeness(易区分的,独特的)
    • 更好的解决梯度爆炸和梯度消失的问题。
  • 如何做,内容?
    • Introduce Companion objective to hidden layer(类正则化)
  • Results
    • 使用的数据集Benchmark dataset:MNIST, CIFAR-10, CIFAR-100, SVHN。
    • 在以上数据集取得了比以往的state-of-the-art results更好的结果。
  • 对当时DL framework的问题总结?
    • 1、中间隐藏层在训练时候的不透明
    • 2、梯度消失和梯度爆炸
    • 3、算法缺乏全面的数学理解
    • 4、依赖于大量的数据
    • 5、手工调整网络的复杂性

细节部分


1、Motivation

结构上是将SVM模型不止在output层上而是接在每一个层上。

  • 分类器在highly discriminative features上训练会得到一个更好的结果。
  • properties of companion objective:
    • 可以表现出正则化的性质,在不牺牲训练准确率的情况下提高了测试集合的准确率。
    • 可以更快的收敛,特别是在小训练集上。

2、结构

  • 基础结构还是和标准的CNN框架一样。然后在output和隐藏层增加SVM model或者Softmax。这样就是DSN-SVM,和DSN-Softmax。【早期已经有了将CNN和SVM结合起来的paper,但是动机和这篇paper的不一样。】

3、Formulation

  • CNN weights:W=(W(1),...,W(M))W=(W^{(1)}, ..., W^{(M)})W=(W(1),...,W(M))
  • Output layer weights(SVM):WoutW^{out}Wout
  • Companion classifier weights(SVM):w=(w(1),...,w(M−1))w = (w^{(1)}, ..., w^{(M-1)})w=(w(1),...,w(M−1))
  • Combined objection function:overall loss + companion loss

其中:overall loss(output产生的)为

companion loss(hidden layer产生的)为

∣∣W(out)∣∣2||W^{(out)}||^2∣∣W(out)∣∣2和L(W,wout)L(W, w^{out})L(W,wout)各自代表 margin and squared hinge loss of the SVM classifier at the output layer。(也就是说前面两个式子代表了SVM的对最终输出层的标准损失函数)。后面的求和部分,也是标准的SVM对输出求值的过程,只不过要来对中间的所有隐藏层的SVM损失进行求和。
衰减函数:αm=αm∗0.1∗(1−t/N)\alpha_m=\alpha_m *0.1*(1-t/N)αm​=αm​∗0.1∗(1−t/N),ttt表示epoch step,N是total number of epoch,αm\alpha_mαm​是为了在迭代一定次数后,就舍弃掉第二部分的loss,相当于是overall loss(output objective)和companion loss(companion objective)的平衡权重。
γ\gammaγ是一个超参数阈值,一旦中间的隐藏层所产生的loss小于γ\gammaγ,那么将其舍弃。


Some Tips:其中的overall loss和companion loss都是hinge loss(铰链误差),如下图(图片部分来源于:here)。


求梯度的时候:

后面有一个SGD部分

Experiments


1、MNIST


2、CIFAR-10 & CIFAR-100

3、Street View House Numbers (SVHN) dataset

【DSN】Deeply-Supervised Nets相关推荐

  1. 【GANs】Generative Adversarial Nets

    [GANs]Generative Adversarial Nets 1 GAN 1.1 GANs的简介 1.2 思想与目标函数 1.3 GAN代码 1.4 全局最优推导 1.5 GANs方向展望 1 ...

  2. 【显著性物体检测】【ECCV2018】Reverse Attention for Salient Object Detection【论文笔记】

    简介:在不怎么增加计算量的前提下,采用从粗到精的思想,由高级特征到低级特征,补全显著性检测的轮廓[最近很多都是基于这个思想].模型的速度与效果都占优.具体关注,是怎么实现特征的多级利用的. ECSSD ...

  3. 【GANs】Conditional Generative Adversarial Nets

    [GANs]Conditional Generative Adversarial Nets 2 CGAN 2.1 CGAN简介 前言 流程图 目标函数 2.2 CGAN代码 2 CGAN 2.1 CG ...

  4. InstructGPT高效实践——【DeepSpeed-Chat】源码详解(2/3):Supervised Finetuning、Reward Model Finetuning

    目录 前言 1 phase-1: Supervised Finetuning 1.1 训练数据样例 1.2 训练过程 1.3 关键代码详解 1.3.1 基座模型结构 1.3.2 LoRA结构及其正向传 ...

  5. Overlooked Video Classification in Weakly Supervised Video Anomaly Detection 【2022】

    目录 一.前言知识 二.论文阅读 [摘要] 1.引言 2.相关工作

  6. [转]机器学习和深度学习资料汇总【01】

    本文转自:http://blog.csdn.net/sinat_34707539/article/details/52105681 <Brief History of Machine Learn ...

  7. 【github】机器学习(Machine Learning)深度学习(Deep Learning)资料

    转自:https://github.com/ty4z2008/Qix/blob/master/dl.md# <Brief History of Machine Learning> 介绍:这 ...

  8. 论文阅读(Xiang Bai——【arXiv2016】Scene Text Detection via Holistic, Multi-Channel Prediction)...

    Xiang Bai--[arXiv2016]Scene Text Detection via Holistic, Multi-Channel Prediction 目录 作者和相关链接 方法概括 创新 ...

  9. 【NLP】Google BERT详解

    版权声明:博文千万条,版权第一条.转载不规范,博主两行泪 https://blog.csdn.net/qq_39521554/article/details/83062188 </div> ...

最新文章

  1. 【Java】Lucene检索引擎详解
  2. 架构师说了:不想做背锅侠?生产问题要这样查
  3. 蓝桥杯java 算法训练 区间K大数查询
  4. SAP Spartacus index.html里的meta标签
  5. mouted vue 操作dom_vue中使用refs定位dom的坑-阿里云开发者社区
  6. oracle 之 安装后pl/sql登录报ora-12154
  7. Git之pull后回退版本
  8. {ACL2020}In Layman’s Terms: Semi-Open Relation Extraction from Scientific Texts(关系抽取,半开放关系抽取)
  9. 比以前更帅气了的飞鸽传书
  10. 反转二叉树 java_leetcode刷题笔记-226. 翻转二叉树(java实现)
  11. Xamarin.Forms 启动页面的设置
  12. sql 执行 delete 的时候,结合子查询 exists ,怎样支持别名呢?
  13. web安全day5:DNS部署与安全
  14. spark streaming之 windowDuration、slideDuration、batchDuration​
  15. c语言程序中文复制到word变乱码,怎么复制C程序代码到Word不会有乱码,不会有乱字等情况...
  16. cocos游戏FlyBird
  17. c# 软件单元测试,单元测试(C#版)
  18. 易基因|Science:宏基因组测序揭示病原菌介导植物内生菌群抑病功能激活
  19. Android M版本和非M版本动态权限适配方案
  20. 【热门】现在的美颜特效有多可怕?基于Opencv的美颜相机告诉你

热门文章

  1. 现阶段的K12在线教育情况
  2. LeetCode题解(0992):K个不同呢的子数组(Python)
  3. APT60DQ60BG ASEMI超快软恢复整流二极管
  4. 电子采购订单与手动采购订单有什么区别?
  5. jeeplus多商户商城,分销商城
  6. Office365 - 如何在Android手机中reset OneDrive
  7. 反爬虫 破解js加密-有道翻译
  8. 封箱机行业调研报告 - 市场现状分析与发展前景预测(2021-2027年)
  9. 公众号粉丝引流裂变方式有哪些?公众号裂变涨粉有哪些方式?
  10. 画论59 邹一桂《小山画谱》