【DSN】Deeply-Supervised Nets
这是一篇2014年的论文,还是有点年代感的,因为在Unet++中有使用到深度监督的思想,所以来打个卡。
文章目录
- 概述
- 细节部分
- 1、Motivation
- 2、结构
- 3、Formulation
- Experiments
概述
- 设计目的?
- 让隐藏层的学习过程可以更加直接(direct)和透明(transparent)。
- 减少分类的错误。
- 让学习的特征更加的鲁棒性和discriminativeness(易区分的,独特的)
- 更好的解决梯度爆炸和梯度消失的问题。
- 如何做,内容?
- Introduce Companion objective to hidden layer(类正则化)
- Results
- 使用的数据集Benchmark dataset:MNIST, CIFAR-10, CIFAR-100, SVHN。
- 在以上数据集取得了比以往的state-of-the-art results更好的结果。
- 对当时DL framework的问题总结?
- 1、中间隐藏层在训练时候的不透明
- 2、梯度消失和梯度爆炸
- 3、算法缺乏全面的数学理解
- 4、依赖于大量的数据
- 5、手工调整网络的复杂性
细节部分
1、Motivation
结构上是将SVM模型不止在output层上而是接在每一个层上。
- 分类器在highly discriminative features上训练会得到一个更好的结果。
- properties of companion objective:
- 可以表现出正则化的性质,在不牺牲训练准确率的情况下提高了测试集合的准确率。
- 可以更快的收敛,特别是在小训练集上。
2、结构
- 基础结构还是和标准的CNN框架一样。然后在output和隐藏层增加SVM model或者Softmax。这样就是DSN-SVM,和DSN-Softmax。【早期已经有了将CNN和SVM结合起来的paper,但是动机和这篇paper的不一样。】
3、Formulation
- CNN weights:W=(W(1),...,W(M))W=(W^{(1)}, ..., W^{(M)})W=(W(1),...,W(M))
- Output layer weights(SVM):WoutW^{out}Wout
- Companion classifier weights(SVM):w=(w(1),...,w(M−1))w = (w^{(1)}, ..., w^{(M-1)})w=(w(1),...,w(M−1))
- Combined objection function:overall loss + companion loss
其中:overall loss(output产生的)为
companion loss(hidden layer产生的)为
∣∣W(out)∣∣2||W^{(out)}||^2∣∣W(out)∣∣2和L(W,wout)L(W, w^{out})L(W,wout)各自代表 margin and squared hinge loss of the SVM classifier at the output layer。(也就是说前面两个式子代表了SVM的对最终输出层的标准损失函数)。后面的求和部分,也是标准的SVM对输出求值的过程,只不过要来对中间的所有隐藏层的SVM损失进行求和。
衰减函数:αm=αm∗0.1∗(1−t/N)\alpha_m=\alpha_m *0.1*(1-t/N)αm=αm∗0.1∗(1−t/N),ttt表示epoch step,N是total number of epoch,αm\alpha_mαm是为了在迭代一定次数后,就舍弃掉第二部分的loss,相当于是overall loss(output objective)和companion loss(companion objective)的平衡权重。
γ\gammaγ是一个超参数阈值,一旦中间的隐藏层所产生的loss小于γ\gammaγ,那么将其舍弃。
Some Tips:其中的overall loss和companion loss都是hinge loss(铰链误差),如下图(图片部分来源于:here)。
求梯度的时候:
后面有一个SGD部分
略
Experiments
1、MNIST
2、CIFAR-10 & CIFAR-100
3、Street View House Numbers (SVHN) dataset
【DSN】Deeply-Supervised Nets相关推荐
- 【GANs】Generative Adversarial Nets
[GANs]Generative Adversarial Nets 1 GAN 1.1 GANs的简介 1.2 思想与目标函数 1.3 GAN代码 1.4 全局最优推导 1.5 GANs方向展望 1 ...
- 【显著性物体检测】【ECCV2018】Reverse Attention for Salient Object Detection【论文笔记】
简介:在不怎么增加计算量的前提下,采用从粗到精的思想,由高级特征到低级特征,补全显著性检测的轮廓[最近很多都是基于这个思想].模型的速度与效果都占优.具体关注,是怎么实现特征的多级利用的. ECSSD ...
- 【GANs】Conditional Generative Adversarial Nets
[GANs]Conditional Generative Adversarial Nets 2 CGAN 2.1 CGAN简介 前言 流程图 目标函数 2.2 CGAN代码 2 CGAN 2.1 CG ...
- InstructGPT高效实践——【DeepSpeed-Chat】源码详解(2/3):Supervised Finetuning、Reward Model Finetuning
目录 前言 1 phase-1: Supervised Finetuning 1.1 训练数据样例 1.2 训练过程 1.3 关键代码详解 1.3.1 基座模型结构 1.3.2 LoRA结构及其正向传 ...
- Overlooked Video Classification in Weakly Supervised Video Anomaly Detection 【2022】
目录 一.前言知识 二.论文阅读 [摘要] 1.引言 2.相关工作
- [转]机器学习和深度学习资料汇总【01】
本文转自:http://blog.csdn.net/sinat_34707539/article/details/52105681 <Brief History of Machine Learn ...
- 【github】机器学习(Machine Learning)深度学习(Deep Learning)资料
转自:https://github.com/ty4z2008/Qix/blob/master/dl.md# <Brief History of Machine Learning> 介绍:这 ...
- 论文阅读(Xiang Bai——【arXiv2016】Scene Text Detection via Holistic, Multi-Channel Prediction)...
Xiang Bai--[arXiv2016]Scene Text Detection via Holistic, Multi-Channel Prediction 目录 作者和相关链接 方法概括 创新 ...
- 【NLP】Google BERT详解
版权声明:博文千万条,版权第一条.转载不规范,博主两行泪 https://blog.csdn.net/qq_39521554/article/details/83062188 </div> ...
最新文章
- 【Java】Lucene检索引擎详解
- 架构师说了:不想做背锅侠?生产问题要这样查
- 蓝桥杯java 算法训练 区间K大数查询
- SAP Spartacus index.html里的meta标签
- mouted vue 操作dom_vue中使用refs定位dom的坑-阿里云开发者社区
- oracle 之 安装后pl/sql登录报ora-12154
- Git之pull后回退版本
- {ACL2020}In Layman’s Terms: Semi-Open Relation Extraction from Scientific Texts(关系抽取,半开放关系抽取)
- 比以前更帅气了的飞鸽传书
- 反转二叉树 java_leetcode刷题笔记-226. 翻转二叉树(java实现)
- Xamarin.Forms 启动页面的设置
- sql 执行 delete 的时候,结合子查询 exists ,怎样支持别名呢?
- web安全day5:DNS部署与安全
- spark streaming之 windowDuration、slideDuration、batchDuration​
- c语言程序中文复制到word变乱码,怎么复制C程序代码到Word不会有乱码,不会有乱字等情况...
- cocos游戏FlyBird
- c# 软件单元测试,单元测试(C#版)
- 易基因|Science:宏基因组测序揭示病原菌介导植物内生菌群抑病功能激活
- Android M版本和非M版本动态权限适配方案
- 【热门】现在的美颜特效有多可怕?基于Opencv的美颜相机告诉你