深度学习CV领域必读论文

01 深度学习CV领域划时代论文具有里程碑意义

期刊日期:

NIPS-2012,Alexnet

论文名称:

《ImageNet Classification with Deep Convolutional Neural Networks》

摘要

本论文的主要内容是训练了一个深度卷积网络(6千万参数、65万神经元,结构为五层卷积,某些卷积层后接max-pooling层,后接三个全连接层,图中的方块或者竖条是feature map,连接的线是layer的名字,全连接就是dense layer。最后的特征1000个元素的feature map,丢给没在图上体现的softmax完成分类)来完成2010年的ImageNet分类比赛的任务(LVSRC-2010),将120万张高分辨率的图片分为1000个类别。

论文链接:

https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf

论文翻译
https://blog.csdn.net/frighting_ing/article/details/121583735?spm=1001.2014.3001.5501

论文精讲
https://blog.csdn.net/frighting_ing/article/details/120774252?spm=1001.2014.3001.5502

02 开启3*3卷积堆叠时代

期刊日期:

ICLR-2015,VGG net

论文名称:

《Very Deep Convolutional Networks for Large-Scale Image Recognition》

摘要

本文研究了深度对卷积网络在大规模图像识别中准确率的影响。本文的主要贡献是,对使用很小(3×3)的卷积滤波器来增加深度的网络进行了一个全面的评估,表明了通过将深度提高到16——19个权重层,业界最好网络的性能也能够得到显著的提升。

这些发现是我们参加ImageNet2014挑战赛的基础,我们也因此在定位和分类跟踪任务上分别获得了第一名和第二名的成绩。本文表明了我们的模型在其他数据集上同样表现得很好,并都达到了当前最佳的水平。我们已经公布了两种性能最好的卷积网络模型,希望能促进将深度视觉表达应用于计算机视觉的进一步研究。

论文链接:

https://arxiv.org/pdf/1409.1556.pdf

模型代码:

https://worksheets.codalab.org/worksheets/0xe2ac460eee7443438d5ab9f43824a819

内容总结学习:
https://blog.csdn.net/frighting_ing/article/details/121325797?spm=1001.2014.3001.5501

03 Google系列论文开创论文-提出多尺度卷积模块

期刊日期:

CVPR-2015,googlenet v1

论文名称:

《Going deeper with convolutions》

摘要:

我们提出了一个名为“Inception”的深度卷积神经网结构,其目标是将分类、识别ILSVRC14数据集的技术水平提高一个层次。这一结构的主要特征是对网络内部计算资源的利用进行了优化。

这一目标的实现是通过细致的设计,使得在保持计算消耗稳定不变的同时增加网络的宽与深。

为了提高质量,网络结构基于赫布原则(Hebbian principle)和多尺度处理规则(intuition of multi-scale processing)设计。一个具体化的例子是所谓GoogLeNet,也就是我们提交到ILSVRC14的成果,它是一个22层深的网络,其质量在分类和检测这两项指标中获得评估。

论文链接:

https://arxiv.org/pdf/1409.4842.pdf

04 神经网络大杀器-BN层提出

期刊日期:

arXiv-2015,googlenet v2

论文名称:

《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》

摘要

Batch Normalization的加速作用体现在两个方面:一是归一化了每层和每维度的scale,所以可以整体使用一个较高的学习率,而不必像以前那样迁就小scale的维度;二是归一化后使得更多的权重分界面落在了数据中,降低了overfit的可能性,因此一些防止overfit但会降低速度的方法,例如dropout和权重衰减就可以不使用或者降低其权重。

论文链接:

https://arxiv.org/pdf/1502.03167.pdf

05 卷积分解及结构进化-超越人类精度

期刊日期:

CVPR-2016,googlenet v3

论文名称:

《Rethinking the Inception Architecture for Computer Vision》

摘要

GoogLeNet经过了Inception V1、Inception V2(BN)的发展以后,Google的Szegedy等人又对其进行了更深层次的研究和拓展,在本文中,作者提出了当前环境下,网络设计的一些重要准则,并根据这些准则,对原有的GoogLeNet进行了改进,提出了一个更加复杂、性能更好的模型框架:Inception V3。这篇文章证明了这些改进的有效性,并为以后的网络设计提供了新的思路。

论文链接:

https://arxiv.org/pdf/1512.00567.pdf

06 工业界标杆模型-最具影响力的卷积神经网络

期刊日期:

CVPR-2016,resnet

论文名称:

《Deep Residual Learning for Image Recognition》

摘要

本文展示了一种残差学习框架,能够简化使那些非常深的网络的训练,该框架使得层能根据其输入来学习残差函数而非原始函数(unreferenced functions)。

本文提供了全面的依据表明,这些残差网络的优化更简单,而且能由更深的层来获得更高的准确率。本文在ImageNet数据集上使用了一个152层深的网络来评估我们的残差网络,虽然它相当于8倍深的VGG网络,但是在本文的框架中仍然只具有很低的复杂度。

这些残差网络的一个组合模型(ensemble)在ImageNet测试集上的错误率仅为 3.57%。这个结果在2015年的ILSVRC分类任务上获得了第一名的成绩。我们在CIFAR-10上对100层和1000层的残差网络也进行了分析。

论文链接:

https://arxiv.org/pdf/1512.03385.pdf

代码实现:
https://blog.csdn.net/frighting_ing/article/details/121324000?spm=1001.2014.3001.5501

07 Inception与ResNet结构的尝试

期刊日期:

arXiv-2016,googlenet v4

论文名称:

《Inception-ResNet and the Impact of Residual Connections on Learning》

摘要

论文链接:

https://arxiv.org/pdf/1602.07261.pdf

08何恺明团队对ResNet重大改进

期刊日期:

CVPR-2017,ResNeXt

论文名称:

《Aggregated Residual Transformations for Deep Neural Networks》

摘要

在保持模型现有的复杂度的情况下,提高模型的学习能力?

该论文从这个角度出发,提出了考量模型的另一个纬度:cardinality(即模型split-transform-merge的集合的数目,笔者理解就是一个block里面,branches或者paths的个数)

论文链接:

https://arxiv.org/pdf/1611.05431.pdf

模型代码:

https://github.com/facebookresearch/ResNeXt

09 ResNet的改进-2016-ILSVRC冠军

期刊日期:

CVPR-2017,densenet

论文名称:

《Densely Connected Convolutional Networks》

摘要

这篇论文是CVPR 2017的最佳论文,即16年的resnet之后这篇文章提出了DenseNet这样一个全新的网络框架,丰富了自LeNet至今的CNN网络体系。本着学习的态度,我趁这个周末上午学习了DenseNet的框架,主要介绍DenseNet的结构特点以及他与ResNet之间的对比。

论文链接:

https://arxiv.org/pdf/1608.06993.pdf

模型代码:

https://github.com/liuzhuang13/DenseNet

内容精讲和代码实现:
https://blog.csdn.net/frighting_ing/article/details/121582735?spm=1001.2014.3001.5501

10 引入注意力机制的卷积神经网络-2017-ILSVRC(最后一届)冠军

期刊日期:

TPAMI-2017,Senet

论文名称:

《Squeeze-and-Excitation Networks》

摘要

Sequeeze-and-Excitation(SE) block并不是一个完整的网络结构,而是一个子结构,可以嵌到其他分类或检测模型中,作者采用SENet block和ResNeXt结合在ILSVRC 2017的分类项目中拿到第一,在ImageNet数据集上将top-5 error降低到2.251%,原先的最好成绩是2.991%。

作者在文中将SENet block插入到现有的多种分类网络中,都取得了不错的效果。SENet的核心思想在于通过网络根据loss去学习特征权重,使得有效的feature map权重大,无效或效果小的feature map权重小的方式训练模型达到更好的结果。当然,SE block嵌在原有的一些分类网络中不可避免地增加了一些参数和计算量,但是在效果面前还是可以接受的。

论文链接:

https://arxiv.org/pdf/1709.01507.pdf

模型代码:

https://github.com/hujie-frank/SENet

内容精讲和代码实现:
https://blog.csdn.net/frighting_ing/article/details/121429665?spm=1001.2014.3001.5501

深度学习CV领域必读论文相关推荐

  1. 「每周论文推荐」 初入深度学习CV领域必读的几篇文章

    https://www.toutiao.com/a6718570271269192200/ 很多朋友都希望我们开通论文推荐和阅读板块,那就开吧,此专栏名为<每周论文推荐>.在这个专栏里,还 ...

  2. 【每周论文推荐】 初入深度学习CV领域必读的几篇文章

    很多朋友都希望我们开通论文推荐和阅读板块,那就开吧,此专栏名为<每周论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题 ...

  3. 【深度学习】煮酒论英雄:深度学习CV领域最瞩目的top成果总结

    前言 如果06年Hinton的深度置信网络是深度学习时代的开启,12年的Alexnet在ImageNet上的独孤求败是深度学习时代的爆发,那么至今也有近15年的发展历程.15年足够让一个青涩懵懂的少年 ...

  4. ckpt下载 deeplabv3_煮酒论英雄:深度学习CV领域最瞩目的成果top46

    原标题:煮酒论英雄:深度学习CV领域最瞩目的成果top46 来源:Smarter 作者:皮特潘 [新智元导读]本文盘点深度学习CV领域杰出的工作,从基础研究.分类骨架.语义分割.实例分割.目标检测.生 ...

  5. 用物理学突破深度学习理论瓶颈? Google-斯坦福发布《深度学习统计力学》综述论文,30页pdf阐述深度学习成功机制...

    来源:专知 [导读]深度学习革新了很多应用,但是背后的理论作用机制一直没有得到统一的解释.最近来自谷歌大脑和斯坦福的学者共同在Annual Review of Condensed Matter Phy ...

  6. 有三AI发布360页11万字深度学习CV算法工程师成长指导手册,可下载收藏打印,未完待续...

    文/编辑 | 言有三 字少事大,各位同学,今天有三AI平台发布<深度学习视觉算法工程师成长指导手册>,超过11万字,360页word文档,可下载收藏打印,且还有大约1/3内容并未完结,最终 ...

  7. MIT最新课程:一文看尽深度学习各领域最新突破(附视频、PPT)

    想要了解深度学习各领域的最新进展? 看个视频就足矣. 本文所介绍的内容是MIT系列课程之一,是有关深度学习最新进展的讲座.可以说,该课程的内容定义了这个领域的最前沿的技术. 课程提纲: BERT和自然 ...

  8. 【CV实战】年轻人的第一个深度学习CV项目应该是什么样的?(支持13大深度学习开源框架)...

    计算机视觉发展至今,许多技术已经非常成熟了,在各行各业落地业务非常多,因此不断的有新同学入行.本次我们就来介绍,对于新手来说,如何做一个最合适的项目.本次讲述一个完整的工业级别图像分类项目的标准流程, ...

  9. 深度学习视觉领域中的attention机制的汇总解读(self-attention、交叉self-attention、ISSA、通道注意、空间注意、位置注意、Efficient Attention等)

    self-attention来自nlp的研究中,在深度学习视觉领域有不少新的attention版本,为了解各种attention机制.博主汇集了6篇视觉领域中attention相关的论文,分别涉及DA ...

最新文章

  1. 一些常用的CSS hack代码
  2. javafx窗体程序_JavaFX实际应用程序:AISO HRC-Matic
  3. JavaSE第十五天20160823
  4. set集合判断集合中是否有无元素_一文了解 JavaScript 中的 Set(集合)- 对 Set 的扩展...
  5. MVVMLight绑定数据
  6. 设计模式六大原则——迪米特法则(LoD)
  7. 上海雄联机械配件有限公司
  8. docker logstash_学会这一招,轻松测试 logstash 的配置文件
  9. 无法更新 TeamViewer 服务属性是什么意思?
  10. 蓝牙打印 设置打印样式_双编辑模式 打印自由更轻松!——海鸟贴纸打印机蓝牙按键版体验...
  11. PLC控制电机正反转原理图
  12. X5之position_estimator_inav_main.c
  13. session 失效 java.lang.IllegalStateException异常产生的原因及解决办法
  14. Pandas:利用Styler对象设置Series、Dataframe在Jupyter Notebook中的输出样式(1)——基础接口
  15. 我喜欢你c语言程序设计,我喜欢你,表白代码怎么说
  16. 乐视手机便签怎么备份到云端
  17. gitee码云仓库创建教程
  18. 用python解决鸡兔同笼问题
  19. 牛逼大了!腾讯官方的代码安全指南免费公开
  20. 小tips:解决burp光标定位不准确

热门文章

  1. node打包单体文件部署服务器
  2. osx平台电子取证仿真实验
  3. 驱动报错问题解决-ROM定制开发教程
  4. everything常用设置
  5. 金万维异速联手机版 领军远程接入市场
  6. 北航计算机科学与技术专业考研方向,北京航空航天大学2017年计算机科学与技术专业介绍_北航考研网...
  7. lisp 中望cad 选项卡_CAD应用技巧:中望CAD中加载LISP程序
  8. Java数据库中台项目,电商,CMS轻松实现,包含数据库源文件
  9. Android log抓取工具
  10. xcode打包IPA上架App Store图文详解