Computer Vision阅读文章总结

@(Computer Vision)

文章列表:

  1. Improving neural networks by preventing co-adaption of feature detectors – Dropout
  2. ImageNet Classification with Deep Convolutional Neural Networks --AlexNet
  3. Regularization of Neural Networks using DropConnect – Dropout的泛化
  4. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift – BN
  5. Maxout Networks
  6. Network in Network – NIN
  7. Going deeper with convolutions – GoogleLeNet
  8. OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks – OverFeat

文章内容要点:

1. Improving neural networks by preventing co-adaption of feature detectors – Dropout

主要针对问题:大的前向神经网路在小的数据集上训练,测试数据集上表现很差,即过拟合问题。本文首次提出Dropout机制,随机删除50%的隐层结点的输出 – 删除的是通过激活函数后的结果。

没有Dropout的理论说明,只是通过实验说明在大数据集上可以有效降低过拟合问题。

直观的理解是通过dropout可以避免网络权重依赖于与其他神经元的合作,记住训练样本的特征,相互适应。

只适用于全连接层。

2. ImageNet Classification with Deep Convolutional Neural Networks --AlexNet

6000万参数,65万神经元,5个卷积层,部分卷积层后跟最大池化层,3个全连接层。

使用的新的技术点

  • 同时采用了ReLU激活函数加快收敛速度,解决梯度弥散问题
  • 使用两颗GPU并行训练,加快训练速度
  • 重叠的最大池化,避免了平均池化的模糊性,丰富了提取的特征
  • 并利用LRN(局部响应归一化)提高模型的准确度:对局部神经元的活动创建竞争机制,对响应较大的值变得相对更大,抑制反馈较小的神经元,提升模型的泛化能力
  • Dropout降低过拟合
  • 通过数据增强技术扩大数据集

3. Regularization of Neural Networks using DropConnect

是Dropout的泛化方式,同样只适用于全连接层。

本篇文章提出的随机丢弃的是连接权重而不是神经元的输出。通过这样的方式,全连接变成动态
稀疏连接,结果显示在一系列数据集上效果超过了Dropout。数据集包括:MNIST, CIFAR-10, SVHN, NORB等。

4. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

神经网络的学习过程本质是学习数据的分布,当训练数据与测试数据的分布不同时,网络的泛化能力就大大降低。covariant shift的概念就是用来表达训练样本和测试样本的分布有差别。

网络的前面几层发生微小的变化,在后面会被放大。当某一层的输入数据分布发生变化时,这层网络就需要适应学习这个新的分布。如果训练数据分布一直在变化,网络的训练就很慢。

本文提出的算法就是解决在训练过程中中间数据分布发生改变的情况,输入样本已经人为归一化,所以只考虑隐层。

核心思路是:在每一层输入时,对数据加一个预处理操作。但是强行归一化带来的问题是改变了数据的分布,本文提出了在归一化数据之后进行scale and shift – 变换重构,还原到数据归一化之前的分布。

5. Maxout Networks

是一种新的激活函数。

普通本层神经元的输入值是由与上层相连的神经元的输出和权值的点积加上偏置值,通过激活函数得到。这是一次计算的量。

在Maxout网络结构中,是K次计算量,K是人工指定的。相当于说在神经元两层之间再加一层K个神经元,权重矩阵是三维,第三维是K维。计算神经元的输入时,计算K次,取最大的那个,不需要用激活函数,取最大值本身就是一种激活函数的功能。

6.Network in Network

网中网,提升在感受野内的特征分辨能力。

一般卷积神经网络是将卷积核与感受野内的像素值进行点积输出特征图,本质上是广义线性操作。本文认为这种方法的抽象能力偏低,不足以提取更丰富的特征,因此提出了一种新的非线性的方法来替代卷积核。这个方法就是:微型的MLP网络,将感受野内的像素作为输入,通过MLP输出值,感受野滑动方式与CNN相同。

去掉最后一层全连接层,代之以全局平均池化层Global Average Pooling。

7. Going deeper with convolutions – GoogleLeNet

突出特点是提升了在网络内对计算资源的利用效率。提升了网络的深度和层的宽度,但是保持了计算量在预算内。

一般认为为了提高准确率,使用更深的网络来提升特征表达能力,带来的问题是参数的爆炸式增长。参数过多,导致两个严重的问题:

  • 更容易过拟合
  • 需要更多的计算资源

解决方法是:让网络连接变为稀疏连接。

能够实现这个效果的基础是基于Hebbian原则:

如果两个神经元常常同时产生动作电位,同时激动,那么这两个神经元之间的连接就会加强,反之就是变弱。

依据这个原则,将相关度高的神经元聚集起来,就可以获得一个稀疏的表示。

8. OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks

本文提出了一个整合的框架:用卷积网络同时做图像分类,定位和检测。

突出的贡献是:展示了如何用卷积同时解决计算机视觉上的三大问题:

  • 分类
  • 定位
  • 检测

主要是把网络的1~5层看做特征提取层,对于不同的任务共享这个特征提取层,针对不同的任务,只需要改变网络的最后几层,迁移学习。网络结构与AlexNet基本相同,但是去除了LRN层,以及重叠池化。

END.

Computer Vision阅读文章总结纪要相关推荐

  1. 《Deep Learning for Computer Vision withPython》阅读笔记-PractitionerBundle(第9 - 11章)

    9.使用HDF5和大数据集 到目前为止,在本书中,我们只使用了能够装入机器主存储器的数据集.对于小数据集来说,这是一个合理的假设--我们只需加载每一个单独的图像,对其进行预处理,并允许其通过我们的网络 ...

  2. 《Deep Learning for Computer Vision with Python》阅读笔记-ImageNetBundle(第7章)-在ImageNet上训练VGGNet

    //2022.2.27日下午18:33开始学习笔记 7.在ImageNet上训练VGGNet 在本章中,我们将学习如何在ImageNet数据集上从零开始训练VGG16网络架构.卷积神经网络的VGG家族 ...

  3. 《Deep Learning for Computer Vision withPython》阅读笔记-StarterBundle(第18 - 23章)

    18.检查点模型 截止到P265页 //2022.1.18日22:14开始学习 在第13章中,我们讨论了如何在培训完成后将模型保存和序列化到磁盘上.在上一章中,我们学习了如何在发生欠拟合和过拟合时发现 ...

  4. 《Deep Learning for Computer Vision withPython》阅读笔记-StarterBundle(第6 - 7章)

    6.配置您的开发环境 当涉及到学习新技术(尤其是深度学习)时,配置开发环境往往是成功的一半.在不同的操作系统.不同的依赖版本以及实际的库本身之间,配置您自己的深度学习开发环境可能是相当令人头痛的事情. ...

  5. 《Deep Learning for Computer Vision withPython》阅读笔记-StarterBundle(第4 - 5章)

    4.图像分类基础 这句格言在我们的生活中已经听过无数次了.它只是意味着一个复杂的想法可以在一个单一的图像中传达.无论是查看我们股票投资组合的折线图,查看即将到来的足球比赛的传播,还是简单地学习绘画大师 ...

  6. 阅读笔记:What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision?

    阅读笔记:What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision? 1.介绍 2.相关工作 2.1 贝叶 ...

  7. Computer Vision: A Modern Approach - 计算机视觉书籍阅读笔记 -第六章 - 纹理

    Book name : Computer Vision: A Modern Approach Book URL: https://www.academia.edu/38213969/Computer_ ...

  8. Computer Vision: A Modern Approach - 计算机视觉书籍阅读笔记 -第四章 -线性滤波

    Book name : Computer Vision: A Modern Approach Book URL: https://www.academia.edu/38213969/Computer_ ...

  9. Computer Vision: A Modern Approach - 计算机视觉书籍阅读笔记 -第十一章 - 跟踪

    Book name : Computer Vision: A Modern Approach Book URL: https://www.academia.edu/38213969/Computer_ ...

最新文章

  1. [ linq2db ] 使用LoadWith()对外键进行查询
  2. Android 使用本地应用在线播放流媒体文件
  3. eclipse 与 tomcat 的那些路径
  4. 无线路由与无线AP有什么不同
  5. 怎么点亮段码屏_iPad屏幕坏点亮点怎么看 自查iPad屏幕坏点亮点方法【详解】
  6. HPU 1002 A + B Problem II【大数】
  7. vmware虚机无法重启关机的强制处理办法
  8. 设置域用户登录主目录
  9. 窗口的新建移动和改变大小
  10. excel转word后表格超出页面_excel表格粘贴到word太宽显示不全怎么办?
  11. 【数据分析】2种常见的反爬虫策略,信息验证和动态反爬虫
  12. 运放的增益带宽积、单位增益带宽
  13. 2019,一年一度的高考季来临,作文又成热门话题
  14. Python项目实战:抓取全网王者荣耀皮肤,收藏最好看的
  15. CSS3 画皮卡丘
  16. 2018——幸福都是奋斗出来的
  17. 7-20 sdust-Java-字符串集合求并集
  18. Rust(9):枚举类型
  19. 用html5实现一个播放器,6 个基于 HTML5 实现的多媒体播放器
  20. 2021全年营收净利润双增,李宁财报透露哪些确定与不定?

热门文章

  1. HTML中的图像和链接
  2. kafka集群为什么需要三个节点_Kafka突然宕机了?稳住,莫慌!
  3. python智能化推荐_windows python flask
  4. 计算机文件不能包含的符号,文件夹的名称不能包括
  5. 鸿蒙OS比fuchsia的优势,第一天带你走进华为开发者大会,了解鸿蒙OS
  6. 获取滑动条高度_HexMap学习笔记(三)——海拔高度与阶梯连接
  7. css 悬停动画_CSS3缩放图像动画效果悬停
  8. node.js 创建服务器_Node.js HTTP软件包–创建HTTP服务器
  9. Java关闭挂钩– Runtime.addShutdownHook()
  10. java.lang.OutOfMemoryError:Java堆空间