摘要: 本文是一篇关于使用CNN完成图像分类的综合设计指南,涵盖了一些模型设计、模型优化以及数据处理经验,是一份适合图像分类方向研究者参考的综合设计指南。

对于计算机视觉任务而言,图像分类是其中的主要任务之一,比如图像识别、目标检测等,这些任务都涉及到图像分类。而卷积神经网络(CNN)是计算机视觉任务中应用最为广泛且最为成功的网络之一。大多数深度学习研究者首先从CNN入门,上手的第一个项目应该是手写体MNIST数字图像识别,通过该项目能够大致掌握图像分类的基本操作流程,但由于该项目太成熟,按步骤操作一遍可能只知其然而不知其所以然。所以,当遇到其它图像分类任务时,研究者可能不知道如何开始,或者不知道选取怎样的预训练网络模型、或者不知道对已有的成熟模型进行怎样的调整、模型的层数怎样设计、如何提升精度等,这些问题都是会在选择使用卷积神经模型完成图像分类任务时应该考虑的问题。

当选择使用CNN进行图像分类任务时,需要优化3个主要指标:精度、仿真速度以及内存消耗。这些性能指标与设计的模型息息相关。不同的网络会对这些性能指标进行权衡,比如VGG、Inception以及ResNets等。常见的做法是对这些成熟的模型框架进行微调、比如通过增删一些层、使用扩展的其它层以及一些不同的网络训练技巧等完成相应的图像分类任务。

本文是关于使用CNN进行图像分类任务的优化设计指南,方便读者快速掌握图像分类模型设计中所遇到的问题及经验。全文集中在精度、速度和内存消耗这三个性能指标进行扩展,介绍不同的CNN分类方法,并探讨这些方法在这三个性能指标上的表现。此外,还可以看到对这些成熟的CNN方法进行各种修改以及修改后的性能表现。最后,将学习如何针对特定的图像分类任务优化设计一个CNN网络模型。

网络类型

网络类型和性能指标之间有一个非常明显的权衡现象。首先肯定会选择Inception或ResNet网络类型的模型,因为这两个网络比VGG和AlexNet模型更新,只是在精度和仿真速度两个指标之间进行了权衡,如果想要精度,选择ResNet网络是个不错的开端,如果想要仿真速度快,那就选择Inception网络。

用智能卷积设计减少运行时间和内存消耗

CNN总体设计的最新进展已经有一些令人惊叹的替代方案,在不损失太多精度的前提下,可以加快CNN仿真运行的时间并减少内存消耗。以下所有的这些都可以很容易地集成到上述CNN成熟模型之中:

  • MobileNets:使用深度可分离卷积技术,在仅牺牲1%~5%的精度的条件下,极大地减少了计算量和内存消耗量,精度的降低程度与计算量和内存消耗量的下降成正比。
  • XNOR-Net:使用二进制卷积,即卷积核只有两种取值:-1或1。通过这种设计使得网络具有很高的稀疏性,因此可以很容易地压缩网络参数而不会占用太多内存。
  • ShuffleNet:使用逐点群卷积(pointwise group convolution)和信道重排(channel shuffle)大大降低计算成本,同时网络模型的精度要优于MobileNets。
  • Network Pruning(网络剪枝):去除CNN模型的部分结构以减少仿真运行时间和内存消耗,但也会降低精度。为了保持精度,去除的部分结构最好是对最终结果没有多大的影响。

网络深度

对于CNN而言,有一些常用的方法是增加通道数以及深度来增加精度,但是会牺牲仿真运行速度和内存。然而,需要注意的是,层数增加对精度的提升的效果是递减的,即添加的层越多,后续添加的层对精度的提升效果越小,甚至会出现过拟合现象。

激活函数

对于神经网络模型而言,激活函数是必不可少的。传统的激活函数,比如Softmax、Tanh等函数已不适用于CNN模型,有相关的研究者提出了一些新的激活函数,比如Hinton提出的ReLU激活函数,使用ReLU激活函数通常会得到一些好的结果,而不需要像使用ELU、PReLU或LeakyReLU函数那样进行繁琐的参数调整。一旦确定使用ReLU能够获得比较好的结果,那么可以优化网络的其它部分并调整参数以期待更好的精度。

卷积核大小

人们可能普遍认为使用较大的卷积核(比如5x5、7x7)总是会产生最高的精度,然而,并不总是这样。研究人员发现,使用较大的卷积核使得网络难以分离,最好的使用像3x3这样更小的内核,ResNet和VGGNet已经很好地证明了这一点。此外,也可以使用1x1这样的卷积核来减少特征图(Feature map)的数量。

空洞卷积

空洞卷积(Dilated Convolutions)使用权重之间的间距以便能够使用远离中心的像素,这种操作允许网络在不增加网络参数的前提下增大感受野,即不增加内存消耗。相关论文表明,使用空洞卷积可以增加网络精度,但也增加仿真运行消耗的时间。

数据扩充

深度学习依赖于大数据,使用更多的数据已被证明可以进一步提升模型的性能。随着扩充的处理,将会免费获得更多的数据,使用的扩充方法取决于具体任务,比如,你在做自动驾驶汽车任务,可能不会有倒置的树、汽车和建筑物,因此对图像进行竖直翻转是没有意义的,然而,当天气变化和整个场景变化时,对图像进行光线变化和水平翻转是有意义的。这有一个很棒的数据扩充库。

训练优化

当对网络训练过程优化时,有几种优化算法可供选择。常用的算法是随机梯度下降算法(SGD),但该算法需要调整学习率等参数,这一过程略显乏味;另外使用自适应学习率梯度下降算法,比如Adam、Adagrad或Adadelta算法,是比较容易实现的,但是可能无法获得最佳的梯度下降算法精度。
       最好的办法是遵循和激活函数类似的处理方式,先用简单的训练方法来看看设计的模型是否工作得很好,然后用更复杂的方式进行调整和优化。个人推荐从Adam开始,该方法使用起来非常容易:只需要设定一个不太高的学习率,通常默认设置为0.0001,这样一般会得到非常好的效果,之后可以使用SGD算法进行微调。

类别平衡

在很多情况下,可能会遇到数据不平衡问题。数据不平衡是什么意思呢?举一个简单的例子:假设你正在训练一个网络模型,该模型用来预测视频中是否有人持有致命武器。但是训练数据中只有50个持有武器的视频,而有1000个没有持有武器的视频。如果使用这个数据集完成训练的话,模型肯定倾向于预测视频中没有持有武器。
       针对这个问题,可以做一些事情来解决:

  • 在损失函数中使用权重:对数据量小的类别在损失函数中添加更高的权重,使得对于该特定类别的任何未正确分类将导致损失函数输出非常高的错误。
  • 过采样:重复包含代表性不足类别的一些训练实例有助于提升模型精度。
  • 欠采样:对数据量大的类别进行采样,降低二者的不平衡程度。
  • 数据扩充:对数据量小的类别进行扩充。

优化迁移学习

对于大多数数据而言,一般的做法是使用迁移学习,而不是从头开始训练网络模型。迁移学习就是基于一些成熟的模型,使用其部分网络结构参数,只训练一些新的网络部件。在这个过程中遇到的问题是,选择什么样的模型进行迁移学习,保留哪些网络层、哪些网络部件需要重新训练,这都取决于你的数据集是什么样子。如果你的数据与预训练的网络(网络一般是通过ImageNet数据集训练)更相似,那么需要重新训练的网络部件也越少,反之亦然。例如,假设正在尝试区一个图像是否包含葡萄,那么数据集是由包含葡萄的图像与不包含图像组成,这些图像与ImageNet中的图像非常相似,所以只需要重新训练选取的模型最后几层,也许只是训练最后的全连接层,因为ImageNet是区分1000类,而本次任务只区分两类——图像中包不包含葡萄,所以只需更改最后的全连接层参数。又假设正在尝试分类外太空图像中是否包含行星,这类的数据与ImageNet的数据集有很大的不同,因此需要重新训练模型后面的卷积层。

结论

本文是针对使用CNN完成图像分类任务的优化设计指南,给出了一些常见的优化方式,便于初学者按照给定的规则调整优化网络模型。

文章原标题《A Comprehensive Design Guide for Image Classification CNNs》

原文链接

本文为云栖社区原创内容,未经允许不得转载。

关于CNN图像分类的一份综合设计指南相关推荐

  1. python cnn图像分类_关于CNN图像分类的一份综合设计指南

    摘要: 本文是一篇关于使用CNN完成图像分类的综合设计指南,涵盖了一些模型设计.模型优化以及数据处理经验,是一份适合图像分类方向研究者参考的综合设计指南. 对于计算机视觉任务而言,图像分类是其中的主要 ...

  2. 不懂得如何优化CNN图像分类模型?这有一份综合设计指南请供查阅

    对于计算机视觉任务而言,图像分类是其中的主要任务之一,比如图像识别.目标检测等,这些任务都涉及到图像分类.而卷积神经网络(CNN)是计算机视觉任务中应用最为广泛且最为成功的网络之一.大多数深度学习研究 ...

  3. 【深度学习】CNN图像分类:从LeNet5到EfficientNet

    深度学习 Author:louwill From:深度学习笔记 在对卷积的含义有了一定的理解之后,我们便可以对CNN在最简单的计算机视觉任务图像分类中的经典网络进行探索.CNN在近几年的发展历程中,从 ...

  4. 设计一套简单的计算机系统及其指令系统,【精品】计算机组成综合设计指导书...

    [精品]计算机组成综合设计指导书 (45页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 19.9 积分 <计算机组成综合设计>指导董志学刘志强 ...

  5. 【可视化编程】实验4:C#窗体和控件综合设计(多文本编辑器)

    说明:这是武汉理工大学计算机学院[可视化编程C#]课程的第四次实验:多文本编辑器 >>点击查看武汉理工大学计算机专业课程资料汇总 >>点击查看WUTer计算机专业实验汇总 谨记 ...

  6. Pytorch和CNN图像分类

    Pytorch和CNN图像分类 PyTorch是一个基于Torch的Python开源机器学习库,用于自然语言处理等应用程序.它主要由Facebookd的人工智能小组开发,不仅能够实现强大的GPU加速, ...

  7. 以下关于java的GUI菜单描述_第十九讲 菜单和JavaGUI综合设计

    第十九讲菜单和JavaGUI综合设计 主要内容 菜单(JMenuBar.JMenu.JmenuItem) 菜单项的事件侦听处理 颜色选择器JColorChooser 文件选择器JFileChooser ...

  8. Matlab图像处理创新实践-实验4【综合设计大实验——GUI综合设计】

    Matlab图像处理创新实践-实验1[图像滤波基础(1)] Matlab图像处理创新实践-实验2[图像滤波基础(2)] Matlab图像处理创新实践-实验3[图像锐化] Matlab图像处理创新实践- ...

  9. 看完这篇电磁兼容分层与综合设计法,EMC你还不懂就没救了

    摘要 按照产品在电磁兼容设计时所采取的各项措施的重要性为先后,分为若干层次进行设计,并加以综合分析进行适当调整直到完善,这就是本文提出的" 电磁兼容分层与综合设计法".可以做到电磁 ...

最新文章

  1. Sql Server2005 Transact-SQL 新兵器学习总结之-数据类型
  2. usermod命令的一些用法详解
  3. 还在使用 SimpleDateFormat?你的项目崩没?
  4. 【Android 安全】DEX 加密 ( Application 替换 | 分析 Activity 组件中获取的 Application | ActivityThread | LoadedApk )
  5. 微型计算机的层次结构,计算机系统层次结构微程序级
  6. java代理的原理及应用
  7. python爬取微博内容_请问该如何通过python调用新浪微博的API来爬取数据?
  8. 转行前端很迷茫,该怎么办?
  9. 水晶报表-推拉模式实例
  10. C# 2.0泛型编程基础(1)
  11. x9此计算机上没有hasp_中琅条码打印软件安装后弹出HASP错误代码处理方法
  12. CAD图纸转BMP格式图片时怎么设置输出色彩?
  13. Git撤销操作之使用--amend改写单次提交
  14. 360监测显示:cookie没有httponly标志解决方法
  15. UBports安装Arduino记录
  16. 6、API网关 Zuul
  17. 段码液晶屏学习应用笔谈
  18. 《软件安装与使用教程》— 安装Proteus8仿真软件最新详细教程
  19. C专家编程 精编之一
  20. Content-Type 类型浅析汇总

热门文章

  1. hive 配置用户名_配置HiveServer2的安全策略之自定义用户名密码验证
  2. 短信宝 php使用,[php] 使用 短信宝 发送短信(thinkphp)
  3. 【LeetCode笔记】124. 二叉树中的最大路径和(Java、二叉树、DFS)
  4. 计算机主机接线视频教程,电脑主板跳线怎么接?电脑机箱与主板跳线接法图解教程...
  5. 6-7 使用函数输出水仙花数_学习C语言居然对printf函数不理解???
  6. vs code ipynb文件_UE4引擎 源码的获取、安装,以及VS配置
  7. php iframe 上传文件,php+iframe 实现上传文件功能示例
  8. 卡扇区数据教程_分享一款硬盘分区和数据恢复软件
  9. python如何读取数据时出现错误_连接数据库时出现的错误,怎样解决??
  10. ssh-copy-id命令不存在_Redis(三)- 常见命令