摘要: 本文是一篇关于使用CNN完成图像分类的综合设计指南,涵盖了一些模型设计、模型优化以及数据处理经验,是一份适合图像分类方向研究者参考的综合设计指南。

对于计算机视觉任务而言,图像分类是其中的主要任务之一,比如图像识别、目标检测等,这些任务都涉及到图像分类。而卷积神经网络(CNN)是计算机视觉任务中应用最为广泛且最为成功的网络之一。大多数深度学习研究者首先从CNN入门,上手的第一个项目应该是手写体MNIST数字图像识别,通过该项目能够大致掌握图像分类的基本操作流程,但由于该项目太成熟,按步骤操作一遍可能只知其然而不知其所以然。所以,当遇到其它图像分类任务时,研究者可能不知道如何开始,或者不知道选取怎样的预训练网络模型、或者不知道对已有的成熟模型进行怎样的调整、模型的层数怎样设计、如何提升精度等,这些问题都是会在选择使用卷积神经模型完成图像分类任务时应该考虑的问题。

当选择使用CNN进行图像分类任务时,需要优化3个主要指标:精度、仿真速度以及内存消耗。这些性能指标与设计的模型息息相关。不同的网络会对这些性能指标进行权衡,比如VGG、Inception以及ResNets等。常见的做法是对这些成熟的模型框架进行微调、比如通过增删一些层、使用扩展的其它层以及一些不同的网络训练技巧等完成相应的图像分类任务。

本文是关于使用CNN进行图像分类任务的优化设计指南,方便读者快速掌握图像分类模型设计中所遇到的问题及经验。全文集中在精度、速度和内存消耗这三个性能指标进行扩展,介绍不同的CNN分类方法,并探讨这些方法在这三个性能指标上的表现。此外,还可以看到对这些成熟的CNN方法进行各种修改以及修改后的性能表现。最后,将学习如何针对特定的图像分类任务优化设计一个CNN网络模型。

网络类型

网络类型和性能指标之间有一个非常明显的权衡现象。首先肯定会选择Inception或ResNet网络类型的模型,因为这两个网络比VGG和AlexNet模型更新,只是在精度和仿真速度两个指标之间进行了权衡,如果想要精度,选择ResNet网络是个不错的开端,如果想要仿真速度快,那就选择Inception网络。

用智能卷积设计减少运行时间和内存消耗

CNN总体设计的最新进展已经有一些令人惊叹的替代方案,在不损失太多精度的前提下,可以加快CNN仿真运行的时间并减少内存消耗。以下所有的这些都可以很容易地集成到上述CNN成熟模型之中:

MobileNets:使用深度可分离卷积技术,在仅牺牲1%~5%的精度的条件下,极大地减少了计算量和内存消耗量,精度的降低程度与计算量和内存消耗量的下降成正比。

XNOR-Net:使用二进制卷积,即卷积核只有两种取值:-1或1。通过这种设计使得网络具有很高的稀疏性,因此可以很容易地压缩网络参数而不会占用太多内存。

ShuffleNet:使用逐点群卷积(pointwise group convolution)和信道重排(channel

shuffle)大大降低计算成本,同时网络模型的精度要优于MobileNets。

Network

Pruning(网络剪枝):去除CNN模型的部分结构以减少仿真运行时间和内存消耗,但也会降低精度。为了保持精度,去除的部分结构最好是对最终结果没有多大的影响。

网络深度

对于CNN而言,有一些常用的方法是增加通道数以及深度来增加精度,但是会牺牲仿真运行速度和内存。然而,需要注意的是,层数增加对精度的提升的效果是递减的,即添加的层越多,后续添加的层对精度的提升效果越小,甚至会出现过拟合现象。

激活函数

对于神经网络模型而言,激活函数是必不可少的。传统的激活函数,比如Softmax、Tanh等函数已不适用于CNN模型,有相关的研究者提出了一些新的激活函数,比如Hinton提出的ReLU激活函数,使用ReLU激活函数通常会得到一些好的结果,而不需要像使用ELU、PReLU或LeakyReLU函数那样进行繁琐的参数调整。一旦确定使用ReLU能够获得比较好的结果,那么可以优化网络的其它部分并调整参数以期待更好的精度。

卷积核大小

人们可能普遍认为使用较大的卷积核(比如5x5、7x7)总是会产生最高的精度,然而,并不总是这样。研究人员发现,使用较大的卷积核使得网络难以分离,最好的使用像3x3这样更小的内核,ResNet和VGGNet已经很好地证明了这一点。此外,也可以使用1x1这样的卷积核来减少特征图(Feature map)的数量。

空洞卷积

空洞卷积(Dilated Convolutions)使用权重之间的间距以便能够使用远离中心的像素,这种操作允许网络在不增加网络参数的前提下增大感受野,即不增加内存消耗。相关论文表明,使用空洞卷积可以增加网络精度,但也增加仿真运行消耗的时间。

数据扩充

深度学习依赖于大数据,使用更多的数据已被证明可以进一步提升模型的性能。随着扩充的处理,将会免费获得更多的数据,使用的扩充方法取决于具体任务,比如,你在做自动驾驶汽车任务,可能不会有倒置的树、汽车和建筑物,因此对图像进行竖直翻转是没有意义的,然而,当天气变化和整个场景变化时,对图像进行光线变化和水平翻转是有意义的。这有一个很棒的数据扩充库。

训练优化

当对网络训练过程优化时,有几种优化算法可供选择。常用的算法是随机梯度下降算法(SGD),但该算法需要调整学习率等参数,这一过程略显乏味;另外使用自适应学习率梯度下降算法,比如Adam、Adagrad或Adadelta算法,是比较容易实现的,但是可能无法获得最佳的梯度下降算法精度。

最好的办法是遵循和激活函数类似的处理方式,先用简单的训练方法来看看设计的模型是否工作得很好,然后用更复杂的方式进行调整和优化。个人推荐从Adam开始,该方法使用起来非常容易:只需要设定一个不太高的学习率,通常默认设置为0.0001,这样一般会得到非常好的效果,之后可以使用SGD算法进行微调。

类别平衡

在很多情况下,可能会遇到数据不平衡问题。数据不平衡是什么意思呢?举一个简单的例子:假设你正在训练一个网络模型,该模型用来预测视频中是否有人持有致命武器。但是训练数据中只有50个持有武器的视频,而有1000个没有持有武器的视频。如果使用这个数据集完成训练的话,模型肯定倾向于预测视频中没有持有武器。

针对这个问题,可以做一些事情来解决:

在损失函数中使用权重:对数据量小的类别在损失函数中添加更高的权重,使得对于该特定类别的任何未正确分类将导致损失函数输出非常高的错误。

过采样:重复包含代表性不足类别的一些训练实例有助于提升模型精度。

欠采样:对数据量大的类别进行采样,降低二者的不平衡程度。

数据扩充:对数据量小的类别进行扩充。

优化迁移学习

对于大多数数据而言,一般的做法是使用迁移学习,而不是从头开始训练网络模型。迁移学习就是基于一些成熟的模型,使用其部分网络结构参数,只训练一些新的网络部件。在这个过程中遇到的问题是,选择什么样的模型进行迁移学习,保留哪些网络层、哪些网络部件需要重新训练,这都取决于你的数据集是什么样子。如果你的数据与预训练的网络(网络一般是通过ImageNet数据集训练)更相似,那么需要重新训练的网络部件也越少,反之亦然。例如,假设正在尝试区一个图像是否包含葡萄,那么数据集是由包含葡萄的图像与不包含图像组成,这些图像与ImageNet中的图像非常相似,所以只需要重新训练选取的模型最后几层,也许只是训练最后的全连接层,因为ImageNet是区分1000类,而本次任务只区分两类——图像中包不包含葡萄,所以只需更改最后的全连接层参数。又假设正在尝试分类外太空图像中是否包含行星,这类的数据与ImageNet的数据集有很大的不同,因此需要重新训练模型后面的卷积层。

结论

本文是针对使用CNN完成图像分类任务的优化设计指南,给出了一些常见的优化方式,便于初学者按照给定的规则调整优化网络模型。

本文作者:George Seif,机器学习工程师,

本文由阿里云云栖社区组织翻译。

文章原标题《A Comprehensive Design Guide for Image Classification CNNs》,译者:海棠,审校:Uncle_LLD。

原文链接

本文为云栖社区原创内容,未经允许不得转载。

python cnn图像分类_关于CNN图像分类的一份综合设计指南相关推荐

  1. 关于CNN图像分类的一份综合设计指南

    摘要: 本文是一篇关于使用CNN完成图像分类的综合设计指南,涵盖了一些模型设计.模型优化以及数据处理经验,是一份适合图像分类方向研究者参考的综合设计指南. 对于计算机视觉任务而言,图像分类是其中的主要 ...

  2. 不懂得如何优化CNN图像分类模型?这有一份综合设计指南请供查阅

    对于计算机视觉任务而言,图像分类是其中的主要任务之一,比如图像识别.目标检测等,这些任务都涉及到图像分类.而卷积神经网络(CNN)是计算机视觉任务中应用最为广泛且最为成功的网络之一.大多数深度学习研究 ...

  3. python cnn 实例_基于CNN的纹理合成实践【附python实现】

    Q0: Preliminary knowledge of Texture Synthesis Baseline请见此处,下文所有的代码修改均建立此代码基础之上. 1. 纹理合成简述 ​纹理合成(Tex ...

  4. python网络助手_为解决某票根网反人类设计的一款Python助手工具。

    txffpAssistant 为解决反人类设计的一款票根助手,适用于票根网(pss.txffp.com). 可执行发票下载.自动合并.查看发票信息等. 欢迎大家加入本项目交流群:863896565,你 ...

  5. 讽刺笑话_完全不讽刺的2019年网络设计指南

    讽刺笑话 I've written about how to design for the modern web before, way back in 2018. But the web moves ...

  6. wpf label字体为斜体_快来收下这份字体设计必备知识点

    听说99%的同学都来这里充电吖摆渡人设计库,带你领略艺术之美平面设计是以"视觉"作为主要沟通和表现方式的,这其中,自然包含字体设计.以现代拉丁字母为例,其基础概念包括字形.字体.字 ...

  7. python图像分类_手把手教你用Python构建你的第一个多标签图像分类模型(附案例)...

    介绍 你正在处理图像数据吗?我们可以使用计算机视觉算法来做很多事情:对象检测 图像分割 图像翻译 对象跟踪(实时),还有更多-- 这让我思考--如果一个图像中有多个对象类别,我们该怎么办?制作一个图像 ...

  8. python cnn_使用python中pytorch库实现cnn对mnist的识别

    使用python中pytorch库实现cnn对mnist的识别 1 环境:Anaconda3 64bit https://www.anaconda.com/download/ 2 环境:pycharm ...

  9. 一、用Python从零实现横向联邦图像分类

    文章目录 前言:用Python从零实现横向联邦图像分类 一.环境配置 1. 下载Anaconda 2. 下载显卡对应的CUDA 3. 安装cuDNN 4. 配置pytorch-gpu环境 二.用Pyt ...

最新文章

  1. C语言网络编程:TCP实现多线程实现多客户端
  2. excel两个指标相关性分析_Excel实操分析函数,投资决策指标的假设分析,就是那么简单...
  3. Python-memcached的基本使用
  4. Spring Security太复杂?试试这个轻量、强大、优雅的权限认证框架!
  5. Top K算法问题的实现
  6. oracle添加文件,ORACLE---添加控制文件
  7. ITFriend创业败局(四):菜鸟CEO的自我修养
  8. 【渝粤教育】电大中专Office办公软件 (2)作业 题库
  9. python中transform用法_Python Wand transform()用法及代码示例
  10. 给现有MVC 项目添加 WebAPI
  11. C++ - 操作运算符
  12. 人对光波的三种特性_面试题:常用塑胶材料的特性及用途,你能列出几个?
  13. 文库系统 文库网站建设仿百度文库 道客巴巴 豆丁
  14. 怎么解决Xshell4终端中文乱码问题
  15. Unity插件Odin入门
  16. 菜鸟的Java基础知识学习
  17. vue实现简单的日历
  18. java8--Lambda表达式
  19. java 图书馆系统_JAVA 图书馆管理系统
  20. EasyExcel ExcelGenerateException: The index of 'xx' and 'xx' must be inconsistent

热门文章

  1. mysql连接nginx_nginx四层负载均衡连接mysql
  2. Python面向对象的三大特性
  3. Python练习题:计算平均分
  4. Python中@staticmethod和@classmethod的作用和区别
  5. Python 全局变量和局部变量迷惑人的小示例
  6. php 汉字处理 json,php处理json时中文问题的解决方法
  7. html隐藏元素的方式,Web前端:CSS3——3种隐藏元素方法的区别
  8. 程序时序图 Sequence Diagram(序列图) UML图(数据流程图)的绘制
  9. 如何遍历numpy数组?
  10. 【今日头条】热文周榜、热搜榜