一、介绍

本文简单介绍一下一篇细粒度文章的大致思想,题目是Diversified Visual Attention Networks for
Fine-Grained Object Classification(多元可视注意力细粒度分类网络),缩写为DVAN。文章不是很新,但通篇读过后觉得值得总结。

二、引入了什么

下图中,不同鸟类的通过视觉可区分的部位主要是眼镜、胸部和翅膀,通过DVAN可以自动的发现这些视觉可区分的部位,从而实现正确分类不同品种鸟类。

DVAN引入了一种能力——能够自动发现可以区分不同种类目标的一个或者多个局部区域,并对这些区域进行特征提取和分类,这是该文的贡献。思想很简单,区分两个外观相似的对象,需要从一个甚至多个局部区域做出判断,也比较符合人的认知。

三、整体框架

DVAN的整体框架如下图所示。主要由四个部分构成:

  1. 注意力画布生成。从输入图像中采样多个不同尺度和大小的子区域。
  2. 特征学习。通过CNN网络学习第1步中采样的图像子区域的特征。
  3. 多元注意力学习。使用LSTM,借助输入的CNN特征映射学习多个注意力映射,每个注意力映射都有侧重点,并通过注意力映射动态池化CNN特征映射。
  4. 分类。LSTM每个时间步都会预测图像的类别输出,所有时间步的平均为最终预测结果。

三、注意力画布生成

画布生成从原始图像的不同位置(通过横向、纵向、步长控制)crop出多个尺度和大小不同的子图像,图像中所有的可辨识区域基本能够覆盖,如下图所示。最后将所有的子图像按照尺度从小到大排序(小尺度侧重目标整体,大尺度侧重目标局部),并统一resize为224x224,输入特征学习模块。

四、多元注意力学习

选择时序模型的原因是同时发现所有可辨识区域很困难,但是通过逐步学习的方式就很简单,时序模型就比较适合做这个;而选择LSTM的原则是它有记忆功能,可以防止网络将之前学习到的知识遗忘。参考:理解 LSTM 网络

该模块结构如下所示.上半部分是LSTM的原生结构,输入是  ,下半部分是注意力映射预测与  的生成, 是特征映射和注意力映射相结合的产物,作为LSTM每个时间步的输入,LSTM每个时间步的输出是 ,将用于后续分类模块的输入。

五、模型训练

DVAN的训练分为三个步骤:

  1. 微调在ImageNet上预训练的CNN模型,提取图像特征用于后续注意力的定位;
  2. 固定学习到的CNN特征,训练多元注意力学习模块;
  3. 整体训练CNN特征提取模块和多元注意力模块;

细粒度分类:Diversified Visual Attention Networks相关推荐

  1. 基于深度学习的细粒度分类调研1

    细粒度分类: 细粒度分类(识别)的概念其实非常简单,即模型需要识别非常精细的子类别.一般识别出物体的大类别(比如:计算机.手机.水杯等)较易,但如果进一步去判断更为精细化的物体分类名称,则难度极大. ...

  2. 深度学习之细粒度分类

    目录 一.概述 资源 什么是细粒度图像分类 意义 细粒度图像分类的挑战 细粒度分类常用方法 二.基于定位-识别的方法 2.1 强监督 2.1.1 Part-based R-CNN 2.1.2Pose ...

  3. 腾讯提结合ACNet进行细粒度分类,效果达到最新SOTA | CVPR 2020

    作者 | VincentLee 来源 | 晓飞的算法工程笔记 细粒度分类(Fine-Grained Visual Categorization, FGVC)是图片分类的一个分支,由于类别间的相似性非常 ...

  4. 中文短文本分类实例十二-HAN(Hierarchical Attention Networks for Document Classification)

    一.概述 HAN(Hierarchical Attention Networks for Document Classification),层次化注意力机制等,是Zichao Yang等2016年提出 ...

  5. Stacked Attention Networks for Image Question Answering(用于图像问答的堆叠注意力网络)

    Stacked Attention Networks for Image Question Answering Abstract 1.introduction 2. 相关工作 略 3.堆叠注意力网络( ...

  6. 反向R?削弱显著特征为细粒度分类带来提升 | AAAI 2020

    作者 | VincentLee 来源 | 晓飞的算法工程笔记 导读:论文提出了类似于dropout作用的diversification block,通过抑制特征图的高响应区域来反向提高模型的特征提取能 ...

  7. 《Stacked Attention Networks for Image Question Answering》论文解读与实验

    这是去年10月份,自己看的第一篇关于VQA的论文,由于课程内容需要,对论文内容理解得还算深入,并在github上找了一些代码来实验.下面直接开始~ 1. 实验目的 完成一项视觉问答(VQA)的任务,即 ...

  8. 深度学习细粒度分类综述

    https://blog.csdn.net/xys430381_1/article/details/89640699#_2 一.概述 1.什么是图像细粒度分类 细粒度图像分类问题是对大类下的子类进行识 ...

  9. 论文复现:WS-DAN细粒度分类问题经典之作

    转自AI Studio,原文链接:​​​​​​论文复现:WS-DAN细粒度分类问题经典之作 - 飞桨AI Studio 论文复现: See Better Before Looking Closer: ...

最新文章

  1. 手把手教你使用YOLOV5训练自己的数据集并用TensorRT加速
  2. [shell实例]——用脚本实现向多台服务器批量复制文件(nmap、scp)
  3. Ajax实现局部数据交互的一个简单实例
  4. OpenGL编程指南6:顶点数组
  5. tomcat7.0配置CORS(跨域资源共享)
  6. 人可以拒绝任何东西,但绝对不可以拒绝成熟
  7. P4389 付公主的背包(生成函数,多项式exp)
  8. 智能可穿戴迎来长续航焕新活力 出门问问TicWatch Pro 3即将国内上市
  9. SAP License:SD条件类型对应科目配置
  10. Web Api 内部数据思考 和 利用http缓存优化 Api
  11. 杰克·韦尔奇语录-世界第一CEO
  12. “网页上有错误”的解决方法
  13. Sphere-AABB Intersecting test
  14. Android IOS WebRTC 音视频开发总结(二二)-- 多人视频架构模式
  15. activity 和service通信,调用service方法
  16. VSCode配置cpp环境
  17. 支持HTML5的浏览器
  18. 英文书籍下载网站统计(进行中)
  19. 三步生活法:土豆(Todo),优势,庆祝
  20. 用Watir测试QTP的Demo程序Mercury Tours

热门文章

  1. CBQ的简单性能调优
  2. 让知识活学活用,猿辅导小学课堂开课了!
  3. php 去掉转义引号的反斜杠,PHP去掉json字符串中的反斜杠\及去掉双引号前的反斜杠...
  4. 关于弱监督学习的详细介绍——A Brief Introduction to Weakly Supervised Learning
  5. DataCastle[猜你喜欢]推荐系统竞赛——Kuhung思路及代码
  6. 关于架空光缆你知道多少?
  7. 淘宝客真的能赚钱吗?淘客推广最新方法!我的淘客生涯。。。
  8. 医学研究生常用软件介绍
  9. FLTK 1.3中使用中文
  10. 机械硬盘和固态硬盘有什么区别?如何使用?