细粒度分类:Diversified Visual Attention Networks
一、介绍
本文简单介绍一下一篇细粒度文章的大致思想,题目是Diversified Visual Attention Networks for
Fine-Grained Object Classification(多元可视注意力细粒度分类网络),缩写为DVAN。文章不是很新,但通篇读过后觉得值得总结。
二、引入了什么
下图中,不同鸟类的通过视觉可区分的部位主要是眼镜、胸部和翅膀,通过DVAN可以自动的发现这些视觉可区分的部位,从而实现正确分类不同品种鸟类。
DVAN引入了一种能力——能够自动发现可以区分不同种类目标的一个或者多个局部区域,并对这些区域进行特征提取和分类,这是该文的贡献。思想很简单,区分两个外观相似的对象,需要从一个甚至多个局部区域做出判断,也比较符合人的认知。
三、整体框架
DVAN的整体框架如下图所示。主要由四个部分构成:
- 注意力画布生成。从输入图像中采样多个不同尺度和大小的子区域。
- 特征学习。通过CNN网络学习第1步中采样的图像子区域的特征。
- 多元注意力学习。使用LSTM,借助输入的CNN特征映射学习多个注意力映射,每个注意力映射都有侧重点,并通过注意力映射动态池化CNN特征映射。
- 分类。LSTM每个时间步都会预测图像的类别输出,所有时间步的平均为最终预测结果。
三、注意力画布生成
画布生成从原始图像的不同位置(通过横向、纵向、步长控制)crop出多个尺度和大小不同的子图像,图像中所有的可辨识区域基本能够覆盖,如下图所示。最后将所有的子图像按照尺度从小到大排序(小尺度侧重目标整体,大尺度侧重目标局部),并统一resize为224x224,输入特征学习模块。
四、多元注意力学习
选择时序模型的原因是同时发现所有可辨识区域很困难,但是通过逐步学习的方式就很简单,时序模型就比较适合做这个;而选择LSTM的原则是它有记忆功能,可以防止网络将之前学习到的知识遗忘。参考:理解 LSTM 网络
该模块结构如下所示.上半部分是LSTM的原生结构,输入是 ,下半部分是注意力映射预测与 的生成, 是特征映射和注意力映射相结合的产物,作为LSTM每个时间步的输入,LSTM每个时间步的输出是 ,将用于后续分类模块的输入。
五、模型训练
DVAN的训练分为三个步骤:
- 微调在ImageNet上预训练的CNN模型,提取图像特征用于后续注意力的定位;
- 固定学习到的CNN特征,训练多元注意力学习模块;
- 整体训练CNN特征提取模块和多元注意力模块;
细粒度分类:Diversified Visual Attention Networks相关推荐
- 基于深度学习的细粒度分类调研1
细粒度分类: 细粒度分类(识别)的概念其实非常简单,即模型需要识别非常精细的子类别.一般识别出物体的大类别(比如:计算机.手机.水杯等)较易,但如果进一步去判断更为精细化的物体分类名称,则难度极大. ...
- 深度学习之细粒度分类
目录 一.概述 资源 什么是细粒度图像分类 意义 细粒度图像分类的挑战 细粒度分类常用方法 二.基于定位-识别的方法 2.1 强监督 2.1.1 Part-based R-CNN 2.1.2Pose ...
- 腾讯提结合ACNet进行细粒度分类,效果达到最新SOTA | CVPR 2020
作者 | VincentLee 来源 | 晓飞的算法工程笔记 细粒度分类(Fine-Grained Visual Categorization, FGVC)是图片分类的一个分支,由于类别间的相似性非常 ...
- 中文短文本分类实例十二-HAN(Hierarchical Attention Networks for Document Classification)
一.概述 HAN(Hierarchical Attention Networks for Document Classification),层次化注意力机制等,是Zichao Yang等2016年提出 ...
- Stacked Attention Networks for Image Question Answering(用于图像问答的堆叠注意力网络)
Stacked Attention Networks for Image Question Answering Abstract 1.introduction 2. 相关工作 略 3.堆叠注意力网络( ...
- 反向R?削弱显著特征为细粒度分类带来提升 | AAAI 2020
作者 | VincentLee 来源 | 晓飞的算法工程笔记 导读:论文提出了类似于dropout作用的diversification block,通过抑制特征图的高响应区域来反向提高模型的特征提取能 ...
- 《Stacked Attention Networks for Image Question Answering》论文解读与实验
这是去年10月份,自己看的第一篇关于VQA的论文,由于课程内容需要,对论文内容理解得还算深入,并在github上找了一些代码来实验.下面直接开始~ 1. 实验目的 完成一项视觉问答(VQA)的任务,即 ...
- 深度学习细粒度分类综述
https://blog.csdn.net/xys430381_1/article/details/89640699#_2 一.概述 1.什么是图像细粒度分类 细粒度图像分类问题是对大类下的子类进行识 ...
- 论文复现:WS-DAN细粒度分类问题经典之作
转自AI Studio,原文链接:论文复现:WS-DAN细粒度分类问题经典之作 - 飞桨AI Studio 论文复现: See Better Before Looking Closer: ...
最新文章
- 手把手教你使用YOLOV5训练自己的数据集并用TensorRT加速
- [shell实例]——用脚本实现向多台服务器批量复制文件(nmap、scp)
- Ajax实现局部数据交互的一个简单实例
- OpenGL编程指南6:顶点数组
- tomcat7.0配置CORS(跨域资源共享)
- 人可以拒绝任何东西,但绝对不可以拒绝成熟
- P4389 付公主的背包(生成函数,多项式exp)
- 智能可穿戴迎来长续航焕新活力 出门问问TicWatch Pro 3即将国内上市
- SAP License:SD条件类型对应科目配置
- Web Api 内部数据思考 和 利用http缓存优化 Api
- 杰克·韦尔奇语录-世界第一CEO
- “网页上有错误”的解决方法
- Sphere-AABB Intersecting test
- Android IOS WebRTC 音视频开发总结(二二)-- 多人视频架构模式
- activity 和service通信,调用service方法
- VSCode配置cpp环境
- 支持HTML5的浏览器
- 英文书籍下载网站统计(进行中)
- 三步生活法:土豆(Todo),优势,庆祝
- 用Watir测试QTP的Demo程序Mercury Tours
热门文章
- CBQ的简单性能调优
- 让知识活学活用,猿辅导小学课堂开课了!
- php 去掉转义引号的反斜杠,PHP去掉json字符串中的反斜杠\及去掉双引号前的反斜杠...
- 关于弱监督学习的详细介绍——A Brief Introduction to Weakly Supervised Learning
- DataCastle[猜你喜欢]推荐系统竞赛——Kuhung思路及代码
- 关于架空光缆你知道多少?
- 淘宝客真的能赚钱吗?淘客推广最新方法!我的淘客生涯。。。
- 医学研究生常用软件介绍
- FLTK 1.3中使用中文
- 机械硬盘和固态硬盘有什么区别?如何使用?