Filtration and Distillation: Enhancing Region Attention for Fine-Grained Visual Categorization
Filtration and Distillation: Enhancing Region Attention for Fine-Grained Visual Categorization
文章目录
- Filtration and Distillation: Enhancing Region Attention for Fine-Grained Visual Categorization
- 参考
- 背景 & 问题
- 主体结构
- Discriminative Regions Proposing
- Feature Learning and Recognition Ensemble
- Filtration Learning with Discrimination Matching
- Distillation Learning with Knowledge Transferring
- 总体Loss的表示
- 实验结果
参考
- 原文:https://sci-hub.se/10.1609/aaai.v34i07.6822
背景 & 问题
- 问提:
- 图像定位主要基于过滤器(filter),但是这个不能被性能指标优化
- 现存方法将区域特征提取器的训练作为一个特别的分类任务,但是这个往往会忽视全局目标的特征
- 解:
- FDL = Filtration and Distillation Learning
- 本篇论文的主要贡献:
- 用Filtration Learning (FL)做部分区域的proposal,它基于proposing和predicting之间的区别匹配,region proposing在不需要bbox的情况下可以直接打到最佳
- 提出Distillation Learning (DL)用于强化区域特征的学习,通过对整个对象的特征提取,区域特征的学习可以在对象区域约束下得到更好的监督
- 更灵活,可更换backbone
- FDL在弱监督目标定位(WSOL)中具有很强的可解释性和竞争力
主体结构
模型的主体结构一目了然:
首先对于Input,他会分两路走
- 下面这路是参考了RPN的思想,即利用RPN选出目标的part,经过resize之后进行feature extractor,然后fc+softmax进行分类,分出来的类别表示是否是某一类的部分
- 上面这路就是对整张图片进行卷积,然后把它当作teacher网络,指导下方的part卷积分类的学习
最后所有部分concat在做一次总的分类得到最终结果
Discriminative Regions Proposing
这部分就是RPN部分,我们知道目标检测中的RPN的流程是在一堆的预设的anchor中判断是否有对象,而在这里它变成了判断是否是对象的part,本职功能没变,得到一堆框的置信度,然后用NMS保留top-M,对应下面这里
输出是:
S ( R 1 ) ≥ S ( R 2 ) ≥ . . . ≥ S ( R A ) S(R_1) \ge S(R_2) \ge ... \ge S(R_A) S(R1)≥S(R2)≥...≥S(RA)
- S是输出的置信度,这里就是对它排了个序
至于其他的细节,作者给了generator anchor的两个参数:scale = [48,96,128] ratio = [1:1,2:3,3:2]
其他的信息就没有了,其实我比较好奇它generator anchor的细节,因为我们知道它是在每个像素点中生成scale*ratio的框(这里是9个),在目标检测中这个过程是对feature map做的,但仍然有几万个,但是这里如果直接对input做,anchor数量不会直接
Filtration and Distillation: Enhancing Region Attention for Fine-Grained Visual Categorization相关推荐
- 20-CVPR-Multi-branch and Multi-scale Attention Learning for Fine-Grained Visual Categorization
目录 MMAL-Net多分支多尺度 注意力目标定位模块(AOLM) 注意力局部提议模块(APPM) MMAL-Net多分支多尺度 对比RA-CNN 1参数是用不同尺度图像训练的所以可以分类不同尺度图像 ...
- Region Attention Networks for Pose and Occlusion Robust Facial Expression Recognition
摘要: 遮挡和姿势变化是面部表情识别(FER)的两个主要障碍.它们可以显著改变面部外观.尽管在过去几十年中,自动FER已经取得了实质性的进展,但FER的遮挡鲁棒性和姿势不变问题受到的关注相对较少,尤其 ...
- Attention Convolutional Binary Neural Tree for Fine-Grained Visual Categorization论文阅读
用于细粒度视觉分类的注意力卷积二叉神经树 注意力卷积二叉神经树结构 论文提出了使用注意力卷积的二叉神经树进行细粒度分类,在树结构的边上进行注意力卷积操作,每个节点使用路由函数来定义从根节点到叶子结点的 ...
- 细粒度图像识别(2020)
Fine-Grained Image 如果有 错误 / 进一步更新, 欢迎提出, 谢谢! Associating Multi-Scale Receptive Fields for Fine-grain ...
- paper survey(2019.06.11)——卷积网络高阶特征表示
类似于博文< paper survey(2019.06.05)--卷积网络feature map的传递与利用> 本博文也是系列论文的阅读笔记(基本都是CVPR和ICCV的论文). 对于跟本 ...
- 今日arXiv精选 | 34篇顶会论文:CIKM/ ACL/ Interspeech/ ICCV/ ACM MM
关于 #今日arXiv精选 这是「AI 学术前沿」旗下的一档栏目,编辑将每日从arXiv中精选高质量论文,推送给读者. DESYR: Definition and Syntactic Repres ...
- 图像处理-State of the Art
https://github.com/BlinkDL/BlinkDL.github.io 目前常见图像任务的 State-of-the-Art 方法,从 Super-resolution 到 Capt ...
- YOLO系列阅读(一) YOLOv1原文阅读:You Only Look Once: Unified, Real-Time Object Detection
目录 0.Abstract 0.1原文翻译 第一段(说明本次研究和之前研究的区别) 第二段(速度快.虽然错误率高一点,但是背景被错误标记的概率更低) 0.2总结 1. Introduction 1.翻 ...
- 【AutoAugment】《AutoAugment:Learning Augmentation Policies from Data》
arXiv-2018 文章目录 1 Background and Motivation 2 Related Work 3 Advantages / Contributions 4 Method 5 E ...
最新文章
- 使用合成数据集来做目标检测:目标检测的介绍
- 访问 IIS 元数据库失败解决问题的方法
- 通过CertEnroll在CA上(1创建证书请求2得到证书3安装证书)
- AtCoder AGC019E Shuffle and Swap (DP、FFT、多项式求逆、多项式快速幂)
- PaaS服务之路漫谈(一)
- ActiveMQ Cannot send, channel has already failed: tcp:127.0.0.1:8161
- 【qduoj】C语言_凯撒密码
- java 写tb级文件_三管齐下!TB 级文件的上传性能瞬间被优化 100 倍!
- 【java】java 协程
- jstack处理Java中CPU100%的思路流程
- Python小程序(3)--BMR(基础代谢率)计算器
- Qt版权符号显示问题
- 只利用 phpstudy 如何运行PHP文件 超详细教程
- Labview学习之波形图表的历史数据
- Receptive field 感受野 原理+计算+图解+空洞卷积hole
- 站长VS微商 你选择哪个?
- 智能硬件——身份证识别skd
- Java:支付宝当面付demo(公钥证书方式)-沙箱环境测试版
- Spring MVC源码 ----- @RequestBody和@ResponseBody原理解析
- UV-LED紫外消毒灯可以有效灭杀气溶胶中附着的新冠病毒
热门文章
- 20-CVPR-Multi-branch and Multi-scale Attention Learning for Fine-Grained Visual Categorization