Small Object Detection using Context and Attention 论文阅读笔记


出处:2021 International Conference on Artificial Intelligence in Information and Communication (ICAIIC) Jeju Island, Korea

一、介绍

目标检测算法在各种环境下的应用存在许多局限性,特别是检测小物体仍然具有挑战性,因为它们的分辨率低,信息有限。

  1. 文章提出了一种使用上下文的目标检测方法,以提高检测小目标的准确性。该方法通过连接多尺度特征,将来自不同层次的附加特征作为上下文。
  2. 提出了具有注意机制的目标检测,该机制可以聚焦于图像中的目标,并包含目标层的上下文信息。

实验结果表明,与传统的SSD相比,该方法对小目标的检测精度更高。此外,对于300×300的输入图像,在PASCAL VOC2007测试集上实现了78.1%的平均精度(mAP)。

二、相关工作

2.1 基于深度学习的目标检测

  1. R-CNN:利用深度学习进行物体检测的第一个尝试,但对于实时应用程序来说,它太慢了,因为它对每个候选区域都是顺序通过cnn的。
  2. Fast R-CNN:对所有候选区域只执行一次特征提取。但这两项工作仍然对区域建议使用了单独的阶段。
  3. YOLO、SSD:实时目标检测。

2.1 小目标检测

  1. SSD:提出减少大型目标的尺寸,以克服数据不足的问题。
  2. DSSD:对SSD的所有特征图都采用反卷积技术,得到按比例放大的特征图。但由于将反卷积模块应用于所有的特征图,增加了模型的复杂性,降低了速度。
  3. R-SSD:通过池化和反卷积集合不同尺度的特征得到比DSSD更高的准确率和更快的速度。
  4. 利用GAN将低分辨的特征变成高分辨率的特征。

2.1 视觉注意力网络

  1. 《K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhudinov, R. Zemel, and Y . Bengio. Show, attend and tell: Neural image caption generation with visual attention. InInternational conference on machine learning, pages 2048–2057,2015.》利用视觉注意生成图像字幕。为了生成对应图像的标题,他们使用了LSTM 处理给定图像的相关部分。
  2. 《S. Sharma, R. Kiros, and R. Salakhutdinov. Action recognition using visual attention.arXiv preprint arXiv:1511.04119,2015.》将注意力机制应用于视频中的动作识别。
  3. 《F. Wang, M. Jiang, C. Qian, S. Yang, C. Li, H. Zhang,X. Wang, and X. Tang. Residual attention network for image classification.arXiv preprint arXiv:1704.06904, 2017.》通过叠加残差注意模块提高了ImageNet数据集的分类性能。

三、方法

3.1 Single Shot Multibox Detector (SSD)


文章以SSD为baseline,基于VGG16为骨干网络,添加图层来创建不同分辨率的feature map。从每一个特征,加上一个额外的卷积层来匹配输出通道,网络预测输出,包括bbox回归和目标分类。但在小对象上的性能仍然较低,VOC 2007的性能为20.7%,仍有很大的提升空间。

文章认为,第一,这是因为缺乏上下文信息来检测小对象。需从缺乏语义信息的浅层特征中提取小目标检测特征。第二,加入注意力模块来关注更重要的部分。

3.2 F-SSD: SSD with context by feature fusion


目标特征来自Conv4_3,上下文特征来自Conn7和Conv8_2。

由于3个特征层具有不同的空间大小,文章提出了如下的融合方法,并对上下文特征进行反卷积,同时,设置上下文特征通道数为目标特征通道数的一半,以至于不会压倒目标特征本身。

3.3 A-SSD: SSD with attention module


将一个两阶段的注意力模块加到了Conv4_3和Conv7之后。
残差注意力模块:

第一阶段的Down-up采样网络:

第二阶段的Down-up采样网络:

以及残差模块:

3.4 FA-SSD: Combining feature fusion and attention in SSD

四、实验

4.1 实验设置

backbone:VGG16
input size:300*300
训练集:VOC2007 and VOC2012 trainval datasets
测试集:VOC2007 test dataset

4.2 消融实验

4.3 推理时间

4.4 定性结果

4.5 注意力可视化

4.6 以ResNet为主干的实验




4.7 在 VOC2007 test上的结果



五、结论

文章提出的改进有:

  1. 利用上下文信息=融合不同尺度的特征
  2. 增加注意力机制

Small Object Detection using Context and Attention(论文阅读笔记)相关推荐

  1. Density Map Guided Object Detection in Aerial Images (论文阅读笔记)

    Density Map Guided Object Detection in Aerial Images 论文阅读笔记 出处:CVPR2020 一.介绍 文章主要研究的是基于高分辨率航拍图像的目标检测 ...

  2. Small Object Detection using Context and Attention

    [文献阅读5]Small Object Detection using Context and Attention_我是大阿周的学习博客-CSDN博客

  3. 《Semantic Object Parsing with Graph LSTM》--论文阅读笔记

    Semantic Object Parsing with Graph LSTM原文 GraphSage代码阅读笔记(TensorFlow版)目录 摘要 1.介绍 2 Related Work 3 Th ...

  4. REASONING ABOUT ENTAILMENT WITH NEURAL ATTENTION 论文阅读笔记

    原文链接:http://cn.arxiv.org/pdf/1509.06664 读这篇论文的目的在于另一篇阅读理解的文章使用了这其中的方法 摘要部分 问题的引入,目前自然语言处理领域对于句子的蕴含关系 ...

  5. Dynamic Head Unifying Object Detection Heads with Attentions 论文阅读笔记

    Dynamic Head Unifying Object Detection Heads with Attentions论文阅读笔记 这是微软在CVPR2021发表的文章,在coco数据集上取得了目前 ...

  6. End-to-End Object Detection with Transformers,DETR论文学习

    End-to-End Object Detection with Transformers,DETR论文学习 1. 引言 2. 本论文发表前的目标检测策略(非端到端的目标检测策略) 2.1 目标检测的 ...

  7. 论文阅读笔记——DLT-Net: Joint Detection of Drivable Areas, Lane Lines, and Traffic Objects)

    论文阅读笔记--DLT-Net: Joint Detection of Drivable Areas, Lane Lines, and Traffic Objects 论文简介 1 引言 2 DLT- ...

  8. 论文阅读笔记——VulDeePecker: A Deep Learning-Based System for Vulnerability Detection

    本论文相关内容 论文下载地址--Engineering Village 论文中文翻译--VulDeePecker: A Deep Learning-Based System for Vulnerabi ...

  9. 论文阅读笔记——Vulnerability Dataset Construction Methods Applied To Vulnerability Detection A Survey

    本论文相关内容 论文下载地址--Web Of Science 论文中文翻译--Vulnerability Dataset Construction Methods Applied To Vulnera ...

最新文章

  1. 分布式动态配置后浪推前浪 -- Nacos
  2. JS的条形码和二维码生成
  3. 如何用Pygame写游戏(二十)
  4. html几个数据包,报文和数据包的区别
  5. 【18】Python半成品购物车
  6. 手机Web 开发中图片img 如何等比例缩放
  7. OpenGL与EGL最简流程(十八)
  8. CentOS下常用配置文件和命令以及目录结构备注
  9. mobile_net在spyder下载不下来
  10. iTextSharp 添加图片
  11. Git Gui 中文乱码
  12. Ubuntu 18.04 基础系统配置
  13. pythonpil安装教程_成功安装PIL步骤
  14. VS2010 旗舰版序列号
  15. windows 环境MySQL 安装启动 、重新安装
  16. java-----Map
  17. 如何在桥接模式下使用Eero保持路由器的高级功能
  18. 新闻推荐数据集MIND介绍
  19. UDS之浅谈27服务
  20. 宝哥面试题分享(07): Java中间件面试题

热门文章

  1. 关系型数据库和非关系型的区别
  2. linux如何卸载已安装软件,linux中如何卸载已安装的软件-linux运维
  3. Unity-3D 第一个小游戏开发
  4. 可视化大屏原型图解决方案附axure可视化组件库
  5. MAC10.15登录EasyConnect失败报“版本太低,请更新到最新版”
  6. 10种防止网络攻击的方法
  7. EPS QOS 体系解读
  8. java 身份证智能识别
  9. 卡诺图的最简或与式化简
  10. C# 将Base64转换为图片并保存到Image数组