Dynamic Head Unifying Object Detection Heads with Attentions论文阅读笔记

  • 这是微软在CVPR2021发表的文章,在coco数据集上取得了目前为止最高的AP。

  • 目标检测网络大致可以分为两个组分——feature extractor和detection head。一个好的detection head期待有三个感知能力:scale-aware、spatial-aware、task-aware。现有的detection head通常只关注提升其中之一,而本方法提出了一个统一(unify)的head同时关注了这三个方面。本方法分别在feature level、spatial、channel 上应用注意力机制,从而提升这三种能力。(之所以说channel上是task-aware,是因为不同的channel负责不同的task,比如有的负责分类有的负责定位)
  • 输入的多个feature pyramid会被resize到中间尺度的大小,这样一来输入的尺度就变为L×H×W×CL\times H \times W\times CL×H×W×C,然后将H×WH\times WH×W拉直成 S ,就变成了L×S×CL\times S\times CL×S×C
  • 自注意力机制可以用下面公式描述 :
  • 然而对L×S×CL\times S\times CL×S×C算注意力,计算复杂度太大了,如果可以对每个维度分别算注意力就好了,也就是下面这个公式:
  • 其中,最里面的,也就是首先对scale level进行注意力:
  • 然后是spatial aware attention,是通过类似3D deformable convolution实现的,也就是说在feature level 通道上也进行了卷积,卷积核大小即通道数L,又有点类似加权平均。这个公式其实并不复杂,如果还不太懂,也可以看这篇文章:”Deformable DETR: Deformable Transformers for End-to-End Object Detection“
  • 最后是task aware attention,是通过下面的形式实现的:
  • 将上面三个attention堆到一起就是一个block,将多个block堆到一起,可以提升效果 。将Dyhead可以应用到网络的末尾,比如2阶段检测ROI pooling前后,或者一阶段的最后,也可以直接用来替代最后的全连接分类和回归等。
  • 论文可视化了这三个注意力的处理过程特征图的变化情况,可以看到确实是有效果的。
  • 其实想法倒是没那么花里胡哨,但是结果惊人的好,在用Swin-L作为backbone,并增加额外数据进行训练后,居然达到了惊人的60.6%的AP,要知道mask-RCNN这种元老才到了40%,近几年出来比较有名的,YOLOv4也才56%,居然一下子就突破到60%

Dynamic Head Unifying Object Detection Heads with Attentions 论文阅读笔记相关推荐

  1. Dynamic Head: Unifying Object Detection Heads with Attentions论文阅读

    Dynamic Head: Unifying Object Detection Heads with Attentions论文阅读 摘要 介绍 相关工作 方法 Dynamic Head 扩展到现存的检 ...

  2. Dynamic Head: Unifying Object Detection Heads with Attentions

    Dynamic Head 论文标题:Dynamic Head: Unifying Object Detection Heads with Attentions 论文地址:https://arxiv.o ...

  3. Dynamic Head :Unifying Object Detection Heads with Attentions

    Dynamic Head :Unifying Object Detection Heads with Attentions  作者针对目标检测中通过backbone提取特征金字塔后的输出后,会形成最基 ...

  4. Dynamic Head: Unifying Object Detection Heads with Attentions 阅读

    Abstract 这里就是说在目标检测领域,很多工作都想提高检测头的性能,这篇文章提出了动态头,也就是Dynamic Head,来将检测头和注意力(Attention)结合.在尺度(scale-awa ...

  5. 【目标检测】61、Dynamic Head Unifying Object Detection Heads with Attentions

    文章目录 一.背景 二.方法 2.1 scale-aware attention 2.2 spatial-aware attention 2.3 task-aware attention 2.4 总体 ...

  6. 目标检测之Dynamic Head: Unifying Object Detection Heads with Attentions

    cvpr2021 论文:https://arxiv.org/pdf/2106.08322v1.pdf 代码:https://github.com/microsoft/DynamicHead 1.摘要 ...

  7. Minimum Barrier Salient Object Detection at 80 FPS 论文阅读笔记

    这几天帮学长研究这篇论文,整理了这些笔记,由于我在CV方面刚刚入门,博客中可能会有很多错误与不当之处,希望大家能多多指正. 附上我自己修改的C++代码,可以运行在windows环境下: 链接:http ...

  8. Choosing Smartly: Adaptive Multimodal Fusion for Object Detection in Changing Environments论文阅读笔记

    论文:https://arxiv.org/pdf/1707.05733v1.pdf Abstract 对象检测是在动态和变化的环境中运行的自动机器人的基本任务.机器人应该能够在存在传感器噪声的情况下也 ...

  9. Sparse R-CNN: End-to-End Object Detection with Learnable Proposals - 论文阅读翻译

    Sparse R-CNN: End-to-End Object Detection with Learnable Proposals - 论文阅读翻译 文章目录 Sparse R-CNN: End-t ...

最新文章

  1. 对delegate进行扩展 打造通用的计时完成方法
  2. android 组件导出安全,App安全检测实践基础:组件安全(二)
  3. html页面在微信分享php,详解html静态页面实现微信分享思路的示例代码分析
  4. 合成模式(Composite)
  5. 修改git历史提交的commit信息
  6. Redis 如何实现分布式锁?
  7. java 泛型 擦除_Java泛型和类型擦除
  8. 标准c语言与c51的区别,单片机学习笔记5-C51语言与标准C语言的比较
  9. 纯CSS3实现牛奶般剔透的3D按钮特效
  10. vue 日期面板_VUE项目中如何方便的转换日期和时间
  11. java.lang.classnotfo_java.lang.ClassNotFoundException
  12. LeetCode 69. x 的平方根
  13. 使用HTML+CSS实现图片滚动效果
  14. 联通HG8347R WO-36光猫 当前用户不允许登录解决办法
  15. RocketMQ手动创建Topic
  16. 浏览器解析渲染页面过程
  17. 解压技巧: iPhone自带的解压缩功能好强
  18. Linux日常运维1 w vmstat top sar nload io free ps tcpdump
  19. 解决在iOS9上安装的软件显示未受信任的企业级开发者
  20. 基于51单片机的流水灯设计

热门文章

  1. 贴片电阻的封装和功率关系
  2. Eclipse jdt 格式化java代码
  3. 成功解决h5py\_init_.py
  4. 从qq服务器删除误收邮件,QQ邮箱撤回时显示撤回失败,对方已读 收件箱里的消息却是对方已阅读或已删除 这种情况下邮件有没有被删除...
  5. linux分屏桌面环境,Linux分屏操作screen[装逼神器]
  6. 微信公共平台OAuth接口消息接口服务中间件-wechat-oauth
  7. win10怎么新建计算机用户,Win10添加用户教程(Microsoft微软帐户、本地帐户、儿童帐户)...
  8. Spectral Clustering(谱聚类和其他)
  9. Think-swoole的使用
  10. 三十、再问唐僧出生之迷