点上方计算机视觉联盟获取更多干货

仅作学术分享,不代表本公众号立场,侵权联系删除

转载于:新智元

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接

随着注意力机制在自然语言处理和计算机视觉等多个人工智能领域风靡,计算机视觉领域刷榜之争可谓是进入白热化阶段。

近期大量工作刷新现有各项任务SOTA:前脚谷歌刚在图像识别ImageNet上准确度超过90,紧接着微软又在目标检测COCO上AP超过60。

在一篇CVPR 2021 论文中,来自微软的研究者提出多重注意力机制统一目标检测头方法Dynamic Head, 可插拔特性提高多种目标检测框架的性能。

在Transformer骨干和额外数据加持下,COCO单模型测试取得新纪录:60.6 AP。

论文地址:https://arxiv.org/abs/2106.08322

方法概述

本文首先对现有目标检测头的改进工作进行了总结,发现近期方法主要通过三个不同的角度出发进行目标检测性能的提升:

尺度感知:目标尺度的差异对应了不同尺度的特征,改进不同级的表达能力可以有效提升目标检测器的尺度感知能力;

空间位置:不相似目标形状的不同几何变换对应了特征的不同空间位置,改进不同空间位置的表达能力可以有效提升目标检测器的空间位置感知能力;

多任务:目标表达与任务的多样性对应了不同通道特征,改进不同通道的表达能力可以有效提升目标检测的任务感知能力。

本文提出一种新颖的动态头框架,它采用多注意力机制将不同的目标检测头进行统一。

通过特征层次之间的注意力机制用于尺度感知,空间位置之间的注意力机制用于空间感知,输出通道内的注意力机制用于任务感知,该方法可以在不增加计算量的情况显著提升模型目标检测头的表达能力。

为了达成以上目的,本文对特征金字塔进行重构,将不同层级的特征统一到一个3D张量,并发现在不同维度引入注意力机制可以提高对尺度,空间位置和多任务的感知能力。

因此上述方向可以统一到一个高效注意力学习问题中。本文也是首个尝试采用多注意力机制将三个维度组合构建统一头并最大化其性能的工作。

作者将注意力函数转换为三个序列子注意力函数来解决传统注意力函数在高维度导致计算量激增的问题。

每个注意力函数仅聚焦一个维度:基于SE模块的尺度自注意函数π_L, 基于可变形卷积的空间自注意函数π_S 和 基于动态ReLU激活函数的多任务的自注意函数π_C。

作者将三种自注意函数进行堆叠,形成一个可轻易插拔的模块DyHead,并将其应用于多种目标检测框架中。

实验结果

作者首先分析了的计算效率。当采用6个模块时,模型性能提升达到最大,而计算量提升相比骨干网络可以忽略。

作者将DyHead集成到不同检测器进行性能对比,发现所提DyHead可以一致性提升所有主流目标检测器性能:1.2~3.2AP,展示了优异的可插拔扩展性能。

在与其他目标检测方法的对比中,所提方案以较大的优势超越了流行方案。相比仅采用多尺度寻览的方法,所提方案仅需2x训练即可取得新的SOTA指标 52.3AP。相对于谷歌提出的EfficientDet与SpineNet,所提方法训练时间更少(仅1/20);

当同时采用多尺度训练与测试时,所提方法取得了新的SOTA指标54.0AP,以1.3AP指标优于此前最佳。

当引入更优异的Transformer骨干网络、以及通过类似于谷歌自我学习方法生成的额外伪框的ImageNet数据后,所提方案取得了COCO新的记录:60.6 AP,成为首个超过60的单模型方法。

感兴趣的读者可以阅读原文,了解更多研究细节。

论文:

https://arxiv.org/abs/2106.08322

代码:

https: //github.com/microsoft/DynamicHead

-------------------

END

--------------------

我是王博Kings,985AI博士,华为云专家、CSDN博客专家(人工智能领域优质作者)。单个AI开源项目现在已经获得了2100+标星。现在在做AI相关内容,欢迎一起交流学习、生活各方面的问题,一起加油进步!

我们微信交流群涵盖以下方向(但并不局限于以下内容):人工智能,计算机视觉,自然语言处理,目标检测,语义分割,自动驾驶,GAN,强化学习,SLAM,人脸检测,最新算法,最新论文,OpenCV,TensorFlow,PyTorch,开源框架,学习方法...

这是我的私人微信,位置有限,一起进步!

王博的公众号,欢迎关注,干货多多

王博Kings的系列手推笔记(附高清PDF下载):

博士笔记 | 周志华《机器学习》手推笔记第一章思维导图

博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”

博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”

博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”

博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(上)

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(下)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(上)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(下)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(上)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(下)

博士笔记 | 周志华《机器学习》手推笔记第九章聚类

博士笔记 | 周志华《机器学习》手推笔记第十章降维与度量学习

博士笔记 | 周志华《机器学习》手推笔记第十一章稀疏学习

博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论

博士笔记 | 周志华《机器学习》手推笔记第十三章半监督学习

博士笔记 | 周志华《机器学习》手推笔记第十四章概率图模型

点分享

点收藏

点点赞

点在看

刷新记录! CVPR2021全新目标检测机制达到SOTA!相关推荐

  1. 微软华人团队刷新COCO记录!全新目标检测机制达到SOTA|CVPR 2021

    转自:新智元 [导读]在最近放出的CVPR 2021论文中,微软的研究者提出了多重注意力机制统一目标检测头方法Dynamic Head.在Transformer骨干和额外数据加持下,将COCO单模型测 ...

  2. CVPR2021 | 2D目标检测论文解读

    CVPR2021 | 2D目标检测论文解读 1. UP-DETR:--<UP-DETR: Unsupervised Pre-training for Object Detection with ...

  3. CVPR2021小目标检测:上下文和注意力机制提升小目标检测

    原论文下载:https://arxiv.org/pdf/1912.06319.pdf 摘要 在各种环境中应用目标检测算法有很多局限性.特别是小目标的检测仍然是一个挑战,因为它们的分辨率低,信息有限.为 ...

  4. 一文看尽 27 篇 CVPR2021 2D 目标检测论文

    6月25日,CVPR 2021 大会结束,共接收了 7039 篇有效投稿,最终有 1366 篇被接收为 poster,295 篇被接收为 oral,其中录用率大致为 23.6%,略高于去年的 22.1 ...

  5. CVPR2021 三维目标检测(3D object detection)

    [1] 3DIoUMatch: Leveraging IoU Prediction for Semi-Supervised 3D Object Detection(利用IoU预测进行半监督3D对象检测 ...

  6. CVPR 2020 | 北航提出:通过由粗到精特征自适应进行跨域目标检测,表现SOTA!

    性能优于PDA.MDA和SWDA等网络. 作者团队:北京航空航天大学 1 引言 近年来,在基于深度学习的目标检测中见证了巨大的进步.但是,由于domain shift问题,将现成的检测器应用于未知的域 ...

  7. Google出品,EfficientNet在目标检测达到最新SOTA | CVPR 2020

    作者 | tanmingxing,rpang,qvl 来源 | 晓飞的算法工程笔记() 介绍 目前目标检测领域,高精度的模型通常需要很大的参数量和计算量,而轻量级的网络则一般都会牺牲精度.因此,论文希 ...

  8. 全新目标检测范式SparseR-CNN,超详细实战教学(附数据集)

    作者:王浩 毕业于北京航空航天大学,人工智能领域优质创作者 编辑:3D视觉开发者社区 ✨如果觉得文章内容不错,别忘了三连支持下哦

  9. 谷歌简单粗暴“复制-粘贴”数据增广,刷新COCO目标检测与实例分割新高度

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 近日,谷歌.UC伯克利与康奈尔大学的研究人员公布了一篇论文 Sim ...

最新文章

  1. 【每日一算法】罗马数字转整数
  2. collections模块
  3. 实时摄像头数据传输丢包问题
  4. LOJ#6048. 「雅礼集训 2017 Day10」数列(线段树)
  5. Mediostream框架filter使用说明
  6. .net core webapi 列表返回指定的字段_ADO.NET 使用初探之SQL操作 | C# 数据操作系列...
  7. Python set list dict tuple 区别和相互转换 - Python零基础入门教程
  8. 10年老兵给程序员的10条建议!
  9. java获取网络带宽_Linux Java 获取CPU使用率,内存使用率,磁盘IO,网络带宽使用率等等...
  10. 【Python-2.7】如何判断对象是否为可迭代?
  11. JAVA程序员面试32问(价值8k)你认同吗?
  12. MySQL 重置密码
  13. PLSQL 安装教程
  14. 重磅丨教育部《高校人工智能创新行动计划》权威解读, AI人才缺口竟有500万!
  15. Excel中CTRL+D的别样用法 隔行和隔列向下填充示例
  16. 100个网络基础知识普及,看完你也是半个网络高手哦! 随风
  17. *POJ1830 高斯消元
  18. 1014 福尔摩斯的约会(python)
  19. 支撑马蜂窝「双11」营销大战背后的技术架构
  20. excel服务器几个小但是让人抓狂的小问题的解决办法

热门文章

  1. super在python3和python2_python2与Python3的区别
  2. div内容横排 html_css如何让文字横向滑入?
  3. 打印出所有的水仙花数javascript_期末C语言特辑 水仙花数
  4. opencv threshold_OpenCV-Python 立体图像的深度图 | 五十二
  5. oracle 添加服务命名空间,c# – 找不到类型或命名空间名称“OracleConnection”
  6. #define 喵 int_【Angew. Chem. Int. Ed.】具多样化不对称反应性的三氮唑芳基碘化物
  7. python 安装包时出现红字_你好啊!Python,初次见面,多多指教
  8. 2018网络统考计算机英语报名时间,2018年秋网络教育统考大学英语(B)考试样卷...
  9. android drawable转bitmap_Android 内存泄漏优化汇总
  10. 导览系统定制开发_联联周边游系统源码定制开发平台方案