点上方计算机视觉联盟获取更多干货

仅作学术分享,不代表本公众号立场,侵权联系删除

转载于:机器之心

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接

来自谷歌研究院和 UC 伯克利的研究者开发了一种新的自注意力模型,该模型可以超越标准的基线模型,甚至是高性能的卷积模型。

与卷积的参数依赖(parameter-dependent)缩放和内容无关(content-independent)交互相比,注意力场具有与参数无关的缩放和与内容有关的交互,因此自注意力机制有望改善计算机视觉系统。

近来的研究表明,与 ResNet-50 等基线卷积模型相比,自注意力模型在准确性 - 参数权衡方面有重要改进。

在一篇 CVPR 2021 Oral 论文中,来自谷歌研究院和 UC 伯克利的研究者开发了一种新的自注意力模型,该模型不仅可以超越标准的基线模型,而且可以超越高性能的卷积模型。

论文地址:https://arxiv.org/abs/2103.12731

具体而言,该研究提出了自注意力的两个扩展,并与自注意力的更高效实现相结合,提高了这些模型的运行速度、内存使用率和准确率。研究者利用这些改进开发了一种新的自注意力模型——HaloNet,并且在 ImageNet 分类基准的有限参数设置上准确率实现了新 SOTA。HaloNet 局部自注意架构如下图 1 所示:

在迁移学习实验中,该研究发现 HaloNet 模型的性能优于更大的模型,并且具有更好的推理性能。在目标检测和实例分割等较难的任务上,该研究简单的局部自注意力和卷积混合算法在非常强大的基线上显示出性能提升。

这些实验结果标志着在卷积模型主导的传统环境下,自注意力模型又迈出了新的一步。

方法概述

尽管该研究的模型使用自注意力代替卷积来捕获像素之间的空间交互,但它们采用了现代卷积神经网络(CNN)的一些重要架构特征。并且,和卷积神经网络一样,该研究计算多尺度特征层次结构,这些层次结构可以在局部化和实例分割等任务上以多种尺寸进行目标检测。

因此,该研究开发了一个 strided 自注意力层,它是 strided 卷积的自然扩展。为了在无法引起全局注意力的较大分辨率下处理计算成本,研究者遵循局部处理(也是卷积和自然感知系统的核心)的通用原则,并使用自注意力的空间受限形式。下图 2 为注意力下采样层的工作流程:

该方法没有使用平移等价性(translational equivariance)来代替更好的硬件利用率,从而改善了速度和准确率之间的权衡。尽管使用的是局部注意力,但每个像素的感受野却非常大(达到了 18×18),并且更大的感受野有助于处理更大的图像。

此外,研究者还介绍了用于视觉任务的自注意力,并描述了如何放松平移等价性,以有效地将局部自注意力映射到硬件。

实验结果

每个 HaloNet 模型(H0–H7)都是通过连续提升表 2 中定义的超参数的值来设计的。研究者后续还会进行比肩 EfficientNet 的更大 HaloNet 模型的训练和评估工作。

可与 SOTA 卷积模型媲美

该研究在 ImageNet 基准上训练了 HaloNet 模型,批大小是 4096,学习率是 1.6,线性预热了 10 个 epoch,然后进行了余弦衰减。模型用 Nesterov 的加速梯度(Accelerated Gradient)训练 350 个 epoch,并使用 dropout、权重衰减、RandAugment 和随机深度进行了正则化。

研究者验证了自注意力与视觉卷积各自的优势,并进一步理解了自注意力视觉架构的最佳设计方式。

实验结果如上表所示,带有正则化的 HaloNet 比 ResNet 的性能增益更多,但是对 ResNet 中重要的架构化模块却没有显著改进。

HaloNet 架构

研究者探究了放松平移等价性的影响以及邻域窗口与光晕大小的关系。

如下图 5 所示,放松平移等价性能够提升准确率。

从下图 6 可以发现随着窗口大小的增加,准确率会不断提高。特别是,将窗口大小从 6×6 增大到 12×12,准确率会提升 1.3%。这些结果表明,增加窗口大小可以用于扩展模型,而无需增加参数数量,这可能对生产环境有利。

卷积 - 注意力混合改善了速度 - 准确率权衡

在一组控制变量实验中,该研究用卷积替代了自注意力,以了解当前注意力层最有利的地方。

在性能最优的模型(HaloNet H7)的每个阶段中,表 4 展示了借助 SE 模块用卷积替代注意力层的结果。除最后一个阶段外,其他所有阶段都进行卷积会产生最快的模型,尽管 top-1 准确率会显著降低(1%)。在卷积和注意力上分别进行分配可最小程度地降低预测准确率,同时显著改善训练和推断过程。未来研究者还将对改进的混合模型进行进一步的研究。

-------------------

END

--------------------

我是王博Kings,985AI博士,华为云专家、CSDN博客专家(人工智能领域优质作者)。单个AI开源项目现在已经获得了2100+标星。现在在做AI相关内容,欢迎一起交流学习、生活各方面的问题,一起加油进步!

我们微信交流群涵盖以下方向(但并不局限于以下内容):人工智能,计算机视觉,自然语言处理,目标检测,语义分割,自动驾驶,GAN,强化学习,SLAM,人脸检测,最新算法,最新论文,OpenCV,TensorFlow,PyTorch,开源框架,学习方法...

这是我的私人微信,位置有限,一起进步!

王博的公众号,欢迎关注,干货多多

王博Kings的系列手推笔记(附高清PDF下载):

博士笔记 | 周志华《机器学习》手推笔记第一章思维导图

博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”

博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”

博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”

博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(上)

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(下)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(上)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(下)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(上)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(下)

博士笔记 | 周志华《机器学习》手推笔记第九章聚类

博士笔记 | 周志华《机器学习》手推笔记第十章降维与度量学习

博士笔记 | 周志华《机器学习》手推笔记第十一章稀疏学习

博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论

博士笔记 | 周志华《机器学习》手推笔记第十三章半监督学习

博士笔记 | 周志华《机器学习》手推笔记第十四章概率图模型

点分享

点收藏

点点赞

点在看

CVPR 2021 | 超越卷积,自注意力模型HaloNet相关推荐

  1. CVPR 2021 | 超越卷积,自注意力模型HaloNet准确率实现SOTA

    选自arXiv 作者:Ashish Vaswani等 机器之心编译 编辑:小舟 来自谷歌研究院和 UC 伯克利的研究者开发了一种新的自注意力模型,该模型可以超越标准的基线模型,甚至是高性能的卷积模型. ...

  2. CVPR 2021 | 超越卷积的自注意力模型,谷歌、UC伯克利提出HaloNet

    本文转载自机器之心. 作者:Ashish Vaswani 等 编辑:小舟 来自谷歌研究院和 UC 伯克利的研究者开发了一种新的自注意力模型,该模型可以超越标准的基线模型,甚至是高性能的卷积模型. 与卷 ...

  3. 视频也能P!谷歌CVPR 2021最新视频P图模型omnimatte

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源:Google AI .新智元 [导读]你是否还在受视频P图不能 ...

  4. CVPR 2021 | 视觉目标检测大模型GAIA:面向行业的视觉物体检测一站式解决方案

    作者丨常清 编辑丨机器之心 中国科学院自动化研究所智能感知与计算研究中心联合华为等企业提出面向行业的视觉物体检测一站式解决方案 GAIA. 在深度学习与大数据的浪潮下,视觉目标检测在各个基准数据集上已 ...

  5. CVPR 2021 | 基于语义聚合与自适应2D-1D配准的手部三维重建(快手)

    来源丨arXiv每日学术速递 今天,我们介绍的是快手Y-tech入选CVPR 2021的工作之一,Camera-Space Hand Mesh Recovery via Semantic Aggreg ...

  6. 【时序】卷积自注意力 LogSparse Transformer 论文笔记

    论文名称:Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecas ...

  7. CVPR 2021 | Involution:超越卷积和自注意力的神经网络新算子

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文作者: 李铎  |  本文系作者投稿 https://zhuanlan.zhihu.com/p/3581 ...

  8. 本周AI热点回顾:和欧阳娜娜一起搞研发?强大的神经网络新算子involution,超越卷积、自注意力机制!...

    ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍点击左上方蓝字关注我们 01 我和欧阳娜娜一起搞研发 AI新闻播报,开车明星导航,现如今根据文本生成语音的AI技术,那真是飞入寻常百姓家--见怪不怪了. 在这档口, ...

  9. 超越卷积、自注意力机制:强大的神经网络新算子involution

    视学算法发布 转载自:机器之心 作者:李铎 这篇工作主要是由我和SENet的作者胡杰一起完成的,也非常感谢HKUST的两位导师 陈启峰和张潼老师的讨论和建议. 本文是对我们CVPR 2021被接收的文 ...

最新文章

  1. 以系统时间命名文件方法(C++)
  2. Java7 ConcurrentHashMap详解
  3. 新版appium 支持name定位的方法(没试 记录再此)
  4. android 4.0系统,全新Android 4.0系统_手机Android频道-中关村在线
  5. mybatis多数据源配置_随笔:springboot+mybatis 配置双数据源
  6. php utf8转换gb2312,php utf8 GB2312处理
  7. vscode 头文件包含问题_VScode编译C++ 头文件显示not found的问题
  8. 软件安装管家软件目录
  9. linux 如何获取最高权限 设定
  10. 如何下载IAR历史版本
  11. 一些不错的酷站欣赏的网站
  12. 计算机中的八卦知识,原来计算机的核心技术来自周易八卦
  13. 天才黑客 Flanker 疑因拒绝做黑客攻击业务,被拼多多强行辞退,错失上亿股票...
  14. 勇闯迷塔小游戏(c++) 3.17更新
  15. 程序员合同日期不到想辞职_在职场,辞职有时是难免的,要怎样写辞职信才好呢...
  16. oracle做分页式报表,报表性能优化方案之单数据集分页SQL实现层式报表
  17. 个人使用华为云服务器的经验分享
  18. PageRank背后的数学
  19. 《Java SE实战指南》09:访问级别修饰符(Access level modifiers)
  20. pmp考试24计 | 第十三计-计清:首先和首要

热门文章

  1. php生成红包数组,PHP 生成微信红包代码简单
  2. 学python看书还是视频效率高_学习是看书还是看教学视频更有效率?
  3. html条件查询的页面,如何在 url 中记录页面搜索条件
  4. linux修改ip配置文件_协助调试Linux服务器经验分享
  5. 怎么看待传菜机器人_餐厅服务机器人可能是什么样的?
  6. python处理svg 平移 旋转_svg rotate 怎么转化平移和旋转两个参数。
  7. 中南大学c语言试题期末考试,2011年中南大学C语言期末试题卷A
  8. MacOS 安装PHP5.6
  9. 【转】MyBatis缓存机制
  10. codeforces 379F-New Year Tree