关注微信公众号:人工智能前沿讲习回复"蒋正锴"获取PPT与视频资料视频资料可点击下方阅读原文在线观看

导读

在神经网络中,我们知道卷积层通过卷积核和原始特征的线性结合得到输出特征,由于卷积核通常是局部的,为了增加感受野,往往采取堆叠卷积层的方式,实际上这种处理方式并不高效。同时,计算机视觉的很多任务都是由于语义信息不足从而影响最终的性能。自注意力机制通过捕捉全局的信息来获得更大的感受野和上下文信息。这次的分享主要从自注意力的角度分析最近的一些发展,以及相应的改进方案。

作者简介

蒋正锴,中科院自动化所模式识别国家重点实验室在读二年级硕士,本科毕业于东北大学自动化专业,发表AAAI 论文一篇,ECCV 2018实例分割第三名成员(第四作者)。目前的研究兴趣在图像视频的检测分割。

Introduction

自注意力机制 (self-attention)[1] 在序列模型中取得了很大的进步;另外一方面,上下文信息(context information)对于很多视觉任务都很关键,如语义分割,目标检测。自注意力机制通过(key, query, value)的三元组提供了一种有效的捕捉全局上下文信息的建模方式。接下来首先介绍几篇相应的工作,然后分析相应的优缺点以及改进方向。

RelatedWorks

Attention is all you need [1] 是第一篇提出在序列模型中利用自注意力机制取代循环神经网络的工作,取得了很大的成功。其中一个重要的模块是缩放点积注意力模块(scaled dot-product attention)。文中提出(key,query, value)三元组捕捉长距离依赖的建模方式,如下图所示,key和query通过点乘的方式获得相应的注意力权重,最后把得到的权重和value做点乘得到最终的输出。

Non-localneural network [2] 继承了(key, query, value) 三元组的建模方式, 提出了一个高效的non-local 模块, 如下图所示。在Resnet网络中加入non-local模块后无论是目标检测还是实例分割,性能都有一个点以上的提升(mAP),这说明了上下文信息建模的重要性。

Danet [3]是来自中科院自动化的工作,其核心思想就是通过上下文信息来监督语义分割任务。作者采用两种方式的注意力形式,如下图所示,分别是spatial和 channel上,之后进行特征融合,最后接语义分割的head 网络。思路上来说很简单,也取得了很好的效果。

Ocnet[4]是来自微软亚洲研究所的工作。同样它采用(key, query, value)的三元组,通过捕捉全局的上下文信息来更好的监督语义分割任务。与Danet [3]不同的是它仅仅采用spatial上的信息。最后也取得了不错的结果。

DFF [5] 是来自微软亚洲研究所视觉计算组的工作。如下图所示,它通过光流来对视频不同帧之间的运动信息进行建模, 从而提出了一个十分优雅的视频检测框架DFF。其中一个很重要的操作是warp, 它实现了点到点之间的对齐。在此以后出现了很多关于视频检测的工作,如, FGFA[6],Towards High Performance [7]等,他们大部分都是基于warp这个特征对其操作。由于光流网络的不准确性以及需要和检测网络进行联合训练,这说明现在视频检测中的光流计算其实不准确的。如何进行更好的建模来代替warp操作,并且起到同样的特征对其的作用是很关键的。通常而言我们假设flow运动的信息不会太远,这容易启发我们想到通过每个点的邻域去找相应的运动后的特征点,具体做法先不介绍了,欢迎大家思考(相关操作和自注意力机制)。

前面主要是简单的介绍了自注意力机制的用途,接下来分析它的缺点和相应的改进策略,由于每一个点都要捕捉全局的上下文信息,这就导致了自注意力机制模块会有很大的计算复杂度和显存容量。如果我们能知道一些先验信息,比如上述的特征对其通常是一定的邻域内,我们可以通过限制在一定的邻域内来做。另外还有如何进行高效的稀疏化,以及和图卷积的联系,这些都是很开放的问题,欢迎大家积极思考。

接下来介绍其他的一些改进策略,Senet[9] 启发我们channel上的信息很重要,如下图所示。

CBAW [10] 提出了结合spatial和channel的模块,如下图所示,在各项任务上也取得很好的效果。

最后介绍一篇来自百度IDL的结合channel as spatial的建模方式的工作 [11]。本质上是直接在(key, query, value)三元组进行reshape的时候把channel的信息加进去,但是这带来一个很重要的问题就是计算复杂度大大增加。我们知道分组卷积是一种有效的降低参数量的方案,这里也采用分组的方式。但是即使采用分组任然不能从根本上解决计算复杂度和参数量大的问题,作者很巧妙的利用泰勒级数展开后调整计算key, query, value的顺序,有效的降低了相应的计算复杂度。下表是优化后的计算量和复杂度分析,下图是CGNL模块的整体框架。

通过和non-local[2]模块的对比,如下表所示,在视频分类任务上取得了很好的效果, 也说明了channel维信息的重要性。

TakeHome Message

自注意力机制作为一个有效的对上下文进行建模的方式,在很多视觉任务上都取得了不错的效果。同时,这种建模方式的缺点也是显而易见的,一是没有考虑channel上信息,二是计算复杂度仍然很大。相应的改进策,一方面是如何进行spatial和channel上信息的有效结合,另外一方面是如何进行捕捉信息的稀疏化,关于稀疏的好处是可以更加鲁棒的同时保持着更小的计算量和显存。最后,图卷积作为最近几年很火热的研究方向,如何联系自注意力机制和图卷积,以及自注意力机制的更加深层的理解都是未来的很重要的方向。

Reference

[1]Ashish Vaswani et al. Attention Is AllYou Need. In NIPS, 2017
[2] Xiaolong Wang et al. Non-local Neural Networks. In CVPR, 2018

[3] JunFu et al. Dual Attention Network for Scene Segmentation. In arxiv, 1809.02983

[4]Yuhui Yuan et al. OCNet: Object Context Network for Scene Parsing. In arxiv,1809.00916

[5]Xizhou Zhu et al. Deep Feature Flow for Video Recognition. In CVPR 2017

[6]Xizhou Zhu et al. Flow-Guided Feature Aggregation for Video Object http://Detection.In ICCV 2017

[7]Xizhou Zhu et al. Towards High Performance for Video Object Detection. In CVPR2018

[8]Zhengkai Jiang et al. Video Object Detection with Locally-Weighted DeformableNeighbors. In AAAI 2019

[9] JieHu et al. Squeeze-and-Excitation Networks. In CVPR2018

[10]Sanghyun Woo et al. CBAM: Convolution Block Attention Module. In ECCV 2018

[11]Kaiyu Yue et al. Compact Generalized Non-local Network. In NIPS 2018

SFFAI招募召集人!

Student Forums on Frontiers of Artificial Intelligence,简称SFFAI。

现代科学技术高度社会化,在科学理论与技术方法上更加趋向综合与统一,为了满足人工智能不同领域研究者相互交流、彼此启发的需求,我们发起了SFFAI这个公益活动。SFFAI每周举行一期线下活动,邀请一线科研人员分享、讨论人工智能各个领域的前沿思想和最新成果,使专注于各个细分领域的研究者开拓视野、触类旁通。

SFFAI自2018年9月16日举办第一期线下交流,每周一期,风雨无阻,截至目前已举办18期线下交流活动,共有34位讲者分享了他们的真知灼见,来自100多家单位的同学参与了现场交流,通过线上推文、网络直播等形式,50000+人次参与了SFFAI的活动。SFFAI已经成为人工智能学生交流的第一品牌,有一群志同道合的研究生Core-Member伙伴,有一批乐于分享的SPEAKER伙伴,还有许多认可活动价值、多次报名参加现场交流的观众。

2019年春季学期开始,SFFAI会继续在每周日举行一期主题论坛,我们邀请你一起来组织SFFAI主题论坛,加入SFFAI召集人团队。每个召集人负责1-2期SFFAI主题论坛的组织筹划,我们有一个SFFAI-CORE团队来支持你。一个人付出力所能及,创造一个一己之力不可及的自由丰盛。你带着你的思想,带着你的个性,来组织你感兴趣的SFFAI主题论坛。

当召集人有什么好处?谁可以当召集人?怎样才能成为召集人?为什么要当召集人?了解我们,加入我们,请点击我要加入

查看人脸分析课程地址:https://100000323773.retail.n.weimob.com/saas/retail/100000323773/94378773/goods/detail?id=22312250173

自注意力机制_自注意力机制在计算机视觉中的应用【附PPT与视频资料】相关推荐

  1. 人工智能 自动规划 ppt 蔡自兴_分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】...

    关注微信公众号:人工智能前沿讲习对话框回复"张家绮"获取PPT与视频资料视频资料可点击→播放视频查看 导读 分布式优化理论和算法近年来在多智能体系统中得到了广泛的发展与应用,目前在 ...

  2. java 沙箱机制_浅析沙箱机制(Sandboxie)

    每个人都可能听说过以太坊的智能合约正在沙盒中运行.那沙盘究竟是什么?本文将带您了解这种机制的奥秘. 1.为什么需要沙盒机制? 默认情况下,应用程序可以访问计算机上的所有资源,例如CPU,内存,文件系统 ...

  3. java udp心跳机制_心跳包机制整理汇总

    [背景] 现需要实现这样的功能:有多个客户端连着同一个服务器.服务器和客户端之间需要"互相"知道彼此的连接状态.比如在某一时刻,服务器需要知道当前有多少个客户端正在和其通信:某一个 ...

  4. 建立完善的员工晋升机制_员工晋升机制

    员工晋升机制 第一章 总 则 一.目的 为了达到人尽其才.各尽其能,赛马不相马,让本公司职业晋升通道畅通 , 满 足公司和员工个人发展需要,提高公司和员工个人的核心竞争力,特制定本规定. 二.范围 适 ...

  5. java 事务补偿机制_重试补偿机制完善

    最近上线了一个下单平台项目,需要定时将线下的订单也推送过去,但对于补偿机制,当时是简单的进行定时,每隔15分钟拉取所有的未推送记录(包含上次未推成功的),放入MQ中,在消费端进行数据推送.---在消费 ...

  6. 怎么用python实现回归_手把手教你用Python进行回归(附代码、学习资料)-阿里云开发者社区...

    我刚开始学习数据科学时,第一个接触到的算法就是线性回归.在把这个方法算法应用在到各种各样的数据集的过程中,我总结出了一些它的优点和不足. 首先,线性回归假设自变量和因变量之间存在线性关系,但实际情况却 ...

  7. python代码在线回归中怎么运行_手把手教你用Python进行回归(附代码、学习资料)...

    原标题:手把手教你用Python进行回归(附代码.学习资料) 作者: GURCHETAN SINGH翻译:张逸校对:丁楠雅 本文共5800字,建议阅读8分钟. 本文从线性回归.多项式回归出发,带你用P ...

  8. keras cnn注意力机制_从发展历史视角解析Transformer:从全连接CNN到Transformer

    编译 | bluemin校对 | 陈彩娴Transformer架构在机器学习领域(尤其是NLP里)是一项热门研究,为我们带来了许多重要成果,比如:GPT-2.GPT-3等写稿机器人:第一代GPT及其性 ...

  9. vuepc端实现数据加载_多模态注意力机制+多模态数据,完全实现端到端课堂活动检测|ICASSP 2020...

    本文解读的是 ICASSP 2020 论文<MULTIMODAL LEARNING FOR CLASSROOM ACTIVITY DETECTION>,作者来自好未来. 作者 | 李 航 ...

最新文章

  1. Android Studio的技巧
  2. 零基础学习Java开发,这些学习笔记送给你!
  3. 深入理解JVM—性能调优
  4. 《伊甸之路》:离“现象级”一步之遥
  5. Hibernate的复合主键映射
  6. 会python学php难吗_会python再学php难吗
  7. java项目processes设置,Jvm调优和SpringBoot项目优化的详细教程
  8. 前端学习(1345):用户的增删改查操作2
  9. etcd nginx 容器_Etcd+Confd实现Nginx配置文件自动管理
  10. 阿里健康App更名为“医鹿”,加入阿里动物园式命名
  11. html 甘特图_工具项目管理工具详解——甘特图
  12. 【面向对象设计基础】抽象类
  13. java编程找异数,异类Outliers_又名异数Malcolm_Gladwell.pdf
  14. vs 2010 sp1
  15. python 开发金山打字通辅助脚本
  16. SQLite attach detach 心得
  17. 易烊千玺成为罗莱家纺品牌代言人
  18. Beta周王者荣耀交流协会第五次Scrum会议
  19. date日期格式 yyyy-MM-dd HH:mm:ss 大小写区别
  20. Altium Designer系列: DRC规则英文对照

热门文章

  1. BZOJ 1041 数学
  2. TCP、UDP及IP协议总结
  3. POJ - 3624 Charm Bracelet
  4. MyEclipse提示Errors occurred during the build
  5. 项目里面遇到的问题和解决方案的记录
  6. 最短路径(单源 dijkstra算法-邻接矩阵)
  7. 《Image Effects 》第一章学习笔记(2)
  8. WPF中的图像处理简介
  9. 2019 牛客多校第9场 B Quadratic equation(二次剩余)
  10. bzoj 3513: [MUTC2013]idiots FFT