ECCV 2018 | 美图云联合中科院提出基于交互感知注意力机制神经网络的行为分类技术...
以往注意机制模型通过加权所有局部特征计算和提取关键特征,忽略了各局部特征间的强相关性,特征间存在较强的信息冗余。为解决此问题,来自美图云视觉技术部门和中科院自动化所的研发人员借鉴 PCA(主成分分析)思想,提出了一种引入局部特征交互感知的自注意机制模型,并将模型嵌入到 CNN 网络中,提出一个端到端的网络结构。该算法在多个学术数据集和美图公司内部工业界视频数据集上的行为分类表现都非常出色。基于该算法思想的相关论文「Interaction-aware Spatio-temporal Pyramid Attention Networks for Action Classification」已被 ECCV 2018 收录,下文将从背景、核心思想、效果和应用前景几个方面进行介绍。
一、背景
深度卷积神经网络中,特征图里相邻空间位置的局部通道特征,往往由于它们的感受野重叠而具有很高的相关性。自注意机制模型通常利用每个局部特征内部元素的加权和(或其他函数)来获得其权重得分,此权重用于加权所有局部特征获取关键特征。尽管局部特征之间具有很高的相关性,但此权重计算并没有考虑到它们之间的相互作用。
PCA 可以提取全局特征主要维度的主成分信息,而这些主成分信息可以看作是提取的局部特征,最后降维后的全局特征即是关键局部特征的集合。注意机制的目的是从局部特征集合中提取关键部分,也就是 PCA 中的局部特征。不同的是注意力机制使用每个局部特征对应的加权得分来计算最终的全局特征。PCA 利用协方差矩阵来获得降维(或加权权重)的基向量,从而减少特征间的信息冗余和噪声。基于以上背景,该团队使用 PCA 来指导提出的注意力模型,并通过将 PCA 算法转换成损失设计实现。此外,由于深度网络中的不同层可以捕获不同尺度的特征图,算法使用这些特征图来构造空间金字塔,利用多尺度信息来计算每个局部通道特征更精确的注意力分数,这些权重得分用于在所有空间位置中对局部特征进行加权。
二、核心思想
本论文定义了一个新的交互感知时空金字塔注意力层,以此实现输入在深度卷积神经网络中各个层的不同尺度局部特征的交互感知和时空特征融合的功能。它的架构如上图所示,算法首先定义了一个下采样函数 R, 将不同层的特征图统一到一个尺度。接着对不同尺度的特征图的局部通道特征使用注意力机制进行关键特征提取,通过使用融合函数对不同尺度的特征进行融合,并计算每个局部特征的注意力得分,用于加权特征。
在 PCA 中使用协方差矩阵计算投影向量并依此进行降维,即提取关键的局部特征,本论文将其转化损失函数的设计加入到最终的模型中:
再对提出的空间金字塔注意力模型进行约束,使其不同尺度层的特征图尽量关注到不同的信息,加入分类损失得出最终的损失函数:
论文提出的模型参数与输入特征图的数目无关,因此,自然地将其拓展到视频级端到端训练的时空网络,最终的网络结构定义如下图:
三、效果
研发人员将提出的基于交互感知的时空金字塔注意力机制神经网络算法应用于美图公司的视频相关业务进行人物行为分类,效果表现优异。除此之外在公开数据集 UCF101、HMDB51 和无裁剪行为数据库 Charades 上进行了评测,也取得了领先效果,结果如下图所示 :
此外,该论文对视频时空输入进行了评测,评测结果显示出该模型能够同时处理任意数量的视频帧输入,并取得较好的实验结果。
上图给出了该算法在进行行为分类时的可视化输出结果,可以看出该算法能够对视频中关键的行为进行精确定位。
四、展望
实际应用中,业务场景对算法的运行时间要求较严苛。本论文在公开数据集上的结果均通过截取视频中的多帧得到,时间复杂度较高,后续会以降低算法时间复杂度为目标对核心模块进行优化。值得注意的是,本论文提出的空间金字塔注意力模型不受其输入特征图数量的限制,因此它很容易扩展到一个可以兼容任意数量的输入帧的时空版本,在应用中可以在分类准确率几乎不受影响的前提下,通过减少截帧数提升处理速度。
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 加入社区刷论文
ECCV 2018 | 美图云联合中科院提出基于交互感知注意力机制神经网络的行为分类技术...相关推荐
- ECCV 2018论文解读及资源集锦(8月20日更新)
本文为极市平台原创收集,转载请附原文链接: https://blog.csdn.net/Extremevision/article/details/81875068 之前我们整理了CVPR 2018 ...
- CVPR 2022|精准高效估计多人3D姿态,美图北航联合提出分布感知式单阶段模型...
来源丨AI科技评论 编辑丨极市平台 近日,计算机视觉顶会CVPR 2022公布了会议录取结果,美图影像研究院(MT Lab)与北京航空航天大学可乐实验室(CoLab)联合发表的论文被接收. 该论文突破 ...
- 意淫系列-2018美图春招笔试题
2018美图春招笔试题 只是试水,没有A类会议拒绝实习. 题不难,陪女朋友吃饭去了,然后就没怎么时间,只是看了下题. 题型:选择题和编程题,选择题25道,涉及数据结构,C,Python,C++,图像, ...
- 直播 | 美图云接入层的架构演进
分享时间 :11月6日 20:30 分享主题:美图云接入层的架构演进 分享人介绍:陈日燊,美图云平台技术专家.曾就职于360,负责游戏平台.pandaTV直播业务的基础服务,2年前加入美图基础架构部, ...
- 图深度学习入门教程(六)——注意力机制与图注意力
深度学习还没学完,怎么图深度学习又来了?别怕,这里有份系统教程,可以将0基础的你直接送到图深度学习.还会定期更新哦. 主要是基于图深度学习的入门内容.讲述最基本的基础知识,其中包括深度学习.数学.图神 ...
- ai修复照片软件是哪个软件_美图秀秀神奇的AI照片修复功能,背后用到了哪些技术?...
照片之所以重要,是因为它承载了许多珍贵的记忆.可是一些老照片,由于当年数码科技的原因像素不高,随着时间的洗礼变得模糊.不清晰,十分可惜.现在,美图秀秀微信小程序"老照片修复"功能可 ...
- 注意力机制 神经网络_图注意力网络(GAT)
引言 作者借鉴图神经网络中的注意力机制,提出了图注意力神经网络架构,创新点主要包含如下几个:①采用masked self-attention层,②隐式的对邻居节点采用不同权重③介绍了多头注意力机制. ...
- NeurIPS 2018 | 腾讯AI Lab参与提出基于随机路径积分的差分估计子
感谢阅读腾讯AI Lab微信号第58篇文章.AI领域顶会 NeurIPS 正在加拿大蒙特利尔举办,腾讯AI Lab实验室每日将深度解读一篇入选论文,今天是第2篇.Enjoy! NeurIPS (Con ...
- SIGIR 2021 | 深入探索犯罪情节,中科大提出基于环境感知的法律判决预测
©PaperWeekly 原创 · 作者 | 金金 单位 | 阿里巴巴研究实习生 研究方向 | 推荐系统 简介 法律判决预测是民法系统法律智能中的一项基本任务,旨在自动预测指控.法律条文和刑期预测等多 ...
最新文章
- android webview 多文件上传,Android中的webview支持页面中的文件上传实例代码
- mysql和mongodb替换字段中某字符
- 陈震学的什么计算机专业,一起来看看陈震学长为我们分享的前沿技术发展趋势及自己的思考吧!...
- “返回指向栈空间的指针”的错误
- java社区活跃度_Java并发编程-活跃度问题
- 分页,条件查找后再分页
- Spring : HierarchicalBeanFactory父容器访问功能
- Mac OS下phonegap开发环境的建立
- 微软原版win10系统启动盘的使用
- VaR、CoVaR、delta CoVaR计算方法综述 案例与代码
- yaml格式文件介绍
- 截至20161210沪市股票代码和名称
- 单元格内多个姓名拆分成一列_excel一个单元格中有多个名字,怎样拆分这些名字,名字是用空格分开的《excel批量分列》...
- 信息论与编码_从信息论谈数字孪生系统的大行其道
- linux中常用的加密总结--base64编码解码与openssl实现
- leetcode5473:灯泡开关 IV
- Rasa 3.x 学习系列-Rasa [3.4.1] - 2023-01-19新版本发布
- @用Python的turtle库画一个奥运五环!
- 卸载WPS后怎么WORD的图标还是WPS
- 星球专享 | 关于播放器的一次项目实践~~
热门文章
- css样式命名规则(仅供参考)
- 95. Unique Binary Search Trees II
- 练习4.4、4.5、4.6、4.7
- 《Learning.Python》pdf
- cocos2dx-Lua与Object的通讯机制
- Python服务器开发一:python基础
- 如何选择String
- mysql最大述_mysql最大字段数量及 varchar类型总结
- php sprintf 后面补0,PHP数字前补0的自带函数sprintf 和number_format的用法(详解)
- java date 转换calendar_Java中日期格式(String、Date、Calendar)的相互转换