Collaborative Spatiotemporal Feature Learning for Video Action Recognition 论文笔记
论文笔记
1 引子
在本文中,我们提出了一种新颖的协作时空(CoST)特征学习操作,它与权重共享共同学习时空特征。
给定3D体积视频张量,我们通过从不同角度观看它们,将其展平为三组2D图像。 然后将2D卷积应用于每组2D图像。
图1示出了来自示例性视频剪辑的三个视图的2D快照,其中一个人在体育场高跳。 H-W的视图是人类熟悉的自然景观。 通过在时间T上从该视图逐帧扫描视频,我们能够理解视频内容。 尽管来自涉及T(即T-W和T-H)的视图的快照难以为人类解释,但它们包含与正常H-W视图完全相同的信息量。
作者在给出给出视频序列的3D向量 T * H * W,作者首先从不同的视角把它分解成3个2D图像集合,然后用卷积操作分别对三个图像集合进行卷积。从三个视角得到的视频序列分别是
1 H-W视角,就是把H-W看作一个平面,T作为单独的一个维度把平面扩充。
2 T-W视角,就是把T-W看做一个平面,H作为单独的一个维度把平面扩充
3 T-H视角,就是把T-H看做一个平面,W作为一个单独的维度把平面扩充。
这样的设计可以让每一帧都包含丰富的动作信息,而不是在两帧之间有动作信息,使用2D卷积可以直接捕捉时序动作线索,另外可以使用2D卷积学习时空特征而不用3D特征。
2 CoST
2.1 cost与 c3d 比较:
下图对比CoST操作和C3D(3x3x3)和C3D(3x1x1),C3D(3x3x3)利用3D卷积把时间和空间特征联合提取出来,C3D(3x1x1)首先用3x1x1的卷积提取时间上的特征,然后用1x3x3的卷积提取空间特征。
作者用3个3x3的2D卷积核从三个视角分别进行卷积操作,然后通过加权求和将三个特征图进行融合,需要注意的是,这里三个卷积核参数是共享的!!!。
注释:三个卷积核参数共享使得cost的参数量远少于C3D,在github非官方的cost模型实现中,cost模型参数量几乎是C3D的1/3。如果没有参数共享,cost在参数量上与C3D相当。同时作者在论文中也详细给出了参数能共享的原因。)
2.2 CoST(b)结构
作者设计两种CoST结构,这里只讲CoST(b)结构。 如图所示:
输入的的X是T×H×W×C1,C是输入特征的通道,三个视角的卷积操作可以表示为:
其中⊗表示3D卷积操作,w是增加一个维度的三个视角的共享参数。
这里的卷积可以理解为:对于H-W视角,把H-W看做一个平面,T看做是平面的堆叠,其中每一个平面有C1个通道。如果单独的看一个平面,只对一个平面进行卷积操作,则卷积核的大小为C1x3x3,卷积结果大小为H×W。从视角出发,共有T个这样的平面,则所用的平面进行卷积之后,大小为T×H×W。因为一共用C2个卷积核,所以经过卷积之后特征图的大小为T×H×W×C2.上述的公式中忽略了平面的通道数C1.
得到三个视角的特征后,对其进行加权求和得到该层的最终输出:
α=[αhw,αtw,αth],其中α是一个C2×3大小的矩阵,其中3表示三个视角,C2表示得到特征图的通道数。为了避免从多个视图得到的响应发生巨大的爆炸,用softmax对α进行归一化处理。
系数α是基于特征被网络预测得到的,这个设计灵感来源于self-attention。每个样本的系数值取决于样本自己。
在上图中,首先用全局pooling将三个视角的特征pooling为1x1x1,然后用1x1×1的卷积核进行卷积,这里的参数是共享的,接下来拼接在一起然后送入到全连接层,(特别的,在, the three sets of features feeds intoa fully connected (FC) layer, FC layer is applied to each row of the C2 × 3 matrix, which captures the contextual information among different views.)最后用softmax进行归一化处理。
非官方源代码分析 点击这里
参考 :
[1] 非常感谢 https://zhuanlan.zhihu.com/p/111704731 ,不妥侵删
Collaborative Spatiotemporal Feature Learning for Video Action Recognition 论文笔记相关推荐
- A Comprehensive Study of Deep Video Action Recognition 论文笔记
A Comprehensive Study of Deep Video Action Recognition 论文链接: https://arxiv.org/abs/2012.06567 一. Pro ...
- 【论文笔记】Spatiotemporal Residual Networks for Video Action Recognition
目录 摘要 1 介绍 3. 技术方法 3.1 Two-Stream residual 网络 3.2跨时间的卷积剩余连接 3.3建议结构 (Proposed architecture) 参考文献 参考 ...
- 【论文阅读】Rethinking Spatiotemporal Feature Learning For Video Understanding
[论文阅读]Rethinking Spatiotemporal Feature Learning For Video Understanding 这是一篇google的论文,它和之前介绍的一篇face ...
- DMC-Net: Generating Discriminative Motion Cues for Fast Compressed Video Action Recognition 论文赏析
DMC-Net: Generating Discriminative Motion Cues for Fast Compressed Video Action Recognition 论文赏析 前言 ...
- A Survey on Deep Learning for Named Entity Recognition论文笔记
前言:研究课题定为特定领域的命名实体识别,所以先阅读一篇综述,在此简单记录阅读过程. 摘要 在文章中,首先介绍现有的NER资源,包括标记的NER语料库及现成的NER工具,然后对现有的工作进行了分类:输 ...
- 论文笔记【A Comprehensive Study of Deep Video Action Recognition】
论文链接:A Comprehensive Study of Deep Video Action Recognition 目录 A Comprehensive Study of Deep Video A ...
- 视频时序动作识别(video action recognition)介绍
一.视频时序动作识别算法分类 根据网络的工作方式,可以将视频时序动作识别算法大致分为四大类: 采用2D卷积的方法 采用3D卷积的方法 双流法 引入VLAD的方法 1.1 采用2D卷积的方法 <T ...
- 视频动作识别--Convolutional Two-Stream Network Fusion for Video Action Recognition
Convolutional Two-Stream Network Fusion for Video Action Recognition CVPR2016 http://www.robots.ox.a ...
- Dynamic GCN:Dynamic GCN: Context-enriched Topology Learning for Skeleton-based Action Recognition
Dynamic GCN: Context-enriched Topology Learning for Skeleton-based Action Recognition 动态GCN:基于骨架的动作识 ...
最新文章
- 关于DOM的有关总结
- Mac没有winnt格式_8款优秀软件,让你使用mac更舒适
- 红帽:虚拟化关键业务应用需突破五大障碍
- url映射 ccf (Java正则表达式80分解法)
- 第二十三天 how can I 坚持
- Vue笔记-Ant Design Vue构建前端连接后端WebSocket
- apache安装_kali Linux下的Apache的配置和安装:
- php 防止url输入,php防止伪造数据从地址栏URL提交的方法
- 2018-03-28-日剂
- php简易微博系统,基于html、css、PHP开发一个简单的微型博客系统(微博)
- OpenGL制作简易地图(一)
- php实现支付宝对账单打通
- matlab 函数输出 向量,matlab中的函数返回向量
- 揭秘JavaScript中“神秘”的this关键字
- 企业服务器固态硬盘寿命,SSD固态硬盘使用寿命短?_企业存储技术与评测-中关村在线...
- Vue组件之间的通信-父传子-子传父
- html有序列表序号字体大小,css – 对不同字体大小的排序列表编号进行样式化
- matlab 28335,基于DSP28335和MATLAB在线编程VF控制实现毕业设计
- HBuilder 代码格式化时清除空行
- 输入三角形的三边长,如果能构成三角形,计算三角形的周长和面积