论文笔记

1 引子

​ 在本文中,我们提出了一种新颖的协作时空(CoST)特征学习操作,它与权重共享共同学习时空特征。

​ 给定3D体积视频张量,我们通过从不同角度观看它们,将其展平为三组2D图像。 然后将2D卷积应用于每组2D图像。

图1示出了来自示例性视频剪辑的三个视图的2D快照,其中一个人在体育场高跳。 H-W的视图是人类熟悉的自然景观。 通过在时间T上从该视图逐帧扫描视频,我们能够理解视频内容。 尽管来自涉及T(即T-W和T-H)的视图的快照难以为人类解释,但它们包含与正常H-W视图完全相同的信息量。

作者在给出给出视频序列的3D向量 T * H * W,作者首先从不同的视角把它分解成3个2D图像集合,然后用卷积操作分别对三个图像集合进行卷积。从三个视角得到的视频序列分别是

1 H-W视角,就是把H-W看作一个平面,T作为单独的一个维度把平面扩充。

2 T-W视角,就是把T-W看做一个平面,H作为单独的一个维度把平面扩充

3 T-H视角,就是把T-H看做一个平面,W作为一个单独的维度把平面扩充。

这样的设计可以让每一帧都包含丰富的动作信息,而不是在两帧之间有动作信息,使用2D卷积可以直接捕捉时序动作线索,另外可以使用2D卷积学习时空特征而不用3D特征。

2 CoST

2.1 cost与 c3d 比较:

下图对比CoST操作和C3D(3x3x3)和C3D(3x1x1),C3D(3x3x3)利用3D卷积把时间和空间特征联合提取出来,C3D(3x1x1)首先用3x1x1的卷积提取时间上的特征,然后用1x3x3的卷积提取空间特征。

作者用3个3x3的2D卷积核从三个视角分别进行卷积操作,然后通过加权求和将三个特征图进行融合,需要注意的是,这里三个卷积核参数是共享的!!!。

注释:三个卷积核参数共享使得cost的参数量远少于C3D,在github非官方的cost模型实现中,cost模型参数量几乎是C3D的1/3。如果没有参数共享,cost在参数量上与C3D相当。同时作者在论文中也详细给出了参数能共享的原因。)

2.2 CoST(b)结构

作者设计两种CoST结构,这里只讲CoST(b)结构。 如图所示:

输入的的X是T×H×W×C1,C是输入特征的通道,三个视角的卷积操作可以表示为:

其中⊗表示3D卷积操作,w是增加一个维度的三个视角的共享参数。

这里的卷积可以理解为:对于H-W视角,把H-W看做一个平面,T看做是平面的堆叠,其中每一个平面有C1个通道。如果单独的看一个平面,只对一个平面进行卷积操作,则卷积核的大小为C1x3x3,卷积结果大小为H×W。从视角出发,共有T个这样的平面,则所用的平面进行卷积之后,大小为T×H×W。因为一共用C2个卷积核,所以经过卷积之后特征图的大小为T×H×W×C2.上述的公式中忽略了平面的通道数C1.

得到三个视角的特征后,对其进行加权求和得到该层的最终输出:

α=[αhw,αtw,αth],其中α是一个C2×3大小的矩阵,其中3表示三个视角,C2表示得到特征图的通道数。为了避免从多个视图得到的响应发生巨大的爆炸,用softmax对α进行归一化处理。

系数α是基于特征被网络预测得到的,这个设计灵感来源于self-attention。每个样本的系数值取决于样本自己。


在上图中,首先用全局pooling将三个视角的特征pooling为1x1x1,然后用1x1×1的卷积核进行卷积,这里的参数是共享的,接下来拼接在一起然后送入到全连接层,(特别的,在, the three sets of features feeds intoa fully connected (FC) layer, FC layer is applied to each row of the C2 × 3 matrix, which captures the contextual information among different views.)最后用softmax进行归一化处理。

非官方源代码分析 点击这里

参考 :
[1] 非常感谢 https://zhuanlan.zhihu.com/p/111704731 ,不妥侵删

Collaborative Spatiotemporal Feature Learning for Video Action Recognition 论文笔记相关推荐

  1. A Comprehensive Study of Deep Video Action Recognition 论文笔记

    A Comprehensive Study of Deep Video Action Recognition 论文链接: https://arxiv.org/abs/2012.06567 一. Pro ...

  2. 【论文笔记】Spatiotemporal Residual Networks for Video Action Recognition

    目录 摘要 1 介绍 3. 技术方法 3.1 Two-Stream residual 网络 3.2跨时间的卷积剩余连接 3.3建议结构 (Proposed architecture) 参考文献 参考 ...

  3. 【论文阅读】Rethinking Spatiotemporal Feature Learning For Video Understanding

    [论文阅读]Rethinking Spatiotemporal Feature Learning For Video Understanding 这是一篇google的论文,它和之前介绍的一篇face ...

  4. DMC-Net: Generating Discriminative Motion Cues for Fast Compressed Video Action Recognition 论文赏析

    DMC-Net: Generating Discriminative Motion Cues for Fast Compressed Video Action Recognition 论文赏析 前言 ...

  5. A Survey on Deep Learning for Named Entity Recognition论文笔记

    前言:研究课题定为特定领域的命名实体识别,所以先阅读一篇综述,在此简单记录阅读过程. 摘要 在文章中,首先介绍现有的NER资源,包括标记的NER语料库及现成的NER工具,然后对现有的工作进行了分类:输 ...

  6. 论文笔记【A Comprehensive Study of Deep Video Action Recognition】

    论文链接:A Comprehensive Study of Deep Video Action Recognition 目录 A Comprehensive Study of Deep Video A ...

  7. 视频时序动作识别(video action recognition)介绍

    一.视频时序动作识别算法分类 根据网络的工作方式,可以将视频时序动作识别算法大致分为四大类: 采用2D卷积的方法 采用3D卷积的方法 双流法 引入VLAD的方法 1.1 采用2D卷积的方法 <T ...

  8. 视频动作识别--Convolutional Two-Stream Network Fusion for Video Action Recognition

    Convolutional Two-Stream Network Fusion for Video Action Recognition CVPR2016 http://www.robots.ox.a ...

  9. Dynamic GCN:Dynamic GCN: Context-enriched Topology Learning for Skeleton-based Action Recognition

    Dynamic GCN: Context-enriched Topology Learning for Skeleton-based Action Recognition 动态GCN:基于骨架的动作识 ...

最新文章

  1. 关于DOM的有关总结
  2. Mac没有winnt格式_8款优秀软件,让你使用mac更舒适
  3. 红帽:虚拟化关键业务应用需突破五大障碍
  4. url映射 ccf (Java正则表达式80分解法)
  5. 第二十三天 how can I 坚持
  6. Vue笔记-Ant Design Vue构建前端连接后端WebSocket
  7. apache安装_kali Linux下的Apache的配置和安装:
  8. php 防止url输入,php防止伪造数据从地址栏URL提交的方法
  9. 2018-03-28-日剂
  10. php简易微博系统,基于html、css、PHP开发一个简单的微型博客系统(微博)
  11. OpenGL制作简易地图(一)
  12. php实现支付宝对账单打通
  13. matlab 函数输出 向量,matlab中的函数返回向量
  14. 揭秘JavaScript中“神秘”的this关键字
  15. 企业服务器固态硬盘寿命,SSD固态硬盘使用寿命短?_企业存储技术与评测-中关村在线...
  16. Vue组件之间的通信-父传子-子传父
  17. html有序列表序号字体大小,css – 对不同字体大小的排序列表编号进行样式化
  18. matlab 28335,基于DSP28335和MATLAB在线编程VF控制实现毕业设计
  19. HBuilder 代码格式化时清除空行
  20. 输入三角形的三边长,如果能构成三角形,计算三角形的周长和面积

热门文章

  1. VSCode系列之IDEA快捷键
  2. 如何重命名WordPress WP内容目录
  3. 解锁安卓手机端无损flac音乐免费播放和下载
  4. IBM bladecenter H刀箱BladeCenter北电交换机VLAN配置
  5. 系统分析师上午题-第 8 章 企业信息化战略与实施
  6. 设计师们都在用的3D软件汇总,确定不来学学嘛
  7. 通过修改键盘映射替代损坏按键
  8. VOCBENCH声码器评价基准
  9. 【读书笔记】计算广告(第1部分)
  10. 基于PHP的潮流服装商城系统