论文浏览(38) Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos

文章目录

0. 前言
1. 要解决什么问题
2. 用了什么方法
3. 效果如何
4. 还存在什么问题&有什么可以借鉴

0. 前言

相关资料：
- arxiv
- github(CAFFE)
- 论文解读
论文基本信息
- 领域：时空行为检测
- 作者单位：University of Central Florida（简称UCF，这名字，数据集啊）
- 发表时间：2017 CVPR

1. 要解决什么问题

属于早期的基于检测的时空行为检测，探索了基于Faster R-CNN的时序行为检测方法。

2. 用了什么方法

提出了T-CNN模型，总体架构如下图所示
- 第一步，将长视频（untrimmed videos）分割为固定长度的clip（如8帧）。
- 第二步，对每个clip通过TPN（tube proposal network）生成每个clip各自的tube。
- 第三步，将所有clip中的tube连接起来（即linking tube proposals）。
- 第四步，将连接得到的长tube通过TOI Pooling等操作，实现行为分类与定位。
TPN结构
- 这一步生成的action proposal，只判断有没有行为，不判断行为类别。
- 目标：输入8帧图片，输出8个连续的bbox。
- 一些感想：在我看来，对每张图片进行检测+追踪不就可以了吗……
- 这里的思路：对8帧图片使用相同的anchor，然后分别进行 bbox reg 就能得到最终结果了（8次bbox reg的输入是一致的）。
- temporal skip pooling
  - 存在的问题：3D CNN其实丢失了帧的顺序信息（order），而temporal skip pooling就是为了保留order信息。
  - 具体实现：
    - 8帧输入到conv5的时候temporal纬度已经变为1了，通过普通的检测方法获取bbox proporals。
    - 在对上述proposal提取特征的时候，到conv2提取。因为conv2时没有对temporal纬度进行操作，可以认为conv2还保留着order信息。
    - 输入 conv5 的 proposal + conv2 的 feature，通过类似于RoI Pooling的操作就能提取定长特征，用于后面的操作。
    - 后面bbox reg的输入是通过 proposal + (conv2 & conv5) 提取的。
    - 8次bbox reg的输入都一致。
Linking Tube Proposals
- 目标：连接不同clip的tube。
- link的主要条件有两个：actionness(即每个clip中tube的动作得分，得分越高表示存在动作的概率越大)和overlap（即不同clip间tube的IoU，前一个tube最后一帧与后一个tube第一帧的IoU）。
- 通过公式计算前后帧tube之间的得分，按照得分高低进行连接。
- 得分公式如下：
Action Detection
- 目标：输入上一部得到的Linked之后的tube，对tube进行行为分类。
- 由于tube长度不一样，要对所有tube提取得到定长特征，就需要使用文中提出的ToI Pooling。

3. 效果如何

一些结果展示。很显然，在当时这个效果是非常好的。

4. 还存在什么问题&有什么可以借鉴

这个不能用在online版本中。
思路完全就是检测的two-stage，挺有意思。

论文浏览(38) Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos相关推荐

【论文笔记】Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos
这篇论文提出了一种称为管道卷积神经网络( tube convolutional neural network,T-CNN) 的结构,它是 Faster R-CNN 从 2D 到 3D 的扩展.该方法先 ...
论文阅读：Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos
Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos 文章目录 Tube Convolutional Neu ...
CVPR：Weakly-supervised Deep Convolutional Neural Network Learning for Facial Action Intensity Estima
Weakly-supervised Deep Convolutional Neural Network Learning for Facial Action Intensity Estimation ...
卷积神经网络（Convolutional Neural Network，CNN）
卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现. 它包括卷积层(con ...
论文阅读：Saliency-Guided Region Proposal Network for CNN Based Object Detection
论文阅读:Saliency-Guided Region Proposal Network for CNN Based Object Detection (1)Author (2)Abstract (3 ...
论文翻译：Two-Stream 3D Convolutional Neural Network for Human Skeleton-Based Action Recognition
摘要:在三维人体动作识别中,如何有效地从骨骼序列中提取时空信息仍然是一个挑战.虽然最近的动作识别方法是基于递归神经网络的,表现出了突出的性能,但这些方法的缺点之一是倾向于过分强调时间信息.由于三维卷积 ...
【深度学习】李宏毅2021/2022春深度学习课程笔记 - Convolutional Neural NetWork（CNN）
文章目录一.图片分类问题二.观察图片分类问题的特性 2.1 观察1 2.2 简化1:卷积 2.3 观察2 2.4 简化2:共享参数 - 卷积核 2.5 观察3 2.6 简化3:池化 2.6.1 M ...
“卷积神经网络（Convolutional Neural Network，CNN）”之问
目录 Q1:CNN 中的全连接层为什么可以看作是使用卷积核遍历整个输入区域的卷积操作? Q2:1×1 的卷积核(filter)怎么理解? Q3:什么是感受野(Receptive field)?
卷积神经网络Convolutional Neural Network (CNN)
卷积神经网络转载请注明:http://blog.csdn.net/stdcoutzyx/article/details/41596663 自今年七月份以来,一直在实验室负责卷积神经网络(Convol ...

论文浏览(38) Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos

文章目录

0. 前言

1. 要解决什么问题

2. 用了什么方法

3. 效果如何

4. 还存在什么问题&有什么可以借鉴

论文浏览(38) Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos相关推荐

最新文章

热门文章