行为识别 - X3D: Expanding Architectures for Efficient Video Recognition

文章目录

0. 前言
1. 要解决什么问题
2. 用了什么方法
3. 效果如何
4. 还存在什么问题

0. 前言

相关资料：
- arxiv
- github，mmaction2 中也放上了
- 论文解读
论文基本信息
- 领域：视频理解，包括行为识别、Temporal Action Detection
- 作者单位：FAIR
- 发表时间：2020.4

1. 要解决什么问题

当前视频理解相关的模型基本都是在2D卷积神经网络的基础上进行一些扩展。
- 输入数据从 N, C, H, W 增加时间尺度 N, T, C, H, W。
- 将2D卷积操作转换为3D卷积操作，增加对时间尺度的处理。
- 这种扩展一般来说会提高性能，但计算量也会大大增加。
如果在多个尺度上进行扩展，模型效果会如何呢？
一句话总结：扩展网络的参数，网络的参数不只有模型相关（如深度、特征图深度、宽度等），还有输入帧数量、尺寸、帧率等。

2. 用了什么方法

X3D，是Expand 3D的缩写。
主要思路：
- 之前的网络主要是在时间维度上扩展2D卷积神经网络。
- 但时间尺度上扩展不一定是最佳选择，还可以在别的尺度上扩展。
- 这种设计的灵感主要来源于之前设计卷积网络都是在depth/resolution/width上进行扩展，另外还借鉴了机器学习中特征选择的方法。
需要扩展的axis（这几个axis可以理解为网络的几个基本参数……）
- 输入数据的总帧长度。
- 输入数据的帧率。
- 输入帧的尺寸。
- 网络宽度（其实就是每个conv的的通道数量）
- bottlenet层宽度（即bottlenet中前两个conv的通道数量）
- 网络深度（其实就是bottlenet的数量）
模型训练过程（好像就叫做Coordinate Descent）：
- 首先，给定一个初始状态，如下表所示，认为所有参数取值为1。
- 然后，每次改变一个参数，控制参数量与算力、训练模型，选择性能最后的模型作为下一步的输入。
- 以此类推，直到达到所需要的算力为止。
一次模型训练的实例
上面训练过程中所谓的改变一个参数，好像也是预先定义了几种，没细看，应该就是对几个参数的改变。

3. 效果如何

太666了，在比之前的模型少4.8倍multiply-adds、少5.5倍参数的情况下，达到了差不多的精度……
- 尼玛太233了。
不同尺寸的X3D模型
在各种数据集上的效果，2333
最666的图，跟当时看到yolo论文的感觉差不多，性能碾压（没把自己放到第二象限就已经很给面子了）

4. 还存在什么问题

效果这么6，但很难复现，主要是训练代码吧。坐等开源。
- 然后开源的没有训练代码，只有训练好的结构。
不知道放到手机上运行会如何。
- 必须要用PyTorch的某个patch才能达到加速的效果，如果用默认的PyTorch，速度特别慢。
我没看过 EfficientNet3D的论文，可能跟本文很相关，后续要补看一下。

行为识别 - X3D: Expanding Architectures for Efficient Video Recognition相关推荐

【X3D: Expanding Architectures for Efficient Video Recognition】
X3D: Expanding Architectures for Efficient Video Recognition 一.综述二.网络结构三.结论一.综述 Feichtenhofer受机 ...
精读《X3D: Expanding Architectures for Efficient Video Recognition》论文
文章目录 1 背景说明 2 之前方法存在的问题 3 文章要解决的核心问题 4 文章的贡献 5 结论 6 X3D Networks 6.1 Basis instantiation 6.2 Expansi ...
【论文翻译】X3D: Expanding Architectures for Efficient Video Recognition
参考 X3D: Expanding Architectures for Efficient Video Recognition个人论文笔记 X3D: Expanding Architectures f ...
动作识别《X3D: Expanding Architectures for Efficient Video Recognition》
开源代码:https://github.com/facebookresearch/SlowFast 核心思想: 论文的核心思想是在考虑计算量和准确率的折中前提下,只沿着时间维度进行扩展并不一定比沿着其 ...
X3D: Expanding Architectures for Efficient Video Recognition 论文学习
Abstract 本文提出的 X3D 是一组高效率的视频网络,沿着网络的空间.时间.宽度和深度维度来对较小的2D图像分类结构进行扩展.受到机器学习中特征选择方法的启发,本文使用了一个简单的.逐步的网络 ...
《X3D: Expanding Architectures for Efficient Video Recognition》论文详解
论文地址:https://arxiv.org/abs/2004.04730 代码地址:https://github.com/facebookresearch/SlowFast 该篇文章也是Facebo ...
X3D: Expanding Architectures for Efficient Video Recognition个人论文笔记
https://zhuanlan.zhihu.com/p/129279351 这篇X3D的解读写的比我早,写的挺好的,但有些细节没写上,所以由于强迫症写了这篇个人笔记 X3D为一系列的高效视频分类网络 ...
12【mmaction2 行为识别商用级别】X3D复现 demo实现检测自己的视频 Expanding Architecturesfor Efficient Video Recognition
github(新版):https://github.com/Whiffe/mmaction2_YF 码云(新版):https://gitee.com/YFwinston/mmaction2_YF.gi ...
FrameExit：Conditional Early Exiting for Efficient Video Recognition
一篇高效视频行为检测的论文原论文链接:https://arxiv.org/abs/2104.13400 代码:https://github.com/Qualcomm-AI-research/Fram ...

行为识别 - X3D: Expanding Architectures for Efficient Video Recognition

文章目录

0. 前言

1. 要解决什么问题

2. 用了什么方法

3. 效果如何

4. 还存在什么问题

行为识别 - X3D: Expanding Architectures for Efficient Video Recognition相关推荐

最新文章

热门文章