行为识别 - X3D: Expanding Architectures for Efficient Video Recognition
文章目录
- 0. 前言
- 1. 要解决什么问题
- 2. 用了什么方法
- 3. 效果如何
- 4. 还存在什么问题
0. 前言
- 相关资料:
- arxiv
- github,mmaction2 中也放上了
- 论文解读
- 论文基本信息
- 领域:视频理解,包括行为识别、Temporal Action Detection
- 作者单位:FAIR
- 发表时间:2020.4
1. 要解决什么问题
- 当前视频理解相关的模型基本都是在2D卷积神经网络的基础上进行一些扩展。
- 输入数据从
N, C, H, W
增加时间尺度N, T, C, H, W
。 - 将2D卷积操作转换为3D卷积操作,增加对时间尺度的处理。
- 这种扩展一般来说会提高性能,但计算量也会大大增加。
- 输入数据从
- 如果在多个尺度上进行扩展,模型效果会如何呢?
- 一句话总结:扩展网络的参数,网络的参数不只有模型相关(如深度、特征图深度、宽度等),还有输入帧数量、尺寸、帧率等。
2. 用了什么方法
- X3D,是Expand 3D的缩写。
- 主要思路:
- 之前的网络主要是在时间维度上扩展2D卷积神经网络。
- 但时间尺度上扩展不一定是最佳选择,还可以在别的尺度上扩展。
- 这种设计的灵感主要来源于之前设计卷积网络都是在depth/resolution/width上进行扩展,另外还借鉴了机器学习中特征选择的方法。
- 需要扩展的axis(这几个axis可以理解为网络的几个基本参数……)
- 输入数据的总帧长度。
- 输入数据的帧率。
- 输入帧的尺寸。
- 网络宽度(其实就是每个conv的的通道数量)
- bottlenet层宽度(即bottlenet中前两个conv的通道数量)
- 网络深度(其实就是bottlenet的数量)
- 模型训练过程(好像就叫做Coordinate Descent):
- 首先,给定一个初始状态,如下表所示,认为所有参数取值为1。
- 然后,每次改变一个参数,控制参数量与算力、训练模型,选择性能最后的模型作为下一步的输入。
- 以此类推,直到达到所需要的算力为止。
- 一次模型训练的实例
- 上面训练过程中所谓的
改变一个参数
,好像也是预先定义了几种,没细看,应该就是对几个参数的改变。
3. 效果如何
- 太666了,在比之前的模型少4.8倍multiply-adds、少5.5倍参数的情况下,达到了差不多的精度……
- 尼玛太233了。
- 不同尺寸的X3D模型
- 在各种数据集上的效果,2333
- 最666的图,跟当时看到yolo论文的感觉差不多,性能碾压(没把自己放到第二象限就已经很给面子了)
4. 还存在什么问题
- 效果这么6,但很难复现,主要是训练代码吧。坐等开源。
- 然后开源的没有训练代码,只有训练好的结构。
- 不知道放到手机上运行会如何。
- 必须要用PyTorch的某个patch才能达到加速的效果,如果用默认的PyTorch,速度特别慢。
- 我没看过 EfficientNet3D的论文,可能跟本文很相关,后续要补看一下。
行为识别 - X3D: Expanding Architectures for Efficient Video Recognition相关推荐
- 【X3D: Expanding Architectures for Efficient Video Recognition】
X3D: Expanding Architectures for Efficient Video Recognition 一.综述 二.网络结构 三.结论 一.综述 Feichtenhofer受机 ...
- 精读《X3D: Expanding Architectures for Efficient Video Recognition》论文
文章目录 1 背景说明 2 之前方法存在的问题 3 文章要解决的核心问题 4 文章的贡献 5 结论 6 X3D Networks 6.1 Basis instantiation 6.2 Expansi ...
- 【论文翻译】X3D: Expanding Architectures for Efficient Video Recognition
参考 X3D: Expanding Architectures for Efficient Video Recognition个人论文笔记 X3D: Expanding Architectures f ...
- 动作识别《X3D: Expanding Architectures for Efficient Video Recognition》
开源代码:https://github.com/facebookresearch/SlowFast 核心思想: 论文的核心思想是在考虑计算量和准确率的折中前提下,只沿着时间维度进行扩展并不一定比沿着其 ...
- X3D: Expanding Architectures for Efficient Video Recognition 论文学习
Abstract 本文提出的 X3D 是一组高效率的视频网络,沿着网络的空间.时间.宽度和深度维度来对较小的2D图像分类结构进行扩展.受到机器学习中特征选择方法的启发,本文使用了一个简单的.逐步的网络 ...
- 《X3D: Expanding Architectures for Efficient Video Recognition》论文详解
论文地址:https://arxiv.org/abs/2004.04730 代码地址:https://github.com/facebookresearch/SlowFast 该篇文章也是Facebo ...
- X3D: Expanding Architectures for Efficient Video Recognition个人论文笔记
https://zhuanlan.zhihu.com/p/129279351 这篇X3D的解读写的比我早,写的挺好的,但有些细节没写上,所以由于强迫症写了这篇个人笔记 X3D为一系列的高效视频分类网络 ...
- 12【mmaction2 行为识别商用级别】X3D复现 demo实现 检测自己的视频 Expanding Architecturesfor Efficient Video Recognition
github(新版):https://github.com/Whiffe/mmaction2_YF 码云(新版):https://gitee.com/YFwinston/mmaction2_YF.gi ...
- FrameExit:Conditional Early Exiting for Efficient Video Recognition
一篇高效视频行为检测的论文 原论文链接:https://arxiv.org/abs/2104.13400 代码:https://github.com/Qualcomm-AI-research/Fram ...
最新文章
- 线程访问临界区的问题 实例,需解决
- 生产者与消费者(三)---BlockingQueue
- DQN 处理 CartPole 问题——使用强化学习,本质上是训练MLP,预测每一个动作的得分...
- [HOW TO]-Ubuntu下 Tomcat 9 的设置办法
- 华为Mate20首支预告片爆出,30秒内包含太多黑科技
- world scientific is the journal to follow
- 调焦后焦实现不同距离成像_“物镜校正环调节”对显微成像的影响
- C++ const的使用
- 2数据库表增加一个字段_14个实用的数据库设计技巧!
- 仿QQ打开网址显示的当前网页非官方页面
- 高效能人士的七个习惯_有史以来最具影响力管理类书籍 高效能人士的七个习惯 让你成为一名成功高效的人士...
- G - 数字转换 LibreOJ - 10155
- 【技术邻】基于DynaForm的多工步连续模(级进模)分析实例
- 深度学习论文精读05——用于乳腺癌组织病理学图像分类的深度特征
- 判断手机号是否可注册淘宝
- Qt飞机大战小游戏(c++从零开始实现)
- 分享快手极速版助手APK和源代码
- 磁盘碎片整理的新方法
- lcd驱动分析(读书笔记)
- 计算1000以内所有不能被7整除的整数之和