https://zhuanlan.zhihu.com/p/129279351
这篇X3D的解读写的比我早,写的挺好的,但有些细节没写上,所以由于强迫症写了这篇个人笔记

X3D为一系列的高效视频分类网络(从2D图像分类网络不断的从各个方面(multiple network axes)进行扩张如帧频网络深度等等,每次只从一个方面进行扩张);渐进的前向扩张后是一个后向压缩从而达到一个固定复杂度的网络;X3D系列最好的网络准确率超越除IG65M预训练的CSN之外所有网络,而且只需要之前大约五分之一的计算量和参数;本文最意外的发现是网络在保持input高像素的同时保持较少通道数可以达到非常好的表现

Candidate axes:
Temporal duration:clip时长
Frame rate:帧频
Spatial resolution:长宽像素
Network width:所有conv的通道数
Bottlenect width:bottleneck 的通道数
Depth:网络深度

本文主要启发于之前增加网络深度,输入图片像素,通道数导致的表现的提升,还基于ML中经典的特现选取(feature selection)方法,可以从最少的一组特征开始每步增加一个引起表现增加最大的特征(forward selection),也可以从所有特征开始,每步减少最不影响表现的特征(backward elimination);主要基于MnasNet改变不同网络结构的EfficientNets(空间,通道数,网络深度);与MnasNet相比,X3D一共5个step,每个step只训练6个仅改变了一个方面(axes)模型,这样的一步一步过程似乎有点忽略各种方法综合在一起的相互影响,但确实非常的简便,比起MnasNet要训练8000多个不同的网络

作者提出了几个猜想:
1.长视频稀疏采样好还是短视频稠密采样好
2.视频的像素增加的表现是否会饱和
3.slow pathway好还是fast pathway好
4.是同时增加所有ResBlock中每个的conv的通道数好,还是只增加所有所有ResBlock的每个bottleneck的通道数好
5.增加网络层数是否需要和增加输入像素相对应(增加感受野),是否对时间像素和空间像素效果同样

X2D,X3D结构主要来源于ResNet和SlowFast的Fast pathway部分,当这六个变量都为1时,input size为1*(112)^2,这时的X3D可以看作为为图像分类模型X2D。所有网络中无时间轴上的pooling或者stride

Z为可能的网络扩展因子组合,c为目标复杂度,C为FLOPS数,J为准确率
前向扩张(Forward expansion)+反向压缩(Backward contraction)

Kinetics-400 240K训练样本,20K验证样本,35K训练样本,400个人类动作类别
KInetics训练技巧:train from scratch(random initialization),和slowfast训练方法一致(同步SGD+MSRA initialization+BN+half-period cosine with initial lr 1.6+lr warmup+momentum 0.9+weight decay 10-5+dropout 0.5)
Charades训练技巧:在kinetics预训练模型上finetune,base lr=0.02,lr/10如果验证集损失饱和,weight decay 10-5
每次一个视频取一个一定帧数clip再做temporal striding,然后再对视频进行random crop或者水平翻转,将图片宽随机取样128或160

更多细节:在对比X3D和EfficientNet3D时,使用之前训练2D mobile model的技巧,SE Block,swish non-linearity(为了节省资源均有限使用),且未使用linear-bottleneck(作者发现加入后会导致不稳定的分布训练);每次的expansion rate=2是因为每次最小的可能的网络扩张就是增加帧数;每个step增加1倍的FLOPS,从6个axes来讲大致是以下操作(由于每步都有差异,所以以下各个axes的操作不一定使得FLOPS乘2,后续由于网络变大会进行一个正则化的扩展,主要通过double batchsize,half lr,drop-connect):

推理:1.K-Center:均匀采样一个视频的10个clip,将图片宽随机取样128或160,然后做center crop 2.K-LeftCenterRight:基本与上述一致除了取三个128*128 crop再做平均

同时X3D-XS,M,L与EfficientNet3D-B0,B3,B4相比,在kinetics400上的准确率均大于后者

结论:高时空像素的输入和低通道数的网络非常的高效

X3D: Expanding Architectures for Efficient Video Recognition个人论文笔记相关推荐

  1. 精读《X3D: Expanding Architectures for Efficient Video Recognition》论文

    文章目录 1 背景说明 2 之前方法存在的问题 3 文章要解决的核心问题 4 文章的贡献 5 结论 6 X3D Networks 6.1 Basis instantiation 6.2 Expansi ...

  2. 《X3D: Expanding Architectures for Efficient Video Recognition》论文详解

    论文地址:https://arxiv.org/abs/2004.04730 代码地址:https://github.com/facebookresearch/SlowFast 该篇文章也是Facebo ...

  3. 【论文翻译】X3D: Expanding Architectures for Efficient Video Recognition

    参考 X3D: Expanding Architectures for Efficient Video Recognition个人论文笔记 X3D: Expanding Architectures f ...

  4. 【X3D: Expanding Architectures for Efficient Video Recognition】

    X3D: Expanding Architectures for Efficient Video Recognition 一.综述 二.网络结构 三.结论 一.综述   Feichtenhofer受机 ...

  5. 行为识别 - X3D: Expanding Architectures for Efficient Video Recognition

    文章目录 0. 前言 1. 要解决什么问题 2. 用了什么方法 3. 效果如何 4. 还存在什么问题 0. 前言 相关资料: arxiv github,mmaction2 中也放上了 论文解读 论文基 ...

  6. X3D: Expanding Architectures for Efficient Video Recognition 论文学习

    Abstract 本文提出的 X3D 是一组高效率的视频网络,沿着网络的空间.时间.宽度和深度维度来对较小的2D图像分类结构进行扩展.受到机器学习中特征选择方法的启发,本文使用了一个简单的.逐步的网络 ...

  7. 动作识别《X3D: Expanding Architectures for Efficient Video Recognition》

    开源代码:https://github.com/facebookresearch/SlowFast 核心思想: 论文的核心思想是在考虑计算量和准确率的折中前提下,只沿着时间维度进行扩展并不一定比沿着其 ...

  8. CVPR 2017 《Deep Feature Flow for Video Recognition》论文笔记

    本学弱喜欢在本子上记笔记,但字迹又丑. 望看不懂我的字的大佬不要喷我,看得懂的大佬批评指正.

  9. 12【mmaction2 行为识别商用级别】X3D复现 demo实现 检测自己的视频 Expanding Architecturesfor Efficient Video Recognition

    github(新版):https://github.com/Whiffe/mmaction2_YF 码云(新版):https://gitee.com/YFwinston/mmaction2_YF.gi ...

最新文章

  1. ini文件怎么使用_ftp文件下载工具,ftp文件下载工具是怎么使用的?使用指南
  2. 题解——HDU 1848 Fibonacci again and again
  3. 用正则表达式去除行首行尾空格
  4. 软件开发管理的十大工作任务(FROM 栾跃)
  5. vue中获取url参数
  6. Oracle-SQL语法基础【以一个完整项目为例】
  7. 江西中医院大学计算机学院,大家好!给大家介绍一下,这是我的大学@江西中医药大学...
  8. MyEclipse使用总结——MyEclipse文件查找技巧
  9. vue 解决: *!!vue-style-loader!css-loader?{“sourceMap“:true}!../../../../vue-loader
  10. 二分图判定(涂色问题)
  11. Java split 分割 字符串(分隔符如:* ^ : | , .) 及注意点 要转义
  12. python窗口大小动态变化_python – 如何让tkinter画布动态调整窗口宽度?
  13. nfc读写软件 android手机,手机nfc万能读写软件
  14. 利用AVR单片机控制LCD320240彩屏
  15. 奇迹之剑萌新晋升大神辅助攻略 奇迹之剑游戏脚本挂机工具介绍
  16. 纯JS实现在前端制作GIF表情包的网站
  17. 九爷带你部署Mfs分布式文件系统
  18. web前端 vue axios 网页设计
  19. 在office如何安装翻译软件插件
  20. python BFS最短路径问题

热门文章

  1. 3dmax中如何隐藏骨骼
  2. 去除GHOST版系统自带的2345流氓软件
  3. 一、数组操作的基本函数
  4. 弹性地基梁板法计算原理_弹性地基梁计算模型的选择
  5. DOS DDOS DRDOS原理
  6. java写入excel模板_java实现赋值excel模板,并在新文件中写入数据,并且下载
  7. OPSS-PEG-NHS,SHN-PEG-OPSS
  8. CAC Holdings将进军入境业务
  9. C++ 类自杀 delete this
  10. 月薪8000的出租车司机给我上了震撼一课...