文章目录

  • 0. 前言
  • 1. 要解决什么问题
  • 2. 用了什么方法
  • 3. 效果如何
  • 4. 还存在什么问题

0. 前言

  • 相关资料:

    • arxiv
    • github,mmaction2 中也放上了
    • 论文解读
  • 论文基本信息
    • 领域:视频理解,包括行为识别、Temporal Action Detection
    • 作者单位:FAIR
    • 发表时间:2020.4

1. 要解决什么问题

  • 当前视频理解相关的模型基本都是在2D卷积神经网络的基础上进行一些扩展。

    • 输入数据从 N, C, H, W 增加时间尺度 N, T, C, H, W
    • 将2D卷积操作转换为3D卷积操作,增加对时间尺度的处理。
    • 这种扩展一般来说会提高性能,但计算量也会大大增加。
  • 如果在多个尺度上进行扩展,模型效果会如何呢?
  • 一句话总结:扩展网络的参数,网络的参数不只有模型相关(如深度、特征图深度、宽度等),还有输入帧数量、尺寸、帧率等。

2. 用了什么方法

  • X3D,是Expand 3D的缩写。
  • 主要思路:
    • 之前的网络主要是在时间维度上扩展2D卷积神经网络。
    • 但时间尺度上扩展不一定是最佳选择,还可以在别的尺度上扩展。
    • 这种设计的灵感主要来源于之前设计卷积网络都是在depth/resolution/width上进行扩展,另外还借鉴了机器学习中特征选择的方法。
  • 需要扩展的axis(这几个axis可以理解为网络的几个基本参数……)
    • 输入数据的总帧长度。
    • 输入数据的帧率。
    • 输入帧的尺寸。
    • 网络宽度(其实就是每个conv的的通道数量)
    • bottlenet层宽度(即bottlenet中前两个conv的通道数量)
    • 网络深度(其实就是bottlenet的数量)
  • 模型训练过程(好像就叫做Coordinate Descent):
    • 首先,给定一个初始状态,如下表所示,认为所有参数取值为1。
    • 然后,每次改变一个参数,控制参数量与算力、训练模型,选择性能最后的模型作为下一步的输入。
    • 以此类推,直到达到所需要的算力为止。
  • 一次模型训练的实例
  • 上面训练过程中所谓的改变一个参数,好像也是预先定义了几种,没细看,应该就是对几个参数的改变。

3. 效果如何

  • 太666了,在比之前的模型少4.8倍multiply-adds、少5.5倍参数的情况下,达到了差不多的精度……

    • 尼玛太233了。
  • 不同尺寸的X3D模型
  • 在各种数据集上的效果,2333


  • 最666的图,跟当时看到yolo论文的感觉差不多,性能碾压(没把自己放到第二象限就已经很给面子了)

4. 还存在什么问题

  • 效果这么6,但很难复现,主要是训练代码吧。坐等开源。

    • 然后开源的没有训练代码,只有训练好的结构。
  • 不知道放到手机上运行会如何。
    • 必须要用PyTorch的某个patch才能达到加速的效果,如果用默认的PyTorch,速度特别慢。
  • 我没看过 EfficientNet3D的论文,可能跟本文很相关,后续要补看一下。

行为识别 - X3D: Expanding Architectures for Efficient Video Recognition相关推荐

  1. 【X3D: Expanding Architectures for Efficient Video Recognition】

    X3D: Expanding Architectures for Efficient Video Recognition 一.综述 二.网络结构 三.结论 一.综述   Feichtenhofer受机 ...

  2. 精读《X3D: Expanding Architectures for Efficient Video Recognition》论文

    文章目录 1 背景说明 2 之前方法存在的问题 3 文章要解决的核心问题 4 文章的贡献 5 结论 6 X3D Networks 6.1 Basis instantiation 6.2 Expansi ...

  3. 【论文翻译】X3D: Expanding Architectures for Efficient Video Recognition

    参考 X3D: Expanding Architectures for Efficient Video Recognition个人论文笔记 X3D: Expanding Architectures f ...

  4. 动作识别《X3D: Expanding Architectures for Efficient Video Recognition》

    开源代码:https://github.com/facebookresearch/SlowFast 核心思想: 论文的核心思想是在考虑计算量和准确率的折中前提下,只沿着时间维度进行扩展并不一定比沿着其 ...

  5. X3D: Expanding Architectures for Efficient Video Recognition 论文学习

    Abstract 本文提出的 X3D 是一组高效率的视频网络,沿着网络的空间.时间.宽度和深度维度来对较小的2D图像分类结构进行扩展.受到机器学习中特征选择方法的启发,本文使用了一个简单的.逐步的网络 ...

  6. 《X3D: Expanding Architectures for Efficient Video Recognition》论文详解

    论文地址:https://arxiv.org/abs/2004.04730 代码地址:https://github.com/facebookresearch/SlowFast 该篇文章也是Facebo ...

  7. X3D: Expanding Architectures for Efficient Video Recognition个人论文笔记

    https://zhuanlan.zhihu.com/p/129279351 这篇X3D的解读写的比我早,写的挺好的,但有些细节没写上,所以由于强迫症写了这篇个人笔记 X3D为一系列的高效视频分类网络 ...

  8. 12【mmaction2 行为识别商用级别】X3D复现 demo实现 检测自己的视频 Expanding Architecturesfor Efficient Video Recognition

    github(新版):https://github.com/Whiffe/mmaction2_YF 码云(新版):https://gitee.com/YFwinston/mmaction2_YF.gi ...

  9. FrameExit:Conditional Early Exiting for Efficient Video Recognition

    一篇高效视频行为检测的论文 原论文链接:https://arxiv.org/abs/2104.13400 代码:https://github.com/Qualcomm-AI-research/Fram ...

最新文章

  1. 线程访问临界区的问题 实例,需解决
  2. 生产者与消费者(三)---BlockingQueue
  3. DQN 处理 CartPole 问题——使用强化学习,本质上是训练MLP,预测每一个动作的得分...
  4. [HOW TO]-Ubuntu下 Tomcat 9 的设置办法
  5. 华为Mate20首支预告片爆出,30秒内包含太多黑科技
  6. world scientific is the journal to follow
  7. 调焦后焦实现不同距离成像_“物镜校正环调节”对显微成像的影响
  8. C++ const的使用
  9. 2数据库表增加一个字段_14个实用的数据库设计技巧!
  10. 仿QQ打开网址显示的当前网页非官方页面
  11. 高效能人士的七个习惯_有史以来最具影响力管理类书籍 高效能人士的七个习惯 让你成为一名成功高效的人士...
  12. G - 数字转换 LibreOJ - 10155
  13. 【技术邻】基于DynaForm的多工步连续模(级进模)分析实例
  14. 深度学习论文精读05——用于乳腺癌组织病理学图像分类的深度特征
  15. 判断手机号是否可注册淘宝
  16. Qt飞机大战小游戏(c++从零开始实现)
  17. 分享快手极速版助手APK和源代码
  18. 磁盘碎片整理的新方法
  19. lcd驱动分析(读书笔记)
  20. 计算1000以内所有不能被7整除的整数之和

热门文章

  1. 加密恶意流量检测思路分析
  2. t20天正建筑软件服务器为空,天正建筑T20常见问题(四)
  3. 青岛abb焊接机器人编程招聘_ABB机器人焊接编程程序详细介绍
  4. eagle php,Eagle个人博客系统
  5. 庞皓《计量经济学》第4版笔记和课后答案
  6. 提升逼格的github 缩略语
  7. Python初学者值得拥有的3个Python优秀实践!你实践了嘛?
  8. 十分钟看懂图像语义分割技术(转载)
  9. c#制作一个屏幕保护程序
  10. Codeforces积分系统介绍