Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?

网址:http://openaccess.thecvf.com/content_cvpr_2018/papers/Hara_Can_Spatiotemporal_3D_CVPR_2018_paper.pdf

Abstract

本文主要工作:当前传统的研究都只关注shallow 3D结构,而我们在各类数据集上比较从较浅到非常深的各种3D CNN的结构。

主要结论:

1)在UCF-101, HMDB-51, and ActivityNet上,resnet-18过拟合严重;但在kinecits,并未出现过你和。

2)Kinetics 可以训练非常深的3D CNNs,例如152 resnet

3)Kinetics 预训练的简单3D结构都能比复杂2D结构表现好

Introduction

在行为识别上,well-organized 的3D模型都没有一些stacked flow和RGB images的2D模型好

原因:1)当前视频数据集较小,而3D CNN中参数多

2)预训练问题:3D CNNs can only be trained on video datasets,然而2D CNN有imagenet预训练

所以作者提出主要困惑:3D CNN能否重现 2D CNN和ImageNet的历史? 使用在Kinetics上训练的3D CNN能否在行为识别or其他各类任务上产生和imagenet相似的作用? 要解答上述疑惑,kinetics要预备的特点: 1)Kinetics要像ImageNet一样大规模 2)Kinetics要支持训练very deep的结构,这样才能回答上述问题。

本文的主要工作:

1)从relatively shallow to very deep 探究不同的3D CNN结构在不同数据集:UCF-101, HMDB-51, ActivityNet,Kinetics上的性能。网络结构主要基于resnet。

2)探究from scratch和 fine-tuning的比较

本文最主要贡献:this is the first work to focus on the training of very deep 3D CNNs from scratch for action recognition

Experimental configuration

探究的三个问题:

1)determine whether current video datasets have sufficient data for training of deep 3D CNNs

探讨当前的数据集是否足够大,可以训练复杂的3D CNN网络。这里我们用resnet18(最小的resnet结构)在几个数据集上学习。如果resnet18在某个数据集上过拟合,就说明该数据集太小了,以至于不能训练deep 3D CNNs from scratch,因为resnet18已经是比较小的结构。

2)conducted a separate experiment to determine whether the Kinetics dataset could train deeper 3D CNNs.

这一部分主要探究,在Kinetics可以设计多深的3D CNNs。模型深度从18到200。如果可以达到imagenet在深resnet上的性能,我们可以用该数据集来做行为识别中其他数据的预训练

3)examined the fine-tuning of Kinetics pretrained 3D CNNs on UCF-101 and HMDB-51

探讨kinetics产生的预训练参数对小数据集UCF101 和 HMDB-51产生的影响。网络结构:ResNet (basic and bottleneck blocks), pre-activation ResNet ,wide ResNet (WRN) , ResNeXt, and DenseNet

Experiment

1.第一个问题的探究,在resnet18上他牛不同数据集

1) resnet18在UCF-101, HMDB-51, and ActivityNet的验证误差远远大于训练误差,说明resnet18在这些数据集上过拟合了,所以推断出在这些数据集上train deep 3D CNNs from scratch 是不可行的。但在Kinetics结构不同,并不过拟合,所以可以在Kinetics上训练deep 3D CNNs

2.第二个问题的探究,kinetics能训练多深的3D网络?

验证深层网络在Kinetics上的结果,发现随着depth的升高,acc上升,直到resnet152饱和。但resnet200和resnet152结果差不多,可能已经开始过拟合了。

3.验证fine-tuning和从头训练的对比

Kinetics可以从头训练,但其他数据集不行,所以用Kinetics给其他数据预训练,结果差的还挺多

个人总结

本文有点像总结性论文,探究了多种resnet结构在当前行为识别上的多个常见数据集上的性能。从而得到结论:

1)现有的很多行为识别数据集都太小,不能从头开始训练复杂的3D 网络结构

2)但Kinetics可以,并且网络可以设计的非常深,resnet152 ,resneg200等

3)在行为识别上,Kinetics可以充当imagenet的作用,给其他数据集提供预训练。

github上代码很全,但其实本文的实验结果并不好。例如ucf101用kinetic预训练,resnet50才到89.3。之前的paper,TSM(Temporal Shift Module for Efficient Video Understanding)好像能做到96了。并且作者用了很多图像增强的trick,实际我在ucf101上没用这些trick复现论文时,达不到89。

Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?相关推荐

  1. 【论文阅读】Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?

    [论文阅读]Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet? 之前提出的3D卷积网络的深度都很浅,因为当时 ...

  2. Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet

    Abstract 本研究的目的是确定现有的视频数据集是否有足够的数据来训练具有时空三维核的非常深卷积神经网络(cnns).近年来,三维cnns在动作识别领域的性能水平有了显著的提高.然而,到目前为止, ...

  3. Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet? (CVPR 2018)

  4. AutoCAD 2D与3D大师班学习教程 AutoCAD 2D and 3D Masterclass

    用实例和解决问题的方法完成从基础到专业的AutoCAD课程. 你会学到什么 AutoCAD课程包含创建计划和模型的命令和不同方法的详细使用. 本课程包括对AutoCAD中使用的所有命令和工具的详细解释 ...

  5. 多帧点云数据拼接合并_自动驾驶:Lidar 3D传感器点云数据和2D图像数据的融合标注...

    自动驾驶汽车的发展已经见证了硬件传感器记录感官数据的容量和准确度的发展.传感器的数量增加了,新一代传感器正在记录更高的分辨率和更准确的测量结果. 在本文中,我们将探讨传感器融合如何在涉及环环相扣的数据 ...

  6. 双目相机定位3d python_用深度学习实现 2D 到 3D 的转换

    随着 5G 时代的到来,VR 端应用呈爆发式增长,3D 内容作为构建 VR 生态的主力输出一直深受广大用户的追捧和喜爱.针对目前 3D 内容过少,质量不高.生产昂贵等现状,爱奇艺作为国内领先的互联网视 ...

  7. 【单目3D】在自动驾驶中将 2D 物体检测提升到 3D

    Lifting 2D object detection to 3D in autonomous driving 单目 3D 目标检测使用 RGB 图像来预测目标 3D 边界框.由于 RGB 图像中缺少 ...

  8. 闪客工具:基于Flash 3D API Molehill 进行GPU加速2D的引擎

    下载swc地址: https://github.com/nulldesign/nd2d/downloads 转 peter-黄俊 的微博: 采用Flash 3D API Molehill 进行GPU加 ...

  9. 论文阅读:X-ray2Shape: Reconstruction of 3D Liver Shape from a Single 2D Projection Image

    X-ray2Shape: Reconstruction of 3D Liver Shape from a Single 2D Projection Image X-ray2Shape:从单个2D投影图 ...

最新文章

  1. 如何设置WebLogic生成的日志文件的权限?
  2. Apache Kafka(二)- Kakfa 安装与启动
  3. 《Java8实战》笔记(04):引入流
  4. java bean set_JavaBean自动生成get和set方法
  5. matlab 三维 作图 坐标轴_MATLAB学习——MATLAB中的三维绘图指令
  6. 领域驱动设计之单元测试最佳实践(二)
  7. python-mysql数据插入与查询
  8. java跟setattribute,java 中的request.setAttribute和session.setAttribute的区别
  9. 双击java安装包没有反应_eclipse安装包双击没反应怎么回事?
  10. 知悉未来的趋势 ---- 小评 创新者的窘境
  11. 爬虫(二)—解析真实网页(猫途鹰)
  12. 记一次笔记本win键失灵 不能用 windows 徽标键失灵
  13. 布兰迪斯大学计算机美国大学排名,布兰迪斯大学2021年US News美国最佳大学排名第几?...
  14. 今天不谈技术,说说一些常用的软件~By 逆天
  15. 深入理解什么是LSM-Tree
  16. BZOJ_4864_[BeiJing 2017 Wc]神秘物质_Splay
  17. can only accept this command while in the powered on state(iOS蓝牙 打开app后的第一次扫描要扫描两次)
  18. js前端面试题总结及答案
  19. PyCharm导入库
  20. element-plus打包报错/vue3.0+vite+ts别名引入ts文件报错

热门文章

  1. Lorenz洛伦兹微分方程的Python求解
  2. 浅析西方反风电风潮与我国风电建设
  3. 安卓配置MotionPro登陆校园网的方法
  4. 计算机地质绘图实验报告,计算机地质绘图实习报告作业二.doc
  5. 大连考研英语百家雅思六级英语与考研英语的区别及策略
  6. 苹果将收购Intel手机芯片,让采购主管接任Jony Ive,实用主义者也能成为先知
  7. 算力智库创始人燕丽新书著作《隐私计算:开启数据共享新商业模式》上市,首次系统性详录全场景应用案例
  8. NEFU 2021大一寒假集训总结赛 全题解
  9. Thunderbird备份和导入文件和数据
  10. 实现简单的打星(打分)效果