Large-scale Video Classification with Convolutional Neural Networks
1. Introduction
从实际的角度来看,目前没有匹配现有图像数据集的规模和多样性的视频分类基准,因为视频显然难以收集,注释和存储。为了获得足够的数据来训练我们的CNN架构,我们收集了一个新的Sports-1M数据集,其中包含一百五十万个YouTube视频,分类为487个运动类别。我们让Sport一1M可用于研究界,以支持今后在这方面的工作。
从计算角度来说,CNN需要大量的训练时间来有效地优化参数化模型的数百万个参数。由于网络必须一次处理不是一个图像而是处理多个视频帧,所以在及时扩展架构的连接性时,会更加复杂。为了减轻这个问题,我们表明,加速CNN的运行性能的有效方法是修改架构以包含两个单独的处理流:在低分辨率帧学习特征的context流,和仅在帧的中间部分操作的高分辨率fovea流。由于输入的维度降低,我们观察到网络的运行性能增加了2-4倍,同时保持分类精度。
最后,出现的一个自然而然的问题是,在Sport-1M数据集上学习的特征是否足够通用泛化到一个不同的较小的数据集。我们经验性地调查迁移学习问题,在UCF-101上取得显着性能(65.4%,高于41.3%),通过重新使用Sports-1M数据集上学习的低级功能,而不是在UCF-101上从头训练整个网络。此外,由于UCF-101中只有一些类与体育有关,所以我们可以量化两种设置中迁移学习的相对改进。
•我们提供了多种方法的广泛实验性评估,以将CNN扩展到大型数据集上的视频分类,其中包含487个类别的100万视频(我们以Sports-1M数据集的形式发布),并比强大的基于特征的baseline报告显着的性能提升。
•我们突出强调以两种空间分辨率(低分辨率context流和高分辨率fovea流)处理输入的架构,作为一种有前途的方式,可以在无任何损失精度下改进CNN的运行性能。
•我们将网络应用到UCF-101数据集,并报告了比基于特征的最新技术结果和训练建立的baseline的重大改进在UCF-101。
2.Related Work
3. Models
本文中我们将每个视频视为一袋短的、固定尺寸的短片。 由于每个剪辑在时间上包含几个连续的帧,我们可以在时间维度上扩展网络的连接,以学习时空特征。 有关扩展连接的精确细节有多个选项,我们将在下面描述三种广泛的连接模式类别(早期融合,后期融合和慢速融合)。之后,我们描述了一种用于解决计算效率的多分辨率架构。
3.1. Time Information Fusion in CNNs
我们首先描述baseline单帧CNN,然后根据不同的融合类型讨论其在时间维度上的扩展。
Single-frame。
Early fusion:
Late Fusion
Slow Fusion
Slow fusion模型是在整个网络中缓慢融合时间信息的两种方法之间的平衡混合,使得更高层在空间和时间维度上逐渐获得更多的全局信息。这通过在时间上扩展所有卷积层的连接性并且除了空间卷积之外还执行时间卷积来计算激活来实现,如[1,10]所示。在我们使用的模型中,第一个卷积层是扩展为通过与步幅2的有效卷积将时间范围T = 4的每个滤波器应用于10帧的输入剪辑,并且在时间上产生4个响应。第二和第三层用时间范围T = 2和步幅2的滤波器迭代该过程。因此,第三卷积层可以访问所有10个输入帧的信息。
Large-scale Video Classification with Convolutional Neural Networks相关推荐
- bag of tricks for image classification with convolutional neural networks
图像分类算法优化技巧:Bag of Tricks for Image Classification - 知乎点击→查看原文 关注微信公众号:人工智能前沿讲习 重磅干货,第一时间送达 论文复现对很多人而 ...
- 基于CNN的动态手势识别:Real-time Hand Gesture Detection and Classification Using Convolutional Neural Networks
Real-time Hand Gesture Detection and Classification Using Convolutional Neural Networks论文解读 1. 概述 2. ...
- CVPR 2016 《Object Detection from Video Tubelets with Convolutional Neural Networks》论文笔记
本学弱喜欢在本子上记笔记,但字迹又丑. 望看不懂我的字的大佬不要喷我,看得懂的大佬批评指正.
- 训练技巧详解【含有部分代码】Bag of Tricks for Image Classification with Convolutional Neural Networks
论文地址:https://arxiv.org/pdf/1812.01187.pdf 更多方法和代码可见:图像分类任务中的tricks总结 更多更全的tricks补充(补充链接也是福利满满~) 目录 2 ...
- 【FeatherNets】《FeatherNets:Convolutional Neural Networks as Light as Feather for Face Anti-spoofing》
CVPR-2019 workshop code:https://github.com/SoftwareGift/FeatherNets_Face-Anti-spoofing-Attack-Detect ...
- 《每日论文》ImageNet Classification with Deep Convolutional Neural Networks
这篇论文是剖析 CNN 领域的经典之作,也是入门 CNN 的必读论文.作者训练了一个面向数量为 1.2 百万的高分辨率的图像数据集 ImageNet, 图像的种类为 1000 种的深度卷积神经网络. ...
- AlexNet论文翻译(中英文对照版)-ImageNet Classification with Deep Convolutional Neural Networks
图像分类经典论文翻译汇总:[翻译汇总] 翻译pdf文件下载:[下载地址] 此版为中英文对照版,纯中文版请稳步:[AlexNet纯中文版] ImageNet Classification with De ...
- 论文研读 —— 6. ImageNet Classification with Deep Convolutional Neural Networks (3/3)
文章目录 6. Results 6.1. Qualitative Evaluations 7. Discussion References 6. Results Our results on ILSV ...
- ImageNet Classification with Deep Convolutional Neural Networks论文翻译——中英文对照
文章作者:Tyan 博客:noahsnail.com | CSDN | 简书 翻译论文汇总:https://github.com/SnailTyan/deep-learning-papers- ...
- Convolutional Neural Networks for Sentence Classification(卷积神经网络句子分类)
目录 摘要 原文 翻译 单词解释 技术解读 引言 原文 翻译 单词解释 技术解读 原文 翻译 单词解释 技术解读 原文 翻译 单词解释 技术解读 原文 翻译 单词解释 技术解读. Model 原文 单 ...
最新文章
- 【敏捷个人俱乐部-北京】及【免费敏捷结果线下练习】报名帖
- 台湾国立大学郭彦甫Matlab教程笔记(9) basic plotting
- 了解CUDA计算(一)
- dedecms mysql 支持_安装dedecms MySQL 支持 不支持无法使用本系统 GD 支持Off解决办法...
- 读取csv文件 java_Java:逐步读取/流式传输CSV文件
- MATLAB的dir函数
- 扩大swap分区--Ubuntu手记之系统配置
- 克隆安装oracle,Oracle 之 Cloning $oracle_home (克隆安装oracle软件)
- jdk1.8对synchronized锁的优化
- python3纵向输出字符串_Python 3.x 格式化输出字符串 % format 笔记
- Android消息队列图片记录
- layui分页完整实例php,使用 layui 后端分页的实例
- ElasticSearch从入门到精通:Logstash妙用
- 光环PMP ITTO
- 2019 iPad iPhone所有尺寸
- 热烈欢迎中消云物联网研究院一行莅临上海铭控!
- scratch项目:自制电子乐器(Scratch声音类积木的应用/scratch的声音魔法)
- 当我知道这些网址以后,我后悔以前没有好好学
- Multisim # 数字逻辑仿真实验一些基础的tips
- 【学术篇】不知道该起啥标题了怎么办OvO
热门文章
- 我的前端“先行”之路
- 不需要数据库的php迷你博客程序,GitHub - Smilefish0/miniblog: 一个不需要数据库、轻量级、微型、开源的博客程序!...
- element Table+Pagination实现分页
- 纽约市建筑能源得分预测代码分析
- 消防报警图形显示装置linux,消防中控-消防控制室图形显示装置状态识别及操作...
- 一剪梅·红藕香残玉簟秋
- Proteus做C51最小系统的仿真
- 5G核心网中的数据管理
- 如何成为高手?嵌入式开发进阶之路...
- 用Nodejs爬取Matrix67的博客