YouTube-8M: A Large-Scale Video Classification Benchmark简介
YouTube-8M: A Large-Scale Video Classification Benchmark
Abstract
作者以1帧每秒的速度解码视频,同时利用预训练在imagenet上的Deep CNN来抽取隐藏的表征。
Introduction
作者首先利用youtube 视频标注系统对youtube-8m进行标注,同时利用包括人力手动过滤的过滤规则对标签进行相应的筛选
同时作者也提出youtube-8m的数据量较大以及种类的多样性,对进一步视频理解与表征学习有进一步的促进作用。
Feature
作者将视频的前六分钟以一帧每秒来解码,将其喂进Inception network,将最后一层隐藏层的relu激活后的输出作为特征表示。每秒的视频都是2048维。 同时移除了动作的特征,研究表明随着视频的大小与多样性的提升,效果会递减。
后续,作者使用了PCA+白化处理,量化来对数据进行压缩,同时作者说明了大小的变化只会造成1%的变化。
Models from Frame Features
对于frame-level的特征,作者给出了三种参考方法:logistic+average,deep bag of frames,lstm。
Video level representations
作者提出利用frame-level特征来表示video-level特征
同时针对video-level给出了相应的模型
Models from Video Features
作者提出三种参考方法:hinge loss,logistic regression, mixture-of-2-experts
Experiment
整体来看,lstm表现较好,同时作者提出可以使用从video中取样多个定长的片段后平均结果来进行数据增强。
这对处理frame-level feature是个很好的想法。
YouTube-8M: A Large-Scale Video Classification Benchmark简介相关推荐
- Bag of Tricks for Image Classification with Convolutional Neural Networks(卷积神经网络在图像分类中的技巧)
来源:Tong He Zhi Zhang Hang Zhang Zhongyue Zhang Junyuan Xie Mu L Amazon Web Services fhtong,zhiz,hzaw ...
- 【SFace】《SFace: An Efficient Network for Face Detection in Large Scale Variations》
arXiv-2018 文章目录 1 Background and Motivation 2 Advantages / Contributions 3 Method 3.1 Feature Pyrami ...
- Long Short-Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling论文阅读
<Long Short-Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling& ...
- Machine Learning week 10 quiz: Large Scale Machine Learning
Large Scale Machine Learning 5 试题 1. Suppose you are training a logistic regression classifier using ...
- Learning to Navigate for Fine-grained Classification
ECCV 2018 北京大学 Abstract 找出完全表征对象的细微特征并不简单(细粒度分类的挑战性) 文章提出新颖的自监督(self-supervision)机制,无需bbox和part anno ...
- 【多标签文本分类】Large Scale Multi-label Text Classification with Semantic Word Vectors
·阅读摘要: 本文提出了利用词向量+CNN/词向量+GRU来解决大规模数据下的多标签文本分类问题. [1] Large Scale Multi-label Text Classificatio ...
- Paper之BigGAN:ICLR 2019最新论文《LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS》(未完待续)
Paper之BigGAN:ICLR 2019最新论文<LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS> ...
- 【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 17—Large Scale Machine Learning 大规模机器学习...
Lecture17 Large Scale Machine Learning大规模机器学习 17.1 大型数据集的学习 Learning With Large Datasets 如果有一个低方差的模型 ...
- Introducing DataFrames in Apache Spark for Large Scale Data Science(中英双语)
文章标题 Introducing DataFrames in Apache Spark for Large Scale Data Science 一个用于大规模数据科学的API--DataFrame ...
最新文章
- Python 自然语言处理(一)字频统计
- 5训练需要更改参数吗_糖尿病病人需要多喝水吗?多喝水的5大好处,了解一下...
- php查询mysql返回大量数据结果集导致内存溢出的解决方法
- 信息学奥赛一本通 1978:【18NOIP普及组】标题统计 | 洛谷 P5015 [NOIP2018 普及组] 标题统计
- 389 Find the Difference 找不同
- PLSA隐变量主题模型的公式推导解惑
- 系统分析与设计学习笔记(一)
- paip.语义分析--分词--常见的单音节字词 2_deDuli 单字词 774个
- 单片机c语言实习报告,单片机C语言程序设计实训100例.pdf
- SSM+家装管理系统 毕业设计-附源码191452
- 史上最全后端技术介绍
- python sys库
- 网易校招内推-2023届技术类岗位
- Android 调起微信扫一扫
- 对角占优矩阵(Diagonally-dominant Matrix)
- 中国舞蹈家协会街舞委员会与微博达成战略合作
- python从图片提取文字_Python实现从图片提取文字
- java分发器 及(注解 + 反射机制)—————— 开开开山怪
- android app 退出功能,Android 完美退出 App (Exit)
- java捕鱼源码,java实现捕鱼达人
热门文章
- 常规平台刷机方法介绍-ROM开发入门到精通
- 用计算机弹不可说,适合自己的心情语录 有些秘密,不可说不能说不必说不须说...
- java工资计算器,三险一金
- ftp服务器一直显示登录密码,ftp一直弹出用户名密码
- webstorm 2018 激活破解方法大全(转)
- linux运维常用服务器软件整理和介绍
- 程序员常用的46个快捷键
- 英雄远征Erlang源码分析(12)-任务模块解析
- 支持python的云虚拟主机价格_万网云虚拟主机密码怎么样,python 购买虚拟主机测评...
- eBPF SIG年度动态: eBPF和Wasm深度融合、参与7场活动及2023展望 | 龙蜥 SIG