YouTube-8M: A Large-Scale Video Classification Benchmark

Abstract

作者以1帧每秒的速度解码视频,同时利用预训练在imagenet上的Deep CNN来抽取隐藏的表征。

Introduction

作者首先利用youtube 视频标注系统对youtube-8m进行标注,同时利用包括人力手动过滤的过滤规则对标签进行相应的筛选

同时作者也提出youtube-8m的数据量较大以及种类的多样性,对进一步视频理解与表征学习有进一步的促进作用。

Feature

作者将视频的前六分钟以一帧每秒来解码,将其喂进Inception network,将最后一层隐藏层的relu激活后的输出作为特征表示。每秒的视频都是2048维。 同时移除了动作的特征,研究表明随着视频的大小与多样性的提升,效果会递减。

后续,作者使用了PCA+白化处理,量化来对数据进行压缩,同时作者说明了大小的变化只会造成1%的变化。

Models from Frame Features

对于frame-level的特征,作者给出了三种参考方法:logistic+average,deep bag of frames,lstm。

Video level representations

作者提出利用frame-level特征来表示video-level特征

同时针对video-level给出了相应的模型

Models from Video Features

作者提出三种参考方法:hinge loss,logistic regression, mixture-of-2-experts

Experiment

整体来看,lstm表现较好,同时作者提出可以使用从video中取样多个定长的片段后平均结果来进行数据增强。

这对处理frame-level feature是个很好的想法。

YouTube-8M: A Large-Scale Video Classification Benchmark简介相关推荐

  1. Bag of Tricks for Image Classification with Convolutional Neural Networks(卷积神经网络在图像分类中的技巧)

    来源:Tong He Zhi Zhang Hang Zhang Zhongyue Zhang Junyuan Xie Mu L Amazon Web Services fhtong,zhiz,hzaw ...

  2. 【SFace】《SFace: An Efficient Network for Face Detection in Large Scale Variations》

    arXiv-2018 文章目录 1 Background and Motivation 2 Advantages / Contributions 3 Method 3.1 Feature Pyrami ...

  3. Long Short-Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling论文阅读

    <Long Short-Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling& ...

  4. Machine Learning week 10 quiz: Large Scale Machine Learning

    Large Scale Machine Learning 5 试题 1. Suppose you are training a logistic regression classifier using ...

  5. Learning to Navigate for Fine-grained Classification

    ECCV 2018 北京大学 Abstract 找出完全表征对象的细微特征并不简单(细粒度分类的挑战性) 文章提出新颖的自监督(self-supervision)机制,无需bbox和part anno ...

  6. 【多标签文本分类】Large Scale Multi-label Text Classification with Semantic Word Vectors

    ·阅读摘要:   本文提出了利用词向量+CNN/词向量+GRU来解决大规模数据下的多标签文本分类问题.   [1] Large Scale Multi-label Text Classificatio ...

  7. Paper之BigGAN:ICLR 2019最新论文《LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS》(未完待续)

    Paper之BigGAN:ICLR 2019最新论文<LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS> ...

  8. 【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 17—Large Scale Machine Learning 大规模机器学习...

    Lecture17 Large Scale Machine Learning大规模机器学习 17.1 大型数据集的学习 Learning With Large Datasets 如果有一个低方差的模型 ...

  9. Introducing DataFrames in Apache Spark for Large Scale Data Science(中英双语)

    文章标题 Introducing DataFrames in Apache Spark for Large Scale Data Science 一个用于大规模数据科学的API--DataFrame ...

最新文章

  1. Python 自然语言处理(一)字频统计
  2. 5训练需要更改参数吗_糖尿病病人需要多喝水吗?多喝水的5大好处,了解一下...
  3. php查询mysql返回大量数据结果集导致内存溢出的解决方法
  4. 信息学奥赛一本通 1978:【18NOIP普及组】标题统计 | 洛谷 P5015 [NOIP2018 普及组] 标题统计
  5. 389 Find the Difference 找不同
  6. PLSA隐变量主题模型的公式推导解惑
  7. 系统分析与设计学习笔记(一)
  8. paip.语义分析--分词--常见的单音节字词 2_deDuli 单字词 774个
  9. 单片机c语言实习报告,单片机C语言程序设计实训100例.pdf
  10. SSM+家装管理系统 毕业设计-附源码191452
  11. 史上最全后端技术介绍
  12. python sys库
  13. 网易校招内推-2023届技术类岗位
  14. Android 调起微信扫一扫
  15. 对角占优矩阵(Diagonally-dominant Matrix)
  16. 中国舞蹈家协会街舞委员会与微博达成战略合作
  17. python从图片提取文字_Python实现从图片提取文字
  18. java分发器 及(注解 + 反射机制)—————— 开开开山怪
  19. android app 退出功能,Android 完美退出 App (Exit)
  20. java捕鱼源码,java实现捕鱼达人

热门文章

  1. 常规平台刷机方法介绍-ROM开发入门到精通
  2. 用计算机弹不可说,适合自己的心情语录 有些秘密,不可说不能说不必说不须说...
  3. java工资计算器,三险一金
  4. ftp服务器一直显示登录密码,ftp一直弹出用户名密码
  5. webstorm 2018 激活破解方法大全(转)
  6. linux运维常用服务器软件整理和介绍
  7. 程序员常用的46个快捷键
  8. 英雄远征Erlang源码分析(12)-任务模块解析
  9. 支持python的云虚拟主机价格_万网云虚拟主机密码怎么样,python 购买虚拟主机测评...
  10. eBPF SIG年度动态: eBPF和Wasm深度融合、参与7场活动及2023展望 | 龙蜥 SIG