这篇论文是2016年Google Cloud & YouTube-8M Video Understanding Challenge比赛中冠军得主的论文。
文章的两点贡献:

  1. 融合了VLAD, bag-of-visual-words和Fisher Vector三种编码方式,并且每个都做了一定程度的调整。其中,VLAD改为NetRVLAD, bag-of-visual-words改为Soft-DBoW, Fisher Vector改为NetFV。
  2. 提出了一个新的非线性的单元 Context Gating (CG)。CG可以捕获特征之间或者标签之间的依赖性。具体的还要再看一下再补充。

论文框架:

实验结果:

代码: https://github.com/antoine77340/Youtube-8M-WILLOW
工具:https://github.com/antoine77340/LOUPE.

论文阅读:Learnable pooling with Context Gating for video classification相关推荐

  1. 多模态 —— Learnable pooling with Context Gating for video classification

    前言 论文地址:arxiv 代码地址:github 这是视频理解的一篇paper,说是多模态的原因主要是该结构结合了视频embedding,音频embedding等特征做视频分类,可以说就是多模态融合 ...

  2. 【2017】Learnable pooling with Context Gating for videoclassification借助Context Gating进行可学习的池化以进行视频分类

    intro: CVPR17 Youtube 8M workshop. Kaggle 1st place arxiv: https://arxiv.org/abs/1706.06905 github: ...

  3. 论文阅读:Target Adaptive Context Aggregation for Video Scene Graph Generation

    Target Adaptive Context Aggregation for Video Scene Graph Generation 视频场景图中的目标自适应上下文聚合 论文地址:https:// ...

  4. 【论文阅读】Rethinking Spatiotemporal Feature Learning For Video Understanding

    [论文阅读]Rethinking Spatiotemporal Feature Learning For Video Understanding 这是一篇google的论文,它和之前介绍的一篇face ...

  5. 论文阅读:Volumetric and Multi-View CNNs for Object Classification on 3D Data

    Preface   最近由于要做正颌手术中术后变形预测的问题,要处理三维数据,所以在研究三维卷积,三维分类的问题.   今天阅读一篇CVPR2016的论文:<Volumetric and Mul ...

  6. 【VideoQA最新论文阅读】第一篇视频问答综述Video Question Answering: a Survey of Models and Datasets

    Video Question Answering: a Survey of Models and Datasets 长文预警!!! p.s.此篇文章于2021年1月25日新鲜出炉,在Springer需 ...

  7. 【论文阅读+翻译】Context-Aware Residual Module for Image Classification

    如有侵权,联系删除 [2021ICPR] Context-Aware Residual Module for Image Classification 用于图像分类的上下文感知残差模块 论文链接:ht ...

  8. 论文阅读 TSM: Temporal Shift Module for Efficient Video Understanding

    TSM: Temporal Shift Module for Efficient Video Understanding Computer Vision and Pattern Recognition ...

  9. 论文阅读-Combining EfficientNet and Vision Transformers for Video Deepfake Detection(深度鉴伪)

    一.论文信息 论文名称:Combining EfficientNet and Vision Transformers for Video Deepfake Detection 论文代码:https:/ ...

最新文章

  1. 【练习】2021下半年数据结构刷题笔记和总结 (二) 树、查找-- 不同的排序算法、二叉排序树 平衡二叉树、哈希表查找、线索二叉树、
  2. 判断某棵二叉树是否二叉排序树
  3. 图像haar特征提取 c语言,基于C语言的特征点提取程序 本程序是利用C语言对各种信号数据的特征点提取程序 - 下载 - 搜珍网...
  4. Apache JK Tomcat 集群问题
  5. Objective-C 2.0 with Cocoa Foundation --- 3,类的声明和定义
  6. 学习nodejs+express+angular+socket.io ,投票demo
  7. Linux基础命令--grep/find
  8. non linear processor
  9. 利用GSM模块通过GPRS在GMSK调制方式下与IP网通信
  10. RHEL 5基础篇—管理系统计划任务
  11. 【图论】Floyd算法求任意两点间最短路
  12. 翻译: 4.2. 从零开始实现多层感知器MLP pytorch
  13. python 点分十进制IP地址转16进制字符串
  14. 使用 Php Artisan Tinker 来调试你的 Laravel 时间 2016-06-19 22:58:13 Laravel学院 原文 http://laravelacademy.org/
  15. 厘米换算英尺英寸java
  16. Java for循环的几种用法详解(转载)
  17. osm 搭建离线地图_开源地图OSM
  18. 洛谷4315 月下“毛景树”(树链剖分)
  19. SSD 1306显示屏 adafruit SSD 1306
  20. 数学建模与数据分析中的灰色关联分析

热门文章

  1. 阿里云马劲:保证云产品持续拥有稳定性的实践和思考
  2. Tomcat--HTTPS的简单应用
  3. 怎样健身最有效?程序员们可能还需要这些……
  4. 不使用jQuery对Web API接口POST,PUT,DELETE数据
  5. (转)在WCF服务的ServiceReferences.ClientConfig中使用相对路径
  6. LSA(链路状态通告)类型
  7. 设置DateChooser控件的头部文字对齐方式.
  8. 坐在马桶上看算法:Dijkstra最短路算法
  9. poj 2411 2663 3420 点头1033
  10. UVA 10519 !! Really Strange !!